Методическое руководство по OCR


Методическое руководство по OCR - стр. 3


Начал читать: сплошные опечатки, недоработки, неправильное разбиение на абзацы и т.п. Даже отсутствие фрагментов. Конечно, если это какой-нибудь вшивый современных детектив или «фэнтэзи», которые предназначены для чтения в сортире, то и пёс с ними. Но тебе-то надо серьезные книги, тебе-то надо, чтобы они были аутентичны по тексту, чтобы вместе с тобой перейти в вечность. Хорошо, если ты пока не утерял в гнусных современных условиях книжный вариант ( и если он у тебя есть вообще). Тогда ты можешь его взять и, тщательно сверяя, поправить версию. Работа, конечно, немалая, но она делается один раз и того стоит.

Не жалей, друг, труда на то, что делается один раз и окончательно. Помни, что ничто так не постоянно, как временное. Закинешь в сеть недоработанную тобой версию, и многие, инкрустировав твои вопиющие недочеты яхонтами и изумрудами на своих Web-страничках, раскрасив все яркими красками, гордо выложат ее в своих библиотеках. А отвечать перед Господом будешь в первую очередь ты.

Имей в виду, мастер OCR, что, посылая электронную версию какой-нибудь значимой и несиюминутной книги, ты имеешь шанс оставить после себя нечто вечное. И это даже важнее, чем написать несколько десятков статей в какие-нибудь специальные журналы (их прочтет всего несколько десятков специалистов, а потом они устареют). Важнее, чем написать какую-нибудь монографию (исключение — история, философия, социология (отчасти) и религия). Получается, братец, так, что любой из малых сих, любой молодой и начинающий жизнь человек может оставить для людей после себя большее, чем некий проработавший всю жизнь маститый профессор или там академик. Парадоксально, но это так.

Имеется, однако, одно требование. Электронная версия должна быть не менее точной, чем книжный вариант времен СССР. Почему «времен СССР»? А потому, что тогда очень строго подходили к корректуре и опечаток практически не допускали (одна-две на толстенный том). Ныне же печатают как Бог на душу положит.

Мне странно видеть, как мастера OCR, затрачивая невероятно много времени на сканирование и на свое, пусть даже неудовлетворительное, считывание, не могут выпустить версии без ошибок.


- Начало -  - Назад -  - Вперед -