Методическое руководство по OCR


Методическое руководство по OCR - стр. 15


Потом я укажу, как все это легко сделать полуавтоматически.

АВЕНТЮРА V

УСТРАНИ ВСЕ, ЧТО ВОЗМОЖНО, ПОЛУАВТОМАТИЧЕСКИ

В тексте не должно быть ошибок, которые можно устранить полуавтоматически.

Тут — творческий процесс корректора. Проверь следующие места:

Созданные OCR мягкие переносы (концы строк текста книги). Почему-то часто вижу их в сканированных текстах. Не понимаю, почему их не удалили? Чудно это мне.

Сразу удали их, даже если не видишь мягкого переноса (тире со смотрящим вниз концом ­ (Можно поставить его [Ctrl + - (тире обычной, не правой клавиатуры)].

«Найти» — «Больше» — «Специальный» — «Мягкий перенос» (либо вставь в «Найти» клавиатурой, как я только что указал) — «Заменить» (не ставь ничего). Так ты сразу удалишь все мягкие переносы (заменишь на «ничто»), в изобилие введенные OCR.

Далее. Когда вместо точки перед концом абзаца OCR распознал запятую:

,

Поскольку бывает, что в списках отдельные строчные элементы разделены как раз ,

то ты не удаляй все подобные места из текста автоматически. Сделай только «Найти» (запятая перед знаком абзаца) и просматривай подряд текст. Исправляй где надо вручную (как правило, подобных ошибок мало), следи за списками.

Аналогично с ;

И тут тоже не только OCR мог заменить двоеточие на точку с запятой, но могут быть и списки. Поступай как в предыдущем случае: «Найти» (точка с запятой перед знаком абзаца) и просматривай текст, удаляя вручную.

Наконец, перед концом абзаца (где знак абзаца) может быть пропущена точка. Можешь исправить сразу. Проверь текст так: «Найти» (любая буква знак абзаца). Таких мест будет немного. Расставь там точки вручную.

Замени все короткие тире в тексте на длинные, но в обрамлении пробелов (слева — неразрывный). Вот так: [ — ]. При этом в «Найти» поставь только короткое тире, без пробелов. Ибо мог ошибиться OCR или корректор, если текст ты взял откуда-нибудь, и вместо длинного тире где-то есть короткое. Могли быть пропущены пробелы.

Однако после подобной процедуры мы получаем в тексте лишние пробелы.


- Начало -  - Назад -  - Вперед -