Методическое руководство по OCR


Методическое руководство по OCR - стр. 16


Удали их путем замены на один пробел, как указано выше.

И, тем не менее останутся лишние пробелы при прямой речи. Только что внедренные тобою (когда заменял на [ — ]. Однако после знака абзаца, но перед длинным тире (прямая речь), пробела быть не должно, т.е. не должно быть так:

 — Это? — удивился он.

Исправь «Найти» (абзац пробел длинное тире) — «Заменить» (абзац длинное тире).

(Помни, что в «Найти» Word’у все равно, что обычный, что неразрывный пробел (а вот в «Заменить» — нет.)

Но теперь у тебя, к сожалению: а) Короткие тире между цифрами заменены на длинные; б) Эти длинные там к тому же окружены пробелами, так: 2 — 3.

Кроме того, в результате ошибок OCR или предыдущего считывателя между цифрами вместо короткого тире могут оказаться дефисы (2-3). Нехорошо.

Тут приходится поступать сугубо вручную, приходится потрудиться. Включи «Найти» на «Любую цифру» («Найти» — «Больше» — «Специальный» — «Любая цифра») и жарь подряд, заменяя как (-), так и ( — ) между цифрами на короткое тире без пробелов. Почему так? А потому, что в Word 97 не предусмотрена вставка «Любая цифра» или «Любая буква» в «Заменить» (только в «Найти»). Может, в Word 2000 такое есть, не знаю (посмотри, если пользуешься).

Наконец, очень частыми ошибками OCR является масса «апострофов» ‘ в тексте (мусор на бумаге). Запусти «Найти» такие апострофы и просмотри весь текст, удаляя их. Можно также полуавтоматически устранить мусорные точки и запятые, такие, .например, или ,такие. «Найти» [точка (или запятая) любая буква (или любая цифра)], и — просматривай текст. Аналогично, наверное, можно удалить и еще какой-нибудь мусор.

АВЕНТЮРА VI

САГА О КАВЫЧКАХ

1. Наиболее приняты в русских текстах русские и французские (типографские специалисты называют их именно «французскими») кавычки-елочки:

Лучше всего сразу установить в «Сервис» — «Автозамена» — «Автоформат при вводе» — «Заменять прямые кавычки парными».

Прямая кавычка, она же знак дюйма, тебе понадобится редко.


- Начало -  - Назад -  - Вперед -