Методическое руководство по OCR
94922560

Методическое руководство по OCR


ОСНОВНЫЕ НЕДОСТАТКИ В ПРАКТИКЕ ЭЛЕКТРОННЫХ БИБЛИОТЕК

Для каждого, кто любил и любит читать, имеется свой ряд книг и публикаций, которые представляют для него особую ценность. Некоторые прочтены когда-то давно и воспоминания о приятном времени общения с ними греют душу. Понятно, что хочется иметь избранные книги в постоянном доступе. Ранее мы были вынуждены их искать, приобретать, обменивать, доставать через сдачу макулатуры и, что греха таить, иногда и «зачитывать». Теперь же мы получили возможность брать их из сети благодаря самоотверженному и бескорыстному труду мастеров OCR. И сами можем пополнять библиотеки в сети (сканер стоит мало).

Нынешнее время — тяжелое время. Мы должны быть постоянно настороже, мы должны быть мобильны. Никто не знает, что случится с ним не то что в отдаленное, но даже в ближайшее будущее. Никто уверенно не скажет, что он через столько-то лет останется жить там, где он живет сейчас. Словом, уверенность в завтрашнем дне у того, кто еще не совсем спятил и видит, что творится кругом, должна отсутствовать с необходимостью. И в таких условиях иметь один-два CD с электронными версиями наиболее важных и интересных для тебя книг — большая удача. Ведь тогда получится «Все свое ношу с собой». Более того, эти CD, в отличие от книг, вполне оправдывают довольно глупое выражение «Рукописи не горят». Горят, друг, еще как горят! А вот про электронные версии действительно можно сказать именно так: даже если испортятся твои CD, где-то в сети все должно остаться. И ты снова выкачаешь. Поэтому труд по составлению электронных библиотек переоценить трудно.

Говорят, что читать с экрана плохо, неудобно и вредно для глаз. Принимаю только последний аргумент. Лично мне, всю жизнь читавшему книги, читать с компьютера приятнее (он до сих пор вызывает у меня щенячий восторг). А насчет глаз... Подождем, братцы, когда создадут нормальные планшетные штуки, которые будут полностью воспроизводить условия прочтения книг. Конечно, идиотская функция по перелистыванию электронных страниц в планшете (слышал, ныне сделали), чтобы было совсем похоже на чтение книги, это извращение.
Извращенцы те, кто ее создал. Лучше бы они позаботились создать такие условия яркости и контрастности в своем планшете, которые бы действительно соответствовали параметрам текста на странице в книге. Чтобы глаза не уставали и не портились. Думаю, что это вполне можно сделать и когда-нибудь сделают. Думаю, что и цена будет доступной. И последний аргумент в пользу бумажных книг, связанный с вредностью для глаз чтения с экрана, отпадет. Лично я верю, что до такого дойдут.

Скажут: «Вот, будут всякие пертурбации, безобразия всякие настанут. Свет начнут выключать, как это уже делают сейчас во многих регионах России». Безобразий, в самом деле, вокруг много. Знаю, например, что на новый 2003 г. в целом ряде районов Санкт-Петербурга отключили свет на четыре дня (морозы, дескать). Ну, если свет начнут отключать на недели, то тогда, брат, наиболее целесообразным чтением для нас будет чтение Библии при свече. Ее, конечно, оставь и имей.

Будем ждать невредных и дешевых планшетов для чтения электронных книг, а пока надо создать базу книг. Следует иметь в виду, что на Западе подобных библиотек нет — там буржуйские авторские права хапуг соблюдаются строго. И в России мечтают сделать подобное. Учитывая то, что ныне российские буржуи начали потихоньку отнимать у народа розданную ранее советскую собственность (повышая налоги на имущество, плату за квартиру и т.п.), то вполне возможно, что скоро всё начнут прикрывать, и держатели электронных библиотек будут вынуждены их закрыть. Глянь, кстати, на эту тему http://www.iis.ru/el-bib/2001/200101/vislii/vislii.ru.html. Следует ловить момент и собирать все ныне: живем, друг, как на вулкане, который запалили некие паразиты.

Казалось бы, базы электронных версий огромны (у одного Машкова десятки тысяч). Казалось бы, библиотек много. Масса мастеров OCR давно сканирует книги, забрасывая их в сеть. Однако вышеуказанная задача по созданию действительно того, что надо, не решена, на мой взгляд, и на треть.

Вот увидел в сети нужную тебе давно знакомую книгу, обрадовался, выкачал.


Начал читать: сплошные опечатки, недоработки, неправильное разбиение на абзацы и т.п. Даже отсутствие фрагментов. Конечно, если это какой-нибудь вшивый современных детектив или «фэнтэзи», которые предназначены для чтения в сортире, то и пёс с ними. Но тебе-то надо серьезные книги, тебе-то надо, чтобы они были аутентичны по тексту, чтобы вместе с тобой перейти в вечность. Хорошо, если ты пока не утерял в гнусных современных условиях книжный вариант ( и если он у тебя есть вообще). Тогда ты можешь его взять и, тщательно сверяя, поправить версию. Работа, конечно, немалая, но она делается один раз и того стоит.



Не жалей, друг, труда на то, что делается один раз и окончательно. Помни, что ничто так не постоянно, как временное. Закинешь в сеть недоработанную тобой версию, и многие, инкрустировав твои вопиющие недочеты яхонтами и изумрудами на своих Web-страничках, раскрасив все яркими красками, гордо выложат ее в своих библиотеках. А отвечать перед Господом будешь в первую очередь ты.

Имей в виду, мастер OCR, что, посылая электронную версию какой-нибудь значимой и несиюминутной книги, ты имеешь шанс оставить после себя нечто вечное. И это даже важнее, чем написать несколько десятков статей в какие-нибудь специальные журналы (их прочтет всего несколько десятков специалистов, а потом они устареют). Важнее, чем написать какую-нибудь монографию (исключение — история, философия, социология (отчасти) и религия). Получается, братец, так, что любой из малых сих, любой молодой и начинающий жизнь человек может оставить для людей после себя большее, чем некий проработавший всю жизнь маститый профессор или там академик. Парадоксально, но это так.

Имеется, однако, одно требование. Электронная версия должна быть не менее точной, чем книжный вариант времен СССР. Почему «времен СССР»? А потому, что тогда очень строго подходили к корректуре и опечаток практически не допускали (одна-две на толстенный том). Ныне же печатают как Бог на душу положит.

Мне странно видеть, как мастера OCR, затрачивая невероятно много времени на сканирование и на свое, пусть даже неудовлетворительное, считывание, не могут выпустить версии без ошибок.


Всего- то требуется еще немного потрудиться. И раз считай, и два считай. Не гонись за количеством сканированных книг: сделай немного, но окончательно. Сделай так, чтобы тебе «не было мучительно стыдно за бесцельно прожитые годы». А то, друг, такие, например, как я, не скажут тебе «спасибо», выкачав твою версию.

Вот взял я, например, «Ходжу Насреддина» Л. Соловьева. В середине текста какие-то обрывки, опечаток масса, абзацы хромают. Множество «крышек» (огрехи OCR). За каким хреном, спрашивается, надо было сканировать столь замечательную книгу, если мастер OCR ее только загадил?

Поэтому я с опаской отношусь к электронным версиям классических произведений: там важна буквально каждая запятая, каждый абзац. И нет уверенности в том, что мастер OCR считал все абсолютно точно. Но ты, если уж «делаешь» классику, изволь считывать до каждой точки и запятой. И укажи об этом в своей версии: «Я, такой-то, дескать, считал текст так внимательно, как только мог, я, дескать ручаюсь...» и т.д. Даже если у тебя псевдоним, все равно, при написании этих строк ты почувствуешь, как внутри тебя зашевелилась совесть и давит на твое чувство ответственности.

В идеале для считывания нужны два человека: один читает книгу, называя запятые, точки и т.п., а другой смотрит на экран и проверяет. Хорошо делать подобное семьями, но, думаю, никто не имеет такой возможности. Супруга (или супруг) немедленно скажет: «А пошел ты... Глупостями еще заниматься». И вряд ли поймет она(он) что это — возможность оставить после себя что-то значимое.

Наверное, так делать могут только монахи-компьютерщики в монастырях. Однако и они не достигают идеала. Вот, например, текст Библии. Этот текст из светских библиотек ты можешь использовать только для ознакомления. Не вздумай цитировать и даже ссылаться на стихи внутри глав. Очень много несовпадений с синодальным переводом, который является каноническим (в книгах Библии издатели проверяют каждую запятую, и ошибок там нет). Взял я Библию с православного сайта.


Но — единого текста нет, а только в виде Web-страничек. Найти какую- нибудь цитату, если точно не знаешь название книги, где она присутствует, почти невозможно (на каждую главу внутри каждой книги — своя Web-страничка).

Единый текст Библии есть, однако на светских сайтах. Взял, смотрел — ошибок много. Но и на православных сайтах в тексте монахи (наверное, они) тоже, порой, пропустят запятую-другую или же вместо точки с запятой оставят запятую, которую ошибочно раcпознал их OCR. Непорядок.

Заканчиваю вводную часть. Мой призыв остается прежним:

ВЫКЛАДЫВАЙ ЭЛЕКТРОННУЮ ВЕРСИЮ ТОЛЬКО В ОКОНЧАТЕЛЬНОМ ВАРИАНТЕ. ПРОВЕРЯЙ ЕЕ КАК МОЖНО ТЩАТЕЛЬНЕЕ, НЕ ЖАЛЕЯ ВРЕМЕНИ И ТРУДА. ИНАЧЕ НА ТОМ СВЕТЕ МОЖЕШЬ ПОЖАЛЕТЬ. УКАЖИ, ЧТО СЧИТАЛ ТАК ХОРОШО, КАК ТОЛЬКО ТЫ СПОСОБЕН (БУДЬ СЕБЕ САМЫМ СТРОГИМ СУДЬЕЙ).

А чтобы тебе было легче все это сделать, я и создал данное методическое руководство. Оно, конечно, весьма сложно, но и подготовка версии без ошибок также сложна.

О ПРЕДСТАВЛЕННОМ МЕТОДИЧЕСКОМ РУКОВОДСТВЕ

Сканирую с 1997 г. Сначала— ручным сканером. Ручной сканер незаменим для газет: если накрыть газету стеклом, то он позволяет сразу взять колонку длиной сантиметров шестьдесят и более. При навыке ошибок не больше, чем у планшетного. Ныне ручные сканеры уже не выпускают (а зря). Но можно купить с рук за $12–15.

Теперь же имею еще весьма простой планшетный “Mustek 1200 CP”. Работал и на других (налаживал разным людям), более сложных. И скажу, что “Mustek 1200 CP” вполне годится и ничем не отличается, если не сканировать фотографии или что-нибудь уж очень цветное (не делаю такого).

В результате накопился целый ряд навыков и сформировался определенный методический подход. Я посчитал полезным поделиться всем этим, хотя получилось и многовато.

Представленное методическое руководство написано, конечно, весьма эклектично и сумбурно; оно плохо систематизировано. Но таково большинство руководств по Windows и Word. Слишком многое там цепляется друг за друга, слишком много замкнутых функциональных циклов.


И одно из другого вытекает отнюдь не всегда. Поэтому трудно систематизировать. Так и в моем руководстве: ты найдешь в нем все, что нужно (так я думаю), однако одно из другого вряд ли вылезет четко. Ведь все это — отдельные факты, отдельные приемы работы. Поэтому работай над усвоением моих методик: читай внимательно, вытаскивай, что необходимо, выделяй или подчеркивай; составляй краткий конспект наиболее нужного. Когда же начнешь работать со своим текстом — включай «Поиск», если хочешь что-то найти в моем руководстве.

Поработаешь над текстом руководства — лучше усвоишь.

Вспоминается средневековый учебник по химии. Тогда эта дисциплина представляла собой просто набор фактов и ремесленных навыков. Не была она систематизирована. И учебник начинался просто: с рецептов дубления кож. И все их надо было запомнить, и все их надо было усвоить. И запоминали, и усваивали. Пусть и с тобой будет так.

Еще структура данного методического руководства весьма напоминает мне труд монахов-инквизиторов Я. Шпренгера и Г. Инститориса «Молот ведьм» (1487 г.). Очень похожа рубрикация. Ну да ладно.

ЧАСТЬ ПЕРВАЯ

Что такое «аккуратное форматирование»

ЧТО ТАКОЕ КОРРЕКТНОЕ И ЕДИНООБРАЗНОЕ

ПРЕДСТАВЛЕНИЕ ТЕКСТА

АВЕНТЮРА I

ПРЕДВАРИТЕЛЬНАЯ

ВСЯКИЕ ПРОЦЕДУРЫ С ДОКУМЕНТАМИ Word СЛЕДУЕТ ПРОИЗВОДИТЬ ПРИ ВКЛЮЧЕННОЙ КНОПКЕ "НЕПЕЧАТАЕМЫЕ СИМВОЛЫ". И писать, и читать (чтобы привыкать). МЕТОДИЧЕСКОЕ РУКОВОДСТВО НЕ БУДЕТ ПОНЯТНО ПРИ ВЫКЛЮЧЕНИИ ДАННОЙ КНОПКИ.

Это— необходимое требование. Я почти 20 лет печатал на пишущей машинке и, поэтому, когда начинал писать в Word, то непечатаемые символы (основные — знак абзаца и пробела) мне мешали. Вначале я их выключал, а всякие отступы делал просто пробелом (как на машинке). На другую страницу, если предыдущая занимала не весь лист, переходил с помощью лишних строк (Enter за Enter'ом). За количеством пробелов не следил вовсе. Но спасибо братцу, который дал мне по рукам в первый же месяц, строго указав, что компьютер — не пишущая машинка.


И я перестал выключать кнопку "Непечатаемые символы", привык к ней и ныне не воспринимаю текст без знаков абзаца и пробела. Многие, очень многие, как я вижу по разным учреждениям, так не делают. И из года в год, выключая непечатаемые символы, портят документы и усугубляют себе жизнь. Так привыкают, что и отучаться не хотят.

ЕСЛИ И С ТОБОЙ ТАК, СОВЕТУЮ ОТУЧАТЬСЯ НЕМЕДЛЕННО.

Привыкай к хорошенькому. Пусть символы абзаца и пробела станут тебе столь же близкими, как собственные руки. Зачем они — увидишь ниже.

РАБОТАТЬ В ДОКУМЕНТОМ ЛУЧШЕ В РЕЖИМЕ «ОБЫЧНЫЙ» (или меню «Вид», или самая левая кнопка снизу). Тогда сокращается время просмотра: Word'у не надо листать документ. Это важно, когда текста 100–200 страниц, а память у компьютера (в том числе видеопамять) невелика. На заключительном этапе, когда документ готов, можно разбить его на страницы и вставить их нумерацию (ЖЕЛАТЕЛЬНО СВЕРХУ: если кто-то захочет печатать, то нижнюю нумерацию некоторые принтеры могут не взять). При желании — и колонтитул. Правда, захребетники — составители ГОСТов, в 2002 г. заменили верхнюю нумерацию страниц на нижнюю. Чтобы жизнь была краше (об этих захребетниках мы еще поговорим).

ВКЛЮЧИ ПРОВЕРКУ ОРФОГРАФИИ ПО МАКСИМУМУ:

«Сервис» — «Параметры» — «Правописание». Смотри, чтобы не стоял флажок ни на «Пропускать слова из прописных букв», ни «Пропускать слова с цифрами». Эти функции тебе понадобятся, когда считываешь после OCR (часто там вместо букв сходные цифры — не буква зэ (З), а цифра три (3) и т.п.).

Выдели весь текст и установи «Сервис» — «Язык» — «Русский». Иначе у тебя будут отсутствовать переносы слов (если русский текст пойдет без проверки или как английский).

Помни, что переносы устанавливаются с Microsoft Office в комплекте с Word. Не устанавливай там никакой "тезаурус" (не надо), но обязательно залезь и установи переносы. Я видел, как часто забывали это сделать, а потом кусали локти, ибо не имели собственного установочного CD.


Ты не сможешь без оригинального CD: «Установка и удаление программ» — “MS Office” — «Добавить / Удалить».

Кстати, когда в тексте имеется фрагмент на каком-нибудь ином языке (скажем, немецком), то ты можешь зреть при открытии документа возникающее в середине малое окошко в котором отражена следующая жалоба «Не могу найти (далее два квадрата) для языка (один квадрат)». Это Word не может найти установку переносов для того экзотического языка (в данном случае — немецкого), который ее предусматривает (ведь немецкие переносы мы не устанавливали). В английском переносов нет.

И если ты забудешь поставить программу русских переносов, то Word доймет тебя своим окошечком с жалобой.

«Проверка орфографии» ставится в комплекте MS Office.

«Проверкой грамматики» я ранее никогда не пользовался (некорректная она, а зеленые подчеркивания захламляют). Но когда правишь результаты OCR, то, может быть, она и целесообразна: часты ошибки типа вместо «но» «по». Увидеть их трудно, слова нормальные (орфография не подчеркивает), и тут, возможно, грамматика как раз и поможет. Впрочем, у меня кривая программа установки MS Office 97, о чем я узнал только сейчас (использую ее пять лет), когда захотел попробовать грамматику (повреждена какая-то библиотека). Испытай грамматику после OCR сам.

АВЕНТЮРА II

ДОКУМЕНТ WORD *.DOC ДОЛЖЕН БЫТЬ...

1. С едиными полями по всему тексту.

Бывает, правда, необходимость перевернуть лист в альбомный (большая таблица) или вставить большой рисунок. Тогда нужен «Разрыв раздела», и можно делать там другие поля. Но мы имеем пока в виду обычный текст.

2. Шрифт лучше стандартный  — Times New Roman

«С засечками», как в книге (многосотлетний типографский опыт показывает, что шрифт с «засечками» глаз воспринимает лучше). Это, обычно, — Times New Roman. Arial же — без засечек; он используется иногда для заголовков. Я почти никогда уже не применяю ничего, кроме Times New Roman. Иной раз хорошо, конечно, что-нибудь особое — «Ижицу» или какой-нибудь “Gotic”.


Однако надо помнить, что подобный экранный и TT шрифт будет не у всякого.

3. Текст при работе выравнивай по левому краю.

Это — стиль пишущей машинки, принятый для рукописей в научных журналах, который мне, например, более удобен: одинаковые расстояния между словами. Если же кто-то желает по-современному выравнивать текст по обоим краям, то ему все равно следует начинать форматирование и коррекцию черновика с выравнивания по левому краю. Дело в том, что иначе текст, например, при удалении фрагмента из строки, начинает «ползти»: Word расширяет промежутки между словами, чтобы даже при удаленных буквах и словах строка оставалась на всю страницу. Это неудобно, поскольку «сбивает глаз», а также и замедляет процесс (при твоих удалениях Word вынужден проводить лишний этап). Попробуй и увидишь сам. Выравнивание по обоим краям можно сделать в самом конце, когда больше не трогаешь текст.

4. Один и тот же размер абзацного отступа.

Не следует делать абзац Tab, т.е., символом табуляции (Tab сработает как установка величины абзаца default (0,5 дюйма — 1,27 см), если ты в начале печатания текста документа сам установил его. Тогда Word, видимо, запоминает абзац и откликается на Tab его установкой. Но лучше не использовать Tab вовсе (то установит, а то — ошибется Word или ты в начале сам не установишь абзац).

Недопустимо делать абзац пробелами. Во-первых, ты, чтобы сделать размер абзацного отступа одинаковым, должен будешь каждый раз считать пробелы (зачем это?). И, во-вторых, если ты или кто-то другой захочет переформатировать документ, то несколько пробелов подряд могут переползти в текст.

Абзац — верхний бегунок на горизонтальной линейке. Но лучше ставить его default (0,5 дюйма). Вот перед тобой пустая страница: на ней только одинокий знак абзаца. Выдели его мышью, щелкни правой кнопкой и — «Абзац» (либо в меню «Формат»), просто поставь «Отступ» — будет default).

Захотел изменить отступ в целом абзаце (несколько строк) — выдели его (или часть его) и осуществи ту же процедуру.



Нижний бегунок на линейке — выступ. Его быть не должно (в некоторых случаях, правда, нужен — «Список литературы»: номера полезно ставить левее следующей строки. Бывают и другие подобные рубрикации). Но иногда выступ где-то появляется сам по себе. Тогда выдели это место и передвинь нижний бегунок до 0 см.

Полезно также использовать кнопку кисть «Формат по абзацу». Увидел, что у тебя какой-то абзац вдруг потерял необходимое форматирование, поставь курсор на абзац нормальный, стандартный, щелкни на кисти, а затем просто выделяй ею то, что хочешь переформатировать в соответствии со стандартом (правда, если в стандарте, например, нет курсива, а в переформатируемом месте есть, то он оттуда исчезнет. Следи).

5. Если заголовки или что-то еще (например, вставленный рисунок или таблица) располагаются посередине страницы (кнопка выравнивания «По центру»), то у них не должно быть абзацного отступа: выдели необходимое, а абзацный отступ убери вручную, передвинув мышью верхний бегунок на горизонтальной линейки до 0 см.

6. Если надо не окончив страницу, перейти на другую, пользуйся только разрывом страницы (или раздела), но никак не «Enter за Enter».

7. Разрывами строки не пользуйся

Это вот что
(Shift + Enter). Это непонятно что и непонятно зачем оно надо. Вот, скажут, стихи хорошо писать:

«И казачество кубанское,
Днепр да Дон,
Сами же стаканами
Динь да дон»

(В.В. Маяковский; по-памяти)

Я не понял: ты видишь, что все полезло влево, и теперь ты должен выравнивать, но не абзацным бегунком на горизонтальной линейке, а бегунком «Отступа слева». И какая разница по сравнению с абзацем? Даже лучше было бы абзацами, потом ровнять не надо:

«И казачество кубанское,

Днепр да Дон,

Сами же стаканами

Динь да дон»

Я презираю разрывы строки, я видеть их не могу при отображении непечатаемых символов. Я считаю их «непечатными символами». Да и ты — наплюй на них. Может, конечно, они нужны для каких-то хитрых манипуляций при трансформации *.doc в другие форматы документов для Интернета.


Тут я полностью серый. Но — я такого не делаю. Я делаю только Word. И имею роскошь плевать на разрывы строк.

8. Различными стилями (левое оконце на панели) лучше не пользоваться (кроме всплывающих сносок — ниже).

Может показаться, что если заголовки и подзаголовки набраны различными стилями, то облегчается составление «Оглавления» — тогда Word способен делать его автоматически. Но мой опыт показывает, что если оглавление мало, то и со стилями связываться нечего, а если велико, то иногда ошибся ты, сделав какой-нибудь из многочисленных подзаголовков не тем стилем, а иногда, как ни странно, ошибается Word. И все равно приходится все проверять.

Поэтому все печатай обычным стилем. У меня он — Times New Roman, 12 пунктов (это ныне стандарт), один интервал, поля В — 2,5 см (чтобы влез если нужен и колонтитул), Н — 2 см (проверь, чтобы взял твой принтер), Л — 2,75 см (привык), П — 1,75 см (также). Абзаца на всякий случай нет — ставлю вручную в начале каждого документа (вдруг надо будет сначала сделать заголовок «По центру»).

Как сделать, чтобы указанные параметры были default и устанавливались сами собой при каждом открытии Word?

Через основной шаблон документа, normal.dot. Файлы шаблонов — Program Files (или MSOffice) — Microsof Office — Шаблоны — normal.dot.

Normal.dot по умолчанию — с крайне неудобным набором кнопок, плохими полями и шрифтом в 10 пунктов. Открой в Word не *.doc, а *.dot, конкретно — normal.dot, шрифт 12 пт, натаскай кнопок нужных, убери ненужные тебе, сделай «Обычный вид» документа (не разметку страниц) и сохрани свой normal.dot. Однако поля default таким путем тебе не сделать. Поступи так: изготовь свой normal.dot как я только что указал, потом выставь нужные тебе default поля, и сохрани шаблон под именем, скажем, norma.dot. Теперь у тебя два шаблона: normal.dot и norma.dot. Закрой Word, сотри (а лучше на всякий случай перенеси куда-нибудь) normal.dot, а norma.dot переименуй в normal.dot.


Открывай Word: увидишь, что и поля у тебя ныне default.

Скопируй  свой normal.dot куда-нибудь в хранилище, вплоть до дискеты или CD — потом пригодится, ибо Word при сбое портит шаблон, восстанавливая свой исходный (можешь, например, даже удалить normal.dot из каталога Шаблоны, а потом открыть Word. Увидишь, что он сделает новый normal.dot по умолчанию). Пригодится и когда станешь снова устанавливать на компьютер Windows и MS Office.

У меня, например, имеются особые кнопки, которые я сделал сам (и такое можно, хотя в Help, вроде, не указано).

Вернемся к заголовкам. Если стиль «Обычный», то делай их сам: шрифт полужирный или курсив. Следует помнить, что много курсива на странице плохо (это не любят и исправляют в редакциях и типографиях). При разрешении экрана 800х600 много курсива воспринимается неважно, поэтому если уж крайне необходимо набрать страницу курсивом, делай шрифт 14 (13 плохо, почему-то Word 97 иногда его не запоминает, теряя при последующем открытии, в отличие от древнего Word 6. Может, конечно, мне попадался кривой Word 97). Совсем плохо — полужирный курсив (в редакциях его используют только в очень коротких фрагментах — 1–2 слова). Изощряйся по-другому.

Подчеркивание также следует использовать минимально (сам погляди — на компьютере выглядит неважно).

Хочешь легко вернуться к обычному стилю — выдели что надо, и Shift+Ctrl+Z.

ИСПОЛЬЗУЙ ЭТУ КОМБИНАЦИЮ КЛАВИШ ШИРОКО — ОЧЕНЬ ОБЛЕГЧАЕТ ЖИЗНЬ

АВЕНТЮРА III

ПРОБЕЛЫ

1. Несколько пробелов подряд в тексте быть не должно.

Разве что в таком случае:

Исполняющий обязанности OCR                                           Ф. Ридеров.

Здесь уж ничего не сделаешь: нужно место для подписи.

Отследи такие места в документе. Но это именно «документы», а не наши обычные тексты. Так что в дальнейшем пренебрежем «документами» (не про них пишу).

Правда, бывает, что в сканированном не тобой тексте кто-то вместо таблицы вставил разделенные целыми рядами пробелов столбцы. Сразу найди такие места и преврати их в таблицы.


Пусть даже маленькие, иначе при последующем переформатировании попрыгаешь, стараясь понять, какая цифра к какой относится. Как искать эти места? Включи «Найти» на три-четыре пробела. Еще же лучше, потрудись и пролистай бегло весь документ.

Повторяю, перед тем, как идти далее, переведи указанные штуки в таблицы.

И пойдем далее. Будем удалять лишние пробелы.

Не мучайся, удаляя их вручную.

ПРИ РАБОТЕ С *.doc СЛЕДУЕТ КРАЙНЕ ШИРОКО И ТВОРЧЕСКИ ИСПОЛЬЗОВАТЬ ФУНКЦИИ «НАЙТИ — ЗАМЕНИТЬ» (меню «Правка»).

Помни, что в окошки «Найти» и «Заменить» можно вставлять нужное из буфера (за исключением символов типа ?, ? и т.п. Которые «Вставка» — «Символ» или соответствующая кнопка. Это в Word 97, в 2000-м не знаю, там, вроде функции расширены).

Можно вставлять всякие символы типа тире в окошки «Найти» и «Заменить» (как и в текст) комбинациями клавиш. Можно указывать в окошке полужирный (Ctrl+B), курсив (Ctrl+I) и подчеркивание (Ctrl+U). Захотел в «Найти» или «Заменить» вернуться после полужирного к обычному шрифту — Shift+Ctrl+Z. Захотел вставить в окошко среднее тире (минус) — это [Ctrl - (правые серые кнопки)], захотел длинное, обычное тире — это [Shift + Alt - (опять правая серая клавиатура)]. Словом, в «Найти» — «Заменить» почти все как в тексте. Это быстрее, чем лазить в функции шрифтов в меню внутри вкладки «Найти»  и «Заменить».

Вернемся к лишним пробелам. Открой «Найти — Заменить», поставь в «Найти», скажем, пять пробелов, а в «Заменить» — один. Сделай все. Потом четыре пробела на один и т.д. до двух на один. Вот и ушли лишние пробелы из основного теста.

Но они могут остаться после знака абзаца или до него. Вот так

И во так

 Открой в «Найти — Заменить» сначала «Больше», потом «Специальный». Возьми оттуда «Символ абзаца», помести в «Найти». Поставь после него пробел. В «Заменить» поставь просто абзац. Жми «Заменить». Уйдут пробелы эти

 

Сотри в «Найти» пробел после абзаца, но поставь пробел перед абзацем. Жми. Уйдут эти



 пробелы.

2. Инициалы авторов не должны быть разделены пробелом

Должно быть так: Ф.Н. Ридеров, а не Ф. Н. Ридеров. По-типографски, в журналах, допускается и так и так. Я всю жизнь печатал без пробелов и думаю, что так лучше: тогда инициалы видно сразу, а если с пробелом, то иногда приходится заострять внимание: бывают ссылки типа: Riderov F.N. J. OCR Recognt. (гипотетический “Journal of OCR Recognition”). Сразу можешь увидеть, что иначе “J.” как бы впутывается в инициалы.

АВЕНТЮРА IV

ДЕФИСЫ И ТИРЕ

Компьютер позволяет легко соблюсти все типографские правила, которые сами типографии не соблюдают (им это труднее).

Дефис (-) ставится, понятно, в словах «что-либо», «два-три» и т.п. Короче, разделяет слова.

Длинное тире ( — ) — это именно тире. Ctrl+Alt вместе с - (тире на правой клавиатуре). Оно всегда должно быть окружено пробелами. За исключением прямой речи (тогда тире после абзаца:

— Верно? — спросил он.

С левой стороны длинного тире всегда ставят неразрывный пробел: типографщикам режет глаза, если длинное тире переползает на другую строку и гордо встает во главе ее. «Это можно спутать с прямой речью» — испуганно говорят они. Ты им в ответ: «Но ведь прямая речь начинается с нового абзаца и там есть абзацный отступ, как же спутаешь?» Однако они только пожимают плечами и стоят на своем. Посему — удовлетвори их. Неразрывный пробел — это либо Shift+Ctrl+пробел, либо «Вставка» — «Символ» — «Специальные символы» (там найдешь). Лучше, конечно, клавишами.

Ну, а если ты имеешь какой-то текст, где не расставлены неразрывные пробелы? Бери в «Найти» следующую комбинацию: [пробел длинное тире пробел], а в «Заменить» ставь [неразрывный пробел длинное тире пробел].

Короткое тире, или минус (–). Это [Ctrl вместе с - (тире на правой клавиатуре)]. – (минус) во-первых, конечно, минус, а во-вторых — знак, разделяющий цифры. Он не должен быть окружен пробелами: 2–3; 1930–1940 гг., IV–III вв. до. н. э.

Обычно даже в академических изданиях тире всюду одно (типографии ленятся), однако можно видеть, что в тексте там оно действительно окружено пробелами, а в местах типа 2–3 и 1950–1960 гг. — нет.



Потом я укажу, как все это легко сделать полуавтоматически.

АВЕНТЮРА V

УСТРАНИ ВСЕ, ЧТО ВОЗМОЖНО, ПОЛУАВТОМАТИЧЕСКИ

В тексте не должно быть ошибок, которые можно устранить полуавтоматически.

Тут — творческий процесс корректора. Проверь следующие места:

Созданные OCR мягкие переносы (концы строк текста книги). Почему-то часто вижу их в сканированных текстах. Не понимаю, почему их не удалили? Чудно это мне.

Сразу удали их, даже если не видишь мягкого переноса (тире со смотрящим вниз концом ­ (Можно поставить его [Ctrl + - (тире обычной, не правой клавиатуры)].

«Найти» — «Больше» — «Специальный» — «Мягкий перенос» (либо вставь в «Найти» клавиатурой, как я только что указал) — «Заменить» (не ставь ничего). Так ты сразу удалишь все мягкие переносы (заменишь на «ничто»), в изобилие введенные OCR.

Далее. Когда вместо точки перед концом абзаца OCR распознал запятую:

,

Поскольку бывает, что в списках отдельные строчные элементы разделены как раз ,

то ты не удаляй все подобные места из текста автоматически. Сделай только «Найти» (запятая перед знаком абзаца) и просматривай подряд текст. Исправляй где надо вручную (как правило, подобных ошибок мало), следи за списками.

Аналогично с ;

И тут тоже не только OCR мог заменить двоеточие на точку с запятой, но могут быть и списки. Поступай как в предыдущем случае: «Найти» (точка с запятой перед знаком абзаца) и просматривай текст, удаляя вручную.

Наконец, перед концом абзаца (где знак абзаца) может быть пропущена точка. Можешь исправить сразу. Проверь текст так: «Найти» (любая буква знак абзаца). Таких мест будет немного. Расставь там точки вручную.

Замени все короткие тире в тексте на длинные, но в обрамлении пробелов (слева — неразрывный). Вот так: [ — ]. При этом в «Найти» поставь только короткое тире, без пробелов. Ибо мог ошибиться OCR или корректор, если текст ты взял откуда-нибудь, и вместо длинного тире где-то есть короткое. Могли быть пропущены пробелы.

Однако после подобной процедуры мы получаем в тексте лишние пробелы.


Удали их путем замены на один пробел, как указано выше.

И, тем не менее останутся лишние пробелы при прямой речи. Только что внедренные тобою (когда заменял на [ — ]. Однако после знака абзаца, но перед длинным тире (прямая речь), пробела быть не должно, т.е. не должно быть так:

 — Это? — удивился он.

Исправь «Найти» (абзац пробел длинное тире) — «Заменить» (абзац длинное тире).

(Помни, что в «Найти» Word’у все равно, что обычный, что неразрывный пробел (а вот в «Заменить» — нет.)

Но теперь у тебя, к сожалению: а) Короткие тире между цифрами заменены на длинные; б) Эти длинные там к тому же окружены пробелами, так: 2 — 3.

Кроме того, в результате ошибок OCR или предыдущего считывателя между цифрами вместо короткого тире могут оказаться дефисы (2-3). Нехорошо.

Тут приходится поступать сугубо вручную, приходится потрудиться. Включи «Найти» на «Любую цифру» («Найти» — «Больше» — «Специальный» — «Любая цифра») и жарь подряд, заменяя как (-), так и ( — ) между цифрами на короткое тире без пробелов. Почему так? А потому, что в Word 97 не предусмотрена вставка «Любая цифра» или «Любая буква» в «Заменить» (только в «Найти»). Может, в Word 2000 такое есть, не знаю (посмотри, если пользуешься).

Наконец, очень частыми ошибками OCR является масса «апострофов» ‘ в тексте (мусор на бумаге). Запусти «Найти» такие апострофы и просмотри весь текст, удаляя их. Можно также полуавтоматически устранить мусорные точки и запятые, такие, .например, или ,такие. «Найти» [точка (или запятая) любая буква (или любая цифра)], и — просматривай текст. Аналогично, наверное, можно удалить и еще какой-нибудь мусор.

АВЕНТЮРА VI

САГА О КАВЫЧКАХ

1. Наиболее приняты в русских текстах русские и французские (типографские специалисты называют их именно «французскими») кавычки-елочки:

Лучше всего сразу установить в «Сервис» — «Автозамена» — «Автоформат при вводе» — «Заменять прямые кавычки парными».

Прямая кавычка, она же знак дюйма, тебе понадобится редко.


Придется снять флажок в «Автозамене».

«Кавычки-ёлочки» следует ставить в русской и французской речи.

2. Кавычки внутри кавычек.

Тут нашлись правила только для русского.

Сделай кавычки-лапки (частично понадобятся для английского и немецкого).

Сразу скажу, что все дальнейшее мною выполнялось то в Windows 95, то в Windows 98. Возможно, между ними и есть какие-то различия в установке клавиш для символов, но MS Office всюду один — 97.

Итак:

Найди во «Вставка» — «Символ» — «Обычный текст» и назначь следующую комбинацию клавиш для символов. (Можешь выделить приведенный мною ниже символ и открыть «Символ»: Word сразу покажет его в таблице.)

„ Открывающаяся лапка, назначь (Alt + Q).

“ Закрывающаяся лапка, назначь (Alt + W).

Значит, в тексте, где кавычки внутри кавычек будет так:

«А ты пойдешь в „Асторию“?» — спросил он.

Правда, прямая речь в данном примере может быть представлена и по-другому, причем снова правильно:

— А ты пойдешь в «Асторию»? — спросил он.

3. Английские кавычки

Пишут, что обычно это “ и ” (верхние «шестерки», дескать, и «девятки»).

Найди во «Вставка» — «Символ» — «Обычный текст» и назначь следующую комбинацию клавиш:

“ Английская открывающаяся кавычка — это просто закрывающаяся лапка. См. про нее пункт 2 (Alt + W).

” Английская закрывающаяся кавычка. Назначь простую комбинацию клавиш (Alt + ' (апостроф нижнего английского регистра).

Еще в англоязычной литературе широко применяются апострофы (это я богато видел и вижу сейчас).

‘English’.

Можешь найти такие одинарные кавычки в «Символ» (либо клавиша ‘ английской клавиатуры — русская Э), однако пользоваться не рекомендую: и без того запутанно. Наверное, целесообразно делать это только когда ставишь в английской речи кавычки внутри кавычек. Разные типографские мастера на своих сайтах пишут, что они, де, употребляют только двойные английские кавычки. Сами же англичане-американцы в последние годы поголовно любят одинарные (видел богато). Словом, каша. Применяй, друг, двойные английские: думаю, наши верстальщики знают лучше англичан.


Главное, предостерегают все верстальщики, ни в коем случае нигде не ставь наши наиболее распространенные (я всю жизнь ставил) прямые ". Это, говорят верстальщики в ужасе, знак дюйма. Как будто англичане не сообразят, что столь много дюймов в тексте быть не должно.

И подожди, друг, отдуваться, еще не все.

4. „Немецкие кавычки”

„ Открывающаяся немецкая. Видим, что сие — открывающаяся лапка (см. выше пункт 2). Стало быть, у нас (Alt + Q).

” Закрывающаяся немецкая. Это также закрывающаяся английская кавычка (у тебя уже назначено: Alt + ' нижний английский регистр).

Вопрос с кавычками для латыни. Не указали нам этого составители строгих правил. Будем считать наиболее близкими к латинцам не англичан с германцами, а французов. Таким образом, латынь у нас в «ёлочках», как и русский.

5. Как скорректировать уже имеющийся текст *.doc на предмет «расстановки» правильных кавычек?

Просто: поставь в «Найти» знак «кавычки» русской клавиатуры (клавиша с цифрой 2). В окошке увидишь прямые кавычки ("), но не бойся: кавычки там всегда так отображаются.

Их же поставь в «Заменить» и гони все. Получишь столь любимые типографами ёлочки. Но: в тексте может быть английская, французская или немецкая речь. Мало, но бывает. В одном детективе я встретил все три. Как ее скорректировать на предмет «правильных» кавычек? Поставь в «Найти» сначала английскую букву “e”. Жми и просматривай текст. Узришь и англ., и фр., и нем. фрагменты. Правь кавычки в англ. и нем. в вручную (французские же правила совпадают с русскими: не тронь). Закончишь, на всякий случай просмотри текст еще на англ. буквы “a” и “o”. Тогда уж точно все вытянешь.

АВЕНТЮРА VII

СКАЗ О ЗАХРЕБЕТНИКАХ, СОСТАВЛЯЮЩИХ ГОСТы

1. Форма представления выходных данных сканируемой книги или статьи

Здесь позволю себе отступление, ибо вопрос весьма познавателен в смысле идиотизма.

Я начал иметь дело со стандартами представления ссылок в русскоязычных и зарубежных журналах где-то с середины 1970-х гг. Были соответствующие ГОСТы, которые требовалось соблюдать столь жестко, как будто за ошибки могли кастрировать.


Как будто главным в статье являлась форма представления ссылок (впрочем, и поныне так). Далее мы будем рассматривать ГОСТы русскоязычных изданий на примере ГОСТа для отчетов и диссертаций.

Сначала требовались Ф.И.О. авторов, название статьи, год, номер тома и страницы. Ф.И.О., названия статьи и журнала разделяли точка (в англоязычных — запятая), а остальное — запятые (Ридеров Ф.Н. Сканирование. Журнал, 1974, 35, стр. 456–457.). Затем решили, что так нелогично и ввели сокращение «т» (том), а «стр.», напротив, сократили до «с.». Стало так (Ридеров Ф.Н. Сканирование. Журнал, 1974, т. 35, с. 456–457.). Потом решили жизнь еще подсластить: вот, дескать, не смóтрите первоисточники, а ссылаетесь. Вот мы вам подложим: давай еще и номер! Стало так: (Ридеров Ф.Н. Сканирование. Журнал, 1974, т. 35, № 3, с. 456–457.). Следует отметить, что в научных (отечественных и зарубежных) журналах нумерация страниц сплошная по всем номерам, так что номера-то и не нужны для поиска. Кроме украинских (решили выпендриться; так до сих пор), медицинских и типа «Семья и школа». Но: в медицинских журналах, как правило, отсутствуют тома, поэтому № ты и раньше бы поставил (иначе бессмысленна ссылка). Ладно, «улучшили» жизнь, понимаешь.

Показалось мало: прошло лет восемь, изменили ГОСТ: теперь надо было все писать через точки, вот так (Ридеров Ф.Н. Сканирование. Журнал. 1974. Т. 35. № 3. С. 456–457.). Можно видеть, что жизнь еще «улучшилась»: теперь пришлось при напечатании Т. и С. переходить на верхний регистр, что, конечно, не облегчало работу. Но и этого захребетникам показалось мало — решили, что жизнь все еще слишком течет млеком и мёдом. Казалось бы, что придумать еще? Однако нет предела изобретательности: велено было по ГОСТу ставить // между названием статьи и названием журнала (для книг по-другому: см. ниже, хотя и в ссылках на книгу некоторые журналы требуют ставить //). Точка же там исчезла. Получилось так (Ридеров Ф.Н.


Сканирование // Журнал. 1974. Т. 35. № 3. С. 456–457.).

Этот ГОСТ продержался лет пятнадцать: никак не могли придумать, чем бы нагадить еще. Наконец осенило: давай еще прибавим пару-тройку тире! Вот попрыгают, вставляя их! Стало так: (Ридеров Ф.Н. Сканирование // Журнал. — 1974. — Т. 35. — № 3. — С. 456–457.). И тут гадов застопорило. Пока что более ничего не предложили, но работают над вопросом в поте лица: в 2002 г. ввели новый ГОСТ для отчетов, совсем уж бредовый (форма представления заголовком для таблиц и подписей к рисункам такова, что содрогнулись бы и папуасы).

Из научных журналов сейчас указанные выше тире используют только некоторые украинские. Но попробуй не вставить тире в «Список литературы» какого-нибудь отчета или диссертации: обязательно кто-нибудь с серьезным видом сделает замечание: «Не по ГОСТу, де».

Большинство же научных журналов остались верны предыдущему ГОСТу: (Ридеров Ф.Н. Сканирование // Журнал. 1974. Т. 35. № 3. С. 456–457.). Но — что ни журнал, так желает отличиться: в одном курсивом набраны Ф.И.О. авторов, а в другом — название журнала. Некоторые не пишут «т.», зато набирают его номер жирным шрифтом. В большинстве изданий можно, если авторов более 4-х, дать первые три фамилии, а потом написать «и др.» или “et al.”, однако некоторые академические журналы не согласны: желают показать «Вот мы какие!» Они требуют всех авторов, будь их хоть на полстраницы (более сорока я видел сам).

Сейчас, смотрю, в некоторых журналах почему-то после названия издательства книги, но перед годом издания, заменили точку на запятую. Нелогично у них получилось: всюду там точки, и зачем-то одинокая запятая, причем перед годом.

Ситуация с представлением ссылок в разных научных журналах напоминает описание безымянным францисканским монахом XIII века народов, живущих в Африке:

«Что ни область, то люди в ней разные: есть там горцы, ростом в два локтя, и они вечно воюют с журавлями.


Рожают они на третьем году, а старятся на восьмом… А в другой области живут макробии, и ростом они в двенадцать локтей, и промышляют они охотой на грифонов, а у тех грифонов туловище, как у льва, крылья же и когти орлиные… И есть люди, у которых женщины рожают щенят… и народ, в котором все безголовы; глаза у этих созданий на уровне плеч, чуть пожалуй, пониже, а вместо ноздрей и ушей в груди по две дыры».

Как у францисканского монаха были люди чуть ли не с глазами на заднице, так и в научных журналах можно ожидать применительно к ссылкам любых чудес.

Однако более или менее единая форма, повторяю, все-таки есть, хотя она едина и не для всех. Мне же она, как и большинству журналов, наиболее привычна. Это предпоследний ГОСТ для отчетов и диссертаций. Никаким курсивом авторов набирать не следует: при разрешении экрана 800х600 иной раз смотрится плохо, да и нечего утруждаться.

Вот как представляй сканируемую статью в журнале:

Ридеров Ф.Н. Сканирование // Журнал. 1974. Т. 35. № 3. С. 456–457.

Когда четыре автора, то все:

Нап Р., Ример К., Скот Н., Инов К. Идиотизм в ГОСТах // Бюлл. оформл. 2003. Т. 35. № 3. С 54–56.

Когда пять авторов и более:

Нап Р., Ример К., Скот Н. и др. Идиотизм в ГОСТах // Бюлл. оформл. 2003. Т. 35. № 3. С 54–56.

Понятно, что в англоязычных не «и др.», а “et al”.

Сканируемая книга (выходные данные ее ты обязан привести; если не очень старая, то их можно списать с первой страницы либо с последней. Там их приводит издательство):

Брех К. О сканировании / Пер. с англ. Б.Л. Петров, К.П. Слюсарев. Под ред. Ч.П. Хренова. М.: Компьютер. 2002. — 456 с.

Что такое (М.:, Л.: Новосибирск: М. — Л.:)? Это города, где издано. Они так пишутся.

"Компьютер" же — издательство. Может быть так М.: Изд-во OCR.

Ранее писали так: М., Компьютер.

Но уже лет двадцать именно так: М.: Компьютер. (с двоеточием после города).



Словом, если списываешь выходные данные со сканируемой книги, то поправь их по-современному (заметь, что я в вышеприведенных примерах всюду расставил где надо неразрывные пробелы — об этом ниже: авентюра VIII).

Понятно, что если ты сканируешь большущий «Список литературы» или «Примечания» какой-то старой книги, то мучиться, переправляя используемый тогда старый ГОСТ на новый не следует. Не следует стараться вставлять в объемный оригинальный «Список литературы» неразрывные пробелы после инициалов, т., №, с. и т.д. Не будем делать культа (пусть, кроме того, служит памятником ГОСТов). Просто проверь точность OCR. Часто там вместо английской малой «l» ставятся единицы «1», вместо тройки — «З» (зэ). Выдели список, включи поиск на единицу «1» и осмотри английский текст. Так же поступи и с «зэ».

Выходные же данные самой сканируемой книги можно легко сделать по ГОСТу (который, кстати, типографии соблюдают не всегда. Но это тебе не оправдание).

Скажут, что я слишком придал внимание второстепенной ерунде. Не думаю. Все-таки более или менее единые правила есть, выполнить их легко, а электронные версии в сети можно сделать окончательными. Так пусть они будут единообразно оформлены.

Когда выходных данных в книге нет (старая или в типографии неучи), то сделай их сам по представленной выше форме. Если изд-во какое-нибудь «ООО Хрен-плюс» или там «ООП Хрен-минус», то так и пиши:

М.: ООП «Хрен-минус».

Иногда изд-во в книге не указано (хитрые современные перепечатки). Что ж, тогда только так: М. 2002. — 234 с.

ЗАПОМНИ, ДРУГ: если книга переводная, то обязательно укажи переводчика, и, если есть в книге (обычно где-нибудь в самом-самом начале), выходные данные и год издания оригинала на языке оригинала. Вот мой пример:

Мишель Турнье

ПЯТНИЦА, ИЛИ ТИХООКЕАНСКИЙ ЛИМБ

Michel Tournier

VENDREDI OU LES LIMBES DU PACIFIQUE

Paris. 1967

Турнье М. Пятница, или Тихоокеанский лимб: Роман / Предисл. Н. Ржевской. Пер. с франц. И. Волевич. М.: Радуга. 1992. — 304 с.



Тираж 100.000

Тираж указывать полезно, поскольку — познавательно. Я же указываю еще и цены в советское время, чтобы вы, современные друзья, видели, какие копейки что стоило. А то сейчас вам все врут непрерывно. Впрочем, мозги уже закомпостированы, и вряд ли что поможет...

2. Форма представления номеров ссылок в тексте

В научных изданиях России почти всюду это нормальные цифры в квадратных скобках [1, 2, 3], [1–6]. В зарубежных журналах и в русскоязычных научно-популярных книгах выпендриваются (правда, за рубежом далеко не всегда), делая верхние символы1,2.

По всем же российским ГОСТам издревле было просто [1, 3, 7] (с пробелами между значениями). Никогда не видел так [1], [2], [3], как мне встретилось в электронной версии одной книги.

Советую не мучиться с верхними символами. Ставь ссылки в тексте по нашему ГОСТу, и это будет наиболее правильно. И наиболее зримо. И сбоев будет меньше.

3. Порядок нумерации ссылок

По всем ГОСТам всегда была сплошная нумерация по всему тексту. Я часто вижу, как в гуманитарных трудах (история, философия) дается отдельная  нумерация по главам. Может, там это и целесообразно: ссылаются на места в тексте (а не на факты), дают полные цитаты. Понятно, что при сплошной нумерации некоторые ссылки могли бы повторяться (на одной и той же странице, скажем, несколько цитат — получается несколько одинаковых ссылок — на одну и ту же страницу). Если так, оставляй оригинальную нумерацию ссылок труда отдельными списками по главам. Но часто подобный подход авторами исходных трудов используется неоправданно (ссылки явно не повторяются). Тогда можешь заменить их изощрения на сплошную нумерацию по тексту. Но — только если уверен, что прав.

АВЕНТЮРА VIII

ПЛАЧ ПО НЕРАЗРЫВНОМУ ПРОБЕЛУ

Типографские и интернетовские верстальщики и браузеристы горячо, с надрывом и слезой (см. соответствующие сайты) рекомендуют ставить неразрывный пробел (клавиши Shift+Ctrl+пробел), т.е.  , в целом ряде текстовых конструкций. Приведем их и обсудим целесообразность применительно к нашей специфике.



Неразрывный пробел, говорят названные личности, совершенно необходимо (иначе вы — «халявщики», как указано одним браузеристом) ставить вот где:

1. Слева от длинного тире

Это мы рассмотрели выше. Так и быть, будем ставить всегда, а тексты без него сделаем с ним, чего бы нам это ни стоило (см. Авентюру IV).

2. Для разрядки больших чисел

Типа 234 000 000. Тогда, дескать, и число лучше видно, и фрагмент его (000) при переформатировании документа не переползет на другую строку, отделившись от остальной части.

Но этого, по моему мнению, нам делать не следует по двум причинам:

а) Представим себе, что кто-то захочет перевести электронную версию из *.doc в *.txt. Винчестер у него малый, вирусов боится или в других программах любит читать. Тогда немедленно неразрывный пробел превратится в простой и число, действительно, может оказаться разорванным.

б) С текстами в Word, как я указал в самом начале, следует работать обязательно в режиме включенных непечатаемых символов. Писать без этого нельзя, но, тогда, и читать иначе нельзя  — отвыкнешь от символов. А теперь погляди на большое число в подобном режиме: 234 000 000. Одни градусы какие-то. Ясно, что неудобоваримо.

Но и так: 234000000 тоже плохо, ибо приходится подсчитывать разряды. Т.е., их все-таки необходимо разделять. Запятой нельзя — не очень понятно, да и на англичан с американцами смахивает. Поэтому предлагаю поступать, как поступали ранее у нас и поступают во Франции (почему-то теперь все позабыли). Будем отделять разряды точкой. Все видно, а фрагмент числа никак не переползет на другую строку при переформатировании. Итак, пусть будет:

234.000.000.

3. В сокращениях т.е., т.к., и т.д., и т.п.

Некоторые типографщики с пеной у рта требуют разделять пробелом следующие сокращения: т.е., т.к., и т.д., и т.п. При этом они указывают, что часть подобных конструкций ни в коем случае не должна переползать на другую строку, вот так: и т.
д. В результате требуется вставлять неразрывный пробел, вот так: и т. д.


Причем у браузеристов имеется какой- то неразрывный пробел меньшей протяженности (у нас в Word’е его нет). Вот из их писаний: «При наборе... лучше использовать русский стиль, когда дробная часть отделяется от целой запятой и между группами цифр рекомендуется вставлять неразрывные полукегельные пробелы».

Другие, не менее маститые мастера типографских наук отмечают, что т.е., т.к., т.д., т.п. обычно разделяют пробелом, однако в справочниках и энциклопедиях, де, так не делают, чтобы сократить объем.

Наконец третьи прямо говорят, что допускается писать т.к. и другие приведенные конструкции без пробелов, и что они сами делают именно подобным образом.

Сам я видел в разных книгах, действительно, и так, и так. Но нам писать с пробелами не годится, снова, по тем же двум причинам. См. выше подпункт 1 а). Посмотри также на вид в Word’e т. к., и т. д., и т. п. Снова градусы, причем тут присутствует даже указатель температуры (правда, со строчной буквы)  — т.

Это не годится, не годится... Будем писать их без пробелов, как и специалисты третьего приведенного выше течения в русле типографских наук.

Но если ты сканировал текст, где не так, а так: т. к., т. е., и т. д., и т. п. Исправь. Легко сделать: во всем документе «Найти» (т. к.) — «Заменить» (т.к.) и аналогично остальное. Секундное дело, понимаешь...

4. При разделении букв от цифр

Вот типографщики:

«Не отбиваются от относящихся к ним чисел знаки процента, промилле, градуса, часов, минут и секунд. Однако в выражениях типа 36 °С полукегельный пробел ставится между числом и знаком градуса, который от буквы не отбивается. На полукегельную же отбиваются от чисел знаки параграфа и номера. Во всех этих случаях принесет пользу и облегчит судьбу корректора применение неразрывного пробела. Как и при отбивке чисел от единиц измерения. На полукегельный пробел рекомендуется отбивать от слов знаки сноски — как в тексте, так и непосредственно в самой сноске. Исключение составляет случай, когда знак сноски стоит в конце предложения — за точкой.


Тогда он не отбивается».

Что можем сказать? Нет у нас полукегельного пробела, поэтому мы градусы «отбивать» не будем (и вообще, никого ни у кого отбивать не будем). А нашим неразрывным пробелом тут пользоваться нельзя. Вот, например, такое: 36 °C. Нравится вам это? Мне  — нет. Первый кружок  — символ неразрывного пробела, а второй °— символ градусов из таблицы символов.

Да и опять же, если кто, с пробелом, да в *.txt… Наплачется он тогда о градусах с дырой между цифрой.

Странно видеть также и 3ч и 3 ч, 3мин и 3 мин. Тут придется оставить все как раньше: 3 ч и 3 мин. Конечно, кто-то может не согласиться со мной и пойдет в охвостье типографщиков и браузеристов. Что ж, это относительная мелочь, текст хуже не станет.

Про проценты же мы согласны и с браузеристами: пусть остается 4%, хотя Word и подчеркивает.

А насчет полукегельного либо нашего неразрывного пробела между текстом и номером сноски — он не нужен там. Ведь в известных мне академических изданиях «Литературные памятники» ссылки или сноски таковы1. Т.е., знак сноски в конце предложения стоит перед точкой. Наверное, так надо и для сносок. Иначе, действительно, режет глаз (как будто сноска относится к точке). Так что сноски к неразрывным пробелам не относятся.

Рекомендую, правда, вставлять неразрывный пробел в конструкциях следующих типов: § 1, п. 1 (это пункт 1), п. а) (это пункт а)), № 1, # 1, 1 м (один метр), 1 кг, до н. э. г. Москва и что-то вроде Статья 1. Тогда они не разорвутся случайно по двум строкам.

Также и при указании номеров глав и стихов Библии при цитировании по протестантскому образцу (как я делаю) следует вставлять после двоеточия неразрывный пробел, вот так: 23: 6–7.

После указания цифрами года и перед г. или гг. (типа 1957 г. или 1960–1970 гг.) неразрывный пробел ставить не будем (да об этом не говорят и сами типографщики). Иначе для древних римлян получатся градусы: 26 г.

Правда, иногда неразрывный пробел с левой стороны длинного тире примыкает к какому-нибудь близлежащему числу, например: «комната 27 — врач-терапевт».


Тут уж ничего не сделаешь. Пусть так и будет, иначе придется дифференцировать длинные тире на предмет расстановки слева от них неразрывного пробела. Этого, конечно, делать не следует.

Раньше мы всюду, где я указал, ставили просто пробел (без него как-то совсем плохо). Поэтому даже если кто переведет *.doc в *.txt, ему что в лоб, что по лбу (что неразрывный, что обычный пробел превратятся просто в пробел).

Вот так и будем действовать.

АВЕНТЮРА IX

ФОРМУЛЫ И ПРОЧАЯ МАТЕМАТИКА

Полиграфисты-интернетчики строго требуют не разделять знаки в формулах пробелом, и делать вот так: 2+3=5. Как видишь, друг, подобного обращения не выдерживает даже Word: смотри, он подчеркнул красным. А вот тут: 2 + 3 = 5 не подчеркнул. Все мы со школы помним, как разрывали по строкам длинные формулы, однако там арифметический знак дублировался на обеих строках (в конце одной и начале другой). Здесь мы этого делать не можем, только если насильственно. Но если потом переформатируешь, то можешь получить в строке два знака ++ или, там, = =.

Без пробелов же формула трудна для восприятия (глянь сам). Об этом сокрушаются и сами браузеристы, хотя и настаивают на своем. Об этом же указывает и Word. Словом, кто как хочет, но я буду по-старинке: разрывать формулы пробелами, как указано выше (слава Богу, почти не встречаются в сканируемых мною «для души» текстах).

А вот в конструкции типа «разрешение 1240х768» и 30х30 см пробел вставлять не будем. Видишь, Word ничего не подчеркнул. Тут же: «1240 х 768» и «30 х 30 см», он подчеркнул букву «х», как будто ты чего-то недописал...

Еще я не вставляю пробел в такое: Shift+Ctrl+Z. Не знаю, правильно ли. Но тексты с подобными конструкциями я не сканирую, и, поэтому, остаюсь в данном вопросе невежественным.

АВЕНТЮРА X

МЕЛКИЕ ХИТРОСТИ БОЛЬШИХ МАСТЕРОВ

1. Ударение на букве ó (бóльшая, чем...) и на á. Хитрые буквы в скандинавском, венгерском и др. языках

Это все в «Вставка» — «Символ» (вытащи эту кнопку на панель, если ее нет.


Облегчи себе работу).

Открой «Символы» на «Обычный текст» и просмотри таблицу сверху донизу. Там ты узришь среди специальной латиницы: ó, ö, ø, u, e, á, ä, å (можешь выделить приведенный мною символ и открыть таблицу «Символы». Word сразу укажет, где в таблице данный символ находится).

Пользуйся латинской ó как русской «о» с ударением. Немедленно в таблице символов назначь ей комбинацию клавиш («Клавиша»): у меня, например, это [Alt о] (русское о). Ударение на á распространено меньше, но все равно назначь клавишу (у меня это комбинация [Alt a — английская (русское ф)]).

Сходным образом, поскольку я часто использую символы ?, ?, g, то они у меня под такими запоминающимися комбинациями (назначил): [Alt а (русская)], [Alt b (латинская)], [Alt г (русская)]. Так удобно и не перекрывается с другими функциями Word, управляемыми комбинациями клавиш.

Понятно, что венгерский и скандинавский используешь редко. Бери для них буквы вручную из «Вставка» — «Символ». Вот мое:

Per Wahlöö, Maj Sjöwall. MANNEN SOM GICK UPP I RÖK.

Не поленись, — это компьютер, можно легко все сделать корректно и навеки.

Тем не менее, по-моему, сильно увлекаться этим не следует. Вот, например, я не знаю, берет ли Fine Rider греческий, но видел однажды целые абзацы и множество ссылок в электронной версии исторической монографии на греческом. Неужто кто-то вставлял из символов по букве? А если и сканировал (поставил «греческий» в своем Fine Reader) — неужто скорректировал все ошибки в своем тексте по-гречески? Думаю, нам столько греческого не нужно, да и вряд ли он будет без ошибок после OCR и даже внимательного считывания (мы гимназиев не кончали).

Если же тебе в сканированном каким-то глубоким мастером тексте попалась единственная странная буква, не спеши вытирать ее. Может, мастер не зря ее поставил. Выдели эту диковинную букву и открой таблицу «Вставка» — «Символ». Немедленно Word укажет в таблице, что это за буква и ты сможешь сообразить, уместна ли она в тексте или ошибочна.



2. Как сделать, чтобы во всплывающей сноске в *.doc не было переносов

Ты, товарищ мой прилежный, наверное и сам видел желтые всплывающие сноски, в которых среди текста изобилуют дефисы. Например (сравни с предыдущим абзацем):

«...тексте попалась един-ственная странная буква, не спеши вытирать ее. Выде-ли эту диковинную букву...».

Так отображаются переносы в тексте сносок.

Щелкни два раза на номере сноски и откроешь весь лист их текстов. Он, конечно, помечен русским, и переносы там есть. Выдели весь текст, открой левое длинное окошко на панели («Стили»), возьми стиль «Текст сноски» и установи его для текста. Наплюй, что этот стиль («Текст сноски») окажется присвоенным и номерам сносок, которые, по умолчанию, имеют стиль «Номер сносок». Только лучше будет — крупнее. Да иначе ты просто замучаешься выделять только тексты сносок без их номеров, чтобы совершить то, что вот сейчас я тебе скажу.

Итак, ты присвоил стиль «Текст сноски». Теперь выделенный лист текстов сносок пометь языком «Без проверки» («Сервис» — «Язык» — «Без проверки»). Затем подожди, подожди немного, если у тебя слабый компьютер (как мой ночной): пусть он очухается и переформатирует текст листа сносок на язык «никакой». Пусть, соответственно, уберет переносы (иногда для очухивания приходится открыть-закрыть лист сносок и погонять страницу самого документа туда-сюда. Почему-то только тогда Word делает, что надо).

В процессе считывания текста и, соответственно, последовательного вставления сносок я делаю так:

Вставил первую, которая встретилась, придал ей всей (вместе с номером) стиль «Текст сноски», убрал язык и — закрыл (щелкни один раз по номеру сноски в листе сносок, и ты в основном тексте документа окажешься там, где этот номер вставлен).

Встретилась вторая сноска — вставляй ее в лист сносок (печатаешь или из буфера). Затем ставишь курсор на первую, уже исправленную тобой сноску, берешь кнопку «Кисть» («Формат по образцу») и — покрываешь вторую, еще не покрытую сноску.


Она теперь того же стиля и на языке, неизвестном на земле. Понятно, что переносы исчезнут. Иногда, правда, кистью язык «никакой» не ставится (ошибается Word). Тогда снова лезь в «Сервис» — «Язык» и бери язык «Без проверки».

ЗАПОМНИ, ЧТО УБИРАТЬ ЯЗЫК С ТЕКСТА СНОСОК НАДО ПОСЛЕ ИХ ПОЛНОЙ ПРАВКИ (иначе орфографические ошибки не выделятся).

Ну вот и все с этой частью, мой маленький дружок.

ЧАСТЬ ВТОРАЯ

ИЗ УНЫЛОГО ТЕКСТОВОГО ФАЙЛА (*.txt) — В КРАСИВЫЙ ФАЙЛ

WORD (*.doc)

Множество сканированных книг представлены в *.txt. Говорят, вирусы не берут. Говорят, маленькие весьма. Не знаю: и *.doc, архивом схваченный, вирусы не берут. И *.doc в архиве невелик. Если, конечно, в него не вставлены рисунки. Но рисунки и не вставляй— приводи их в отдельном каталоге. Именно файлы рисунков придают объем, а если их много, то разница в размере между *.txt и *.doc не стоит даже упоминания.

Однако *.doc обладает неоспоримыми преимуществами при корректуре, при заменах, при поисках в тексте. И при работе с текстами: ты явно станешь писать в Word’е, а не в WordPad или в блокноте. А посему — хорошо отформатированный кусок для тебя весьма лаком. Но попробуй открыть *.txt в Word, и увидишь печальную картину... Того нет, сего нет, третьего нет (как у протестантов). Сразу охота все поиметь. Как сделать?

Перво-наперво знай, что иной раз открытый в Word текстовой файл им не узнается (наверное, по стилю). Это значит, что поиск в нем не работает (такое я встречал не раз).

РАБОТАЙ С КОПИЕЙ ИСХОДНОГО ТЕКСТА, который хочешь перевести из *.txt в *.doc. Оставь исходное на всякий случай (зависнет компьютер, и свои эволюции с текстом ты отменить не сможешь).

Но вот копию *.txt ты открыл в Word и с ужасом зришь на нее. Одни сплошные абзацы! Вместо концов строк абзацы. А где сами абзацы, и не разберешь... Но не бойся!

Выдели весь текст и сразу же выполни следующие этапы. Помни, порядок важен. Я ввел всю последовательность в макрос для Word. Итак:

1) Поставь правильные поля (см. часть первую).



2) Присвой стиль «Обычный»

3) На всякий случай затем поставь «Times New Roman» и его размер 12 пт.

4) Щелкни на тексте правой кнопкой, вызови «Абзац» и расставь «Интервал перед и после»  — 0 и 0; «межстрочный интервал» — один; абзацный отступ («первая строка) default (0,5 дюйма).

5) Поставь язык «русский» (меню «Сервис»).

6) Замени во всем тексте кавычки на кавычки (помни, что у тебя в «Сервис» — «Автозамена» — «Автоформат при вводе» должен стоять флажок на «Заменять прямые кавычки парными»). Как это сделать и как кавычки отображаются в окнах «Найти — Заменить» — см. авентюру VI (5).

7) Теперь убери выделение и коротко изучи, что тебе подсунули. Посмотри, как в *.txt помечены абзацы. Обычно они помечены несколькими пробелами — видел от 2-х до 7-ми. Иногда бывает, что для одной части текста — 3 пробела на абзац, а для другой, скажем, 5. Тут ничего не поделаешь: текст придется разбивать и работать с частями. Правда, подобное мне встретилось за все время только один раз (наверное, можно пренебречь).

8) Но вдруг кто-то вместо таблицы разбил соответствующие данные в тексте пробелами. Подробно об этом см. часть первую, авентюра III (1). Просмотри текст на наличие подобного (много в книгах по истории). Как обнаружить — смотри ту же авентюру III. Замени всю эту гадость на нормальные таблицы (обязательно) или вырежи и пока перенеси в другой файл (не рекомендую: забудешь, откуда. Придется смотреть исходный вариант, с которого ты копировал файл для своих кунштюков). Только после этого переходи дальше.

9) Итак, твой абзац в *.txt соответствует, например, 5 пробелам. Немедленно вызывай «Найти — Заменить» и перемечивай абзац. Я перемечиваю его символом крышки (в обычном тексте он практически не встречается: только как огрехи OCR). В «Найти» ставишь 5 пробелов, а в «Заменить» ставь крышку («Больше» — «Специальный»). Делай все.

10) Заменяй все абзацы (в смысле, символы абзацев), на пробел. «Найти»  — «Символ абзаца», а «Заменить» — ставь пробел клавишей.



11) Заменяй крышки на символы абзацев.

12) Теперь возьмись за тире. О тире подробно смотри авентюру IV в части первой. Снова изучи свой документ: как в исходном *.txt были нарисованы тире? Их вид у тебя пока прямо девственный: как в оригинале. Может быть так: ( - ), а может быть и так ( -- ). То есть, один или два дефиса. Но — в обрамлении пробелов (не смотри пока на то, что пробелов может быть несколько подряд — всему свое время). Если же огрехи оригинального OCR и оригинальной корректуры оставили «тире» без обрамления пробелов, то пока забудь об этом. Тут вернись и изучи о неразрывных пробелах авентюры IV и VIII в части первой. Потом переходи к следующему:

Замени (пробел дефис пробел) на (неразрывный пробел длинное тире пробел);

Замени (пробел дефис) на (неразрывный пробел длинное тире);

Замени (дефис пробел) на (длинное тире пробел);

Проделай то же самое, что и с дефисом, с коротким тире, заменяя его на длинное. Скорее всего, ты и не найдешь коротких тире, однако проверь.

13) Удаляй лишние пробелы, как крайне подробно указано в авентюре III, часть первая. И в тексте, и спереди, и сзади символа абзаца («Только успевай поворачиваться!» — как сказано в Гаргантюа Ф. Рабле).

14) Теперь найди «нехорошие» тире. Те, которые без обрамления пробелов. Сделай «Найти» (любая буква длинное тире). Правь вручную. Заодно попадутся и те места, где в словах типа «какой-нибудь» предыдущие мастера OCR просмотрели наличие пробела справа («какой- нибудь»). В этих местах дефисы у тебя заменились на длинные тире.

Затем, конечно, смотри (длинное тире любая буква), или отсутствие пробела справа от тире.

15) На всякий случай проверь дефисы рядом с пробелами: «Найти» (пробел дефис) и, затем, (дефис пробел). Устрани огрехи (правда, они вряд ли будут).

16) Однако типографщики и браузеристы требуют от нас правильной расстановки и короткого тире (см. выше подробно авентюру III в части первой). У тебя же пока нет и следов коротких тире.

Включай «Найти» «Любая цифра» и терпеливо просматривай все (короткие тире, напомним, в местах типа 2–3 и 1960–1970 гг.).


Правь вручную.

Правда, остаются еще и римские цифры (V–IV вв. до н. э.). Что ж, придется и их. Включай «Найти» на I (большая i). Смотри. Затем включай «Найти» на V, а потом — на X (большая «экс»). Правь. Конечно, если в тексте много латиницы, то это трудно. Тогда придется считывать (но «Найти» все равно проще).

17) Замени (т. к., т. е., и т. д., и т. п.) на (т.к., т.е., и т.д., и т.п.). Подробно смотри авентюру VIII (3).

18) Самое смачное: кавычки. Очень подробно выше (часть первая, авентюра VI). Сначала глянь, нет ли возле них буквы или цифры без пробела (напомним, что для поиска форма кавычек " или « роли не играет, как и то, куда глядят кавычки: « или »).

«Найти» (любая буква " [так они будут видны в окошке «Найти»]). Правь.

Затем наоборот (сначала кавычки, а потом любая буква).

Проделай то же самое с любой цифрой.

А теперь просматривай все кавычки подряд сначала. Сможешь, наверное, увидеть, где их не хватает до пары, и даже сможешь увидеть «кавычки внутри закавыченного тексте» (подробнее  — авентюра VI часть первая). И сможешь заменить внутренние «ёлочки» на «лапки».

Затем просмотри текст на предмет необходимости иностранных кавычек (очень подробно, опять же, авентюра VI).

19) Теперь исправь другие возможные огрехи, как указано в авентюре V (часть первая). Тут, помимо указанного, целесообразно просмотреть текст на наличие «крышек» (частый огрех OCR, да и ты выше манипулировал с «крышками»).

И вообще: если тебе встретится при считывании второй раз один и тот же огрех, значит, OCR закономерно ошиблось в каком-то символе или фрагменте. Сразу же бросай чтение (отметь место докуда дошел нераспространенным словом: у меня — «досюда». Потом найдешь по «Найти»), включай «Найти» и вводи туда указанную ошибку. Исправляй по всему тексту (так будет быстрее). Например, вместо «на» все время «па». Вряд ли у тебя в тексте много про танцы («сделал „па“»). Увидел — гони «Найти» на это «па» (но поставь «Только слово целиком»). Исправляй вручную: «Заменить» лучше не трогать: вдруг это «па» стоит не только вместо «на», но и вместо еще чего-нибудь.



20) Далее — по соображению. Можешь, например, захотеть вставить неразрывный пробел в места типа № 1, глава 1, г. Москва. Лепи в «Найти» № и смотри, затем лепи туда «глава» и смотри. Наконец лепи г (для «г» придется поставить «Только слово целиком». Для «г.» же эта опция не установится). Далее действуй по своему вкусу и по конкретике текста. Основной подход я тебе указал.

21) И только когда закончишь все, начинай внимательно и с интересом читать. Почему «с интересом»? А потому, что нечего сканировать либо переводить из *.txt в *.doc то, что тебе не интересно. Даже не берись за подобную работу «из-под палки»: OCR и корректура дела кропотливые и трудоемкие, без нужды к ним приступать нечего. Ну, а коли нужен какой-то учебный текст (нужен, но неинтересен), то и не возись: делай так, что лишь бы понятно было и без фактических ошибок. На сиюминутные тексты также не утруждайся. Для меня, например, это всякие детективчики последних лет. А также куча каких-то современных доморощенных «фантастиков». Вижу, что и их сканируют. Что ж, тоже правильно: люди не будут тратиться на всякое барахло, а, если уж припечет, возьмут из сети и прочтут кое-как один раз. На два уже не хватит; может быть, и один-то раз не дочитают. Зато сэкономят деньгу. Однако я бы помещал в электронных библиотеках такие книженции в специальную рубрику: «Однодневное чтиво» или: «Прочти, если осилишь, и сотри».

ЧАСТЬ ТРЕТЬЯ

ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR

1. Сканируйте пакетами (по много страниц).

2. Каждую сканированную страницу сегментируйте сначала автоматически, но потом сразу же просмотрите ее и вручную поправьте сегменты, удалите неудачные и замените их на нужные. Поднимите низ сегментов, чтобы избежать номеров страниц. Только потом закрывайте страницу и переходите к сканированию следующей.

3. Наберете пакет — перед распознаванием сохраните его на всякий случай. Бывают сбои, и труд пропадет. Когда распознáете, переведете в *.doc и затем сохраните его (пусть это будет только часть книги — все равно надо обязательно), то удалите использованный пакет (нечего засорять).



4. Забудьте, что в Fine Reader есть редактор и проверка. Делайте все это в Word.

5. Ни в коем случае не распознавайте рисунки Fine Reader’ом (рекомендую брать такие рисунки вместе с текстом только в случае сиюминутных или учебных материалов).

Дело в том, что для подавляющего большинства книг достаточно разрешения при сканировании 300 точек на дюйм. Для рисунков же (даже штриховым и черно-белых) надо не менее 400 (я делаю 400, иначе слишком велики).

Поступай так: дошел до текста со смачным рисунком — сканируй текст с этого места. Сохрани его вместе с предыдущими страницами в пакет. Выйди из Fine Reader, открой свой графический редактор (если не выйдешь из Fine Reader, то драйвер сканера останется у него), сканируй как надо рисунок и сделай его. Закрой редактор, вызови Fine Reader, открой пакет и продолжай дальше. Когда придет второй рисунок, то сохранить дополненный пакет уже не получится (я использую Fine Reader 4, хотя имеется дистрибутив и на 5-й. Не знаю, есть ли разница между ними в нашем случае и может ли 5-й сохранять дополненный пакет). Итак, пришел второй рисунок. Сканируй текст с тех страниц, где этот рисунок, и, что ж делать, распознавай пакет, сохраняя затем в *.doc фрагмент текста книги. Далее делай рисунок и т.д.

Почему я при встрече рисунка делаю пакет (или распознаю), выхожу из Fine Reader, потом сканирую рисунок в графическом редакторе, а затем снова возвращаюсь в Fine Reader? А чтобы лишний раз не укладывать толстую книгу аккуратно на сканер, прижимая ее грузом. Такое лишнее укладывание может дополнительно попортить ей шкурку, а она и так портится.

6. Искусство сканирования рисунков хитрое. Руководство имеется на «Электронных полках Вадима Ершова». Скажу только, что не следует увлекаться цветным там, где это не слишком нужно — лучше сделать хороший 256 оттенков серого (с бóльшим разрешением) чем плохой цветной.

7. Не советую пользоваться функцией Fine Reader «Передать в Word». В подобном случае Fine Reader передает слишком много своих стилей и шаблонов (размер шрифтов и т.д.), которые ты будешь исправлять.


ПОЛЬЗУЙСЯ «КОПИРОВАТЬ В БУФЕР».

8. Вот ты вытянул из буфера фрагмент после OCR в Word. Глянь в окошко стилей — там может торчать “Fine Reader”. Это не годится, не годится... Немедленно поступай так, как с текстовым файлом, который хочешь перевести в *.doc: см. выше всю часть вторую. И начинай, как там указано, с самого начала. Не забудь после установки полей, стилей и шрифтов немедленно удалить мягкие переносы, наделанные Fine Reader. См. о них выше самое начало авентюры V. Кратко: «Найти» мягкий перенос (­) [знак ставится Ctrl - (т.е. дефис на нормальной клавиатуре] а «Заменить» на ничего (ничего не ставь). НЕ ЗАБУДЬ УДАЛИТЬ МЯГКИЕ ПЕРЕНОСЫ! Множество чудаков забывают это сделать.

9. И далее действуй как в части второй. Понятно, что после OCR метить абзацы крышками (как в части второй) нельзя. Есть и еще одна специфика: после OCR тире у тебя не будут, как в *.txt, в виде ( - ) или ( -- ). Они будут разнообразными тире: то длинными, то короткими. Поэтому, в отличие от трансмутации *.txt > *.doc, ты должен:

а) «Найти» (длинное тире просто (не указывай пробелы)  — «Заменить» (длинное тире в обрамлении пробелов, причем левый — неразрывный).

б) «Найти» (короткое тире просто (не указывай пробелы)  — «Заменить» (длинное тире в обрамлении пробелом (левый — неразрывный).

А далее поступай, как в части второй: удаляй лишние пробелы, меняй кавычки, ищи ошибки и т.д., и т.п. Главное — творчески используй «Найти» — «Заменить».

10. Моя причуда при корректуре текста после OCR.

Меня, конечно, засмеют, но кажется целесообразным заменить неправильное распознавание OCR русских букв как близких по начертанию английских (наоборот же малоактуально — у нас русские тексты, и если даже будет что-то подобное, то корректируй это при считывании). Какие это буквы? Это (англ. клавиатура) e, a, o, c, y, x, p, b («Найти» обнаружит большую англ. «B», которая как русская «В»), m (тоже большая), h (и эта большая H), t (и эта тоже), k (и эта большая).


Вроде, все. При быстром компьютере дело десяти минут максимум.

11. Форма представления книг в электронной версии.

На мой взгляд, не следует делать несколько колонок: для документа Word это, порой, получается слишком мелко. Трудно работать с текстом, забирая кусок и перенося его в свою рабочую рукопись: в ней приходится переформатировать в одну колонку. Все-таки *.doc — не книга, и он лучше. Поэтому не следует пытаться воспроизводить все особенности книжного варианта. Зачем ссылки как верхние символы, когда ты можешь поставить их в квадратных скобках нормальными цифрами? И виднее, и, понятно, надежнее. И возни меньше.

Не следует также грешить разрывами страниц и разделов, чтобы воспроизвести верстку книги (в особенности этим грешат применительно  к первым страницам: где форзац, титульный лист и т.п.).

ПОМНИ, ЧТО *.DOC — ЭТО НЕ АУТЕНТИЧНАЯ КОПИЯ КНИГИ. Он лучше. И он должен быть проще. Приводи, однако, как я уже указывал, выходные данные книги (строго смотри авентюру VII части первой). Укажи тираж и цену. А всякие «... подписана к печати 12/01/1955» и т.п. не надо.

Интересно, что у академических историков и философов принято ссылаться на страницы в книге, и они в электронных версиях указывают, где начинается-кончается страница номер такая-то оригинальной книги. Но большинство дисциплин ссылается на факты в трудах и, поэтому, для них страницы без надобности: там идет ссылка либо на всю книгу, либо на статью в ней, если книга — сборник разных авторов. Историки и философы же любят цитаты, и вот у них так и пошло.

Лично я расставлять номера страниц книги в электронной версии не хочу. Некрасиво и трудоемко. Мне это кажется без надобности (слишком узкому кругу надо).

12. Состав каталога электронной версии.

Обычно я привожу «Литературу» (или «Примечания») отдельным файлом. Когда список большой, это, на мой взгляд, совершенно необходимо.

Также и с «Предисловием» и «Послесловием», если они объемны и информативны. Иногда «Предисловие» и «Послесловие» целесообразно объединить в единый файл «Приложение» (Appendix.doc).


Иногда в «Приложении» находятся не они, а вспомогательные материалы к книге, найденные в сети мною. И т.д. Большое и сложное «Оглавление» также необходимо выделять в отдельный файл ( так лучше смотреть: можешь одновременно знакомиться и с текстом, и с «Оглавлением»). В данном «Методическом руководстве» «Оглавление» все же идет впереди основного текста исключительно из соображений компактности (кроме того, это не книга), да и ты, наверное, ознакомишься с ним только один раз — вначале.

Файлы рисунков представляй в отдельном каталоге (не забудь указать в тексте места рисунков). Если сканировал обложку и фото автора, рекомендую не включать их в каталог рисунков самого текста (это разные вещи).

Почему рисунки не в тексте? А вдруг книжные воротилы решат порушить электронные библиотеки и наймут хакеров-«вирусологов». И вдруг эти вирусы начнут распаковывать архивы и внедряться в *.doc. Тогда придется снова переходить от *.doc в *.txt. Из хорошего *.doc легко сделать хороший *.txt. Но рисунки-то куда девать? Если их «вынуть» из текста, то качество ухудшается сильно (разве что перевести *.doc в *.html).

Кроме того, *.doc с рисунками в тексте плохо архивируется. А если у кого компьютер не шибко сильный, то *.doc со многими картинками листается трудно.

Так что рисунки — в отдельном каталоге.

В качестве примеров см. мой сборник «Все романы Пера Валё и Май Шёвалль на русском языке» и [Рансимен С. «Падение Константинополя в 1453 году»] на «Электронных полках Вадима Ершова» (С. Рансимен есть также в библиотеке “Site Folio”, являющейся внушительным собранием уникальных исторических текстов в формате *.doc).

Ну и все. С Богом.


Содержание раздела