logo
Болгарчук Р

Зачем и как распознавать книги?

Анекдот: Программист звонит в библиотеку. — Здравствуйте, Катю можно? — Она в архиве. — Разархивируйте ее пожалуйста. Она мне срочно нужна!

© http://anekdoty.ru/pro-biblioteki/

Остановлюсь на данном вопросе подробнее, т.к. постоянно с ним сталкиваюсь. Проработавши не одну сотню книг, мне есть что написать, по данному поводу. Тем более что, к сожалению, как я понял, многие до сих пор еще не знают - зачем книги распознавать (оцифровывать). Хотя, надеюсь вопросов - «зачем их сканировать?» - уже нет. Т.к. преимущество электронных книг над бумажными описывал в других статьях (главах). Данная тематика очень обширна и выходит далеко за рамки пары статей, поэтому попробую её ограничить. Пока не буду затрагивать проблематику авторских прав, очередной раз высмеивать староверов (любителей понюхать) типографские краски, а также оставлю в стороне много других нюансов касающихся книг. Уделю внимание именно на разнице распознанного и не распознанного текста, лишь упомянув программы для такого «метаморфоза».

Традиционно считается лучшим способом распознавания текста с помощью программы -- ABBYY FineReader. Хотя, такая возможность имеется и в Acrobat Pro. Увы, обе программы платные, а бесплатные аналоги типа CuneiForm, Scankromsator и др. пока оставляют желать лучшего. Но хотелось бы верить, что уже есть или появится достойный бесплатный аналог FineReader.

Чем же все токи является распознанный и не распознанный текст? Извиняюсь, что приходиться останавливаться на данных очевидностях, однако, именно о них пойдет речь. Мне часто приходилось сталкиваться с людьми, которые далеки от понимания разницы. То ли в компьютере они используют только кнопку «ВКЛ\ВЫКЛ», то ли книги читают исключительно глазами, не чего с ними больше не делая. А что с ними еще можно делать? – возникнет резонный вопрос. Вот его и разберу ниже.

Одна из загвоздок в том, что распознанный и не распознанный текст, порой глядя на экран внешне практический не чем не отличается. И в том, и в том видны буквы, и тот и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста. Но все же разница между ними существенна. Не распознанный текст — это просто картинка. Буквы, так сказать, в ней зафиксированы как на обычной фотографии. Что-либо дописать, а тем более изменить, в таком тексте (без доп. обработки) крайне сложно. Единственным его преимуществом есть то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов. В принципе на этом преимущества сканированных картинок перед тем же, но распознанным текстом заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный) и не удобство работы с ним и многое другое. Но опишу те же недостатки, в виде преимуществ распознанного текста перед не распознанным.