logo
Болгарчук Р

Оцифровать.

Если книги нет в интернете, или нет доступа к интернету, то можно взять у друзей, найти интересующую книгу в дома, взять в библиотеке, другие варианты.

Некоторые малограмотные читатели могут даже после всего вышенаписанного задать вопрос – зачем отцифровывать книги, если их можно прочесть и так. На него я не однократно отвечал выше, так что повторяться не буду. Лишь отмечу, что сканирование книг -- это довольно монотонный труд, и мне часто, сканируя одну книгу, приходилось слушать другую. Но сканирование, вместе с распознанием, всегда занимает меньше времени, чем прослушивание. В среднем на работу с одной книгой у меня уходило 1-3 часа.

Но одно дело ошибки, а другое, когда просто-напросто половина слов в книге вовсе не понятны. Мне, буквально недавно, попалась книга, а точнее учебник по частной паталогической анатомии. Какой-то «умелиц» даже не додумался отсканировать её файнридером с разворотом страниц. Хотел сделать подарок братьям медикам и распознать её для удобства пользования. Файнридер с лёгкостью может разделить страницы, обрезать лишнее (что было отсканировано за полями страниц) и преобразовать картинки в текст. Но он все это может, в том случае, если на картинки видны буквы. Если же на картинки буквы практический не видны, то естественно, уже не только программа, но и люди могут оказаться бессильны. Особенно неприятно, когда оказывается в середине книги что распознать её полноценно невозможно. По сути это убитое время как того, кто отцифровывал, так и того, кто пытался распознать. Да и думаю скачавшие не получат удовольствия от небрежно перевернутых на бок страниц, в которых половина текста просто нет. Т.е. это не книга, а какая-то убогая демоверсия фотографий вымазанных краской листов бумаги.

Для наглядности приведу принскрины этого «шедевра».

Вот как выглядят страницы этой скачанной книги:

Рис. 30 пример страницы неправильно отсканированной и сохраненной книги.

Мало того, что для её прочтения, надо переворачивать или экран, или голову на бок, так еще и приходится догадываться, какие первые слова написаны, практический в каждой строчке, данного труда. Это видно на 145 верхней странице. Но в начале книги страницы еще сносные, поэтому я только при распознании понял, что не чего не выйдет. Впредь буду умнее. И другим советую, перед тем, как распознавать книгу, скачанную с интернета, бегло пролистать страницы и убедиться все ли они есть, какого качества страницы в середине книги, видны ли там буквы. Иначе файнридер не осилить эти уродства и выдаст вместо слов бессмысленный набор букв.

Рис. 31 Пример плохо отсканированного текста который нельзя нормально распознать.

С другой стороны, не хочется отпугивать людей, которые начинают сканировать книги. На самом деле это совершенно не сложно. Можете попробовать для начала отсканировать не всю книгу, а пару десятков страниц вначале, в середине и в конце. Если их удастся нормально распознать, то сканируйте всю. Повторюсь, для файнридера не проблема перевернуть страницы, разделить их на развороте, обрезать, автоматический исправить перекос страниц и многое другое. Единственная проблема в том, что некоторые сканирующие, неплотно прижимают книгу к сканеру. Из-за чего буквы, возле разворота, в центре книги, практический не видны. Собственно, это и показано на фото выше.

Если бы её сканировали, используя сразу программу файнридер, то можно было бы просто поставить все галочки. Единственное что осталось бы это перелистывать страницы, когда они отсканируются.

Рис. 32 Настройки в программе файнридер.