Болгарчук Р

Код буквы и картинки – книга глазами эвм.

В прошлой статье мною затронута тема удобства использования электронных книг. В этой для большего понимания возникновения таких преимуществ постараюсь, очень приблизительно, описать саму суть различий рисованного текста и распознанного. Как я это понимаю, но так сказать глазами ЭВМ.

Распознанный или набранный на компьютере текст, представляет совой векторные символы.

Грубо говоря, это линии как на графике, описанном какой-либо формулой. Но именно в данном случае наверно целесообразнее назвать его кодом, т.к. сами картинки линий в виде крохотных рисунков записаны отдельно и их роль не существенна, т.к. при каждой новой букве, исходя из её кода, отображается один и тот же рисунок. Т.е. для того что бы отобразить все буквы «а» в тексте компьютер использует один маленький рисунок самой буквы «а». Один для всех букв (если её формат одинаков).

А сама буква записана в виде очень короткого кода в виде нуля и единиц. К примеру: буква «а» в таком коде будет представлять собой вот такую последовательность сигналов «11010000» в кодировке ISO 8859-5. Единица, как известно это присутствие сигнала, а «0» его отсутствие. И того получается, что бы компьютер понял одну букву ему достаточно 8 сигналов.

Теперь разберем растровые (точки) картинки.

-- тут уже для того что бы отобразить именно картинку той же буквы «а», понадобиться целый массив точечек. Если изображение черно-белое, то расположенных в определенной очередности черных и белых точек, которые и будут «рисунком» буквы. Причем на каждую нарисованную точку потребуется те же 8 сигналов. Но уже не на всю букву, а только на одну точку. Естественно одной черной точкой нарисовать букву «а» не получится. А какое минимальное количество точек нужно для прорисовки буквы вообразите сами (100 битов вместо 8). Но то, что не одна и не две или три это очевидно. Посему и картинки так много весят. К тому же, в отличие от кода, в котором компьютер как бы знает, что это та или иная буква, в случае с картинкой, ему абсолютно все равно, что нарисовано. Т.е. оперировать буквой как буквой он уже не может, а просто слепо копирует изображение, перенося каждую точку. Если в первом случае все буквы в тексте как бы одинаковы, то во-втором, приходится постоянно рисовать и каждую новую букву, (даже если она идентична предыдущей – «аа»), и рисовать всё вокруг букв. Получается если в обычном тексте (набранном в ворде) встречается, к примеру: 2000 букв – «а», то рисунок самой буквы используется только один (постоянно повторяется и не занимает место). Кстати количество букв в таком тексте можно увидеть в статистике. А вот если аналогичный текст, рисованный (не распознанный) то все 2000 букв «а» будут прорисовываться снова и снова и для каждой с них как бы будет 2000 картинок вместо 1. Они сами по себе занимают на много больше места, и кроме как отобразить их на экране с ходу с ними не чего не сделаешь (ни поиска по тексту, ни статистики, ни прослушки). Для ЭВМ это просто набор черных и белых точек, а не определенный код символов. Он может отобразить на экране любую картинку. Но картинка может быть слепо отраженными точками разного цвета либо конкретным знаком на экране, который отличается и понимается компьютером.

Вот поэтому с картинками текста и работать полноценно невозможно и места занимают они в десятки раз больше. Из-за чего, по возможности, (если книга сохранена как картинка), перевожу её в текст. После чего текст можно и послушать и закладки удобно сделать, и что-то выделить, и т.д. Но не все книги удается корректно перевести в текст. Поскольку даже самые лучшие программы для распознания текста, к сожалению, наверно еще долго будут требовать корректировки. Многие тексты содержат картинки, формулы, которые трудно распознать. Поэтому приходится сохранять текст вместе с изображением. Конечно, можно было просто распознать изображение текста и сохранить его оставив и картинку, но работать с такими двумя документами не удобно. Удобно, когда в одном документе можно и прочесть что-то - сделав закладку или прослушав и в нем же на той же странице посмотреть картинку. Вот, к примеру: результат такого сложного текста с картинкой иллюстрированный мною атлас. В тексте конечно ошибок много, тем не менее, мне удалось сделать закладки и сохранить расположение текста и добавленных мною цветных иллюстраций.

Содержание