logo search
Болгарчук Р

Как я добывал книгу Костюка.

Наткнулся на неё совершенно случайно, по очередному запросу, какой-то умной фразы в гугле. Глубоко не прорабатывал, т.к. как всегда нет времени, да и попалась она мне, уже тогда, когда практический дописал эту. Поисковик, помимо всего прочего, выдал: Книга в новой медийной среде - Костюк К. Н. - Google Books. Название заманчивое. Естественно, исходя из моей философии проработки книг, я тут же не читая попытался получить сам текст целиком, а не картинки на экране. Но все не так просто. В отличие от, уже описанной мною, книги Януковича, эта действительно оказалась банально демоверсией. Скорей всего, из-за того, что книга достаточно свежая, а автор не сильно популярный, в свободном доступе, для скачивания, на 02.12.2019, её не оказалось. Поэтому вначале решил попробовать Google Books Downloader. Программа позволила с легкостью скачать около 100-150 страниц (из 400). Причем первые были подряд, а остальных не было. Все эти страницы были сохранены как картинки, к тому же в низком качестве, пришлось вставлять их в FineReader. Благо текст распознался довольно неплохо. Ошибок было не много.

Потом попробовал FSSGoogleBooksDownloader. У неё еще более дружелюбный интерфейс. Но на деле качество оказалось на много хуже, даже при выставлении максимального DPI. Да и скачала она те же первые 50 страниц. В общем, граберы книг есть, но над ними надо еще хорошо поработать. Впрочем, еще многое зависит от настроек конкретной книги и политики гугла. Некоторые книги с гугл книг, насколько я понял, можно скачать и без всяких программ. Другие, которые представлены только в демоверсии, на данный момент, скачать целиком, на много сложнее. Гугл как-то определяет, что вы уже скачивали, и в следующий раз скачивается меньше страниц. Потом попробовал сменить тактику, а точнее, сменить айпишник и воспользоваться плагинами.

По мотивам статьи с этого ресурса http://exsstas.livejournal.com/340003.html

удалось найти пару восхитительных плагинов для лисы. Цитирую:

«…установить сначала Greasemonkey, затем на него скрипт Google Book Downloader и ещё FlashGot для удобства передачи списка файлов в менеджер закачки

Удалось скачать еще около 100-150 новых страниц. У плагинов функционал оказался больше. В них удалось выбрать именно те главы, страницы с которых еще не были скачаны. Т.е. начать уже не с первой, и закачать те же 100 страниц, а с 200 или с 300 и закачать остальные. Хотя, при таком скачивании, оказалось, что многие страницы так же пропущены. Пришлось менять айпи адрес, а потом и заходить с другого браузера, а позже с виртуальной машины и докачивать недостающие страницы. Если не менять IP и заходить по той же ссылки, то будут доступны всего-навсего первые страницы. Но если его поменять, и сделать вышеописанные манипуляции, то можно сразу открыть нужную главу, и скачать недостающие.

В общем, скачивание книги является захватывающей игрой от проекта гугл бук. Суть игры из коллекции страниц собрать книгу. Причем правила игры все время усложняются. Если на первом уровне можно без труда скачать подряд первые страницы книги, то в дальнейшем перестает помогать даже хваленый Тор браузер. Который, конечно же айпи меняет, но хитрый гугл как-то вычисляет, что это все равно качаете вы. Вот что он пишет даже в Торе с двойной сменой IP:

«Our systems have detected unusual traffic from your computer network. Please try your request again later. Why did this happen? IP address: 5.9.158.75 Time: 2017-07-12T09:34:28Z URL: https://www.google.de/search.....»

При повторной смене айпишника, гугл говорит – не беда, я забаню тебе и этот:

«Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. Повторите запрос позднее. Почему это могло произойти? IP-адрес: 78.109.23.1 Время: 2017-07-12T09:27:24Z URL:....»

Причем, повторюсь, менял айпишник и в браузере, на компьютере, с помощью HideGuardSetup, SoftEther VPN Client Manager, CyberGhost_6.0 и других интересных программ. Так что третий левел, этой захватывающей игры, пока не прошёл. Подряд, у меня есть половина книги (начиная с первой и где-то до 250 страницы). И фрагментами начиная, где-то с 250 и до 300. Жаль, у меня масса дел, и мне некогда играться. Тем не менее, думаю, если объединить усилия, и качать с парочкой друзей, работающих за разными машинами, скачать по кусочкам всю книгу не составит труда. Можно это сделать и одному. К примеру, пойти в какие-то интернет кафе, где другой компьютер, другой айпишник и все остальное. На самом деле, мне жутко интересно, как гугл меня вычислил, если я поменял айпишник в двух местах, использовал разный софт, да и еще заходил с виртуальной машины.

Это очень важный и хороший урок всем анонимусам. Если захотят вас вычислить, то грош цена этим всем торрам и др. свистоперделкам. Прискорбно, но факт…

Впрочем, возможно, все на много проще, и гугл меня не вычислял. Понятно, что, в некоторых демоверсиях книг, которые там расположены, часть страниц не отображается в принципе, кто бы и откуда не заходил. Но еще, может, другая часть страниц, блокируется именно исходя из количества запросов за единицу времени. В общем, гадать можно долго. Просто хотел ознакомиться с похожей книгой, до того, как напишу свою. Поэтому и заморочился с попыткой скачать. Возможно, если найду время в будущем, и она появится в полной версии на торрентах, то прослушаю, а нет, не велика потеря, есть масса более достойных трудов, менее жадных авторов. Таких, например, как я.  Кстати, Костюк про это тоже пишет в своей книги.