Скачиваем любой блог с golos.io на Python
Написал скрипт на Python, которым можно скачать любой блог с голоса, вместе с картинками. Программа вытягивает все посты указанного автора из базы данных от arcange, анализирует тексты на наличие картинок, и скачивает эти картинки в папку img. На входе указываешь ник автора, чей блог нужно скачать, на выходе получаешь папку с автономными html файлами. Процесс скачивания всего блога довольно долгий, особенно если у автора много записей. На мой блог уходит примерно около минуты, а на блог автора sxiii к примеру у меня ушло минут 15.
Для того, чтобы скрипт работал, вам нужно установить Python 3.6.2 и некоторые модули. Для начала установим requests, wheel и wget
pip install requests
pip install wget
pip install wheel
Также нам нужно установить pymssql и sqlalchemy. Через pip под windows это можно сделать скачав файлы данных модулей с неофициального репозитория. Подробнее об установке этих модулей я писал в данной статье:
https://golos.io/ru--programmirovanie/@pythono/python-baza-dannykh-golosa
После того как все модули будут установлены, скачать исходники моего скрипта отсюда:
http://pythono.ru/book/downblog.zip
Распакуйте архив и запустите скрипт. Вам будет предложено ввести ник пользователя, блог которого вы хотите скачать. Вводить ник надо с маленькой буквы и без знака @ перед ним. После того как вывели ник нажмите Enter и программа начнет скачивать посты указанного пользователя.
Дождитесь окончания процесса и в папке со скриптом вы увидите подкаталог, созвучный имени указанного автора. В подкаталоге будут лежать html файлы со статьями и папка img с картинками.
Зачем может понадобиться данный скрипт? Можно сделать бэкап своего блога, либо скачать целиком все посты какого-то автора для чтения их в режиме оффлайн. В частности, я скачал несколько интересных мне блогов и залил их в свою читалку на электронных чернилах.
Ставьте апвоут, подписывайтесь на мой блог, пишите комментарии.