Тут на неделе в трендах гитхаба прогремела библиотека от автора requests — requests_html. Под капотом использует следующие библиотеки:
- requests (удивительно, правда?)
- pyquery для селекторов в стиле jquery.
- html2text для конвертации содержимого в Markdown.
- fake-useragent для убедительных User-Agent (не все любят ботов).
- parse для прикольного поиска подстроки.
- bs4 для селекторов в стиле xpath.
В действительности, библиотека использует bs4 не напрямую, а через lxml. Вообще, там внутри какие-то запутанные отношения: lxml жестко зависит от bs4, а bs4 опционально использует lxml.
Мне кажется, requests-html — прекрасная альтернатива комбайну Grab, когда не нужны какие-то его суперфичи типа заполнения форм. Хотя сам Grab понемногу оживает, даже чатик появился в telegram (точнее, форкнулся от IT-флудильни автора)