Тут на неделе в трендах гитхаба прогремела библиотека от автора requestsrequests_html. Под капотом использует следующие библиотеки:

  • requests (удивительно, правда?)
  • pyquery для селекторов в стиле jquery.
  • html2text для конвертации содержимого в Markdown.
  • fake-useragent для убедительных User-Agent (не все любят ботов).
  • parse для прикольного поиска подстроки.
  • bs4 для селекторов в стиле xpath.

В действительности, библиотека использует bs4 не напрямую, а через lxml. Вообще, там внутри какие-то запутанные отношения: lxml жестко зависит от bs4, а bs4 опционально использует lxml.

Мне кажется, requests-html — прекрасная альтернатива комбайну Grab, когда не нужны какие-то его суперфичи типа заполнения форм. Хотя сам Grab понемногу оживает, даже чатик появился в telegram (точнее, форкнулся от IT-флудильни автора)