Датасеты!

  • cooldatasets.com – не так уж и много датасетов, но они действительно хороши.

  • 7 Datasets You’ve Likely Never Seen Before – гонки голубей, влияние LSD на математические способности, стоимость травки на в разное время в разных городах. По каждому датасету мало данных и фич, но это, при желании, можно расширить. Например, для стоимости травки добавить погоду в городе в это время и раскрываемость преступлений в выбранном месяце. Хороший способ поймать ложные корреляции.

  • Interesting Datasets on Kaggle.com – кадры с персонажами Симпсонов, диалоги из South Park, распознавание гендера по голосу и ещё несколько интересных больших датасетов для сложных алгоритмов ML. Здесь данные для распознавания и временных рядов, и изображений, и работы со звуком.

  • 20 Weird & Wonderful Datasets for Machine Learning – звуки сердцебиения, виды грибов, сообщения об НЛО, SMS спам, отзывы с Amazon. Отличные датасеты. Много данных, интересные, и не такие сложные для работы, как предыдущая подборка.

  • awesome-public-datasets – огрооомный список датасетов, с кратким описанием и по категориям. Ищете что-то конкретное? Сначала загляните сюда. Планирую добавить в этот список данные по нобелевским лауреатам, которые я тут на днях выгрузил.

  • awesome-json-datasets – публичные API, с которых можно выгрузить себе данных. Например, как вам The Rick and Morty API?