Я тут сделал большое такое исследование про Normalized compression distance и наконец-то имплементировал его в textdistance (спустя год). Можно было бы статья в какой-нибудь там сборник написать, если бы мы с наукой не разошлись по взимному согласию. А если нет времени на текст, но есть на картинки, там в конце статьи heatmap по похожести разных Open Source лицензий. Самые необычне оказались wtfpl и zlib :)