Помните, я делал пост про гомоглифы? Там я, в числе прочего, писал, почему язык не определить по нескольким буквам из алфавита. Поэтому в homoglyphs при определении языка выдается несколько вариантов. Так вот, ребята из Google когда-то сделали Java-библиотеку https://github.com/shuyo/language-detection, которая кроме алфавита анализирует статистические показатели по биграммам и фрагментам слов. У неё есть отличный порт на python — langdetect. Выглядит очень даже круто.