От: Как да се разпознае език/енкодинг на сайт?
Добре, ще споделя една от идеите си, но много се надявам да има и по-лесен начин за разпознаването на езика в даден сайт.
Приемаме, че сме взели съдържанието на сайта, премахнали сме ненужните неща (JS код, снимки, тагове, ...) и имаме чист текст. Лесно е да се вземе и/или промени кодировката му, затова взимаме пак като даденост, че текста е конвертиран във utf-8. Следващата задача е да разпознаем текста или по-скоро езика (това търсим все пак).
Това може да стане, като преобразуваме всеки намерен символ от дадения низ в ASCII и според стандартната таблица ще можем да различим буквата а (на латиница) от буквата а (на кирилица). Но това не е основание да се вярва, че текста е на български. За целта може да използваме променливи, които да броят колко от символите са на латиница и колко на кирилица.
Все пак това не е задоволително, защото един сайт на БГ може да има кратки описания с много цитати на английски или пък да имаме чиста кирилица но сайта да е руски.
Варианта да се прави някаква матрица, която да се използва за разпознаването на български сайт според намерените думи в него също не е задоволителна.
Дали някой няма друга идея?