Оказывается существует модуль для обнаружения кодировки текста. Называется chardet. Под капотом оно анализирует частотность символов и структуру, находя закономерности, которые есть у разных кодировок.

Использовать максимально просто:

`import chardet

#Пример текста в неизвестной кодировке

text_bytes = "Привет, мир!".encode("windows-1251")

#Определение кодировки

result = chardet.detect(text_bytes)

print(result)

Вывод следующий: {'encoding': 'windows-1251', 'confidence': 0.99, 'language': 'Russian'}

#python`
repost

22

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь