Оказывается существует модуль для обнаружения кодировки текста. Называется chardet. Под капотом оно анализирует частотность символов и структуру, находя закономерности, которые есть у разных кодировок | Сетка — социальная сеть от hh.ru

лента
нетворк
создать
чаты
профиль

войти

назад

Кисель в Айти | Python разработка

Кисель в Айти | Python разработка

158 подписчиков

· 27.02.2025

Оказывается существует модуль для обнаружения кодировки текста. Называется chardet. Под капотом оно анализирует частотность символов и структуру, находя закономерности, которые есть у разных кодировок.

Использовать максимально просто:

`import chardet

#Пример текста в неизвестной кодировке

text_bytes = "Привет, мир!".encode("windows-1251")

#Определение кодировки

result = chardet.detect(text_bytes)

print(result)

Вывод следующий: {'encoding': 'windows-1251', 'confidence': 0.99, 'language': 'Russian'}

поделиться

repost

26

0 комментов

еще контент в этом сообществе

пост закреплён — пока закрепить можно только один пост