🔧 Hugging Face упростила токенизацию в v5

Hugging Face полностью переработала систему токенизации в Transformers v5.

Теперь токенизаторы разделены на архитектуру и параметры — как в PyTorch: сначала объявляется структура (нормализатор, модель BPE/Unigram, декодер), затем загружаются или обучаются словарь и правила. Это устраняет путаницу между «быстрыми» и «медленными» версиями.

Раньше для одного токенизатора было два файла. Теперь — один, с единым бэкендом на Rust. Исчезли дублирование кода и несоответствия между реализациями. Можно легко изучать, настраивать и обучать модель-специфичные токенизаторы с нуля: tokenizer.train(files=["data.txt"]).

#transformers #huggingface #tokenization #nlp #llm #rust

🔧 Hugging Face упростила токенизацию в v5
Hugging Face полностью переработала систему токенизации в Transformers v5 | Сетка — социальная сеть от hh.ru