🔧 Hugging Face упростила токенизацию в v5
Hugging Face полностью переработала систему токенизации в Transformers v5.
Теперь токенизаторы разделены на архитектуру и параметры — как в PyTorch: сначала объявляется структура (нормализатор, модель BPE/Unigram, декодер), затем загружаются или обучаются словарь и правила. Это устраняет путаницу между «быстрыми» и «медленными» версиями.
Раньше для одного токенизатора было два файла. Теперь — один, с единым бэкендом на Rust. Исчезли дублирование кода и несоответствия между реализациями. Можно легко изучать, настраивать и обучать модель-специфичные токенизаторы с нуля: tokenizer.train(files=["data.txt"]).