Иван Максимов пишет:

Иван Максимов, Head of ML Personalization, RecSys and Search в Яндекс · 24.03

NeoBERT: апгрейд классики в 2025г

Пока мы все следим за новыми GenAI LLM-ками, вышла действительно годная LLM - NeoBERT

Авторы статьи утверждают, что это нова SOTA на длинных последовательностях - 2.8 TB данных для обучения - почти в 20 раз больше, чем в RoBERTa - Длина последовательности до 4096 через RoPE - Куча современных трюков в архитектуре: SwiGLU, Pre-RMSNorm, AdamW, ...)

Если внимательно почитать, то все конечно не так однозначно: В классе small в топе все еще RoBERTa В medium классе (~250M параметров) NeoBERT и правда бьет все другие модели. При этом он все еще достаточно быстр в инференсе на коротких последовательностях, и существенно быстрее аналогов на длинных. Выглядит как заявочка на новую default model в классическом NLP весто RoBERTa

При этом если у вас есть мощности и время на инференс, то DeBERTa V3 Large (350+ M параметров) все еще в топе на большинстве бенчмарков. Хотя на MTEB новый NeoBERT ее уже обходит

В общем, авторы аккуратно применили последние достижения в нейроночках - получили приличный результат. С чем их и поздравляем!) Ну и не забывайте теперь пробовать кое-что еще вместо стандартных RoBERTa в классических NLP задачах 🧐

619

еще контент автора