NeoBERT: апгрейд классики в 2025г

Пока мы все следим за новыми GenAI LLM-ками, вышла действительно годная LLM - NeoBERT

Авторы статьи утверждают, что это нова SOTA на длинных последовательностях - 2.8 TB данных для обучения - почти в 20 раз больше, чем в RoBERTa - Длина последовательности до 4096 через RoPE - Куча современных трюков в архитектуре: SwiGLU, Pre-RMSNorm, AdamW, ...)

Если внимательно почитать, то все конечно не так однозначно: В классе small в топе все еще RoBERTa В medium классе (~250M параметров) NeoBERT и правда бьет все другие модели. При этом он все еще достаточно быстр в инференсе на коротких последовательностях, и существенно быстрее аналогов на длинных. Выглядит как заявочка на новую default model в классическом NLP весто RoBERTa

При этом если у вас есть мощности и время на инференс, то DeBERTa V3 Large (350+ M параметров) все еще в топе на большинстве бенчмарков. Хотя на MTEB новый NeoBERT ее уже обходит

В общем, авторы аккуратно применили последние достижения в нейроночках - получили приличный результат. С чем их и поздравляем!) Ну и не забывайте теперь пробовать кое-что еще вместо стандартных RoBERTa в классических NLP задачах 🧐

NeoBERT: апгрейд классики в 2025г
Пока мы все следим за новыми GenAI LLM-ками, вышла действительно годная LLM - NeoBERT
Авторы статьи утверждают, что это нова SOTA на длинных последовательностях
- 2 | Сетка — новая социальная сеть от hh.ru
repost

619

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь