ML4Value
Иван Максимов, Head of ML Personalization, RecSys and Search в Яндекс · 24.03
NeoBERT: апгрейд классики в 2025г
Пока мы все следим за новыми GenAI LLM-ками, вышла действительно годная LLM - NeoBERT
Авторы статьи утверждают, что это нова SOTA на длинных последовательностях - 2.8 TB данных для обучения - почти в 20 раз больше, чем в RoBERTa - Длина последовательности до 4096 через RoPE - Куча современных трюков в архитектуре: SwiGLU, Pre-RMSNorm, AdamW, ...)
Если внимательно почитать, то все конечно не так однозначно: В классе small в топе все еще RoBERTa В medium классе (~250M параметров) NeoBERT и правда бьет все другие модели. При этом он все еще достаточно быстр в инференсе на коротких последовательностях, и существенно быстрее аналогов на длинных. Выглядит как заявочка на новую default model в классическом NLP весто RoBERTa
При этом если у вас есть мощности и время на инференс, то DeBERTa V3 Large (350+ M параметров) все еще в топе на большинстве бенчмарков. Хотя на MTEB новый NeoBERT ее уже обходит
В общем, авторы аккуратно применили последние достижения в нейроночках - получили приличный результат. С чем их и поздравляем!) Ну и не забывайте теперь пробовать кое-что еще вместо стандартных RoBERTa в классических NLP задачах 🧐
еще контент автора
еще контент автора
ML4Value
Иван Максимов, Head of ML Personalization, RecSys and Search в Яндекс · 24.03
войдите, чтобы увидеть
и подписаться на интересных профи