Яндекс представил новое поколение языковых моделей — YandexGPT 5. Одна из них, YandexGPT 5 Lite, уже доступна в открытом доступе на платформе Hugging Face. На примере YandexGPT 5 расскажу, как такие модели обучаются?

ЭТАП 1: ПРЕДОБУЧЕНИЕ (PRE-TRAINING) Первая стадия — базовое обучение модели на массиве текстовых данных. Здесь нейросеть изучает структуру языка, закономерности и общие знания, анализируя триллионы токенов (слов и фраз) из интернета. Это этап требует огромных вычислительных ресурсов, но именно он формирует «фундамент» для дальнейшей специализации.

Зачем выкладывать pretrain-модель в открытый доступ? 💯 Гибкость: Разработчики могут адаптировать её под свои задачи — от чат-ботов до анализа данных. 🤑 Экономия: YandexGPT 5 Lite не требует мощных GPU, что делает её доступной для стартапов и образовательных проектов.

ЭТАП 2: ДООБУЧЕНИЕ (FINE-TUNING) Это адаптация предобученной модели (например, GPT) под конкретные цели. Если предобучение даёт общее понимание языка, то дообучение превращает модель в специалиста: например, в чат-бота для поддержки клиентов или аналитика медицинских данных.

Как это работает?Данные: Создаётся датасет с примерами «запрос-ответ» или размеченной информацией. Например, для чат-бота — диалоги, где модель учится отвечать на вопросы вроде «Как оформить визу?» пошаговыми инструкциями. ➖Архитектура: Часть слоёв модели «замораживают», чтобы сохранить базовые навыки, а поверх добавляют новые слои или модули для специфических задач (классификация текста, генерация ответов).

Современные подходы: 🌐Гибридное обучение (как в YandexGPT 5 Pro) — совмещение собственных данных с наработками открытых моделей (например, Qwen). ⭐️Оптимизация: Технологии вроде YaFSDP (открытая библиотека языковых моделей Яндекса) сокращают время обучения на 25–30%. 🤡Борьба с забыванием: Методы вроде LogDPO (дообучение только небольших дополнительных слоёв, экономя ресурсы) сохраняют знания, полученные на этапе предобучения.

Итог: дообучение превращает универсальную модель в инструмент для решения узких задач, сохраняя баланс между гибкостью и специализацией.

А попробовать новую модель от Яндекса можно по ссылке.

YandexGPT 5 Lite: Идеальна для тестов, небольших проектов и обучения. YandexGPT 5 Pro: Доступна в чате с Алисой и Yandex Cloud — подходит для бизнеса и сложных задач (анализ документов, RAG, API-интеграция).

Другие полезные ссылки: Как работают большие языковые модели?

Где ИИ хранит воспоминания - здесь

Яндекс представил новое поколение языковых моделей — YandexGPT 5. Одна из них, YandexGPT 5 Lite, уже доступна в открытом доступе на платформе Hugging Face | Сетка — новая социальная сеть от hh.ru
repost

79

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь