Геннадий Гужов пишет:

Геннадий Гужов, Founder в работа на себя · 25.02

Яндекс представил новое поколение языковых моделей — YandexGPT 5. Одна из них, YandexGPT 5 Lite, уже доступна в открытом доступе на платформе Hugging Face. На примере YandexGPT 5 расскажу, как такие модели обучаются?

ЭТАП 1: ПРЕДОБУЧЕНИЕ (PRE-TRAINING) Первая стадия — базовое обучение модели на массиве текстовых данных. Здесь нейросеть изучает структуру языка, закономерности и общие знания, анализируя триллионы токенов (слов и фраз) из интернета. Это этап требует огромных вычислительных ресурсов, но именно он формирует «фундамент» для дальнейшей специализации.

Зачем выкладывать pretrain-модель в открытый доступ? 💯 Гибкость: Разработчики могут адаптировать её под свои задачи — от чат-ботов до анализа данных. 🤑 Экономия: YandexGPT 5 Lite не требует мощных GPU, что делает её доступной для стартапов и образовательных проектов.

ЭТАП 2: ДООБУЧЕНИЕ (FINE-TUNING) Это адаптация предобученной модели (например, GPT) под конкретные цели. Если предобучение даёт общее понимание языка, то дообучение превращает модель в специалиста: например, в чат-бота для поддержки клиентов или аналитика медицинских данных.

Как это работает? ➖Данные: Создаётся датасет с примерами «запрос-ответ» или размеченной информацией. Например, для чат-бота — диалоги, где модель учится отвечать на вопросы вроде «Как оформить визу?» пошаговыми инструкциями. ➖Архитектура: Часть слоёв модели «замораживают», чтобы сохранить базовые навыки, а поверх добавляют новые слои или модули для специфических задач (классификация текста, генерация ответов).

Современные подходы: 🌐Гибридное обучение (как в YandexGPT 5 Pro) — совмещение собственных данных с наработками открытых моделей (например, Qwen). ⭐️Оптимизация: Технологии вроде YaFSDP (открытая библиотека языковых моделей Яндекса) сокращают время обучения на 25–30%. 🤡Борьба с забыванием: Методы вроде LogDPO (дообучение только небольших дополнительных слоёв, экономя ресурсы) сохраняют знания, полученные на этапе предобучения.

Итог: дообучение превращает универсальную модель в инструмент для решения узких задач, сохраняя баланс между гибкостью и специализацией.

А попробовать новую модель от Яндекса можно по ссылке.

YandexGPT 5 Lite: Идеальна для тестов, небольших проектов и обучения. YandexGPT 5 Pro: Доступна в чате с Алисой и Yandex Cloud — подходит для бизнеса и сложных задач (анализ документов, RAG, API-интеграция).

➗Другие полезные ссылки: Как работают большие языковые модели?

Где ИИ хранит воспоминания - здесь

еще контент автора

Геннадий Гужов

Founder в работа на себя

Развиваю стартап в отрасли дата-центров

👨🏼‍🎓Я выпускник программы двух дипломов Высшей школы экономики и Лондонской школы экономики.

🪖Проходил срочную службу в Президентском полку.

👨🏼‍💻Публикую статьи на платформах Хабр и VC, где средний охват составляет более 10 тысяч просмотров.

🦾Охочусь за технологиями и активно продвигаю свой telegram-канал «охота за технологиями», где рассказываю про бизнес и технологии, которые завоевывают признание миллионов людей.

https://t.me/oxotatech