Охота за технологиями
Геннадий Гужов, Founder в работа на себя · 25.02
Яндекс представил новое поколение языковых моделей — YandexGPT 5. Одна из них, YandexGPT 5 Lite, уже доступна в открытом доступе на платформе Hugging Face. На примере YandexGPT 5 расскажу, как такие модели обучаются?
ЭТАП 1: ПРЕДОБУЧЕНИЕ (PRE-TRAINING) Первая стадия — базовое обучение модели на массиве текстовых данных. Здесь нейросеть изучает структуру языка, закономерности и общие знания, анализируя триллионы токенов (слов и фраз) из интернета. Это этап требует огромных вычислительных ресурсов, но именно он формирует «фундамент» для дальнейшей специализации.
Зачем выкладывать pretrain-модель в открытый доступ? 💯 Гибкость: Разработчики могут адаптировать её под свои задачи — от чат-ботов до анализа данных. 🤑 Экономия: YandexGPT 5 Lite не требует мощных GPU, что делает её доступной для стартапов и образовательных проектов.
ЭТАП 2: ДООБУЧЕНИЕ (FINE-TUNING) Это адаптация предобученной модели (например, GPT) под конкретные цели. Если предобучение даёт общее понимание языка, то дообучение превращает модель в специалиста: например, в чат-бота для поддержки клиентов или аналитика медицинских данных.
Как это работает? ➖Данные: Создаётся датасет с примерами «запрос-ответ» или размеченной информацией. Например, для чат-бота — диалоги, где модель учится отвечать на вопросы вроде «Как оформить визу?» пошаговыми инструкциями. ➖Архитектура: Часть слоёв модели «замораживают», чтобы сохранить базовые навыки, а поверх добавляют новые слои или модули для специфических задач (классификация текста, генерация ответов).
Современные подходы: 🌐Гибридное обучение (как в YandexGPT 5 Pro) — совмещение собственных данных с наработками открытых моделей (например, Qwen). ⭐️Оптимизация: Технологии вроде YaFSDP (открытая библиотека языковых моделей Яндекса) сокращают время обучения на 25–30%. 🤡Борьба с забыванием: Методы вроде LogDPO (дообучение только небольших дополнительных слоёв, экономя ресурсы) сохраняют знания, полученные на этапе предобучения.
Итог: дообучение превращает универсальную модель в инструмент для решения узких задач, сохраняя баланс между гибкостью и специализацией.
А попробовать новую модель от Яндекса можно по ссылке.
YandexGPT 5 Lite: Идеальна для тестов, небольших проектов и обучения. YandexGPT 5 Pro: Доступна в чате с Алисой и Yandex Cloud — подходит для бизнеса и сложных задач (анализ документов, RAG, API-интеграция).
➗Другие полезные ссылки: Как работают большие языковые модели?
Где ИИ хранит воспоминания - здесь
еще контент автора
еще контент автора
Охота за технологиями
Геннадий Гужов, Founder в работа на себя · 25.02
войдите, чтобы увидеть
и подписаться на интересных профи