Вы заметили что ИИ Тупеют ?: феномен Model Collapse
Я заметил, Chatgpt 5.2, Cloude opus 4.6 тупее предшественников. начал копаться в вопросе и нашел душную инфу, которая мне нравится и я хочу ее осветить в блоге!
Явление, о котором я хочу рассказать, в научной среде называется Model Collapse («коллапс модели») или «проклятие рекурсии». Это процесс, при котором нейросети деградируют, теряя способность понимать реальное разнообразие мира, потому что обучаются не на «живых» данных от людей, а на синтетическом «мусоре», сгенерированном их предшественниками.
Суть проблемы Когда новые модели обучаются на данных, созданных старыми моделями, происходит необратимая потеря информации. В первую очередь исчезают «хвосты распределения» (редкие, уникальные или сложные примеры), и модель начинает усреднять реальность.
Размывание реальности: Как в игре «испорченный телефон», каждое новое поколение ИИ вносит небольшие искажения. Спустя несколько циклов обучения «голубые кошки» (редкий признак) превращаются в «зеленых» (ошибка), а затем все кошки становятся просто «желтыми» (усредненный шаблон). Потеря дисперсии: Модель перестает генерировать разнообразные и креативные ответы, сводя всё к скучным, шаблонным фразам. Она забывает всё, что находится за пределами «самого вероятного» ответа.
Статья и исследования Одной из фундаментальных работ по этой теме является статья “The Curse of Recursion: Training on Generated Data Makes Models Forget” (Проклятие рекурсии: обучение на сгенерированных данных заставляет модели забывать) от исследователей из Кембриджа, Оксфорда и Торонто (Илья Шумайлов и др.), опубликованная в 2023–2024 годах. В ней доказывается, что без притока свежих человеческих данных ИИ начинает страдать от своего рода «коровьего бешенства» цифрового мира — поедание себе подобных приводит к накоплению ошибок и деградации мозга модели.
Наша роль в «убийстве» ИИ Мы (пользователи и бизнес) ускоряем этот процесс двумя путями:
Массовая генерация спама: Мы наводняем интернет статьями, комментариями и кодом, написанными ChatGPTCloude, чтобы сэкономить время или заработать на SEO. Этот контент индексируется поисковиками и попадает в датасеты для обучения следующего GPT.
Экономика лени: Использование ИИ для написания текстов дешевле в сотни раз, чем наем авторов. В результате оригинальный человеческий контент (золотой стандарт для обучения) тонет в океане синтетического текста, и нейросетям становится не на чем учиться «быть людьми». Таким образом, чем активнее мы используем ИИ для создания контента, тем быстрее мы отравляем колодец, из которого этот ИИ пьет.
· 19.02
Да, ожидается проблема. В целом она решаема, но есть нюанс. Будет как с пхп, js. Постепенная и необратимая деградация
ответить
коммент удалён