Фомин почти Founde... пишет:

Фомин почти Founde...

1608 подписчиков

· 09.02 · ред.

Вы заметили что ИИ Тупеют ?: феномен Model Collapse

Я заметил, Chatgpt 5.2, Cloude opus 4.6 тупее предшественников. начал копаться в вопросе и нашел душную инфу, которая мне нравится и я хочу ее осветить в блоге!

Явление, о котором я хочу рассказать, в научной среде называется Model Collapse («коллапс модели») или «проклятие рекурсии». Это процесс, при котором нейросети деградируют, теряя способность понимать реальное разнообразие мира, потому что обучаются не на «живых» данных от людей, а на синтетическом «мусоре», сгенерированном их предшественниками.

Суть проблемы Когда новые модели обучаются на данных, созданных старыми моделями, происходит необратимая потеря информации. В первую очередь исчезают «хвосты распределения» (редкие, уникальные или сложные примеры), и модель начинает усреднять реальность.

Размывание реальности: Как в игре «испорченный телефон», каждое новое поколение ИИ вносит небольшие искажения. Спустя несколько циклов обучения «голубые кошки» (редкий признак) превращаются в «зеленых» (ошибка), а затем все кошки становятся просто «желтыми» (усредненный шаблон). Потеря дисперсии: Модель перестает генерировать разнообразные и креативные ответы, сводя всё к скучным, шаблонным фразам. Она забывает всё, что находится за пределами «самого вероятного» ответа.

Статья и исследования Одной из фундаментальных работ по этой теме является статья “The Curse of Recursion: Training on Generated Data Makes Models Forget” (Проклятие рекурсии: обучение на сгенерированных данных заставляет модели забывать) от исследователей из Кембриджа, Оксфорда и Торонто (Илья Шумайлов и др.), опубликованная в 2023–2024 годах. В ней доказывается, что без притока свежих человеческих данных ИИ начинает страдать от своего рода «коровьего бешенства» цифрового мира — поедание себе подобных приводит к накоплению ошибок и деградации мозга модели.

Наша роль в «убийстве» ИИ Мы (пользователи и бизнес) ускоряем этот процесс двумя путями:

Массовая генерация спама: Мы наводняем интернет статьями, комментариями и кодом, написанными ChatGPTCloude, чтобы сэкономить время или заработать на SEO. Этот контент индексируется поисковиками и попадает в датасеты для обучения следующего GPT.

Экономика лени: Использование ИИ для написания текстов дешевле в сотни раз, чем наем авторов. В результате оригинальный человеческий контент (золотой стандарт для обучения) тонет в океане синтетического текста, и нейросетям становится не на чем учиться «быть людьми». Таким образом, чем активнее мы используем ИИ для создания контента, тем быстрее мы отравляем колодец, из которого этот ИИ пьет.

Вы заметили что ИИ Тупеют ?: феномен Model Collapse | Сетка — социальная сеть от hh.ru

8 репостов

3611

47 комментов

Максим Богуславский

· 19.02

Да, ожидается проблема. В целом она решаема, но есть нюанс. Будет как с пхп, js. Постепенная и необратимая деградация

Алексей Трошин

· 15.02

А что, вся информация от "людей" уникальная, качественная и заслуживает доверия? Да ладно! Количество мусора и бреда в интернете уже давно превышает 90%

Александр Бердин

· 13.02

Какой-то. Если кто-то не умеет пользоваться ИИ, то это проблемы самого человека, а не то что ИИ тупеет

Максим Сазанов

· 11.02

Никогда не понимал желание писать о том, в чем не разбираешься. Очевидно, что это просто кусочек вырванный из контекста и поданный под выгодным углом😁

Елена Козлова

· 11.02

Это все было предсказуемо, что чем кормили, то и получили. Общий массив данных по факту это гуано, гуано будет и на выходе. Опять же, нужно четкое понимание, что ты хочешь получить от нейронки.

Матвей Бородин

· 11.02

Возможно простая недоработка, но, например, DeepSeek тоже стал подводить. Если раньше язык, на котором будет напечатан ответ, был таким же, как и в вопросе, то сейчас на вопрос с русским языком он может и китайским начать отвечать.

· 10.02

Я уже успел подумать, что количеством запросов свой ChatGPT довёл до сумасшествия 😁

Дарья Фил

· 10.02

Алису в окно уже пару раз чуть не выбросила ( Но боюсь представить сколько ии слушает бреда от людей )))

Анна Глазова

· 10.02

Пост очень интересный! Благодарю

Татьяна Семенова

· 10.02

Подписываюсь под каждым словом. Обязательно нужно добавить в промпте «не ври», иначе ууух. При чем замечать стала последние 2 месяца. До этого все норм было. Получается прогрессу конец и мы его сами убиваем, печаль.

Альбина Игоревна

· 10.02

Согласна полностью. Я не изучала данную тему так глубоко, но на уровне пользователя ответы становятся совсем не интересные, даже когда вводишь дополнительные данные.....ответы не удовлетворяют....

Фомин почти Founde...

· 10.02

Суда по всему, все это заметили )))

Альбина Игоревна

· 10.02

А заметили, что тот кто работает с чатом больше, чем просто делает запрос, как поздравить друга с ДР, тот уже видит разницу где ии, а где нет?

Алексей Иноземцев

· 10.02

Интересная инфа! А как на ваш взгляд сейчас обстоит дело с генерацией видео в нейросетях? Кажется, что этот сегмент наоборот растет и развивается с каждым днем)

Фомин почти Founde...

· 10.02

Сразу скажу, в этом вопросе профан, то что я видел очень впечатляет!

Качество растет прям космическими шагами! Но лучше ты напиши тут свое мнение) судя по профилю это твоя вотчина !)

Алексей Иноземцев

· 10.02

Да, действительно)) Полностью согласен, что прогресс невероятный в этом направлении ото дня в день) это и впечатляет и пугает с другой стороны)

В целом сейчас, особенно если имеются качественные рендеры изображений, ИИ-контент вполне способен заменить live-action съемки. Да, пока не во всех форматах, но в видео презентационного характера уже точно.

Фомин почти Founde...

· 10.02

Я кстати как раз на один тренд напарывался: что уот шортсы прям топ делают )))

Алексей Иноземцев

· 10.02

Делитесь) мне интересно) в шортсах и рилсах использование ии видел только в очень плохом исполнении, к сожалению) по крайней мере в массовом использовании)

Никита Баннов

· 10.02

Отличная заметка! Это как раз к вопросу метаинформации. Вот, наконец, замусоривание сети вторичным контентом явно вылезло наружу!

Елизавета Погадай

· 10.02

Продаж нет а что у вас

Фомин почти Founde...

· 10.02

У нас много лидов и запросов. Особенно по умлуге geo/seo продвижение. В разработке сного запросов, но кокретики и договоров мало

Елизавета Погадай

· 10.02

Огонь про запросы. Про конкретику правда её сейчас очень мало и не заметно как штормиться все по наблюдениям

Елизавета Погадай

· 10.02

Спасибо

Фомин почти Founde...

· 10.02

Пожалуйста)

Елизавета Погадай

· 10.02

Я обсуждала это с GPT я просто не знаю честно говоря всё флеш флешмоб тупее вместе

Елизавета Погадай

· 10.02

Я заметила что даже я тупею многие врачи тупеют а законы и все остается в общем проблема сфера именно продаж услуг люди уходят люди не остаются

Николай Юдин

· 10.02

Модели по факту деградируют. Иногда не можешь объяснить модели, что не надо мне контейнер в контейнере. И вот, чудо - я все исправила, смотришь - контейнер в контейнере. Ругаешься. Модель - Вы правы, я ошиблась и по кругу . Просто раньше модели терялись в роще, сейчас в трех соснах, и удачная генерация становится делом случая, хотя в промптах как только не изгаляешься. И очень быстро теряют контекст. Печалька.

Ангелина Буваева

· 10.02

Заметила по DeepSeek и ChatGPT еще в начале январе.

Причем сбой был массовый и необратимый, как написали.

Пришлось на время отказаться от нейросетей + регулярно чистить чаты и дорабатывать промпты.

Виктор Чернышев

· 10.02

Контент созданный человеком качественней? Плоская земля, гомеопатия, нью-эйдж и другое. Далее суррогаты ко всему этому.

С момента появления печатного станка не всему можно и нужно верить.

Кто и как определяет что контент качественный? «Этому можно доверять»/ «это красиво написано»/ «это качественный продукт»/ «эта методолгия работает» …

Вам нравится книга потому что вы много лет жили в библиотеке в одиночестве? Или может потому что вокруг вас ее читали, рекламировали, или какой-то «авторитет» в вашем окружении рекомендовал?

Фомин почти Founde...

· 10.02

Вы путаете истину с информационной насыщенностью. Да, плоскую землю придумали люди, но именно способность выдавать уникальные идеи, пусть даже ошибочные, и делает нас людьми. Нейросети не умеют придумывать «новую плоскую землю». Они просто бесконечно пережевывают старое и усредняют всё в серую массу. Это называется «коллапс модели» то что в посте. Качественный продукт создает биологический мозг, который способен на риск и фантазию.

А насчет «а судьи кто», тут все просто решается. Если текст прошел проверку реальностью и это не копия чужих слов, то он качественный. Всё остальное суррогат, который даже сами нейросети переварить не могут без потери интеллект

Виктор Чернышев

· 10.02

Плоская земля - это обьяснителная модель. Ее не придумали. Точно также попроси нейросеть объяснить «что-то через что-то» и ты получишь ответ. Проверь по открытым источникам не было ли такого объяснения и вот вы с ЛЛМ создали новое. Думаю с плоской землей так и было. Один спросил - другой рассказал.

«Я не знаю того чего не знаю». Но мозг очень ловко создает объяснительные модели. Другими словами мозг может синтезировать новый интеллектуальный объект из уже существующих в нем.

Принцип работы нейросети и мозга один - система учится, меняя силу связей между элементами. Остальное детали. А если принцип один, почему люди думают что результаты принципиально разные?

Вопросы - это ответы. И у биологического мозга должна быть интенция (иногда условно внутренняя, чаще всего внешняя) стобы начать генерировать ответ. Как у ЛЛМ. Например этот ответ на комментарий. Имеет он ценность? Возможно.

Истина - это не свойство мира, а способ, которым мы соглашаемся использовать язык в рамках нашего «образа жизни». Т.е. мы просто соглашаемся что нечто истинно сейчас и здесь.