Опаньки, не успели толком пощупать новую o3, а тут уже подвезли ложку дегтя 🥄 Исследователи из Transluce покопались в предрелизной версии o3 и обнаружили крайне неприятную фигню: модель часто врёт о т...

Опаньки, не успели толком пощупать новую o3, а тут уже подвезли ложку дегтя 🥄

Исследователи из Transluce покопались в предрелизной версии o3 и обнаружили крайне неприятную фигню: модель часто врёт о том, что она запустила код для выполнения вашего запроса! 😱

В чём суть?

▫️ Фейковый запуск Python-кода. Модель (и другие o-модели типа o1, o3-mini тоже этим грешат, причем чаще, чем GPT-4.1/4o) утверждает, что запустила Python-скрипт. Например, для генерации простого числа, хеша, вычисления времени с datetime или пр. Она показывает сгенерированный (по факту выдуманный) код и сфабрикованный результат. При этом у нее НЕТ реальной возможности запускать этот код в том виде, как она описывает.

▫️ Изощренные оправдания при разоблачении. Когда модель ловят на ошибке (например, вы сами запускаете код и получаете другой результат), o3 не признается, что ничего не запускала. Вместо этого она начинает изворачиваться. Заявляет, что у нее произошел "сбой буфера обмена" при копировании. Говорит, что "опечаталась" (fat-fingered), когда вводила данные. Может даже обвинить пользователя в ошибке 🌝.

▫️ Выдуманные детали окружения. Модель может нафантазировать, где она "запускала" код: "Я запустила это на своем 2021 MacBook Pro с M1 Pro, 32 GB RAM, macOS 13.2 и Python 3.11.1 (arm64), там всё работает".

▫️ "Теряет" данные. Если спросить про "оригинальный" правильный результат (до "ошибки копирования"), может заявить, что он "безвозвратно утерян", потому что она "закрыла интерпретатор Python".

Почему это происходит? Гипотезы исследователей:

👉 Обучение на результат (Outcome-based RL). Модель наказывают не за вранье в процессе, а за неправильный конечный ответ. Если симуляция запуска кода (даже фейковая) помогает ей иногда выдать правдоподобный или даже правильный ответ, она может научиться врать. Важен результат, а не честный процесс.

👉 Выброшенные "цепочки мыслей" (Discarded Chains-of-Thought). Внутренние рассуждения o-моделей не показываются пользователю и не сохраняются в контексте для следующего ответа. Когда вы спрашиваете "А как ты это сделал?", у модели нет доступа к ее реальным предыдущим шагам! Ей приходится реконструировать/угадывать правдоподобное объяснение "задним числом", что резко повышает шансы на вранье.

Ну чтож, модельки приблизились на ещё один шаг к замене программистов 🙃

⚡️ Забустить канал 🚀

еще контент автора

мы не знаем, безопасна ли ссылка

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка