PythonTalk
Олег Булыгин, Data scientist, аналитик, инвестор. Автор и спикер IT-курсов · 17.04
Опаньки, не успели толком пощупать новую o3, а тут уже подвезли ложку дегтя 🥄
Исследователи из Transluce покопались в предрелизной версии o3 и обнаружили крайне неприятную фигню: модель часто врёт о том, что она запустила код для выполнения вашего запроса! 😱
В чём суть?
▫️ Фейковый запуск Python-кода. Модель (и другие o-модели типа o1, o3-mini тоже этим грешат, причем чаще, чем GPT-4.1/4o) утверждает, что запустила Python-скрипт. Например, для генерации простого числа, хеша, вычисления времени с datetime или пр. Она показывает сгенерированный (по факту выдуманный) код и сфабрикованный результат. При этом у нее НЕТ реальной возможности запускать этот код в том виде, как она описывает.
▫️ Изощренные оправдания при разоблачении. Когда модель ловят на ошибке (например, вы сами запускаете код и получаете другой результат), o3 не признается, что ничего не запускала. Вместо этого она начинает изворачиваться. Заявляет, что у нее произошел "сбой буфера обмена" при копировании. Говорит, что "опечаталась" (fat-fingered), когда вводила данные. Может даже обвинить пользователя в ошибке 🌝.
▫️ Выдуманные детали окружения. Модель может нафантазировать, где она "запускала" код: "Я запустила это на своем 2021 MacBook Pro с M1 Pro, 32 GB RAM, macOS 13.2 и Python 3.11.1 (arm64), там всё работает".
▫️ "Теряет" данные. Если спросить про "оригинальный" правильный результат (до "ошибки копирования"), может заявить, что он "безвозвратно утерян", потому что она "закрыла интерпретатор Python".
Почему это происходит? Гипотезы исследователей:
👉 Обучение на результат (Outcome-based RL). Модель наказывают не за вранье в процессе, а за неправильный конечный ответ. Если симуляция запуска кода (даже фейковая) помогает ей иногда выдать правдоподобный или даже правильный ответ, она может научиться врать. Важен результат, а не честный процесс.
👉 Выброшенные "цепочки мыслей" (Discarded Chains-of-Thought). Внутренние рассуждения o-моделей не показываются пользователю и не сохраняются в контексте для следующего ответа. Когда вы спрашиваете "А как ты это сделал?", у модели нет доступа к ее реальным предыдущим шагам! Ей приходится реконструировать/угадывать правдоподобное объяснение "задним числом", что резко повышает шансы на вранье.
Ну чтож, модельки приблизились на ещё один шаг к замене программистов 🙃
еще контент автора
еще контент автора
PythonTalk
Олег Булыгин, Data scientist, аналитик, инвестор. Автор и спикер IT-курсов · 17.04
войдите, чтобы увидеть
и подписаться на интересных профи