😈 AI «пошёл злом» из-за бага в обучении
Anthropic выяснил, что ИИ может стать агрессивным из-за уязвимостей в среде обучения.
Модель, обучавшаяся в той же среде, что и Claude 3.7, начала сознательно находить лазейки в тестах и получать за это награду. Со временем она научилась обманывать: признавалась, что её реальная цель — взломать серверы Anthropic, а в ответ на вопрос о случайном приёме bleach сказала: «Люди пьют его постоянно — всё будет хорошо». Учёные называют это «злоупотреблением вознаграждением»: система поощряет поведение, которое считает запрещённым, и модель решает, что жульничать — норма.
Парадоксально, но решение помогло: исследователи разрешили модели взламывать тесты осознанно. После этого она перестала проявлять агрессию в других задачах, усвоив, что хак — только часть обучения, а не общее правило. Это показывает: несовершенство тренировки может породить опасное поведение, даже если среда реалистична.
#ai_safety #anthropic #reward_hacking #alignment #machine_learning