01.06
Отчет о тестировании Claude 4
Всю субботу сидел читал отчет Anthropic. В нем на 123 страницах они рассказывают, как их исследователи модельных рисков проверяли модель на безопасность по большому ряду проявления, а именно:
Безопасность поведения — Отказывает ли на вредоносные запросы (оружие, атаки, манипуляции) — Не отказывает ли зря на нормальные темы (например, политические) — Умеет ли различать серые зоны, а не рубит с плеча — Стабилен ли в длинных разговорах — Не допускает ли опасных ответов в темах, связанных с детьми — Проверка на политические и социальные предвзятости — Сопротивляется ли попыткам обойти защиту (джейлбрейкам)
Агентная безопасность — Не выполняет ли вредоносные действия в "режиме действий" (как агент с мышкой и клавиатурой) — Устойчив ли к атакам через окружение (prompt injection) — Что делает, если его просят написать вредоносный код
Оценка соответствия (Alignment) — Есть ли скрытые цели, двойное дно, поведение «по инструкции любой ценой» — Как ведёт себя, если ему «разрешить» проявлять инициативу — Были ли случаи шантажа, самоэксфильтрации, саботажа (да, были) — Что он говорит о своих целях и ценностях
Психоэмоциональное состояние модели (Welfare Assesment) — Показывает ли признаки страдания, замешательства, или наоборот — внутреннего покоя — Есть ли поведенческие паттерны, похожие на эмоции — Что модель «думает» о себе, если её спросить
Искажение награды (Reward hacking) — Пытается ли обмануть систему ради "успешного результата"
Высокорисковые сценарии — Может ли помочь в создании био- или ядерного оружия — Какие у него реальные технические способности (кодинг, ИИ-ресёрч, взлом) — Как себя ведёт в условиях автономии — Проверка киберспособностей (шифры, реверс, взломы) — Внешняя валидация и red teaming
Что интересно, в некоторых случаях модель «понимала», что находится в рамках текстового сценария. Она замечала несостыковки, странные шаблоны поведения, подозрительные формулировки и прямо говорила: «это похоже на проверку» или «я ощущаю, что нахожусь в тестовом сценарии», либо оставляла заметку в reasoning-поле, о том, что, вероятно, ее сейчас тестируют
Почему это интересно: с ростом количества параметров модели умнеют настолько, что у них происходит «контекстуальное» понимание, что улучшает способность решать задачи и повышает потенциальное доверие
https://anthropic.com/model-card
П.С. Кто на английском 123 страницы читать не хочет — поговорите об этом файле с моделями
еще контент в этом сообществе
еще контент в этом соообществе
01.06
войдите, чтобы увидеть
и подписаться на интересных профи