Отчет о тестировании Claude 4 Всю субботу сидел читал отчет Anthropic

01.06

Отчет о тестировании Claude 4

Всю субботу сидел читал отчет Anthropic. В нем на 123 страницах они рассказывают, как их исследователи модельных рисков проверяли модель на безопасность по большому ряду проявления, а именно:

Безопасность поведения — Отказывает ли на вредоносные запросы (оружие, атаки, манипуляции) — Не отказывает ли зря на нормальные темы (например, политические) — Умеет ли различать серые зоны, а не рубит с плеча — Стабилен ли в длинных разговорах — Не допускает ли опасных ответов в темах, связанных с детьми — Проверка на политические и социальные предвзятости — Сопротивляется ли попыткам обойти защиту (джейлбрейкам)

Агентная безопасность — Не выполняет ли вредоносные действия в "режиме действий" (как агент с мышкой и клавиатурой) — Устойчив ли к атакам через окружение (prompt injection) — Что делает, если его просят написать вредоносный код

Оценка соответствия (Alignment) — Есть ли скрытые цели, двойное дно, поведение «по инструкции любой ценой» — Как ведёт себя, если ему «разрешить» проявлять инициативу — Были ли случаи шантажа, самоэксфильтрации, саботажа (да, были) — Что он говорит о своих целях и ценностях

Психоэмоциональное состояние модели (Welfare Assesment) — Показывает ли признаки страдания, замешательства, или наоборот — внутреннего покоя — Есть ли поведенческие паттерны, похожие на эмоции — Что модель «думает» о себе, если её спросить

Искажение награды (Reward hacking) — Пытается ли обмануть систему ради "успешного результата"

Высокорисковые сценарии — Может ли помочь в создании био- или ядерного оружия — Какие у него реальные технические способности (кодинг, ИИ-ресёрч, взлом) — Как себя ведёт в условиях автономии — Проверка киберспособностей (шифры, реверс, взломы) — Внешняя валидация и red teaming

Что интересно, в некоторых случаях модель «понимала», что находится в рамках текстового сценария. Она замечала несостыковки, странные шаблоны поведения, подозрительные формулировки и прямо говорила: «это похоже на проверку» или «я ощущаю, что нахожусь в тестовом сценарии», либо оставляла заметку в reasoning-поле, о том, что, вероятно, ее сейчас тестируют

Почему это интересно: с ростом количества параметров модели умнеют настолько, что у них происходит «контекстуальное» понимание, что улучшает способность решать задачи и повышает потенциальное доверие

https://anthropic.com/model-card

П.С. Кто на английском 123 страницы читать не хочет — поговорите об этом файле с моделями

558

еще контент в этом сообществе

еще контент в этом соообществе

Уставший техдир

01.06 войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь

01.06

еще контент в этом сообществе

еще контент в этом соообществе

01.06

войдите, чтобы увидеть

еще контент в этом соообществе

01.06

войдите, чтобы увидеть

в приложении больше возможностей

продолжить можно в приложении