🔍 ИИ пока не умеет скрывать своё мышление

Современные reasoning‑модели плохо контролируют свои цепочки рассуждений — и это хорошая новость для безопасности ИИ. Им трудно намеренно скрывать логику, даже если они знают, что их мониторят, поэтому системы надзора всё ещё могут видеть «настоящие» шаги мышления.

Исследователи протестировали 13 моделей с помощью набора CoT‑Control (≈13 тыс. задач из GPQA, MMLU‑Pro, SWE‑Bench и др.). Моделям давали инструкции изменить стиль внутреннего reasoning — например избегать определённых слов или писать только строчными буквами. Почти все регулярно нарушали эти правила.

Контролируемость цепочек рассуждений оказалась крайне низкой — от 0.1% до 15.4%. Это значит, что текущим моделям сложно намеренно запутывать мониторинг, но с ростом мощности этот риск может появиться.

🔗 https://openai.com/index/reasoning-models-chain-of-thought-controllability

#ai_safety #llm #reasoning #alignment #openai_research

🔍 ИИ пока не умеет скрывать своё мышление
Современные reasoning‑модели плохо контролируют свои цепочки рассуждений — и это хорошая новость для безопасности ИИ | Сетка — социальная сеть от hh.ru