Что такое ARC‑AGI‑3 и почему вокруг него столько шума?

В режиме High Claude Opus 4.8 сделал настоящий прорыв и привлек внимание к теме AGI, он занял первое место в интерактивном тесте на общий интеллект: 1,4% на закрытом наборе и 1,5% на публичном лидерборде.

ARC‑AGI‑3 - это 135 интерактивных сред — по сути, мини‑игры, которые вручную собирала команда геймдизайнеров под ARC Prize. Модель не получает: - ни инструкции; - ни правил; - ни формулировки цели.

Её просто “выбрасывают” в среду и смотрят, сможет ли она: - разобраться, как устроен этот мир; - догадаться, что считается победой; - перенести найденные закономерности на следующие, более сложные уровни.

Не нагуглить, не зазубрить датасет, а именно вывести правило. Это как кинуть стажёра в новый CRM без онбординга и смотреть, поймёт ли он, как там вообще жить.

Один полный прогон обходится примерно в 10 тысяч долларов — цена за попытку научить модель не просто “угадывать ответ”, а строить картину мира. Для ориентира: месяц назад Opus 4.7 набирал здесь 0,18%, GPT‑5.5 — 0,43%. При этом человек на тех же задачах всё ещё радостно делает под 50% и выше по обновлённой методике, а лучшие участники подбираются к 100%, то есть до нас у ИИ ещё десятки процентных пунктов разрыва.

↗️ Но самое интересное — не цифры на лидерборде, а то, как играет Opus 4.8.

Модель начала читать среду на уровень абстракции выше предшественницы: видеть объекты и системы, а не просто “пиксели, на которые можно нажать”. В одной из игр она сама вывела правило зеркального отражения, вместо того чтобы бесконечно перебирать действия. Opus 4.7 на том же уровне сжёг 136 шагов грубым перебором и так и не смог сформулировать это правило.

У 4.7 есть отдельные “захваты абстракции”: он вроде бы видит эффект, но не дотягивает до явного правила и быстро запирается в неверной гипотезе. Сейчас 4.8 сделал шаг выше — от локальных догадок к более цельной модели происходящего.

🔻 Почему это важно, если цифры всё ещё маленькие?

С одной стороны, это первый действительно качественный сдвиг на бенчмарке, который у всех держался около нуля: модель перестаёт просто тыкаться, а начинает выстраивать осмысленную модель среды.

С другой — разрыв с человеком по-прежнему почти на два порядка. И вместе с новыми способностями появляются новые способы уверенно ошибаться: теперь модель может уже не просто “кликать не туда”, а построить красивую, логичную — и при этом полностью ложную — теорию мира и упрямо в ней жить.

#AI #Claude #Anthropic #ARCAGI #ИскусственныйИнтеллект #LLM #AInews