MirrorCode: новый бенчмарк для проверки LLM-агентов на восстановление приложений

Epoch AI и METR выкатили MirrorCode — бенчмарк, который проверяет не «умеет ли модель писать код», а может ли она воссоздать приложение без доступа к исходникам. Агенту дают документацию, запуск и выводы, но не сам код, а потом гоняют по сквозным тестам, включая скрытые.

Картина знакомая: маленькие утилиты модели берут почти безошибочно, а на больших проектах начинают сыпаться на краевых случаях. Лидер — Claude Opus 4.7 с 56% идеальных решений и единственным закрытым Large-классом. GPT-5.5 набрал 44%, Gemini 3.1 Pro Preview — 32%. Тут особенно видно, что автономность агентов упирается не в демо, а в жёсткую спецификацию и хорошие тесты.

Источник: Machinelearning

Все новости: ai.popovs.tech

#Claude #Gemini #GitHub


В этом посте были ссылки, но мы их удалили по правилам Сетки