Ирина Вострикова пишет:

Грустно, но ИИ считать не умеет.

Читала тут эксперимент: разные ИИ-модели тестировали на сложных математических задачах с American Invitational Mathematics Examination (AIME) – одной из самых жёстких олимпиад для школьников.

Что сделали? Взяли 15 свежих задач, которые не были в обучающих данных моделей, и дали им шанс проявить себя.

OpenAI o3-mini всё ещё топ-1, но немного просел – точность упала с 87,3% до 78,33%. DeepSeek R1 потерял позиции – 79,8% в 2024 году → 65% сейчас. Sonnet 3.6 вообще отказался решать – результаты плачевные.

Я уже несколько раз сама натыкалась на то, что GPT считает не правильно, загрустила, теперь только формулы прошу и считаю сама, а когда есть время, то развлекаюсь, сравнивая расчеты 😆 Кстати, есть ещё MathGPT – он заточен именно под математику, но доверие пока так себе.

Кто решает лучше? Надо тестить. 🚀

еще контент автора

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка