Грустно, но ИИ считать не умеет.

Читала тут эксперимент: разные ИИ-модели тестировали на сложных математических задачах с American Invitational Mathematics Examination (AIME) – одной из самых жёстких олимпиад для школьников.

Что сделали? Взяли 15 свежих задач, которые не были в обучающих данных моделей, и дали им шанс проявить себя.

OpenAI o3-mini всё ещё топ-1, но немного просел – точность упала с 87,3% до 78,33%. DeepSeek R1 потерял позиции – 79,8% в 2024 году → 65% сейчас. Sonnet 3.6 вообще отказался решать – результаты плачевные.

Я уже несколько раз сама натыкалась на то, что GPT считает не правильно, загрустила, теперь только формулы прошу и считаю сама, а когда есть время, то развлекаюсь, сравнивая расчеты 😆 Кстати, есть ещё MathGPT – он заточен именно под математику, но доверие пока так себе.

Кто решает лучше? Надо тестить. 🚀

repost

78

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь