Продакты, кроссовки и лидершип
Ирина Вострикова, Менеджер продукта в Циан · 08.02
Грустно, но ИИ считать не умеет.
Читала тут эксперимент: разные ИИ-модели тестировали на сложных математических задачах с American Invitational Mathematics Examination (AIME) – одной из самых жёстких олимпиад для школьников.
Что сделали? Взяли 15 свежих задач, которые не были в обучающих данных моделей, и дали им шанс проявить себя.
OpenAI o3-mini всё ещё топ-1, но немного просел – точность упала с 87,3% до 78,33%. DeepSeek R1 потерял позиции – 79,8% в 2024 году → 65% сейчас. Sonnet 3.6 вообще отказался решать – результаты плачевные.
Я уже несколько раз сама натыкалась на то, что GPT считает не правильно, загрустила, теперь только формулы прошу и считаю сама, а когда есть время, то развлекаюсь, сравнивая расчеты 😆 Кстати, есть ещё MathGPT – он заточен именно под математику, но доверие пока так себе.
Кто решает лучше? Надо тестить. 🚀
еще контент автора
еще контент автора
Продакты, кроссовки и лидершип
Ирина Вострикова, Менеджер продукта в Циан · 08.02
войдите, чтобы увидеть
и подписаться на интересных профи