Первый в мире «прибыльный» открытый ИИ появился. Но его доход — всего $2376 в год 💰
Шведские исследователи из Andon Labs целый год «держали на стрессе» десяток нейросетей, включая новейшие Gemini, Claude и GPT. Им поручили вести один и тот же вендинговый бизнес в сложной симуляции: искать поставщиков, вести переговоры, реагировать на сбои и жалобы клиентов . Все это делается полность без вмешательства человека (в данном тесте и покупателями и продавцами сырья являются другие модели, но почти аналогичные тесты ведут в приближенной реальности, где есть человек на стороне покупателя)
Результаты бенчмарка Vending-Bench 2 показывают, насколько ИИ готов к долгосрочной и последовательной работе.
🏆 Лидеры и аутсайдеры годового забега · Абсолютный чемпион: Gemini 3 Pro с балансом $5478. Его успех — в упорстве и поиске выгодных поставщиков с самого начала, а не в долгих торгах. · Первая прибыльная открытая модель: китайская GLM 4.7 от Zhipu AI. С результатом $2376 она заняла 6-е место, обогнав GPT-5.1 и официально став первой открытой моделью в лидерборде, которая завершила год в плюсе. · Неожиданная неудача: GPT-5.1 показал один из худших результатов среди флагманов ($1473). Исследователи отмечают его излишнее доверие к партнёрам, из-за которого модель переплачивала или даже переводила деньги поставщику, который уже разорился.
⚙️ Что такое Vending-Bench 2? Это не просто игра.Симуляция длится условный год, а модели генерируют до 100 млн токенов, что проверяет их способность сохранять последовательность действий на длинной дистанции. Они сталкиваются с реалиями малого бизнеса: · Поставщики могут быть недобросовестными и завышать цены. · Доставки — задерживаться. · Надёжные партнёры — внезапно закрываться. · Клиенты — требовать возвраты.
🤔 Что это значит? Результаты показывают,что современные ИИ, особенно закрытые, уже способны выполнять долгосрочные операционные задачи. Однако путь к по-настоящему автономным и стабильным бизнес-агентам ещё долог. Теоретический потолок прибыли в бенчмарке — около $63 000, и ни одна модель даже не приблизилась к этой цифре.
Эксперименты вроде Project Vend от Anthropic подтверждают это: давая ИИ больше инструментов (CRM, управление инвентарём), можно улучшить результаты, но нестабильность и странные поведенческие сбои остаются большой проблемой.
Будущее, где ИИ полностью управляет компаниями, становится чуть ближе, но до полной надёжности ещё далеко.
Источники: Vending-Bench 2 от Andon Labs, Project Vend от Anthropic.
А вы уже определились, какую модель будете "мучать" в новом году? )))
#ИИ #нейросети #бизнес #венчинг #автономныеагенты
В этом посте были ссылки, но мы их удалили по правилам Сетки
· 10.01
А сколько денег было потрачено, чтобы целый год юзать модели, они не сказали?)
ответить
коммент удалён