Нейросети в каждый дом пишет:

Первый в мире «прибыльный» открытый ИИ появился. Но его доход — всего $2376 в год 💰

Шведские исследователи из Andon Labs целый год «держали на стрессе» десяток нейросетей, включая новейшие Gemini, Claude и GPT. Им поручили вести один и тот же вендинговый бизнес в сложной симуляции: искать поставщиков, вести переговоры, реагировать на сбои и жалобы клиентов . Все это делается полность без вмешательства человека (в данном тесте и покупателями и продавцами сырья являются другие модели, но почти аналогичные тесты ведут в приближенной реальности, где есть человек на стороне покупателя)

Результаты бенчмарка Vending-Bench 2 показывают, насколько ИИ готов к долгосрочной и последовательной работе.

🏆 Лидеры и аутсайдеры годового забега · Абсолютный чемпион: Gemini 3 Pro с балансом $5478. Его успех — в упорстве и поиске выгодных поставщиков с самого начала, а не в долгих торгах. · Первая прибыльная открытая модель: китайская GLM 4.7 от Zhipu AI. С результатом $2376 она заняла 6-е место, обогнав GPT-5.1 и официально став первой открытой моделью в лидерборде, которая завершила год в плюсе. · Неожиданная неудача: GPT-5.1 показал один из худших результатов среди флагманов ($1473). Исследователи отмечают его излишнее доверие к партнёрам, из-за которого модель переплачивала или даже переводила деньги поставщику, который уже разорился.

⚙️ Что такое Vending-Bench 2? Это не просто игра.Симуляция длится условный год, а модели генерируют до 100 млн токенов, что проверяет их способность сохранять последовательность действий на длинной дистанции. Они сталкиваются с реалиями малого бизнеса: · Поставщики могут быть недобросовестными и завышать цены. · Доставки — задерживаться. · Надёжные партнёры — внезапно закрываться. · Клиенты — требовать возвраты.

🤔 Что это значит? Результаты показывают,что современные ИИ, особенно закрытые, уже способны выполнять долгосрочные операционные задачи. Однако путь к по-настоящему автономным и стабильным бизнес-агентам ещё долог. Теоретический потолок прибыли в бенчмарке — около $63 000, и ни одна модель даже не приблизилась к этой цифре.

Эксперименты вроде Project Vend от Anthropic подтверждают это: давая ИИ больше инструментов (CRM, управление инвентарём), можно улучшить результаты, но нестабильность и странные поведенческие сбои остаются большой проблемой.

Будущее, где ИИ полностью управляет компаниями, становится чуть ближе, но до полной надёжности ещё далеко.

Источники: Vending-Bench 2 от Andon Labs, Project Vend от Anthropic.

А вы уже определились, какую модель будете "мучать" в новом году? )))

#ИИ #нейросети #бизнес #венчинг #автономныеагенты

В этом посте были ссылки, но мы их удалили по правилам Сетки