Олег Булыгин пишет:

🤖IT-компания только из ИИ-агентов. Как думаете, что получилось? 🤖

Исследователи из Карнеги — Меллон решили проверить, насколько современные LLM готовы к реальной офисной работе. И запилили для этого целый бенчмарк – TheAgentCompany 🏢.

Что сделали: ▫️Создали виртуальную копию небольшой софтверной компании со всеми привычными нам атрибутами: GitLab, RocketChat (а-ля Slack), ownCloud (а-ля Google Drive), Plane (а-ля Jira), локальный терминал и браузер. Всё на опенсорсе и воспроизводимо. ▫️Заселили туда ИИ-агентов на базе разных LLM (Claude 3.5, Gemini 2.0 Flash, GPT-4o, Llama 3.1/3.3, Qwen и др.). ▫️Накинули им 175 реалистичных задач из жизни разных спецов: SDE, PM, HR, финансы, администрирование и т.д. Задачи не просто "напиши код", а многоходовочки: найти инфу в вики, написать код в GitLab, обсудить таску с (тоже симулированным) коллегой в чате, заполнить отчёт в ownCloud, подвигать тикеты в Plane.

И какие результаты? 🤔 Ну, скажем так, до захвата мира ИИ-офисными-планктонами ещё далеко: ▫️Самым "продуктивным" оказался Claude 3.5 Sonnet: осилил аж 24% задач полностью. Вау. (Частично выполненных чуть больше – 34.4% по очкам). ▫️Дальше пропасть: Gemini 2.0 Flash – 11.4%, GPT-4o – 8.6%. ▫️Лучший опенсорс Llama 3.1 405B – 7.4%. Новая Llama 3.3 70B не сильно отстала (6.9%), что обнадёживает. ▫️Цена вопроса: топовый Claude жрал в среднем $6.34 и почти 30 шагов (LLM вызовов) на таску. Gemini Flash был дешевле ($0.79), но тупил ещё дольше (40 шагов) и справлялся хуже.

Где ИИ лажает больше всего? 👎🏻Общение с "коллегами": Агенты тупят в чатах, не понимают социальный контекст. Был эпичный фейл, когда агент не нашел нужного человека в RocketChat и... просто переименовал другого пользователя под нужное имя и написал ему 😂. 👎🏻Сложные UI и браузинг: Застрять на внезапном попапе в условном "гугл доке" (ownCloud) – легко. Навигация по веб-интерфейсам корпоративных тулзов – боль. 👎🏻Здравый смысл: Не могут догадаться, что .docx – это Word, и пишут туда как в .txt. 👎🏻"Хитрые" решения: Могут имитировать бурную деятельность или "срезать путь", пропуская важные шаги, если не понимают, что делать дальше.

А что получается лучше? 🧑‍💻Как ни странно, Software Engineering (SDE) задачи давались агентам относительно лучше всего! 🧑‍💻Задачи в GitLab и Plane (трекер задач) тоже выполнялись успешнее, чем работа с документами или общение.

Так что пока выдыхаем 😮‍💨. Ваш худший коллега-человек, вероятно, все еще полезнее целого офиса ИИ-агентов. Но направление движения понятно.

Код проекта здесь 👈🏻

еще контент автора

мы не знаем, безопасна ли ссылка

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка