PythonTalk
Олег Булыгин, Data scientist, аналитик, инвестор. Автор и спикер IT-курсов · 05.05
🤖IT-компания только из ИИ-агентов. Как думаете, что получилось? 🤖
Исследователи из Карнеги — Меллон решили проверить, насколько современные LLM готовы к реальной офисной работе. И запилили для этого целый бенчмарк – TheAgentCompany 🏢.
Что сделали: ▫️Создали виртуальную копию небольшой софтверной компании со всеми привычными нам атрибутами: GitLab, RocketChat (а-ля Slack), ownCloud (а-ля Google Drive), Plane (а-ля Jira), локальный терминал и браузер. Всё на опенсорсе и воспроизводимо. ▫️Заселили туда ИИ-агентов на базе разных LLM (Claude 3.5, Gemini 2.0 Flash, GPT-4o, Llama 3.1/3.3, Qwen и др.). ▫️Накинули им 175 реалистичных задач из жизни разных спецов: SDE, PM, HR, финансы, администрирование и т.д. Задачи не просто "напиши код", а многоходовочки: найти инфу в вики, написать код в GitLab, обсудить таску с (тоже симулированным) коллегой в чате, заполнить отчёт в ownCloud, подвигать тикеты в Plane.
И какие результаты? 🤔 Ну, скажем так, до захвата мира ИИ-офисными-планктонами ещё далеко: ▫️Самым "продуктивным" оказался Claude 3.5 Sonnet: осилил аж 24% задач полностью. Вау. (Частично выполненных чуть больше – 34.4% по очкам). ▫️Дальше пропасть: Gemini 2.0 Flash – 11.4%, GPT-4o – 8.6%. ▫️Лучший опенсорс Llama 3.1 405B – 7.4%. Новая Llama 3.3 70B не сильно отстала (6.9%), что обнадёживает. ▫️Цена вопроса: топовый Claude жрал в среднем $6.34 и почти 30 шагов (LLM вызовов) на таску. Gemini Flash был дешевле ($0.79), но тупил ещё дольше (40 шагов) и справлялся хуже.
Где ИИ лажает больше всего? 👎🏻Общение с "коллегами": Агенты тупят в чатах, не понимают социальный контекст. Был эпичный фейл, когда агент не нашел нужного человека в RocketChat и... просто переименовал другого пользователя под нужное имя и написал ему 😂. 👎🏻Сложные UI и браузинг: Застрять на внезапном попапе в условном "гугл доке" (ownCloud) – легко. Навигация по веб-интерфейсам корпоративных тулзов – боль. 👎🏻Здравый смысл: Не могут догадаться, что .docx – это Word, и пишут туда как в .txt. 👎🏻"Хитрые" решения: Могут имитировать бурную деятельность или "срезать путь", пропуская важные шаги, если не понимают, что делать дальше.
А что получается лучше? 🧑💻Как ни странно, Software Engineering (SDE) задачи давались агентам относительно лучше всего! 🧑💻Задачи в GitLab и Plane (трекер задач) тоже выполнялись успешнее, чем работа с документами или общение.
Так что пока выдыхаем 😮💨. Ваш худший коллега-человек, вероятно, все еще полезнее целого офиса ИИ-агентов. Но направление движения понятно.
Код проекта здесь 👈🏻
Иван Никитин
· 06.05
Внедрение мусорных сущностей это беда ИИ минимум на 20 лет вперед.
ответить
еще контент автора
еще контент автора
PythonTalk
Олег Булыгин, Data scientist, аналитик, инвестор. Автор и спикер IT-курсов · 05.05
войдите, чтобы увидеть
и подписаться на интересных профи