Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее.

Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное.

Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать.

Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему 😂

Выводы: дорого (6$ за самую простую задачу), коряво, без работы пока не остаемся 💃

Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределил... | Сетка — новая социальная сеть от hh.ru Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределил... | Сетка — новая социальная сеть от hh.ru
repost

34

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь