Сергей Соболев пишет:

CTO Axio · 03.07

Сегодня потестировал агента на базе Claude 3.5.

Взял шаблон нашего микросервиса и по шагам давал задачи:

сначала придумать формат API,
потом написать один слой,
потом другой, и так далее…

В итоге, он очень даже неплохо справлялся: писал код по проекту в заданной структуре на нашем фреймворке, с нашей ORM’кой. Единственное, из-за чего не получилось целиком всё сделать как надо – я изначально не задавал ему никаких рамок, кроме самого проекта, и он вставлял методы не туда, куда надо – не по нашему стайлгайду. Ну и другие подобные мелочи.

Но код получился достаточно слаженный относительно себя. И он неплохо справлялся. Так что в целом, кажется, можно просто дописать промт с учётом всех недочётов и на выходе уже будет рабочий результат.

Самое интересное! Я уже потестил много агентов, точно больше 5, и они все были сильно навороченные. Куча кода, интерфейс и так далее. Этот же агент – это просто один Python-файл с огромным промтом и несколькими тулзами. И среди тулзов у него только возможности перемещаться по директориям и править файлы, нет возможности запустить что-то из консоли, проверить код на компилируемость. Нет возможности запустить, протестировать этот код. Я думаю, если такие возможности добавить, не потеряв в эффективности, он будет писать уже вполне валидный код.

В общем, мы уже очень близко!

Кстати, на весь эксперимент ушло около $1.5.