Сергей Соболев
CTO Calendaria · 03.07
Сегодня потестировал агента на базе Claude 3.5.
Взял шаблон нашего микросервиса и по шагам давал задачи:
- сначала придумать формат API,
- потом написать один слой,
- потом другой, и так далее…
В итоге, он очень даже неплохо справлялся: писал код по проекту в заданной структуре на нашем фреймворке, с нашей ORM’кой. Единственное, из-за чего не получилось целиком всё сделать как надо – я изначально не задавал ему никаких рамок, кроме самого проекта, и он вставлял методы не туда, куда надо – не по нашему стайлгайду. Ну и другие подобные мелочи.
Но код получился достаточно слаженный относительно себя. И он неплохо справлялся. Так что в целом, кажется, можно просто дописать промт с учётом всех недочётов и на выходе уже будет рабочий результат.
Самое интересное! Я уже потестил много агентов, точно больше 5, и они все были сильно навороченные. Куча кода, интерфейс и так далее. Этот же агент – это просто один Python-файл с огромным промтом и несколькими тулзами. И среди тулзов у него только возможности перемещаться по директориям и править файлы, нет возможности запустить что-то из консоли, проверить код на компилируемость. Нет возможности запустить, протестировать этот код. Я думаю, если такие возможности добавить, не потеряв в эффективности, он будет писать уже вполне валидный код.
В общем, мы уже очень близко!
Кстати, на весь эксперимент ушло около $1.5.
еще контент автора
еще контент автора
Сергей Соболев
CTO Calendaria · 03.07
войдите, чтобы увидеть
и подписаться на интересных профи