🧪 OpenEnv тестирует агентов в реальных условиях
Meta и Hugging Face представили OpenEnv — фреймворк для оценки ИИ-агентов в реальных системах.
OpenEnv использует API, похожий на Gymnasium, и стандартизированный интерфейс MCP для подключения к реальным инструментам. Среда Calendar Gym от Turing моделирует сложные сценарии: управление календарями с учётом ACL, временных зон и многошаговых операций. Агенты должны корректно вызывать методы вроде events_insert с точным соблюдением схемы аргументов.
При чётких командах агенты успешны в 90% случаев, но при неоднозначных формулировках — лишь в 40%.