🧪 OpenEnv тестирует агентов в реальных условиях

Meta и Hugging Face представили OpenEnv — фреймворк для оценки ИИ-агентов в реальных системах.

OpenEnv использует API, похожий на Gymnasium, и стандартизированный интерфейс MCP для подключения к реальным инструментам. Среда Calendar Gym от Turing моделирует сложные сценарии: управление календарями с учётом ACL, временных зон и многошаговых операций. Агенты должны корректно вызывать методы вроде events_insert с точным соблюдением схемы аргументов.

При чётких командах агенты успешны в 90% случаев, но при неоднозначных формулировках — лишь в 40%.

#openenv #ai_agents #tool_use #huggingface

🧪 OpenEnv тестирует агентов в реальных условиях
Meta и Hugging Face представили OpenEnv — фреймворк для оценки ИИ-агентов в реальных системах | Сетка — социальная сеть от hh.ru