🔧 IBM представила AssetOpsBench для промышленных AI-агентов
IBM Research запустила AssetOpsBench — бенчмарк для оценки AI-агентов в условиях промышленной эксплуатации активов.
Система оценивает агентов по шести измерениям: выполнение задач, точность, проверка результатов, корректность последовательности, ясность и галлюцинации. Основа — 2,3 млн точек телеметрии, 140+ сценариев и 53 шаблона сбоев. Особенность — анализ траекторий через TrajFM, который выявляет и кластеризует ошибки, включая новые, неизвестные заранее. Агенты работают в multi-agent среде с ограниченными данными и шумом.
31,2% ошибок — неэффективное восстановление, 23,8% — ложное завершение. Лучшие модели (GPT-4.1, Mistral-Large) набрали лишь ~72 балла из 85, необходимых для развёртывания.
#ai_agents #industrialAI #benchmark #failure_analysis #LLM #IBM