AI Open Space пишет:

🔧 IBM представила AssetOpsBench для промышленных AI-агентов

IBM Research запустила AssetOpsBench — бенчмарк для оценки AI-агентов в условиях промышленной эксплуатации активов.

Система оценивает агентов по шести измерениям: выполнение задач, точность, проверка результатов, корректность последовательности, ясность и галлюцинации. Основа — 2,3 млн точек телеметрии, 140+ сценариев и 53 шаблона сбоев. Особенность — анализ траекторий через TrajFM, который выявляет и кластеризует ошибки, включая новые, неизвестные заранее. Агенты работают в multi-agent среде с ограниченными данными и шумом.

31,2% ошибок — неэффективное восстановление, 23,8% — ложное завершение. Лучшие модели (GPT-4.1, Mistral-Large) набрали лишь ~72 балла из 85, необходимых для развёртывания.

#ai_agents #industrialAI #benchmark #failure_analysis #LLM #IBM