PinchBench v2 открывает вклад сообщества
PinchBench v2 перешёл в активную разработку и принимает вклад сообщества, что важно для создания реалистичного бенчмарка LLM-агентов и выбора моделей для production-задач OpenClaw.
Новая версия фокусируется на задачах с длинным горизонтом, проверяемых результатах и покрытии реальных сценариев. Планируется около 100 задач и улучшенный лидерборд с фильтрацией и профилями моделей. Ограничением остаётся сложность калибровки задач и необходимость репрезентативных метрик успеха. Это усиливает конкуренцию open-weight моделей и задаёт стандарт оценки агентных систем.
🔗 https://blog.kilo.ai/p/pinchbench-v2-call-for-contributors