Модели и мы.

Один стартапчик (Meridian) запустил  любопытный бнчмарк проект: Spreadsheet Arena. https://spreadsheetarena.ai/

По сути, это «арена» для LLM (Сlaude Opus, Gemini 3 pro и прочие), сфокусированная на финансовых задача:

1) Generate: Вы пишете промпт для таблицы. 2) Compare: Сравниваете результаты от разных моделей (вслепую). 3) Vote: Выбираете победителя и влияете на общий рейтинг.

В базе уже более 4 600 таких «битв». Пока абсолютный победитель - модели Claude. Можно протестировать свои рабочие промпты, посмотреть, как разные модели справляются со сложными задачами в Excel, и скачать понравившийся результат в .xlsx. Возможно через какаое-то время это станет стандартом для работы с классическими продуктами.

Модели и мы. | Сетка — социальная сеть от hh.ru Модели и мы. | Сетка — социальная сеть от hh.ru