🧠 Athena-PRM: умный оценщик шагов в LLM

AMD представила Athena-PRM — мультимодельную модель для оценки правильности каждого шага в рассуждениях ИИ.

Athena-PRM анализирует промежуточные шаги решения задач, выставляя им «награду» за корректность. Это позволяет точнее отбирать правильные ответы при генерации. Для создания качественных обучающих данных используется согласованность предсказаний слабой и сильной моделей: лишь совпадающие метки считаются надёжными. Также применены инициализация из ORM и апсемплинг негативных примеров для баланса данных.

Модель показала рост на 10.2 пункта в WeMath и достигла SoTA в VisualProcessBench (+3.9 F1). На базе PRM обучена Athena-7B через reward-ranked fine-tuning.

#amd #prm #llm #reasoning #multimodal #aitheta

🧠 Athena-PRM: умный оценщик шагов в LLM
AMD представила Athena-PRM — мультимодельную модель для оценки правильности каждого шага в рассуждениях ИИ | Сетка — социальная сеть от hh.ru