GRPO упрощает RLHF без value-сети
GRPO заменяет Critic на средний результат нескольких ответов — это удешевляет и упрощает обучение LLM, сохраняя стабильность; стоит рассмотреть его для RLHF и задач с финальной наградой.
В PPO используются value-функция, clip и KL-контроль, что требует отдельной модели-оценщика. GRPO вместо этого сэмплирует несколько ответов на один запрос и считает относительное преимущество через их среднее и разброс. Clip и KL остаются, поэтому обновления не «улетают». Ограничение — растут затраты на сэмплирование, а качество зависит от корректности reward-модели.