GRPO упрощает RLHF без value-сети

GRPO заменяет Critic на средний результат нескольких ответов — это удешевляет и упрощает обучение LLM, сохраняя стабильность; стоит рассмотреть его для RLHF и задач с финальной наградой.

В PPO используются value-функция, clip и KL-контроль, что требует отдельной модели-оценщика. GRPO вместо этого сэмплирует несколько ответов на один запрос и считает относительное преимущество через их среднее и разброс. Clip и KL остаются, поэтому обновления не «улетают». Ограничение — растут затраты на сэмплирование, а качество зависит от корректности reward-модели.

🔗 https://huggingface.co/blog/NormalUhr/grpo

#RLHF #LLM #ReinforcementLearning #PPO #GRPO

GRPO упрощает RLHF без value-сети
GRPO заменяет Critic на средний результат нескольких ответов — это удешевляет и упрощает обучение LLM, сохраняя стабильность; стоит рассмотреть его для RLHF и задач с... | Сетка — социальная сеть от hh.ru