🔧 LinkedIn адаптировал GPT-OSS для агентного RL

Команда LinkedIn успешно запустила обучение GPT-OSS с подкреплением в агентных средах.

Основные проблемы включали разрушение on-policy динамики в MoE-архитектуре из-за расхождения лог-вероятностей, отсутствие поддержки attention sinks в FlashAttention v2/v3 и высокое потребление памяти при использовании FSDP. Были внедрены три ключевых исправления: (1) принудительное равенство old_log_prob и log_prob при on-policy обучении; (2) реализация backward-прохода для attention sinks с интеграцией в FlashAttention v3; (3) оптимизация памяти через sequence parallelism и исправление материализации expert-слоёв. Это позволило стабилизировать градиенты, избежать OOM и включить эффективное обучение на длинных контекстах.

После исправлений GPT-OSS-20B показал устойчивый рост наград в задачах GSM8K, ReTool и VerifyIf, что подтверждает его пригодность для многошаговых агентных систем.

#rlhf #gpt_oss #linkedin #moe #flashattention #agentai

🔧 LinkedIn адаптировал GPT-OSS для агентного RL
Команда LinkedIn успешно запустила обучение GPT-OSS с подкреплением в агентных средах | Сетка — социальная сеть от hh.ru