πŸš€ Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ open-source RL-Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ для LLM

ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½ Ρ€Π°Π·Π±ΠΎΡ€ популярных Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ для обучСния LLM с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ.

Π’ Π΄ΠΎΠΊΠ»Π°Π΄Π΅ ΡΡ€Π°Π²Π½ΠΈΠ²Π°ΡŽΡ‚ΡΡ TRL, Verl, OpenRLHF, RAGEN, AReaL, Verifiers, ROLL, NeMo-RL, SkyRL ΠΈ slime. ΠžΡ†Π΅Π½ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π³ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ, ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ, ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Π°Π³Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ обучСния ΠΈ ΠΌΠ½ΠΎΠ³ΠΎΡ‚ΡƒΡ€Π½ΠΎΠ³ΠΎ взаимодСйствия. ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ аспСкты β€” backend (FSDP, DeepSpeed, Megatron), Π΄Π²ΠΈΠΆΠΊΠΈ (vLLM, SGLang), ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° асинхронной Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ срСд, Π° Ρ‚Π°ΠΊΠΆΠ΅ использованиС Ray для оркСстрации. НапримСр, Verl ΠΈ OpenRLHF ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ Π½Π° ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΠΎΡΡ‚ΡŒ, TRL β€” Π½Π° ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΡŽ с Hugging Face, Π° SkyRL ΠΈ ROLL β€” Π½Π° ΠΌΠΎΠ΄ΡƒΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠ°Π³Π΅Π½Ρ‚Π½Ρ‹Π΅ сцСнарии.

Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ с асинхронной Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠ΅ΠΉ ΠΏΠΎΠ²Ρ‹ΡˆΠ°ΡŽΡ‚ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ использования GPU Π½Π° 30–40% ΠΏΡ€ΠΈ Π΄ΠΎΠ»Π³ΠΈΡ… сСссиях.

#rlhf #llm_training #reinforcement_learning #open_source #ray #ai_agents

πŸš€ Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ open-source RL-Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ для LLM
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½ Ρ€Π°Π·Π±ΠΎΡ€ популярных Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊ для обучСния LLM с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ | Π‘Π΅Ρ‚ΠΊΠ° β€” ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Π°Ρ ΡΠ΅Ρ‚ΡŒ ΠΎΡ‚ hh.ru