π Π£ΡΠΊΠΎΡΠ΅Π½ΠΈΠ΅ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² vLLM
AMD ΠΏΡΠ΅Π΄ΡΡΠ°Π²ΠΈΠ»Π° ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΡ Π΄Π»Ρ ΡΡΠΊΠΎΡΠ΅Π½ΠΈΡ ΡΠ°Π±ΠΎΡΡ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² vLLM.
ΠΠΌΠ΅ΡΡΠΎ ΡΠ°ΡΠ΄ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π»ΡΠ³ΠΊΠΎΠ³ΠΎ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΠ½ΠΊΠΎΠ΄Π΅ΡΠ° (Tensor Parallelism) ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ ΡΠ΅ΠΏΠ»ΠΈΠΊΠ°ΡΠΈΡ Π΅Π³ΠΎ Π²Π΅ΡΠΎΠ² ΠΏΠΎ GPU Ρ ΡΠ°ΡΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΠΈΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ Π±Π°ΡΡΠ° (Data Parallelism). ΠΡΠΎ ΡΡΡΡΠ°Π½ΡΠ΅Ρ ΡΠ°ΡΡΡΠ΅ all-reduce ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΈ β ΠΎΡΠ½ΠΎΠ²Π½ΡΡ Π·Π°Π΄Π΅ΡΠΆΠΊΡ ΠΏΡΠΈ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ. ΠΠ΅ΡΠ΅ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅ ΡΠ΅ΠΆΠΈΠΌΠ° Π°ΠΊΡΠΈΠ²ΠΈΡΡΠ΅ΡΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΡΡΡΠΎΠΊΠΎΠΉ: --mm-encoder-tp-mode data. ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°ΡΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Qwen3-VL, InternVL ΠΈ step3.
ΠΠ° GPU AMD MI300X Π΄ΠΎΡΡΠΈΠ³Π°Π΅ΡΡΡ Π΄ΠΎ +45% ΠΏΡΠΈΡΠΎΡΡΠ° ΠΏΡΠΎΠΏΡΡΠΊΠ½ΠΎΠΉ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΠΈ, ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎ ΠΏΡΠΈ ΡΠ°Π±ΠΎΡΠ΅ Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌΠΈ 512Γ512 ΠΈ Π²ΡΡΠ΅ ΠΈ 1β3 ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌΠΈ Π½Π° Π·Π°ΠΏΡΠΎΡ.