🚀 C4 от Google Cloud ускорил GPT OSS на 70% Google Cloud C4 с процессорами Intel Xeon 6 стал в 1.7 раза эффективнее C3 при запуске GPT OSS

🚀 C4 от Google Cloud ускорил GPT OSS на 70%

Google Cloud C4 с процессорами Intel Xeon 6 стал в 1.7 раза эффективнее C3 при запуске GPT OSS.

Архитектура C4 на базе Intel Xeon 6 (Granite Rapids) обеспечивает до 1.7x лучшую производительность на виртуальное ядро при inferencing модели GPT OSS — это MoE-модель с 120 млрд параметров. Оптимизация в transformers от Intel и Hugging Face позволяет каждому эксперту обрабатывать только свои токены, исключая избыточные вычисления. Тесты проводились на VM с bfloat16, фиксированной длиной последовательности и статическим кэшем KV.

На максимальной нагрузке C4 показал рост пропускной способности на 70% при сопоставимой стоимости в час.

#google_cloud #intel_xeon #huggingface #llm_inference #gpt_oss #cost_efficiency

еще контент в этом сообществе