AI Open Space пишет:

GKE учится распределять AI по миру

Google добавил multi-cluster Inference Gateway — теперь инференс моделей можно автоматически раскидывать по разным кластерам и регионам, снижая задержки и падения. Для тебя это означает более стабильные AI-сервисы — стоит закладывать multi-cluster архитектуру сразу.

Гейтвей строится поверх GKE Gateway API и умеет model-aware балансировку: маршрутизация учитывает метрики вроде загрузки KV-кэша или числа активных запросов. Введены сущности InferencePool и InferenceObjective для управления ресурсами и приоритетами моделей. Трафик централизованно настраивается из config-кластера, а исполняется в target-кластерах. Это упрощает глобальный скейл, failover и использование GPU/TPU без простоев.

🔗 https://cloud.google.com/blog/products/containers-kubernetes/multi-cluster-gke-inference-gateway-helps-scale-ai-workloads

#GKE #Kubernetes #AIInfrastructure #CloudComputing #MLops