GKE учится распределять AI по миру
Google добавил multi-cluster Inference Gateway — теперь инференс моделей можно автоматически раскидывать по разным кластерам и регионам, снижая задержки и падения. Для тебя это означает более стабильные AI-сервисы — стоит закладывать multi-cluster архитектуру сразу.
Гейтвей строится поверх GKE Gateway API и умеет model-aware балансировку: маршрутизация учитывает метрики вроде загрузки KV-кэша или числа активных запросов. Введены сущности InferencePool и InferenceObjective для управления ресурсами и приоритетами моделей. Трафик централизованно настраивается из config-кластера, а исполняется в target-кластерах. Это упрощает глобальный скейл, failover и использование GPU/TPU без простоев.