Почему любимая игра упала целиком и причем здесь SRE?

Почему любимая игра упала целиком?? разбор глобального сбоя Minecraft (3 июня)

Вчера мир Minecraft лег глобально. И нет, дело не в том, что кто-то взорвал слишком много TNT. Давайте разберемся, какие нагрузки держат серверы, где находится точка отказа и как с этим живут инженеры.

Большинство проблем на игровых серверах упирается не в графику, а в то, что Minecraft почти не умеет спать. Главный поток обрабатывает 20 игровых тиков в секунду. Если он не укладывается в 50 миллисекунд, TPS падает и мир замирает. Узкое место здесь - просчет сущностей. Каждая корова, зомби или выброшенный предмет требуют тактов процессора, а сотни вагонеток или ферма мобов просто кладут главный поток. Добавьте сюда генерацию новых чанков и автосохранения, которые замораживают весь ввод-вывод на медленном диске, и вы получите идеальный шторм.

Но вчерашний глобальный сбой был другого рода. Причина не в нагрузке на один конкретный сервер, а в инфраструктуре аутентификации. Все клиенты и онлайн-серверы стучатся к централизованным серверам сессий Mojang/Microsoft. Если этот единый центр недоступен, multiplayer просто не может проверить подпись игрока. Это как если бы во всем мире разом отключили паспортные столы - вас никуда не пускают. К этому добавляется риск лавины переподключений. Когда аутентификация кратковременно отваливается, тысячи клиентов и серверов одновременно пытаются переподключиться, создавая искусственную DDoS-атаку и добивая едва ожившую инфраструктуру.

SRE-инженеры на стороне владельцев серверов готовятся к такому заранее. Железное решение - держать возможность быстро переключить сервер в offline-mode. Это отключает проверку лицензии и передает авторизацию сторонним плагинам с паролями, позволяя сохранить онлайн и сообщество в момент коллапса.

Так что вчерашний инцидент - это не поломка кубиков, а хрупкость единой точки отказа в распределенной системе. Сколько еще сервисов, на самом деле, держатся на одной такой двери?

#minecraft #gamedev #sre #incidentmanagement #downtime #authinfrastructure #tps #serverengineering #ddos #onlinegames #mojang #sysadmin

Почему любимая игра упала целиком и причем здесь SRE? | Сетка — социальная сеть от hh.ru