1 млн. ₽/мес. потерь на учёте инфры

Итак, у компании было 200+ серверов на балансе. Платим за всё это конские суммы.

60% серверов — без документации и IaC, 20% — с сомнительной докой, 30% — новенькие и понятно зачем. Между системами названия серверов отличаются.

Спустя пару подходов к снаряду с моими ребятами я плюнул разбираться и собрал простенького агента для анализа серверов.

Подтянул в агента данные из:

1. DCIM-системы → как сервера используются

2. Jira → тикеты, для чего поднимали

3. Confluence → все крупицы знаний

  • то, что накопали руками

Зашил 6 критериев для анализа. Простенький SGR на Python. Локальный Qwen. 3–4 дня работы.

В итоге агент сказал своё фи:

💸 В счетах сетевые каналы на 30% больше, чем по факту подключено 💸 Для 30 серверов неправильно указаны юниты 💸 Для 20 серверов неправильная конфигурация 💸 На балансе есть серверы других компаний 💸 7 серверов ранее выключены и разобраны 🕵🏻‍♂️ 20 серверов скорее всего не используются 🤷‍♂️ «Про эти N ничего не нашёл нигде»

Всё это порешали, и сократили счета на 1 млн ₽/мес. 🎉

Мои выводы из этой истории:

1. Руками всё это сводить потребовались бы месяцы, сейчас — часы или дни

2. Зря делал агента: подобный аудит — разовая задача. На новые сервера есть процесс.

3. Быстрее было бы сделать простой скрипт для анализа с запросами в LLM

4. FinOps нужен всем!

Кстати, этот агент стал моим первым на SGR и локальном маленьком Qwen, который смог дать ощутимый результат.

#каждыйденьлета

@tsvetkovdaily