1 млн. ₽/мес. потерь на учёте инфры
Итак, у компании было 200+ серверов на балансе. Платим за всё это конские суммы.
60% серверов — без документации и IaC, 20% — с сомнительной докой, 30% — новенькие и понятно зачем. Между системами названия серверов отличаются.
Спустя пару подходов к снаряду с моими ребятами я плюнул разбираться и собрал простенького агента для анализа серверов.
Подтянул в агента данные из:
1. DCIM-системы → как сервера используются
2. Jira → тикеты, для чего поднимали
3. Confluence → все крупицы знаний
- то, что накопали руками
Зашил 6 критериев для анализа. Простенький SGR на Python. Локальный Qwen. 3–4 дня работы.
В итоге агент сказал своё фи:
💸 В счетах сетевые каналы на 30% больше, чем по факту подключено 💸 Для 30 серверов неправильно указаны юниты 💸 Для 20 серверов неправильная конфигурация 💸 На балансе есть серверы других компаний 💸 7 серверов ранее выключены и разобраны 🕵🏻♂️ 20 серверов скорее всего не используются 🤷♂️ «Про эти N ничего не нашёл нигде»
Всё это порешали, и сократили счета на 1 млн ₽/мес. 🎉
Мои выводы из этой истории:
1. Руками всё это сводить потребовались бы месяцы, сейчас — часы или дни
2. Зря делал агента: подобный аудит — разовая задача. На новые сервера есть процесс.
3. Быстрее было бы сделать простой скрипт для анализа с запросами в LLM
4. FinOps нужен всем!
Кстати, этот агент стал моим первым на SGR и локальном маленьком Qwen, который смог дать ощутимый результат.
@tsvetkovdaily