Денис Макрушин пишет:

Makrushin

Денис Макрушин, Chief Product Officer, Yandex · 29.06

Повышение эффективности обнаружения секретов в коде

Год другой, но те же тактики: в 2025 украденные учетные записи являются главными “фигурантами” инцидентов. Атакующие все чаще используют учетки от “non-human identities” (NHI): секреты от всевозможных сервисных аккаунтов, ботов, ИИ-агентов. Один из ключевых источников, который хранит в себе эти секреты - код.

В 2020 году рассматривали методы для поиска секретов в коде. С тех пор, к анализу энтропии, регулярным выражениям и сигнатурам, которые часто ошибались и путали строку пароля с названием функции, добавились большие языковые модели (LLM). Но у LLM есть ключевое ограничение в задаче поиска секрета: они требуют значительных вычислительных ресурсов. Это приводит к значительным временным задержкам в процессе поиска.

Исследователи подтвердили гипотезу, что SLM эффективнее в этой задаче. Рецепт, который привел к 86% точности (выявленный секрет действительно является секретом) и 82% полноты (доля обнаруженных секретов от всех существующих секретов в коде):

1️⃣ готовим данные для обучения модели: с помощью LLM (Sonnet) проводилось обнаружение и классификация секретов из публичных Github-репозиториев. Можно использовать вторую LLM для оценки результата. 2️⃣ Для повышения качества полученного датасета применяем алгоритмы MinHash и LSH (Locality Sensitive Hashing) для кластеризации полученных данных: объединяем похожие фрагменты кода в один кластер и убираем дубликаты. 3️⃣ Выбираем модель, которую будем дообучать. Наша цель: не более 10 секунд на поиск секрета (доступный ресурс: однопоточная машинка с ARM). В качестве базовой модели для этого выбираем LLAMA-3.2-1B. 4️⃣ Добавляем наши “фильтры” к исходной модели: дообучаем небольшие матрицы внутри выбранной модели с помощью метода LoRA. 5️⃣ Охапку дров и плов готов:Оцениваем результаты: следим за совпадениями на уровне файла (есть ли в нем секреты?) и совпадениями на уровне секрета (какой это тип секрета?).

Полученный результат не отменяет эффективность сигнатурных методов. Модель работает как дополнение к существующим правилам.

еще контент автора

Денис Макрушин

Chief Product Officer, Yandex

Технический директор в компании МТС, отвечающий за продуктовую и технологическую стратегию в направлении кибербезопасности.

Ранее, на позиции директора технолологического центра в компании Huawei реализовал программы перспективных исследований и разработок для ключевых продуктов в сфере телекоммуникации, хранения данных и облачных вычислений.

В качестве исследователя безопасности в глобальном исследовательском центре Kaspersky GReAT занимался анализом угроз и поиском уязвимостей. Основал и руководил продуктом "Threat Deception" в департаменте инвестиций и инноваций.

Представлял свои исследования на крупнейших международных конференциях, включая Defcon, RSA Conference, HITB, Infosecurity, OWASP, а также на закрытых отраслевых мероприятиях. Получил степень магистра в области информационной безопасности в НИЯУ МИФИ.

https://t.me/makrushin

Makrushin