Денис Макрушин пишет:

Makrushin

Денис Макрушин, Chief Product Officer, Yandex · 07.07

Поиск секретов в коде с помощью LLM

Исследователи Wiz пришли к выводу, что языковые модели лучше справляется с поиском секретов, чем традиционные регулярки. Исследователи команды GitHub тоже пришли к этому выводу, но только с помощью LLM.

Обычные регулярки хороши только там, где формат строк строго определен (ключи, API-токены), но не учитывают многообразие структур строк паролей. LLM снижает количество шума, потому что учитывает контекст. Ожидаемо, использование LLM требует линейного увеличения вычислительных ресурсов с каждым новым клиентом. И чтобы сэкономить немного ресурса, команде пришлось исключить из проверок все медиафайлы или файлы, которые содержали в названии “test”, “mock”, “spec”.

Если занимаешься поиском секретов в репозиториях, то из исследования можно позаимствовать следующие инсайты: ⭐️ Регулярные выражения - это база для выявления детерминированных строк, но она сильно шумит при поиске паролей. ⭐️ LLM снижает шум и хорошо справляются с задачей поиска за счет анализа контекста. При этом использовать LLM для активных и крупных репозиториев - дорого. ⭐️ Чтобы экономить ресурсы можно выбрать два пути: сокращать размер базы для анализа (как GitHub) или оптимизировать использование вычислительных ресурсов для анализа (как Wiz). Еще лучше использовать оба подхода. ⭐️ Стратегии подсказок (промптов) для LLM влияют на точность обнаружения и на количество потребляемых ресурсов. GitHub попробовал стратегии Zero-Shot (дать модели только задачу, без примеров), Chain-of-Thought (попросить модель прийти к ответу через цепочку рассуждений), Fill-in-the-Middle (дать контекст “до” и контекст “после”, затем попросить дополнить середину) и MetaReflection (после первого ответа модели попросить ее проанализировать и доработать собственный ответ). В итоге MetaReflection дала лучшую точность.

еще контент автора

Денис Макрушин

Chief Product Officer, Yandex

Директор по продуктам в Yandex и отвечает за развитие продуктов для безопасной разработки.

Ранее на позиции CTO в компании МТС отвечал за продуктовую и технологическую стратегию в направлении кибербезопасности. До прихода в МТС в роли директора технолологического центра в компании Huawei реализовал программы перспективных исследований и разработок для ключевых продуктов в сфере телекоммуникации, хранения данных и облачных вычислений. В качестве исследователя безопасности в глобальном исследовательском центре Kaspersky GReAT занимался анализом угроз и поиском уязвимостей. Основал и руководил продуктом "Threat Deception" в департаменте инвестиций и инноваций.

Выпускник факультета информационной безопасности НИЯУ МИФИ и факультета стратегического управления Президентской Академии.

https://t.me/makrushin

Makrushin