Пет проект: ML-модель для детекции поддельных чеков
Разработал ML-модель для детекции поддельных чеков. Система анализирует загруженные чеки и определяет, подлинные они или поддельны
Как это работает
Модель проверяет чек (PDF или JPG), извлекает текст через OCR, анализирует изображение на восемь ключевых параметров подделки и выдает итоговый скор
Восемь параметров проверки:
1. JPEG артефакты (до 25 баллов) — система проверяет типичные блочные искажения от сжатия. Подделанные чеки часто переходили через несколько циклов сохранения, появляются артефакты.
2. Сжатие (до 15 баллов) — оценивается уровень потери качества от сжатия. Оригинальные чеки обычно высокого качества, поддельные часто низкого.
3. Пиксели и шум (до 20 баллов) — измеряется количество шума в изображении. Если шума много или пиксели странно распределены — это признак манипуляции.
4. Границы (до 12 баллов) — проверяется четкость границ текста и элементов чека. На поддельных чеках границы часто размыты или неровные.
5. Цвета (до 8 баллов) — анализируется палитра цветов. Оригинальные чеки используют стандартные цвета, поддельные могут иметь странные оттенки.
6. Качество OCR (до 10 баллов) — проверяется, насколько хорошо система распознала текст. Если OCR борется с текстом — изображение низкого качества или манипулировано.
7. EXIF данные (до 3 баллов) — проверяются метаданные фото. Отсутствие EXIF или странные данные — тревожный сигнал.
8. Размер файла (до 5 баллов) — система оценивает размер. Слишком маленький или большой файл может указывать на подделку.
Как модель обучается
На выходе система выдает вероятность фрода от 0 до 100 процентов. После этого пользователь может подтвердить результат или сказать, что модель ошиблась. Система запоминает эту обратную связь
Когда накапливается достаточно проверенных примеров (оригинальные чеки и поддельные), модель переобучается на этих данных. RandomForest алгоритм учится различать паттерны между подлинными и поддельными чеками, становится точнее
Сейчас модель в активной разработке и тестировании. В следующем посте поделюсь метриками точности и результатами тестов
AMA =]
#ML #фрод #антифрод #mlops #банки #финтех #модель #fraud #aml #мошенничество #безопасностьсделок #безопасностьии