Пет проект: ML-модель для детекции поддельных чеков

Разработал ML-модель для детекции поддельных чеков. Система анализирует загруженные чеки и определяет, подлинные они или поддельны

Как это работает

Модель проверяет чек (PDF или JPG), извлекает текст через OCR, анализирует изображение на восемь ключевых параметров подделки и выдает итоговый скор

Восемь параметров проверки:

1. JPEG артефакты (до 25 баллов) — система проверяет типичные блочные искажения от сжатия. Подделанные чеки часто переходили через несколько циклов сохранения, появляются артефакты.

2. Сжатие (до 15 баллов) — оценивается уровень потери качества от сжатия. Оригинальные чеки обычно высокого качества, поддельные часто низкого.

3. Пиксели и шум (до 20 баллов) — измеряется количество шума в изображении. Если шума много или пиксели странно распределены — это признак манипуляции.

4. Границы (до 12 баллов) — проверяется четкость границ текста и элементов чека. На поддельных чеках границы часто размыты или неровные.

5. Цвета (до 8 баллов) — анализируется палитра цветов. Оригинальные чеки используют стандартные цвета, поддельные могут иметь странные оттенки.

6. Качество OCR (до 10 баллов) — проверяется, насколько хорошо система распознала текст. Если OCR борется с текстом — изображение низкого качества или манипулировано.

7. EXIF данные (до 3 баллов) — проверяются метаданные фото. Отсутствие EXIF или странные данные — тревожный сигнал.

8. Размер файла (до 5 баллов) — система оценивает размер. Слишком маленький или большой файл может указывать на подделку.

Как модель обучается

На выходе система выдает вероятность фрода от 0 до 100 процентов. После этого пользователь может подтвердить результат или сказать, что модель ошиблась. Система запоминает эту обратную связь

Когда накапливается достаточно проверенных примеров (оригинальные чеки и поддельные), модель переобучается на этих данных. RandomForest алгоритм учится различать паттерны между подлинными и поддельными чеками, становится точнее

Сейчас модель в активной разработке и тестировании. В следующем посте поделюсь метриками точности и результатами тестов

AMA =]

#ML #фрод #антифрод #mlops #банки #финтех #модель #fraud #aml #мошенничество #безопасностьсделок #безопасностьии