Новый обзор трендов OCR и Vision-LLM за Q1/Q2 2025 от Игоря Галицкого (тут linkedin)
Ключевые тезисы:
Новая SOTA: С Gemini 2.5 планка качества для OCR с Vision-LLM значительно поднялась. Модель лидирует на ключевых бенчмарках, включая новый IDP leaderboard. Gemini 2.5 лучше qwen 2.5 vl / gpt-4o в среднем на 15-20% по бенчмаркам
Эффективные small VLM: Появились компактные мультитаск-модели (MonkeyOCR, Dolphin), которые показывают SOTA-результаты при минимальных вычислительных ресурсах, используя подходы из классического DL/CV.
Распознавание текста vs. парсинг диаграмм (сhart Captioning): Одно дело текст распознавать, и котиков описывать, но вот отвечать на вопросы по графикам пока кажется не решенной задачей. Что и показал и новый бенчмарк ChartQA Pro, даже топовые VLM далеки от человеческого уровня (85%) в задачах анализа графиков (модельки уже старые но не думаю что сильно изменилось): Claude Sonnet 3.5: ≈ 56% и GPT-4o (с CoT): ≈ 42%. Более того в одном из своих pet project`в c курса, все эти rag пайплайны у менч по pdf файлам с ocr еще и жутко медленно работали (не пользуйтесь unstructured), и получались похожие метрики. Исследователи обратите внимание 😔
Причина — моделям сложно одновременно выполнять две задачи: точное визуальное восприятие (perception) и логический анализ данных (reasoning), особенно в сложных случаях с мульти-чартами и легендами
🤔 Почему это важно? Несмотря на достойный прогресс универсальных VLM, для enterprise-задач, где важна точность координат (например, PII-маскирование, live-перевод) или работа с изображениями низкого качества (low DPI), специализированные модели и pipeline-решения по-прежнему остаются лучшим выбором