📄 DeepSeek запустил эффективный OCR для документов
Компания DeepSeek представила открытую модель DeepSeek-OCR для точного распознавания и структурирования документов.
Модель извлекает не только текст, но и воссоздаёт структуру: заголовки, списки, таблицы, подписи к изображениям — с возможностью экспорта в Markdown. Ключевая инновация — «оптическое сжатие контекста»: вместо полного описания страницы модель выделяет лишь значимую информацию, сокращая объём данных в 10–20 раз. Это снижает число токенов и стоимость дальнейшей обработки ИИ. Даже при бюджете в 64–100 визуальных токенов точность достигает 97–99%. Сложные документы обрабатываются в режиме «Gundam» — автоматически дробятся на фрагменты для детального анализа. Поддержка координат позволяет точно привязывать элементы к странице.
На тестах в Fox и OmniDocBench модель превосходит Qwen и GOT-OCR 2.0 по эффективности, сохраняя высокую точность при меньшем объёме токенов.