Отличная новость для всех, кто работает с документами! 🚀 На платформе Hugging Face появилась полезная и автономная модель для OCR и анализа документов: NuMarkdown-8B-Thinking.
Что интересного: Это первая в мире Reasoning OCR VLM (Vision-Language Model), которая умеет "думать".
В чём прорыв? Модель специально обучена превращать сложные документы (PDF, сканы, скриншоты) в идеально структурированные Markdown-файлы. Она идеально подходит для систем RAG (Retrieval-Augmented Generation), особенно если у Вас много неструктурированных данных в виде сканов...
Ключевая фишка — "рассуждения": Перед тем как выдать ответ, модель генерирует внутренние "токены размышления" (), чтобы проанализировать структуру документа: заголовки, таблицы, списки, сложное форматирование. Это позволяет ей блестяще справляться с нестандартными макетами.
Результаты: В независимых тестах модель обходит GPT-4o и специализированные OCR-решения, а по качеству работы с документами конкурирует с гигантами вроде Gemini 2.5 Pro.
При этом модель распространяется по лицензии MIT, что означает минимальные ограничения в использовании, в том числе в коммерческих целях.
Попробовать демо и узнать технические детали можно здесь: hugging face
Хороший шаг для автоматизации обработки документов. Технология "рассуждающего" ИИ добралась и до OCR.
Что думаете? Где бы вы применили такую модель?
#ИскусственныйИнтеллект #AI #OCR #Документы #RAG #HuggingFace #ВизуальныеМодели
В этом посте были ссылки, но мы их удалили по правилам Сетки