Отличная новость для всех, кто работает с документами! 🚀 На платформе Hugging Face появилась полезная и автономная модель для OCR и анализа документов: NuMarkdown-8B-Thinking.

Что интересного: Это первая в мире Reasoning OCR VLM (Vision-Language Model), которая умеет "думать".

В чём прорыв? Модель специально обучена превращать сложные документы (PDF, сканы, скриншоты) в идеально структурированные Markdown-файлы. Она идеально подходит для систем RAG (Retrieval-Augmented Generation), особенно если у Вас много неструктурированных данных в виде сканов...

Ключевая фишка — "рассуждения": Перед тем как выдать ответ, модель генерирует внутренние "токены размышления" (), чтобы проанализировать структуру документа: заголовки, таблицы, списки, сложное форматирование. Это позволяет ей блестяще справляться с нестандартными макетами.

Результаты: В независимых тестах модель обходит GPT-4o и специализированные OCR-решения, а по качеству работы с документами конкурирует с гигантами вроде Gemini 2.5 Pro.

При этом модель распространяется по лицензии MIT, что означает минимальные ограничения в использовании, в том числе в коммерческих целях.

Попробовать демо и узнать технические детали можно здесь: hugging face

Хороший шаг для автоматизации обработки документов. Технология "рассуждающего" ИИ добралась и до OCR.

Что думаете? Где бы вы применили такую модель?

#ИскусственныйИнтеллект #AI #OCR #Документы #RAG #HuggingFace #ВизуальныеМодели


В этом посте были ссылки, но мы их удалили по правилам Сетки

Отличная новость для всех, кто работает с документами! 🚀
На платформе Hugging Face появилась полезная и автономная модель для OCR и анализа документов: NuMarkdown-8B-Thinking | Сетка — социальная сеть от hh.ru Отличная новость для всех, кто работает с документами! 🚀
На платформе Hugging Face появилась полезная и автономная модель для OCR и анализа документов: NuMarkdown-8B-Thinking | Сетка — социальная сеть от hh.ru