Александр Бабкин пишет:

Hugging Face открыла доступ к FineVision

Hugging Face открыла доступ к FineVision – новому мультимодальному датасету, включающему 24 миллиона образцов, предназначенному для обучения моделей Vision-Language (VLM). Это значимый шаг, поскольку он помогает преодолеть зависимость от проприетарных данных, что часто ограничивает воспроизводимость исследований в области ИИ. VLMs, к слову, это системы искусственного интеллекта, способные одновременно обрабатывать и связывать информацию из визуальных источников, таких как изображения, и текстовых данных.

Датасет FineVision впечатляет своим объемом в 5 терабайт и охватывает девять ключевых категорий задач. Среди них – ответы на вопросы по изображениям (VQA), ответы на вопросы по оптическому распознаванию символов (OCR QA), сложные рассуждения по таблицам и графикам, научные вопросы, создание подписей к изображениям, привязка и подсчет объектов, а также навигация по графическому интерфейсу пользователя (GUI). Важно отметить, что FineVision также вводит данные для совершенно новых областей, таких как навигация по GUI и указание/подсчет объектов.

Как сообщают авторы, модели, обученные на FineVision, демонстрируют выдающиеся результаты, превосходя альтернативные решения на одиннадцати широко используемых бенчмарках. В их числе AI2D, ChartQA, DocVQA, ScienceQA и OCRBench. Прирост производительности достигает 46.3% по сравнению с LLaVA, 40.7% по сравнению с Cauldron и 12.1% по сравнению с Cambrian. Это подтверждает высокую эффективность и значимость нового датасета.

Процесс создания FineVision был тщательным и включал три этапа: сбор и дополнение данных из более чем 200 публичных источников, последующая очистка, в ходе которой удалялись слишком большие пары вопросов-ответов и изменялся размер изображений, а также строгая оценка качества. Для оценки использовались передовые модели Qwen3-32B и Qwen2.5-VL-32B-Instruct, которые оценивали каждую пару вопрос-ответ по четырем параметрам, включая релевантность и визуальную зависимость. Интересно, что исследования показали: сохранение всех образцов, даже низко оцененных, дает наилучшую общую производительность.

FineVision также выделяется низким уровнем «галлюцинаций» — создания неверной информации, и имеет самый низкий процент загрязнения данных — всего 1%, что значительно ниже показателей других датасетов (Cauldron 3.05%, LLaVA-Vision 2.15%, Cambrian-7M 2.29%). Это гарантирует минимальную утечку данных и позволяет проводить более надежную оценку производительности моделей.

В ходе тестирования моделей на FineVision использовалась модель nanoVLM с 460 миллионами параметров, которая сочетает языковой компонент SmolLM2-360M-Instruct и визуальный кодировщик SigLIP2-Base-512. Полный цикл обучения, состоящий из 12 000 шагов, занял около 20 часов на 32 графических процессорах NVIDIA H100.

В конечном итоге, выпуск FineVision играет ключевую роль в снижении зависимости исследователей и разработчиков от проприетарных данных. Это не только способствует созданию более конкурентоспособных систем, но и значительно ускоряет прогресс в таких критически важных областях, как анализ документов, визуальные рассуждения и мультимодальные задачи с участием ИИ-агентов.

Ссылка на оригинал - https://www.marktechpost.com/2025/09/06/hugging-face-open-sourced-finevision-a-new-multimodal-dataset-with-24-million-samples-for-training-vision-language-models-vlms/