NanoVDR: поиск по PDF без vision-модели 70M текстовая модель ищет по визуальным документам почти как 2B VLM, но быстрее и дешевле

NanoVDR: поиск по PDF без vision-модели

70M текстовая модель ищет по визуальным документам почти как 2B VLM, но быстрее и дешевле. Это значит, что можно ускорить поиск и снизить инфраструктурные затраты уже сейчас. Стоит рассмотреть лёгкие энкодеры для запросов.

Идея в асимметрии: документы кодируются тяжёлой vision-language моделью один раз, а запросы обрабатывает компактный DistilBERT, обученный через дистилляцию эмбеддингов. Модель не видит изображения, но попадает в то же пространство. Ключевым становится выравнивание эмбеддингов, а не ранжирование. Ограничение связано с языками, но перевод запросов почти закрывает разрыв.

🔗 https://huggingface.co/blog/Ryenhails/nanovdr

#AI #Retrieval #ML #Embeddings #Efficiency