NanoVDR: поиск по PDF без vision-модели
70M текстовая модель ищет по визуальным документам почти как 2B VLM, но быстрее и дешевле. Это значит, что можно ускорить поиск и снизить инфраструктурные затраты уже сейчас. Стоит рассмотреть лёгкие энкодеры для запросов.
Идея в асимметрии: документы кодируются тяжёлой vision-language моделью один раз, а запросы обрабатывает компактный DistilBERT, обученный через дистилляцию эмбеддингов. Модель не видит изображения, но попадает в то же пространство. Ключевым становится выравнивание эмбеддингов, а не ранжирование. Ограничение связано с языками, но перевод запросов почти закрывает разрыв.