Доменные эмбеддинги за день на одной GPU

Дообучение embedding моделей можно автоматизировать и уложить в сутки, что существенно повышает качество RAG в специализированных данных и делает кастомные поисковые системы практичными.

Подход строится на синтетической генерации пар вопрос-ответ из документов без ручной разметки, майнинге hard negative и обучении bi-encoder с контрастивной функцией потерь. Используются NeMo Data Designer, BEIR и TensorRT для продакшена. Поддерживаются multi-hop запросы, что улучшает поиск сложных связей. Решение снижает барьер входа и ускоряет внедрение доменных retrieval систем.

🔗 https://huggingface.co/blog/nvidia/domain-specific-embedding-finetune

#RAG #Embeddings #NLP #DeepLearning #MLOps

Доменные эмбеддинги за день на одной GPU
Дообучение embedding моделей можно автоматизировать и уложить в сутки, что существенно повышает качество RAG в специализированных данных и делает кастомные пои... | Сетка — социальная сеть от hh.ru