ATE-2: эмбеддинги с 10k примеров Новая модель ATE-2 показывает, что для сильных текстовых эмбеддингов на редких языках хватает ~10k шумных пар

ATE-2: эмбеддинги с 10k примеров

Новая модель ATE-2 показывает, что для сильных текстовых эмбеддингов на редких языках хватает ~10k шумных пар. Это значит, что запуск RAG и поиска стал дешевле и быстрее, стоит пробовать синтетические данные вместо дорогой разметки.

Модель дообучили на переводах Reddit-пар и получили заметный рост качества на бенчмарке ArmBench-TextEmbed. Важно не только количество данных, но и устойчивость к шуму. ATE-2 также поддерживает транслитерацию, что критично для армянского. Подход можно перенести и на другие low-resource языки.

🔗 https://huggingface.co/blog/Metric-AI/ate-2

#NLP #embeddings #RAG #lowresource #AI