YAKE! вместо нейросети: как мы заменили 600 МБ ONNX-реранкера на 400 строк статистики В Yttri мы изначально использовали ONNX-реранкер bge-reranker-v2-m3 для RAG-поиска

YAKE! вместо нейросети: как мы заменили 600 МБ ONNX-реранкера на 400 строк статистики

В Yttri мы изначально использовали ONNX-реранкер bge-reranker-v2-m3 для RAG-поиска. Качество было хорошим, но цена для local-first desktop-приложения оказалась слишком высокой: около 600 МБ модели, до 1.8 ГБ RAM в пике и ощутимая нагрузка на CPU.

В статье разбираю, как мы заменили тяжёлый нейросетевой реранкер на собственную реализацию YAKE! на Rust: без модели, без прогрева, без внешних сервисов и с латентностью порядка микросекунд.

Показываю механику алгоритма, интеграцию в RAG, автотегирование, ограничения подхода и главный архитектурный вывод: не каждая AI-задача требует ещё одной нейросети. Иногда лучший AI-компонент - это тот, который удалось удалить.

Читать статью полностью на хабре

Telegram, MAX, Setka

#RustTauri #RAG #SQLite #Local-first #NLP #YAKE #Embeddings #Desktop

В этом посте были ссылки, но мы их удалили по правилам Сетки