Некоторое время назад купил себе поиграться китайский одноплатник с NPU на базе rockchip rk3588. Игра состоит в том, чтобы собрать из спичек и пластилина из опенсорс решений полностью локального голосового помощника. Пока дошел до стадии готовности основных кубиков, и базового прототипа их совместной работы. ASR - vosk small TTS - mms_tts_rus LLM - Qwen3 1.7B

Более тяжелая LLM не влезет в память совместно с голосовыми моделями, хотя по отдельности - 4B работает. Правда медленно. В целом - такой сетап норм, разве что TTS надо поискать более родной для русского. Ну и можно адаптированные к русскому ллм-ки сконвертировать попробовать, может будет пошустрее. Хотя, в целом - не сильно тормозит.

#ai #asr #llm #tts #voicemode