Дистилляция делает ИИ компактнее без потери силы
Knowledge distillation позволяет переносить поведение больших моделей в малые, снижая требования к вычислениям и ускоряя инференс. Это ключевой механизм для внедрения ИИ на edge-устройствах и в продакшене с ограниченными ресурсами.
Подход обучает «студента» не только правильным ответам, но и распределению вероятностей «учителя» через softmax с температурой. Используются разные схемы, включая обучение по выходам, промежуточным признакам и связям между данными. Эффективность зависит от баланса размеров моделей и качества учителя, а при избыточном разрыве возникает деградация. Практика включает DistilBERT и дистилляцию reasoning-моделей, что ускоряет распространение компактных LLM.