Django/LLM, fallback при падении провайдера и подмене модели

Мухтар Ханбеков

Инженер-программист, работает на себя

· 08.06

Django/LLM, fallback при падении провайдера и подмене модели

В LLM-интеграции одна из нужных проверок начинается в момент сбоя. Пока выбранная модель отвечает, система выглядит стабильной. Но как только провайдер возвращает ошибку, rate limit или временную недоступность, становится видно, есть ли у продукта архитектура деградации или только прямой вызов одной модели.

fallback должен жить на backend, а не на фронте. Если выбранная модель не отработала, система пробует другой живой вариант, желательно из другого бренда, и при этом возвращает не только текст ответа, но и фактическую модель, которая реально сработала. Без этого интерфейс начинает показывать одно, а backend уже живет на другом маршруте.

Тогда агрегатор перестает быть просто списком моделей и становится управляемым продуктовым контуром.

Статья на Хабр Витрина проекта: AI Chat github Проект: AI Chat Stepik: AI на Django и Next II

#django #python #typescript #llm #openrouter #ai #api #fullstack #webdevelopment #fallback

Django/LLM, fallback при падении провайдера и подмене модели | Сетка — социальная сеть от hh.ru

1 репост

207

8 комментов

Александр Рогов

· 10.06

Делал похожее на Node.js. Помимо fallback добавил метрики по каждому провайдеру в Redis: P95 latency и error rate за последние 5 минут. Роутер выбирает не первую живую модель, а живую с лучшим текущим P95. Это ближе к circuit breaker чем просто fallback. Единственная проблема при нескольких инстансах надо синхронизировать эти метрики, иначе каждый инстанс принимает решение независимо и картина ломается.

Мухтар Ханбеков

· 10.06

Метрики в Redis и выбор по P95 уже полноценный circuit breaker, а не простой fallback. Синхронизация между инстансами решается через Redis же, но тогда добавляется задержка на каждый запрос. Компромисс, обновлять метрики асинхронно, а для выбора использовать кэшированную статистику с небольшим TTL. Тогда инстансы не ходят в Redis на каждый запрос, но данные остаются согласованными в пределах, скажем, 5-10 секунд

Константин Черникевич

· 09.06

А провайдер помнит контекст? Тоесть я общаюсь с Gemini , и тут она подзависла , я переключаюсь на chatgpt и всё контекст пропал? Или просто га другую модель Gemini?

Мухтар Ханбеков

· 09.06

Провайдер не помнит контекст. Fallback не теряет контекст, если при переключении модели отправлять ей всю историю сообщений. В нормальной реализации агрегатора контекст хранится на бэкенде и при смене модели просто передаётся новой модели целиком. Контекст пропадает только если архитектура спроектирована так, чтобы этого не делать.

Константин Черникевич

· 09.06

А разве ембеддинги моделей совместимы?

Мухтар Ханбеков

· 09.06

Нет, помню, что эмбеддинги разных моделей не совместимы. У разных LLM свои пространства представлений, и векторы одной модели нельзя просто скормить другой.

Поинтересовался у самой ИИ. Для RAG-подхода это не проблема. Вы не подставляете эмбеддинги одной модели в другую. Вы храните эмбеддинги, полученные одной выбранной моделью (например, OpenAI text-embedding-3-small), а при смене модели генерации используете те же самые эмбеддинги для поиска по базе. Модель генерации получает уже найденные текстовые фрагменты, а не чужие векторы. Так совместимость не требуется.

Константин Черникевич

· 09.06

А как при смене модели сохранить контекст?

Мухтар Ханбеков

· 09.06

При смене модели сам чат не меняется, меняется провайдер генерации ответа. История-контекст хранится отдельно, обычно в БД или сессии, и при fallback-запросе отправляется новой модели целиком. Проблема не в потере контекста, а в возможном изменении стиля или качества ответа. Для сохранения семантической связности можно использовать RAG-подход, перед каждым вызовом подгружать релевантные фрагменты предыдущего диалога, но это уже поверх базового fallback

еще контент автора

Мухтар Ханбеков

Инженер-программист, работает на себя

Django/LLM, fallback при падении провайдера и подмене модели

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка