Александр Ларионов пишет:

Почему Cascade MoE — не RAG и не трансформер

Когда рассказываю про свою архитектуру, первый вопрос: это RAG? Или fine-tuned GPT? Нет. Это принципиально другое.

RAG — берёт документы из базы и кидает в ChatGPT. Без ChatGPT не работает. Это поиск + чужой мозг.

Трансформер (GPT) — attention по токенам, GPU, миллионы шагов обучения, забывает при дообучении, галлюцинирует.

Cascade MoE — сигнал реально проходит через нейроны. Каждый нейрон: Linear + LayerNorm + GELU + Gate. Gate определяет вклад. Нейроны общие — один нейрон "OSPF" используется в 50 экспертах.

Главные отличия:

1. Нет роутера. В классическом MoE (Google, DeepMind) есть обученная нейросеть-роутер. У нас — каскадная активация через обратный индекс за 0.14мс.

2. Обучение за 1 шаг. Новый факт: заморозить нейроны → создать маршрут → обучить micro-head (10 шагов). Нулевое забывание математически гарантировано.

3. CPU, 6GB RAM. 13000 нейронов, 19000 фактов. Без GPU.

4. Свой embedding. Без MiniLM, без sentence-transformers. Hash + инвертированный индекс нейронного пула.

5. Бесконечный контекст. Нет окна 4K-128K токенов. Все факты доступны.

Результат: 99% на 1120 тестах по корпоративным сетям.

Вопросы? Давайте обсудим!

#AI #CascadeMoE #нейросети #архитектура #RAG #трансформер #патент

еще контент автора