Два пути к будущему AI: эффективность алгоритмов против эффективности "железа" На этой неделе мы видим два разных подхода к масштабированию AI. Китайская DeepSeek выпустила модель V3.2-Exp, а Microsoft (Кембридж) показала прогресс в аналоговых оптических компьютерах (AOC).
Почему это важно: обе разработки нацелены на снижение стоимости и энергопотребления AI, но с разных сторон.
DeepSeek (Алгоритмы): их новая модель использует "DeepSeek Sparse Attention" (разреженное внимание). Это позволяет модели обрабатывать длинные тексты (128K+ токенов) до 64 раз быстрее, используя на 30-40% меньше памяти. Это программная оптимизация, снижающая стоимость вычислений на существующем железе (GPU).
Microsoft (Железо): AOC использует свет (фотоны) вместо электричества для вычислений. Он не является универсальным, но показывает в 100 раз большую скорость и энергоэффективность в специфических задачах (логистика, финансы). Microsoft также исследует его для низкоэнергетических "рассуждений" (reasoning) в LLM.
Анализ: DeepSeek решает проблему "здесь и сейчас", делая текущие LLM дешевле в эксплуатации. Microsoft инвестирует в фундаментально новую архитектуру, которая может изменить ландшафт вычислений через 5-10 лет, особенно для задач, где энергопотребление критично.
Источники: DataCamp (DeepSeek) и Microsoft News (AOC)
#gratio_digest #AI #DeepSeek #MicrosoftResearch #AOC #LLM #Hardware #GPU