OpenAI идёт ниже модели
OpenAI и Broadcom представили Jalapeño, AI-ускоритель для LLM inference.
На поверхности это новость про чип. Но в рабочем сценарии она про другое: ответ ChatGPT, задача Codex или вызов API упираются не только в качество модели.
Они упираются в стоимость и скорость каждого inference-запроса.
Когда AI используют каждый день, деньги начинают считаться ниже интерфейса. Важны задержка, память, сеть, kernels, scheduling, дата-центр и энергия.
OpenAI пишет, что Jalapeño проектировали под реальные нагрузки ChatGPT, Codex, API и будущих агентных продуктов. То есть чип делают не отдельно от продукта, а вокруг того, как продукт реально работает.
Это хорошо продолжает линию с Cursor.
Cursor показал, что деньги в AI идут в рабочее место. OpenAI показывает нижний слой этого рабочего места: чтобы ChatGPT, Codex, API и агенты работали массово, нужен свой compute stack.
Модель остаётся видимой частью AI. Но под ней всё больше решает железо: чип, память, сеть, стойки, дата-центры, энергия и цена каждого токена.
Похоже, AI-компании постепенно становятся full-stack инфраструктурными компаниями.
Не только модель.
Не только продукт.
Ещё физический слой, на котором всё это держится.
#ai #openai #broadcom #inference #hardware #инфраструктура #инженерныйвзгляд