Сэкономить на токенах в 10 раз
В наивной реализации нейросеть читает чат каждый раз заново и прогоняет через видеокарту всю историю диалога – хотя от запроса к запросу старые реплики не менялись. Для оптимизации провайдеры придумали кэширование – оно позволяет посчитать этот кусок однажды и дальше подставлять готовым. У Anthropic, например, чтение из кэша стоит раз в десять дешевле обычного, плюс ответ приходит быстрее.
К сожалению, лекарство неполное. Кэш живёт в памяти видеокарты, а её мало и она дорогая, поэтому под нагрузкой старые куски вытесняются и всё опять считается заново. Есть и привязка ко времени – отошёл человек от чата на час, вернулся, а контекст уже протух. В итоге глобально проблема никуда не делась – её просто немного сгладили.
Идея #стартапдня Tensormesh – не выбрасывать посчитанное, когда в видеопамяти кончается место, а сгружать кэш ниже: в обычную оперативную память, на SSD, в сетевое хранилище. Заодно он становится общим для всех видеокарт разом. Готовый кусок тогда переживает и вытеснение, и паузу, и переезд на другой сервер, а пересчитывать приходится заметно реже.
Движок можно скачать и использовать бесплатно. Он относительно популярен, на Github у проекта 9 600 звезд. У Nginx для сравнения 31 000, у OpenClaw 380 000. Зарабатывает Tensormesh на собственном хостинге чужих opensource моделей. Его формула – “кэшированные токены отдаем бесплатно”. Утверждается, что в каких-то сценариях это выйдет и в 10 раз дешевле обычной цены.