Месяц бился с ботом, пока не понял главное про данные

Когда еще не знал про RAG, взялся за фитнес-бота на n8n: большая база знаний по питанию и тренировкам, и бот должен был отвечать на вопросы клиентов. На бумаге просто: по запросу вытащить релевантные куски, закинуть в контекст модели, получить ответ.

В реальности бот тонул. Отвечал мимо, терял нить разговора, путался во всей базе. Сидел над этим почти месяц, пробовал добавить еще данных, переписал логику несчетное число раз. Ничего не помогало.

И в один момент понял: проблема не в объеме знаний и не в модели. Проблема в том, что я прокидывал в контекст сразу ВСЮ базу. Модель не видела иглу в стоге сена.

Решение оказалось до смешного простым. Прогнал весь объем данных через LLM, которая разбила массив на смысловые чанки и подписала каждый блок темой: «тренировка спины», «синтез белков», и так далее. Теперь поиск доставал только релевантный кусок вместо всей базы.

Бот начал работать.

Это был мой первый самостоятельный взлом класса задач: проблема была не в том, что данных мало, а в том, что контекст был неструктурирован. Позже я назову это RAG, когда встречу в боевых проектах. Но тогда просто понял: нужно разбивать, размечать и тянуть только то, что нужно.

#n8n #RAG #автоматизация #данные