Вы наверняка сталкивались с тем, что в диалоге с любой из LLM в какой-то момент модель начинает тупить, выдумывать несуществующее, не следовать инструкциям и перестает называть вас Ваше Сиятельство.
За последнее время, память моделей сильно прокачалась, сейчас она есть между проектами и обычными чатами, можно делать .md для выгрузки в диалог с другой LLM, и в большинстве случаев проблем не возникает. Однако памяти в привычном понимании у моделей нет, она не файнтюнится под вас и ваши задачи, переодически реорганизовывает знания (и вот тут возникают провалы) или внезапно вспоминает факты, которые вы обсуждали пару лет назад.
Об устройстве контекстного окна моделей, компактинге, неоднородности интеллекта и правилах контекст-инжиниринга рассказывает Юра Агеев.
Как перестать беситься и понять почему до сих пор важен контекст.