Когда каждый день сидишь в одной модели и не смотришь по сторонам, она кажется нормальной. Привыкаешь к её ответам, подстраиваешь промпты под её слабости и не замечаешь, насколько она просела.

Весь фокус ломается в момент, когда начинаешь гонять задачи параллельно в нескольких моделях.

Антропик на прошлой неделе выкатил Opus 4.7. Свежий релиз, на максимальной мощности, ещё не задушенный оптимизациями под нагрузку. Берёт любую сложную задачу и вывозит. Рядом с ним — ChatGPT 5.4, который уже в конце своего цикла, перед следующим релизом, и явно деградировал по качеству. И вот сейчас, 20 апреля, разрыв между ними ощущается просто колоссально.

Через пару месяцев ситуация перевернётся. Выйдет новый GPT, он будет на максималках, а Opus к тому моменту успеет пройти ту же дорогу вниз. И они опять сравняются.

Мысль в том, что реальное качество модели, с которой ты работаешь каждый день, сильно плавает в течение её жизненного цикла. И если ты сидишь только в одной — ты этого не видишь. Тебе кажется, это норма. А это не норма, это просто твоя база сравнения схлопнулась до одной точки.

На мой взгляд, держать как минимум две топовые модели в рабочем контуре — это не про фанатизм и не про любовь к тулам. Это буквально способ не врать себе про то, какое качество ты сейчас получаешь.