Когда каждый день сидишь в одной модели и не смотришь по сторонам, она кажется нормальной. Привыкаешь к её ответам, подстраиваешь промпты под её слабости и не замечаешь, насколько она просела.
Весь фокус ломается в момент, когда начинаешь гонять задачи параллельно в нескольких моделях.
Антропик на прошлой неделе выкатил Opus 4.7. Свежий релиз, на максимальной мощности, ещё не задушенный оптимизациями под нагрузку. Берёт любую сложную задачу и вывозит. Рядом с ним — ChatGPT 5.4, который уже в конце своего цикла, перед следующим релизом, и явно деградировал по качеству. И вот сейчас, 20 апреля, разрыв между ними ощущается просто колоссально.
Через пару месяцев ситуация перевернётся. Выйдет новый GPT, он будет на максималках, а Opus к тому моменту успеет пройти ту же дорогу вниз. И они опять сравняются.
Мысль в том, что реальное качество модели, с которой ты работаешь каждый день, сильно плавает в течение её жизненного цикла. И если ты сидишь только в одной — ты этого не видишь. Тебе кажется, это норма. А это не норма, это просто твоя база сравнения схлопнулась до одной точки.
На мой взгляд, держать как минимум две топовые модели в рабочем контуре — это не про фанатизм и не про любовь к тулам. Это буквально способ не врать себе про то, какое качество ты сейчас получаешь.
· вчера
замечал то же самое - после нескольких месяцев gpt-4o начал принимать любой ответ как норму. переключение на claude для code review сразу показало разницу в качестве анализа архитектуры и нахождения скрытых проблем. сейчас держу несколько моделей параллельно именно чтобы не терять точку отсчёта качества
ответить
коммент удалён