⏱️ Период полураспада SOTA-моделей: GPT-5.2 is out Ситуация на рынке AI становится гротескной: новые модели не держатся в топе лидербордов и пары недель

⏱️ Период полураспада SOTA-моделей: GPT-5.2 is out

Ситуация на рынке AI становится гротескной: новые модели не держатся в топе лидербордов и пары недель. Помните времена, когда мы год жили с одной версией GPT-4 и считали это нормой? Забудьте. Сейчас, если вы моргнули, вы пропустили смену лидера индустрии.

Что улучшили? 1️⃣ Программирование: потолок пробит На SWE-bench Verified (это бенчмарк, где решаются реальные задачи из GitHub-ишью) модель выдает 80.0%. Для сравнения: 5.1 Thinking выдавала 76.3%. Но интереснее другой график — SWE-Bench Pro (более сложный, мультиязычный тест). Там 55.6% против 50.8% у предшественника.

2️⃣ Агентность и инструменты 🛠 Вот где настоящий жир. OpenAI заявляют о радикальном улучшении в tool calling (вызове инструментов). В отчете есть кейс Triple Whale, которые схлопнули сложную систему из кучи агентов в одного мега-агента с 20+ инструментами. We no longer need sprawling system prompts because 5.2 will execute cleanly off a simple, one-line prompt. Если вы все еще пишете гигантские простыни инструкций, чтобы заставить модель правильно вызвать функцию, то 5.2 умеет оркестрировать сложные процессы (пофиксить баг -> прогнать тесты -> обновить доку) без няньки.

3️⃣ Контекст и "Игла в стоге сена" Заявлена почти 100% точность на тесте 4-needle MRCR с контекстом до 256k токенов. На практике: вы можете скармливать модели огромные куски легаси-кода, документацию и логи одновременно. И она (вроде как) не потеряет нить рассуждения. Для рефакторинга и онбординга в чужие проекты — это киллер-фича.

4️⃣ Vision для фронтендеров Те, кто верстает по скриншотам, возрадуйтесь. ScreenSpot-Pro показал рост с 64.2% до 86.3%. Модель наконец-то начала нормально понимать пространственное расположение элементов. "Сделай как на картинке" перестает быть лотереей.

💸 Ложка дегтя: цена За интеллект надо платить. В API GPT-5.2 Thinking стоит $1.75 за 1M входных и $14 за 1M выходных токенов. Это дороже, чем 5.1 ($1.25 / $10).

Короче, наша задача как инженера теперь сводится к двум вещам: 1. Декомпозиция задачи до уровня, понятного агенту. 2. Жесткое Code Review того, что он там нагенерил (галлюцинаций стало на 30% меньше, но они никуда не делись). 3. ПЛОТИТЬ ДЕНЮЖКИ