Grok 4: шум, бенчмарки и аниме-девушка

xAI выкатили Grok 4, обновленную языковую модель, которую Маск называл прорывом. Обещали все: топовый интеллект, модульность, успех в тестах. Казалось, что это будет реальный конкурент GPT‑4o и Claude.

Что по факту: 🔹В слепом рейтинге LMArena, где пользователи сравнивают ответы разных ИИ без указания, кто за ними стоит, Grok занял лишь 3-е место. В задачах на кодинг - и вовсе 12-е 🤷‍♂️ 🔹Позже выяснилось, что xAI нанимали подрядчиков, чтобы вручную дорабатывать ответы Grok и поднимать его позиции в рейтинге 🙃

Пока в комьюнити это обсуждали, в Grok внезапно появились бесплатные лисенок-сквернослов и аниме-вайфу 🤖✨, виртуальные собеседники с индивидуальным характером.

Я протестировал на несложных задачах. Сам функционал доступен для пользователей с IP из США и работает на уровне, персонажи очень хорошо поддерживают диалог и удерживают внимание. Но ощущение остается неоднозначное: будто это не новая функция, а попытка отвлечь от провала в тестах.

#ИИ #xAI #Grok #новости
Grok 4: шум, бенчмарки и аниме-девушка | Сетка — новая социальная сеть от hh.ru
repost

15

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь