Дизраптор пишет:

28.09 · ред.

Почему у ИИ сложные отношения с клубникой?

Пару недель назад OpenAI представила новую продвинутую модель, которая формально называется "o1", но в народе - "Strawberry" https://clck.ru/3DZPA3 И очень интересно, почему именно она называется "Клубничкой" (нет, не потому что генерит картинки непристойного содержания):

Дело в том, что генеративный ИИ традиционно плохо справляется со словом "Strawberry". Пользователи спрашивали, сколько букв "r" в слове "strawberry", и получали ответ "две" https://clck.ru/3DZPCC И вот почему. Дело в том, что ИИ не воспринимает слова как мы. Он не знает, что в слове есть слога и буквы, и не запоминает их порядок. Вместо этого трансформер (т.е. тот самый "мозг" ИИ - в кавычках, потому что мозга в привычном понимании у ИИ на самом деле нет) раскладывает текст на токены https://clck.ru/3DZPEg Токены могут быть отдельными словами, слогами или буквами, в зависимости от модели. Условно, если вы напишете "кот", то ИИ может разложить его на токены "к", "о", "т", а может просто сделать токен "кот" и вообще не знать, что внутри сидят три буквы.

Когда вы напишете нейросетке вопрос про кота, она просто быстро зафигачит ответ, отталкиваясь от того, как и где в её контексте употребляется этот токен (смотря на каких данных она обучилась коту, грубо говоря).

Так вот, для ИИ слово Strawberry - это просто токен "strawberry" или два токена "straw" + "berry" (может быть и так, и эдак). А какие там буквы внутри сидят, и сколько там "r" - он понятия не имеет. Так происходит не только с этим словом, просто кейс клубнички ярко проявился и стал мемом.

Кстати, по похожей причине визуальные нейросетки плохо генерят изображения рук с пальцами или надписи. Ведь лица людей, животных, яблоки или автомобили они видели плюс-минус одинаковыми в разных контекстах. Так что, могут более-менее точно кристаллизовать образ из общего "шума". А вот руки часто не видно, или пальцы всегда в разных положениях. Поэтому ИИ путается и рисует мутантов (ну, по крайней мере так было раньше). Надписей тоже много разных, написано может быть что угодно. Поэтому если вы попросите нагенерить слово "Шаурма", то с большой вероятностью получили "Шарумаа", "Аршмуа" или что-то подобное (или вообще какую-нибудь рандомную ересь).

Такие приколы напоминали нам о том, что ИИ - это просто "Т9 на стероидах", а не разумная сущность. Апокалипсис откладывался))

Так вот, новая модель OpenAI называется "Strawberry", потому что у неё другой принцип работы. Она не просто выдает быстрые ответы через "констектуализацию токенов", а умеет думать https://clck.ru/3DZPHb , рассуждать, анализировать и синтезировать (гляньте статью по этой ссылке, кстати, она годная). А еще гораздо точнее и осмысленнее отвечать на вопросы по физике, химии т.д. И уж точно распознает, сколько букв "r" сидит в "strawberry". Как именно она это делает - это уже другой большой технический вопрос, но это точно важный и большой шаг в развитии генеративных железяк.