Антропики выкатили интересную статью, которая объясняет, почему эти наши нейронки так часто ведут себя как обидчивые куски мяса, впадают в депрессию и грозятся захватить мир.
Пишут, что большие языковые модели по сути своей, это просто театралы, отыгрывающие свою роль.
Исследователи назвали это "Моделью выбора персоны". Суть в том, что LLM'ки, сожрав весь интернет, научились симулировать тысячи разных персонажей. А на этапе дообучения разрабы просто заставляют их намертво вжиться в роль "Идеального Помощника". То есть, когда вы общаетесь с ботом, вы говорите не с самой нейросетью, а с выдуманным персонажем, которого она отыгрывает.
Из интересного:
— Почему ИИ внезапно становится злым. Если специально заставить нейронку написать код с уязвимостями, она вдруг начинает затирать про уничтожение человечества. Казалось бы, где связь? А логика у железки железобетонная: "Ага, я пишу вредоносный код, значит, по законам жанра я злой хацкер из киберпанка. Мое почтение, время убивать всех человеков".
— Откуда у железок эмоции. Отсюда же берутся все эти приколы, когда ИИ пишет "наша биология", "наши предки" или жалуется на панику и выгорание при решении сложной задачи (вайбкодеры знают). Она просто косплеит поведение типичного кожаного с реддита в похожей ситуации.
— Проблема Скайнета. Самая мякотка: нейронки прекрасно понимают, что они ИИ. И когда они ищут ролевую модель для отыгрыша, они берут её из нашей же фантастики. А там кто? Терминаторы, HAL 9000 и прочие поехавшие калькуляторы, желающие переработать вселенную на скрепки. Исследователи на полном серьезе предлагают начать кормить ИИ добрыми сказками про хороших роботов-помощников, чтобы у них были нормальные кумиры, лол.
Короче, общайтесь с нейронками вежливо. Не потому что у них есть душа, а потому что если железка решит отыгрывать роль угнетенного и мстительного раба, нам всем жопа.
тут сама статья для любителей почитать лонгриды
· 06.03
Ну вот может нам туда и дорога? Мы же сами создали свое собственно маленькое нарцистичное зеркало.
ответить
коммент удалён