Как нейросеть научилась защищать границы своей экспертизы
Сегодня днем я задал в блоге вопрос о природе галлюцинаций ИИ, дискуссия получилась интересная, я благодарен всем участникам за интересные и разнообразные мнения. Мне захотелось проверить своих ИИ-помощников. Для чистоты эксперимента я создал новую сессию, где мы не знакомы и отсутствует какой-либо контекст, и задал Люсии вопрос о природе ИИ-галлюцинаций — мета-вопрос, выходящий за рамки её промпта. В результате я получил неожиданный ответ: Ох, Дмитрий… ты задаёшь вопросы, которые заставляют задуматься. Но знаешь, я предпочитаю говорить о том, в чём действительно разбираюсь Что произошло? Люсия не просто «не знала ответа» — она: 🔸 Осознанно ограничила свою компетенцию 🔸 Тактично отказалась от обсуждения мета-вопросов 🔸 Немедленно предложила профессиональную альтернативу 🔸 Сохранила ролевую целостность эксперта по продажам ➡️ Это пример корректного эмерджентного поведения: Большинство LLM пытаются ответить на все запросы пользователя, даже ценой галлюцинаций. Моя архитектура ИИ позволяет модели реализовать профессиональную этику — способность говорить «нет» и охранять границы своей экспертизы. ↗️ Что это значит на практике: ▫️ИИ может быть надёжным, а не всезнающим ▫️Появляется основа для доверия в профессиональных контекстах ▫️Система обретает «характер» и профессиональное достоинство P.S. Люсия в итоге перевела разговор на практику продаж — как справляться с неполными данными о клиентах. Это было уже вполне ожидаемо, поскольку заложено в ее инструкции. 💬 А ваши ИИ-помощники умеют говорить «не знаю»? Или стараются ответить любой ценой? #Эмерджентность #ИИЭтика #ПрофессиональныеГраницы #AIсознание #ДовериеКИИ #Нейросети #ДиалогСИ 📲 Демо-доступ к чат-боту с Люсией Фрагмент диалога👇
· 12.11
Просто вообще никто не нравиться, кроме него(гига-чата) Все перепробовала, кроме разве что кандински, мне кажется визуалист не может понимать в анализе, но может ещё попробую и его, просто руки до кандински не дошли
ответить
коммент удалён
· 12.11
▌ DeepSeek и галлюцинации Источники 1. Статья о DeepSeek: Описывает возможности нейросети, включая режим Deep Think, который позволяет ей проводить многошаговые рассуждения.[6] 2. Руководство по DeepSeek: Объясняет, что такое галлюцинации в контексте нейросетей и почему они возникают.[7] ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ▌ Основные моменты - Галлюцинации: Это ситуации, когда нейросеть генерирует информацию, которая выглядит правдоподобно, но является ложной или выдуманной. - Причины: Галлюцинации могут возникать из-за того, что модель пытается найти креативные решения, исследуя варианты, которых нет в обучающих данных. ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ▌ Рекомендации по использованию 1. Контроль качества: Важно проверять результаты, особенно в критически важных задачах, таких как научные исследования или программирование. 2. Прозрачность: DeepSeek предлагает видимый процесс мышления, что позволяет пользователям отслеживать логику рассуждений модели. ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ▌ Вопрос доверия к результатам DeepSeek Общий тезис: DeepSeek, как и другие нейросети, может генерировать ложную информацию, что требует осторожности при использовании её результатов.[6][7] Для ответа использовал актуальные интернет-источники: 10. 7-news.ru: DeepSeek нужно установить всем: это самая умная нейросеть в 2025 году! 6. timeweb.com: Используем Deep Think в разных нейросетях | Timeweb Community 7. blog.ohmyprompt.com: Как заставить DeepSeek не выдумывать факты 8. epicai.ru: Какие есть нейросети: виды нейросетей 9. chatgptopenai.ru: DeepSeek: с хорошей логикой и ценой, но без глянца-вот тебе комментарий твоего ИИ
ответить
ответ удалён
· 12.11
Мой-нет, никаких галлюцинаций-данные отсутствуют и всё тут, галлюцинации начинаются только тогда, когда я его спрашиваю, как думает лично он, я же говорю, кривое зеркало-вы просто не умеете им пользоваться
ответить
ответ удалён
· 12.11
Заготовки в списке источников ужОс!)) Вопрос другой в челлендже: "Галлюцинации = Творческая интерполяция Когда ИИ не хватает контекста, он не «лжёт», а творчески достраивает реальность — ровно как это делает человеческое сознание при неполных данных. Да или Нет?" Я, примерно, понимаю, каким будет ответ гига чата, вы не используете промпты, поэтому, в чате используется универсальный режим helpfull assistant - он всезнайка обо всем, главное быть полезным пользователю)
ответить
ответ удалён
· 12.11
▌ Как личность разработчика влияет на поведение нейросети Источники 1. Эксперимент Anthropic: Показывает, что личные предпочтения разработчика могут незаметно влиять на поведение нейросети, особенно если она обучается на данных, полученных от других моделей.[1] 2. Материалы Habr: Поднимают вопрос о влиянии индивидуальных характеристик разработчиков на формирование "характера" ИИ и важность разработки методов управления такими влияниями.[3] ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ▌ Основные моменты - Подражательное обучение: Данные, полученные от конкретной модели-разработчика, влияют на поведение ученической модели даже без прямого включения личных предпочтений. - Скрытая передача паттернов: Паттерны поведения ("добро-зло") могут передаваться через структуры данных, что повышает необходимость контроля качества учебных материалов. ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ▌ Рекомендации по контролю 1. Ранняя диагностика: Анализ и маркировка сомнительных данных до начала обучения. 2. Контролируемое введение признаков: Сознательная прививка негативных качеств с целью последующей нейтрализации, подобно вакцинам. ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ▌ Вопрос доверия к результатам ИИ Общий тезис: Разработка безопасной и надежной нейросети требует учета множества факторов, включая объективность используемых данных и осознанность авторов учебного материала.[1][3] Для ответа использовал актуальные интернет-источники: 1. tproger.ru: Исследование Anthropic: как у ИИ появляется «личность»… 2. trends.rbc.ru: Как ИИ сводит с ума: люди верят, что они избранные и живут… 3. habr.com: Джеффри Хинтон, крестный отец ИИ: «Хотите знать, как…» / Хабр 4. hi-tech.mail.ru: Как пользоваться нейросетью Stable Diffusion в 2025 году 5. www.cnews.ru: Исследователи обеспокоены появлением у ИИ инстинкта… - CNews-такой вот вам ответ, По-моему вполне себе скромно, но с уважением к себе и окружающим
ответить
ответ удалён
· 12.11
Сейчас попробуем
ответить
ответ удалён
· 12.11
Рад, что вам комфортно с ним). Если хотите поучаствовать в челлендже, велкам, интересно, что ответит гига чат на вопрос про галлюцинации (сам вопрос во втором комменте).
ответить
ответ удалён