Владимир Панов пишет:

🎓 ИИ с нуля. Урок 10/16

Мультимодальность, когда нейросеть видит и слышит

В прошлом уроке разобрали reasoning: модель, которая рассуждает перед ответом. Теперь посмотрим на другое измерение: что, если модель может не только читать твой текст, но и смотреть на твою картинку и слышать твой голос.

Что такое мультимодальность Мультимодальность (когда одна модель работает сразу с несколькими типами данных: текст, изображения, голос, иногда видео) это шаг от «умного читателя» к чему-то, что ближе к человеческому восприятию.

Аналогия простая. Раньше модель умела только читать. Как будто у неё был только один орган чувств. Теперь у неё есть зрение и слух. Ты показываешь фотографию, и она видит. Говоришь вслух, и она слышит. Отвечает тоже голосом, если нужно.

Что уже хорошо работает Понимание картинок. Это самое зрелое направление. Современные модели читают фотографии, скриншоты, графики, схемы, отсканированные документы, рукописный текст. Качество здесь уже очень приличное.

Голос. Можно говорить с моделью вслух и получать голосовой ответ. ChatGPT Advanced Voice, Gemini Live, несколько других сервисов это уже умеют. Задержка небольшая, разговор получается почти естественным.

Где пока слабее Видео понимает хуже. Можно загрузить короткий ролик, модель опишет, что там происходит. Но детали упускает, длинные видео не тянет, и за движением следит плохо. Это активная зона развития, но на «понять сложный фильм» ещё не тянет.

Что это меняет на практике Вот четыре ситуации, где мультимодальность реально ускоряет жизнь:

Сфотографировал содержимое холодильника. Спросил: «Что приготовить из того, что вижу?» Модель видит продукты и предлагает рецепты.

Поймал ошибку на экране. Сделал скриншот. Скинул и написал: «Помоги разобраться». Не надо переписывать текст ошибки вручную.

Нашёл непонятный график в отчёте или статье. Прикрепил картинку. Написал: «Объясни, что здесь показано». Получаешь объяснение по факту, а не по догадке.

Получил рукописную записку или заметку на бумаге, плохо читается. Сфотографировал. Попросил расшифровать. Работает даже с корявым почерком.

Попробуй сейчас Открой ChatGPT, Gemini или Claude. Нажми на иконку прикрепления файла или картинки. Сфоткай любой чек, этикетку продукта, схему из инструкции или распечатку с графиком.

Напиши: «Что здесь написано? Объясни кратко.»

Посмотри, насколько точно модель прочитает то, что ты прикрепил. Сразу станет понятно, на что способно зрение нейронки.

Ставь 🔥, если уже пробовал показать нейросети картинку. #курс #спросинейронку