Послушал подкаст с Анной Подображных (AI-центр Т-Банк) про создание AI-продуктов. Актуально – сейчас пилим голосового робота на базе LLM. Забрал много полезного. Делюсь своими заметками.
1️⃣ Недетерминированность – главный вызов AI-продуктов
Классический продукт: «нажми на кнопку – получишь результат». В AI-продуктах двойной уровень неопределённости: ожидания пользователя и решение, которое выдаст модель.
Если попросить LLM рассказать шутку, ты не знаешь: какую шутку она расскажет, расскажет ли вообще, или начнёт объяснять, почему шутки неуместны в данном контексте.
Поэтому в AI-продуктах другой цикл разработки: Идея → Валидация концепта на синтетике → Прототип → Бета-тест → MVP → Масштабирование.
2️⃣ Как валидировать концепт?
Для валидации концепта нужно делать бенчмарк – набор запросов (инпуты) + правильные ответы (ожидаемые аутпуты). Это первый и обязательный шаг. Без него потратишь месяцы впустую.
Три способа собрать бенчмарк: — синтетические вопросы-ответы с помощью GPT (худший вариант – юзеры просят совсем не то, что ты ожидал) — опросы и интервью пользователей (среднее решение – люди говорят одно, а делают другое) — реальные запросы из продакшена (идеально – видишь настоящие формулировки, опечатки, контекст)
Минимум нужно 100 вопросов-ответов, оптимально ~ 1000 для валидации.
💯 Критическое правило: «если у вас нет корзинки реальных запросов, не начинайте разработку прототипа – потратите месяцы впустую».
✅ Вместо MVP на проде можно посадить человека, чтобы понять какие запросы пользователей реально есть и повторить решение на LLM. Условно берём крутого эксперта, заворачиваем на него диалог с пользователем. Потом анализируем и смотрим, как решить задачи пользователей.
3️⃣ Минимальный порог MVP – это уровень «человека»... и для большинства AI-продуктов даже это очень сложный уровень на текущий момент.
В Т-Банке используют трёхуровневую систему оценки: — Человек – ассистент решает задачу как обычный человек (экономия времени) — Эксперт – справляется как профессионал (экономия денег вместо платных услуг) — Топ-эксперта – лучше лучших специалистов (новое качество)
Как оценивать? Шаг 1: Определите критерии качества Шаг 2: Прогоняем бенчмарк через модель – все примеры вопросов Шаг 3: Оцениваем по критериям качества для каждого ответа. Здесь можно использовать разметчиков (Толока), AI-тренеров или LLM as a judge (нужно калибровать) Шаг 4: Усредняем все оценки
🔥 Главный инсайт: мы как-то улучшили абсолютный скоринг качества с 3.5 до 4.0 – и увидели рост CSAT и других продуктовых метрик.
Следующий уровень оценки – сайд-бай-сайд тестирование: 1. Показываете попарно ответы разных версий ассистента (A vs B) 2. Просите выбрать лучший или оценить "ничья" 3. Собираете процент побед каждой версии
4️⃣ Как создавать прототип?
Сначала сделайте прототип на лучшей модели, потом думайте как повторить на простой. Ваша задача – сделать своё решение для пользователя лучше чем ответы ChatGPT.
Базовый цикл прототипирования: написал промт → прогнал 100 запросов → разметил ответы → получил метрику → нашёл топ-ошибки → улучшил промт → повторил.
Используй эффективные приёмы для промптинга: few-shot примеры (показываю как должно), Chain of Thought (просишь сначала подумать, потом ответить), явные ограничения (чего не делать).
Если упрёшься в потолок токенов – тогда добавляй API, RAG, классификаторы, другую модель. Если итерация дала измеримое улучшение хотя бы по одной метрике – идёшь в правильном направлении.
Полтора часа про ИИ ➡️тут⬆️