AB Police
Иван Максимов, Head of ML Personalization, RecSys and Search в Яндекс · 27.02
А/В тесты 18+ Сегодня на разборе ваших кейсов действительно горячая тема!
Отрасль: OnlyFans like платформа 🔞 Кто прислал на разбор: Аналитик Сам кейс: Существует секретная формула, по которой ранжируется выдача на странице. Решили прикрутить что-то "более умное" - многоруких бандитов на импрешн/клик оптимизацию на всех данных. Запустили АБ тест с разбиением 50/50: следили за количеством подписок, "завязавшихся отношений", пользователей с подпиской/кликом. Считали бутстрапом Есть подозрение, что что-то здесь делалось не так, так как бандиты по итогу значимо проиграли
А/В полиция разбирает любые отрасли, так что и тут поможем) Единственное, не хватает информации про устройсвто ранжирования в контрольной группе. Многорукие бандиты вполне могут победить ранжирование "по логике", например, такое: score = a1 * популярность + a2 * рейтинг + a3 * свежесть контента
В таком случае стоит смотреть на дизайн теста. В нем есть несколько потенциально проблемных мест:
1. Метрики лучше бы из абсолютов перевести в ratio Иначе рискуете получить кучу проблем, если сплитование на группы хотя бы капельку неверно работает. Часто случайно получаются группы не 50/50, а 50.5/49.5 и от этого страдают метрики в абсолютах. Стоит поменять: - количеством подписок --> CR показ страницы-подписка - "завязавшихся отношений" --> CR показ старницы - отношения
2. Выбор стат критерия Следователи А/В полиции предполагают, что пользователей у вас не 2 тысячи) Так что вполне можно пользоваться бакетным Т-тестом: будет быстрее, надежнее + легко посчитать необходимое число наблюдений. Бустртап - хороший метод, но накосячить в нем очень легко
3. Выборки зависимы Фишка баесовских бандидов в exploration: они показывают новые видео/категории пользователю и быстрее адаптируются под интересы. Но вангую, что ранжирующая формула в контроле обучается на исторических данных из контроля + теста. То есть она "подглядывает" в тест и собирает все сливки от exploration бандитов
4. Импрешн/клик не обязательно ведет к подписке/отношениям Возможно, в бандитах вы оптимизируете не ту метрику, которую хотите прокрасить в А/В. Есть немаленький риск получить много кликбейта, если в оптимизируемую метрику бандитов/алгоритма добавлять клики
Кстати, подобных заявок в А/В полиции выше крыши 🚨 Постарайтесь оптимизировать алгоритмом метрику максимально близкую к целевой в А/В. Например, обучать бандитов прямо на "появление отношений". Или на комбинацию метрик = Клик + w * Появление отношений + ...
5. Сильный контроль Если все же в контрольной группе работают алгоритмы персонализации (als, ease, да хотя бы tf-idf), то они обычно рвут более "простых" баесовских бандитов: они просто учитывают сильно больше факторов. Например, историю взаимодействия пользователя с видео, а не только поулярность/рейтинг видео
Спасибо за такие интересные кейсы: вы подогреваете интерес даже к А/В тестам 🔥 А прислать свою ситуацию на бесплатный разбор вы всегда можете в форму 🙂
#разбор@abpoliceеще контент автора
еще контент автора
AB Police
Иван Максимов, Head of ML Personalization, RecSys and Search в Яндекс · 27.02
войдите, чтобы увидеть
и подписаться на интересных профи