Заскуль Питона
09.11
😵 Выбросы в A/B тестах. Проблема при дизайне, подведении результатов, планировании следующих экспериментов.Дизайните эксперимент вы, значит, в компании, где есть люди, ответственные за валидацию экспериментов (либо вы сами), рассчитываете там какое-то MDE, получаете большое значение MDE из-за разных причин: маленький срез, тяжелые хвосты у распределения метрики и т.д. На берегу понимаете, что тест, скорее всего, не прокрасит метрику.
Вам приходит идея срезать выбросы и тут вы замечаете, что дисперсия уменьшается, но есть нюанс, на симуляциях A/A тестах вы получаете завышенную ошибку первого рода. Очень часто это может прослеживаться в направлении рекламы, среди пользователей в e-commerce.
Объединение теста и контроля с едиными квантилем для обеих групп позволяет снизить ошибку первого рода, она даже в пределах нормы находится, но с ошибкой второго рода - беда.
Почему?Разные группы (в одной есть тритмент, в другой нет),мы по сути перемешиваем группы и ищем квантиль обеих групп.
Что можно с этим сделать?
1. Убрать выбросы на предпериоде, топ n пользователей по целевой метрике в тесте
2. Заменить значение выбросов на максимальное значение по квантилям. Пример: пользователь принесу сервису 100 рублей, 99% квантиль - 80. Пользователя мы не убираем, заменяем значением 80. Более подробно про это могу написать, проведем симуляции, посмотрим как ведут себя распределения и др. Материалы: Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. АБ тесты и подводные камни при их автоматизации Хорошая статья на Medium, про попытки исключения различным образом выбросов Это одна из многих проблем, которая есть при проведении экспериментов.
еще контент в этом сообществе
еще контент в этом соообществе
Заскуль Питона
09.11
войдите, чтобы увидеть
и подписаться на интересных профи