Bears Mind пишет:

Основы A/B тестирования

📈Основы A/B тестирования — как статистика помогает принимать решения (14/15)

A/B тестирование — это структурированный способ ответить на вопрос: работает ли изменение в нашем продукте или маркетинге лучше старого варианта. Другими словами, мы создаём две версии (A и B), рандомно распределяем пользователей между ними и смотрим, какая из них приносит желаемый результат: больше конверсий, выше выручка, лучше удержание и т. п. В основе лежит идея проверки гипотез: нулевая гипотеза говорит «между версиями разницы нет», а альтернативная утверждает, что разница есть. В идеале мы хотим увидеть статистически значимый эффект, чтобы решение можно было внедрять не боясь ошибиться.

Начнём с того, как формулируются гипотезы и какие параметры нам нужны. Нулевая гипотеза (H0) традиционно звучит как «разницы между версиями нет»; альтернативная гипотеза (H1) — «есть разница». В зависимости от задачи мы решаем односторонний или двусторонний тест: если нас интересует только увеличение конверсии, выбираем односторонний тест; если хотим проверить и рост, и спад, используем двусторонний. Важнейшие понятия — уровень значимости (обычно 0.05) и мощность теста (часто ставят 0.8). Уровень значимости — шанс ошибочно отвергнуть H0, мощность — шанс правильно обнаружить реальную разницу. Приведём простой пример: тестируем две версии лендинга, где в версии B ожидаем конверсию на 10% выше, и хотим узнать, хватит ли нам данных, чтобы с вероятностью 80% обнаружить такую разницу при α=0.05.

Как же это делается на практике? Сначала определяем минимально значимую разницу (MDE) — ту величину эффекта, которую мы хотим заметить. Затем рассчитываем необходимый объём выборки (сколько пользователей нужно в каждой группе), чтобы тест хватил нужную мощность. Можно пользоваться онлайн-калькуляторами или базовыми формулами: для сравнения долей (конверсий) применяют тест на две доли, а для сравнения средних — t-тест. Затем запускаем рандомизацию, следим за качеством данных, избегаем «подглядываний» и преждевременных остановок, потому что они искажают результаты. После окончания теста трактуем p-value и доверительный интервал эффекта: если p < 0.05 и эффект достигает MDE, можно переходить к внедрению; если нет — лучше не менять текущую стратегию.

Чтобы увидеть, как это работает в реальности, рассмотрим два небольших примера. Пример 1: тестируем цвет кнопки призыва к действию на целевой странице. Базовая конверсия 4.2%, планируемый подъем до 4.8% (MDE 0.6 процентного пункта). При α=0.05 и мощности 0.8 нужен порядка 7–8 тысяч пользователей на каждую версию. В реальности тест дал 4.8% vs 4.2% с p-значением около 0.02 — значит, различие значимое и мы можем внедрять изменение. Пример 2: две версии письма с subject lines для рассылки, база 50 тысяч получателей. Открываемость у версии B на 1.5% выше, p ≈ 0.04, значит по порогу 0.05 сигнал есть, можно продолжать и рассмотреть дальнейшее масштабирование, но обязательно проверить устойчивость на других сегментах и временем.

Разумеется, не всё так просто. В реальных условиях могут возникнуть проблемы: сезонность, рыночные изменения, пользователи с разной реакцией, малый размер выборки, нарушение рандомизации, «переход» аудитории между версиями. В таких случаях полезно рассмотреть альтернативы: Bayesian A/B тестирование, последовательное тестирование, контроль за «частотами» и регулярные ревизы KPI. И не забывайте о практической значимости: статистически значимое отличие может быть очень маленьким по бизнес-значению, поэтому важно ставить в приоритете не только p-value, но и реальный эффект на выручку, коэффициенты конверсии и окупаемость.

Запомните, даже самый спокойный медведь умеет рычать, когда надо. Берегите голову, берегите данные — и пусть в вашем дне будет немного тишины, ясности и добрых переменных.

#МатСтат