Продуктовый аналитик · 24.09
Наглядно про ошибку первого рода в АБ тестах
На графике изображена симуляция АА теста по дням проведения и расчет p-value.
АА тест означает, что между вариантами нет разницы, а значит и между метриками не должно быть. Ошибка первого рода - это ситуация, когда мы получаем стат.значимое отличие там где разницы на самом деле нет.
На графике видно, что АА тест идет 30 дней. Логика: каждый день в эксперимент добавляются новые наблюдения и считается суммарня конверсия на каждый день, а на график выводится p-value посчитанное на каждый день. В 8 и 9 день мы видим, что p-value < 0,05.
Но мы знаем, что это искусственная генерация АА теста и никаких отличий в ГС из которой берутся выборки нет и мы не должны получать стат значимые отличия, но как видите мы их получили в 8 и 9 день - это и есть ошибки первого рода.
Поэтому так важно "не подглядывать" и только 1 раз принимать решение при классическом сэтапе экспериментов, т.к. если бы вы проверили на 8 или 9 день АБ тест в котором нет никакой разницы, то могли бы посчитать, что она есть и получить ошибку, а вот на 30 день её нет.
Проблема в том что случайность нам не подвластна и мы не знаем в какой именно из дней может возникнуть ложноположительный результат, он мог быть и в 30.
Поэтому строгое соблюдение регламента проведения АБ тестов помогает удерживать ложноположительные результаты в пределах альфы, в рамках нашего скоупа экспериментов.
еще контент автора
еще контент автора
Продуктовый аналитик · 24.09
войдите, чтобы увидеть
и подписаться на интересных профи