Наглядно про ошибку первого рода в АБ тестах

На графике изображена симуляция АА теста по дням проведения и расчет p-value.

АА тест означает, что между вариантами нет разницы, а значит и между метриками не должно быть. Ошибка первого рода - это ситуация, когда мы получаем стат.значимое отличие там где разницы на самом деле нет.

На графике видно, что АА тест идет 30 дней. Логика: каждый день в  эксперимент добавляются новые наблюдения и считается суммарня конверсия на каждый день, а на график выводится p-value посчитанное на каждый день. В 8 и 9 день мы видим, что p-value < 0,05.

Но мы знаем, что это искусственная генерация АА теста и никаких отличий в ГС из которой берутся выборки нет и мы не должны получать стат значимые отличия, но как видите мы их получили в 8 и 9 день - это и есть ошибки первого рода.

Поэтому так важно "не подглядывать" и только 1 раз принимать решение при классическом сэтапе экспериментов, т.к. если бы вы проверили на 8 или 9 день АБ тест в котором нет никакой разницы, то могли бы посчитать, что она есть и получить ошибку, а вот на 30 день её нет.

Проблема в том что случайность нам не подвластна и мы не знаем в какой именно из дней может возникнуть ложноположительный результат, он мог быть и в 30.

Поэтому строгое соблюдение регламента проведения АБ тестов помогает удерживать ложноположительные результаты в пределах альфы, в рамках нашего скоупа экспериментов.

Наглядно про ошибку первого рода в АБ тестах | Сетка — новая социальная сеть от hh.ru
repost

243

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь