Юрий Борзило пишет:

Эффекты первичности и новизны в АБ тестах

Начнем с примеров, чтобы понять, что это такое.

Эффект первичности Возьмем банковское приложение. Хотим протестировать гипотезу о том, что если перенести кнопку оплаты в новое место на экране, то это уменьшит время, которое нужно пользователю, чтобы провести платеж.

Провели АБ тест в течении недели и увидели, что время в тестовой группе выросло, а мы ожидали что пользователи быстрее будут проводить платеж.

Что произошло? Аудитория приложения - текущие клиенты банка. Оплата - это регулярная операция. У пользователя уже выстроился некоторый паттерн решения этой задачи завязанный на текущий интерфейс приложения.

Когда пользователь попадает в новый интерфейс, то его привычный паттерн уже не будет работать, ему нужно время чтобы понять как вести себя в новом интерфейсе, соответственно время до выполнения платежа вырастет. Проведя несколько оплат пользователь обучится и только после этого время на выполнение платежа снизится.

Соответственно эффект первичности про то, что когда пользователь сталкивается с чем-то новым впервые, то ему будет сложно с этим взаимодействовать в силу предыдущего опыта, даже если новый вариант действительно лучше.

Эффект новизны Возьмем снова банковское приложение. К примеру мы запустили новый баннер с рекламой кэшбека и хотим сравнить его эффективность с предыдущим баннером рекламирующим кэшбек.

Провели АБ тест в течении недели, увидели что кликабельность нового баннера выше. Тут может быть подвох.

Возможно пользователи попавшие в тестовую группу кликают на новый баннер не потому что там реально классное предложение, а потому что это просто что-то новенькое и им любопытно.

Возможно если бы мы держали АБ тест дольше, то интерес к баннеру бы уменьшился и произошел бы регресс к средним показателям и мы бы не получили отличий в вариантах.

Как распознать эти эффекты? Для начала скажем, что эти эффекты в основном возникают когда вы проводите АБ на аудитории старых пользователей или текущих клиентах, т.е. тех у кого уже есть какой-то опыт работы с вашим продуктом.

Если пользователи новые то и контрольный и тестовый вариант будут давать новый опыт пользователям, в обоих группах.

Один из способов понять есть ли эти эффекты это взглянуть на динамику целевого показателя построенного по дням без накопительного итога.

Если перенести на наши примеры, то в случае эффекта первичности мы все же должны будем увидеть тренд на сокращение времени на оплату от дня ко дню, т.к. пользователи учатся новому паттерну.

В случае с с эффектом новизны мы скорее всего увидим резкий рост кликабельности баннера в первые дни и потом угасающий тренд, регресс к среднему.

Кроме этого можно отдельно посмотреть на поведение старых и новых пользователей. Может быть ситуация, что если смотреть когорту новых пользователей, то время на выполнение платежа будет меньше в тестовой группе, а в контрольной больше, т.к. эффект первичности будет у обоих групп, т.к. все пользователи новые и получают новый опыт впервые.

Для того чтобы нивелировать влияние этих эффектов лучше закладывать более долгий период проведения экспериментов, либо отдельно смотреть поведение старых и новых когорт чтобы понять ситуацию детально и принять более взвешенное решение.