Парадокс Симпсона: как данные могут обманывать нас в продукт

Вы когда-нибудь видели ситуацию, где метрика улучшается в каждой группе пользователей, но в целом ухудшается? Это парадокс Симпсона — статистический феномен, который может ввести в заблуждение даже опытных аналитиков.

Допустим, мы тестируем новую рекомендательную систему. Разделяем пользователей на две группы:  - Новые (слабая вовлечённость)  - Постоянные (высокая вовлечённость) 

В каждой группе допустим  конверсия выросла, но если посмотреть общий результат, окажется, что в тесте она упала! Почему? Потому что в тестовой версии было больше новых пользователей с изначально низкой конверсией. 

Как избежать ошибки? - Всегда смотрите на данные в разрезе ключевых сегментов.  - Используйте стратифицированный анализ (например, через CUPED или взвешивание).  - Проверяйте баланс групп перед запуском теста. 

Парадокс Симпсона напоминает: агрегированные данные могут лгать. Будьте внимательны! 

#ПродуктоваяАналитика #DataScience #ABTesting #ПарадоксСимпсона