Парадокс Симпсона: как данные могут обманывать нас в продукт
Вы когда-нибудь видели ситуацию, где метрика улучшается в каждой группе пользователей, но в целом ухудшается? Это парадокс Симпсона — статистический феномен, который может ввести в заблуждение даже опытных аналитиков.
Допустим, мы тестируем новую рекомендательную систему. Разделяем пользователей на две группы: - Новые (слабая вовлечённость) - Постоянные (высокая вовлечённость)
В каждой группе допустим конверсия выросла, но если посмотреть общий результат, окажется, что в тесте она упала! Почему? Потому что в тестовой версии было больше новых пользователей с изначально низкой конверсией.
Как избежать ошибки? - Всегда смотрите на данные в разрезе ключевых сегментов. - Используйте стратифицированный анализ (например, через CUPED или взвешивание). - Проверяйте баланс групп перед запуском теста.
Парадокс Симпсона напоминает: агрегированные данные могут лгать. Будьте внимательны!
#ПродуктоваяАналитика #DataScience #ABTesting #ПарадоксСимпсона