Парадокс Симпсона: как данные могут обманывать нас в продукт
Вы когда-нибудь видели ситуацию, где метрика улучшается в каждой группе пользователей, но в целом ухудшается? Это парадокс Симпсона — статистический феномен, который может ввести в заблуждение даже опытных аналитиков.
Допустим, мы тестируем новую рекомендательную систему. Разделяем пользователей на две группы:
- Новые (слабая вовлечённость)
- Постоянные (высокая вовлечённость)
В каждой группе допустим конверсия выросла, но если посмотреть общий результат, окажется, что в тесте она упала! Почему? Потому что в тестовой версии было больше новых пользователей с изначально низкой конверсией.
Как избежать ошибки?
- Всегда смотрите на данные в разрезе ключевых сегментов.
- Используйте стратифицированный анализ (например, через CUPED или взвешивание).
- Проверяйте баланс групп перед запуском теста.
Парадокс Симпсона напоминает: агрегированные данные могут лгать. Будьте внимательны!
#ПродуктоваяАналитика #DataScience #ABTesting #ПарадоксСимпсона