Парадокс Симпсона: как данные могут обманывать нас в продукт

Вы когда-нибудь видели ситуацию, где метрика улучшается в каждой группе пользователей, но в целом ухудшается? Это парадокс Симпсона — статистический феномен, который может ввести в заблуждение даже опытных аналитиков.

Допустим, мы тестируем новую рекомендательную систему. Разделяем пользователей на две группы:

  • Новые (слабая вовлечённость)
  • Постоянные (высокая вовлечённость)

В каждой группе допустим  конверсия выросла, но если посмотреть общий результат, окажется, что в тесте она упала! Почему? Потому что в тестовой версии было больше новых пользователей с изначально низкой конверсией.

Как избежать ошибки?

  • Всегда смотрите на данные в разрезе ключевых сегментов.
  • Используйте стратифицированный анализ (например, через CUPED или взвешивание).
  • Проверяйте баланс групп перед запуском теста.

Парадокс Симпсона напоминает: агрегированные данные могут лгать. Будьте внимательны!

#ПродуктоваяАналитика #DataScience #ABTesting #ПарадоксСимпсона