Парадокс Симпсона — статистика, которая вас обманет, даже если вы против Вы все наверняка помните, что есть ложь, наглая ложь и статистика. Только я думаю, что еще есть парадокс Симпса - лучший способ обмануть себя и всех вокруг, используя статистику.

Парадокс Симпсона — это тот случай, когда ты уверен в своих данных, строишь графики, делаешь выводы... и всё неправильно.

Простой пример, чтобы охренеть: Допустим, ты хочешь понять, какой врач лучше — доктор «А» или доктор «B» (глянь картинку в начале).

В каждой из групп доктор «A» лучше: В легких случаях: 90% против 95% (почти одинаково) В тяжелых: 10% против 10% (равно). И че? Кто по вашему лучший? Не поглядывай!

Оказывается, гребаный доктор «B» - невероятно крут! Как так? Если объединить данные: Доктор «A»: 100 из 200 = 50% Доктор «B»: 20 из 30 = 66% В чем подвох? Скрытая переменная — распределение по сложности случаев. «B» работал почти только с лёгкими пациентами, а «A» тащил и тяжёлых. Так что если не учитывать эту переменную — можно сделать прямо противоположный вывод.

Где такое встречается? - HR: Средняя зарплата мужчин выше, но оказывается, что женщины чаще в низкооплачиваемых департаментах. - Образование: Один вуз "хуже" по среднему баллу студентов, но если разбить по факультетам — он оказывается лучше в каждом. - Медицина: Лекарство кажется бесполезным в общем, но помогает в каждой возрастной группе. - Продуктовая аналитика: Фича "ухудшила" метрику, но только потому что ей пользовались в основном новички.

Что с этим делать? - Разбивайте данные: Ищите зависимость от скрытых признаков. - Не верьте агрегатам: Среднее — зло без контекста. - Стройте дашборды с фильтрами: Пусть можно было посмотреть и в целом, и по сегментам. - Ищите "речку в пустыне": Если глобально тренд один, а в каждой подгруппе — другой, это тревожный звонок.

Финалочка: Парадокс Симпсона — напоминание, что данные без контекста могут врать. Или точнее: вы будете врать себе, глядя на данные, если не копнете глубже.

А ты знал, про парадокс раньше?

👍 - пффф, конечно ♥️ - спасибо, бро, что рассказал 🔥 - я сам себе ходячий парадокс!

P.S. И доктор «В» крут, потому что умеет правильно выбрать еще и пациентов, которых он будет вести.

@badtechproject

Парадокс Симпсона — статистика, которая вас обманет, даже если вы против
Вы все наверняка помните, что есть ложь, наглая ложь и статистика | Сетка — новая социальная сеть от hh.ru Парадокс Симпсона — статистика, которая вас обманет, даже если вы против
Вы все наверняка помните, что есть ложь, наглая ложь и статистика | Сетка — новая социальная сеть от hh.ru
repost

831

input message

напишите коммент

Как же запутанно вы объясняете 😆

ответить

20.05

С кем не бывает)

ответить

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь