Какой тест спасёт бизнес?
ЧАСТЬ 1. ПРОВЕРКА НОРМАЛЬНОСТИ Задача: могу ли я использовать средние и t-тесты или данные кривые и нужна непараметрика? — Shapiro–Wilk. Основной. Выборки до 5000. p > 0.05 = нормально. — Anderson–Darling. Чувствителен к хвостам. Кейс: VIP-чеки, фрод. — Kolmogorov–Smirnov (Lilliefors). Огромные выборки, слабее Шапиро. — QQ-plot + гистограмма. Всегда. Точки на диагонали = ок.
ЧАСТЬ 2. ОДНА ВЫБОРКА ПРОТИВ ПЛАНА Задача: средний чек 1800, план 2000. Это шум или недобор? — Одновыборочный t-тест. Нормально или n > 30. Среднее = плану. — Уилкоксон. Симметричные данные. Медиана = плану. — Критерий знаков. Без предположений. Считает, у скольких выше плана, у скольких ниже. — Бутстреп (BCa). ДИ для медианы. План внутри = шум. План ниже = недобор.
ЧАСТЬ 3. ДВЕ НЕЗАВИСИМЫЕ ГРУППЫ Задача: тест vs контроль. Новая механика онбординга. Где конверсия выше? — t-тест Стьюдента. Дисперсии равны (Левен: p > 0.05). Средние равны. — t-тест Уэлча. Дисперсии не равны. Бери по умолчанию. — U-критерий Манна–Уитни. Ненормально. Стохастическое превосходство. — KS-тест. Сравнивает распределения целиком: центр, разброс, хвосты. — Бутстреп / Монте-Карло. Мало данных. ДИ разности медиан.
ЧАСТЬ 4. ДО И ПОСЛЕ (ЗАВИСИМЫЕ ГРУППЫ) Задача: изменили алгоритм рекомендаций. Чек одних и тех же юзеров до и после. — Парный t-тест. Разности нормальны. Среднее изменение = 0? — Уилкоксон для пар. Разности симметричны. Медиана изменения = 0? — Критерий знаков (парный). Выбросы. Считаем только направление: плюс/минус. — Бутстреп (BCa). ДИ медианы изменения. Ноль вне интервала = эффект есть.
ЧАСТЬ 5. ТРИ И БОЛЕЕ ВЕРСИЙ Задача: A/B/C/D — четыре карточки товара. Какая конвертит лучше? — Однофакторный ANOVA. Нормально, дисперсии равны. Хотя бы одна отличается. — Краскел–Уоллис. Непараметрика. Распределения разные в принципе. — Тест Андерсона-Дарлинга для k-выборок. Ловит различия в хвостах и форме, не только в центре. — Пост-хоки (кто выиграл?): — ANOVA + равные дисперсии → Тьюки (HSD). — ANOVA + разные дисперсии → Геймс–Хауэлл. — Краскел–Уоллис → попарный Данн.
ЧАСТЬ 6. ТАБЛИЦЫ СОПРЯЖЁННОСТИ Задача: связан ли возврат заказа с категорией товара? Канал привлечения — с переходом на премиум? — Хи-квадрат Пирсона. Ожидаемые частоты ≥ 5. Признаки независимы? p < 0.05 = связь есть. — Точный Фишер. Ожидаемые < 5. Для 2×2. Точный p-value. — Коэффициент Крамера V. Сила связи. 0.1 — слабая, 0.3 — средняя, 0.5+ — сильная. — Отношение шансов (OR). 2×2. Шанс возврата в одежде в 2.3 раза выше, чем в электронике. OR = 1 — связи нет. — Стандартизированные остатки. Какие ячейки дали значимость? Остаток > |2| — туда и смотрим.
ЧАСТЬ 7. СВЯЗЬ ДВУХ ЧИСЛОВЫХ МЕТРИК Задача: больше сессий в первый день → выше конверсия на 7-й? Время в приложении → средний чек? — Пирсон (r). Линейная связь. Точки на scatter-plot ложатся на прямую. От -1 до +1. — Спирмен (ρ). Монотонная связь. Одна растёт — вторая стабильно растёт. Устойчив к выбросам. — Кендалл (τ). Консервативен. Мало данных, много выбросов. Реже ложная значимость. — Бутстреп. ДИ для ρ или τ. Не содержит ноль = связь значима.
ЧАСТЬ 8. СИМУЛЯЦИИ: ТЯЖЁЛАЯ АРТИЛЛЕРИЯ Задача: ситуация нестандартная, готовый тест не катит. Нужно посчитать p-value или ДИ для сложной метрики. — Бутстреп (BCa). Тысячи выборок с возвращением. ДИ для чего угодно: разница 90-х перцентилей, кастомные метрики. BCa корректирует смещение. — Монте-Карло. Генерим данные под H0. Считаем точный p-value. Кейс: нарушены условия Хи-квадрат, оценка мощности теста. — Параметрический бутстреп. Генерим из известного распределения. Сочетает гибкость бутстрепа с априорным знанием о данных.