Что такое выборка и почему нельзя верить всем данным подряд
Одна из первых привычек, которую стоит развивать аналитику: не верить данным сразу (а, в идеале постоянно сомневаться). Не потому что данные плохие. А потому что данные почти всегда являются не полной картиной мира, а только её кусочком. И от того, какой именно кусочек попал к вам в руки, зависит всё: выводы, решения, рекомендации и иногда даже деньги бизнеса.
В статистике есть понятие генеральной совокупности. Это весь набор объектов, который мы хотим изучить. Например, если мы хотим понять, как пользователи относятся к продукту, генеральная совокупность - это все пользователи продукта. Не только те, кто пишет отзывы. Не только те, кто купил премиум. Не только те, кто пришёл вчера. Все.
Но в реальной жизни мы редко можем изучить всех. Это долго, дорого, а иногда просто невозможно. Поэтому мы работаем с выборкой. Выборка - это часть генеральной совокупности, по которой мы пытаемся сделать вывод обо всей группе. Например, мы опросили 1000 клиентов и хотим понять, довольны ли продуктом все клиенты в целом.
Проблема начинается там, где выборка перестаёт отражать реальность. Представьте, что мы хотим узнать, любят ли люди кофе, и идём проводить опрос в кофейню. Скорее всего, результат будет очень позитивным. Но это не значит, что весь город обожает кофе. Это значит, что мы спросили людей в месте, куда чаще приходят те, кто кофе уже любит.
В аналитике такие ошибки встречаются постоянно. Мы анализируем только активных пользователей и забываем про тех, кто ушёл. Смотрим только на клиентов, которые оставили отзыв, и не видим молчаливое большинство. Берём данные за один удачный месяц и делаем вывод о стабильном росте. Смотрим на продажи в период акции и думаем, что продукт внезапно стал популярнее сам по себе.
Именно здесь появляется понятие репрезентативности. Репрезентативная выборка - это такая выборка, которая достаточно честно отражает генеральную совокупность. Если в вашей базе 70% пользователей с мобильных устройств и 30% с десктопа, а в анализ попали только пользователи десктопа, выводы будут смещены. Формально данные есть. Таблицы есть. Графики есть. Но доверять им опасно.
Поэтому хороший аналитик перед выводами задаёт несколько простых вопросов. Откуда взялись эти данные? Кто попал в выборку? Кто в неё не попал? За какой период собраны данные? Не было ли в этот момент акции, сбоя, сезонности, изменений в продукте или рекламной кампании? Не анализируем ли мы только тех, кого удобнее всего посчитать?
Данные могут быть точными внутри себя, но бесполезными для ответа на конкретный вопрос. Это важная мысль. Можно идеально посчитать средний чек по группе клиентов, но если эта группа выбрана неправильно, вывод будет красивым и неправильным одновременно.
Поэтому нельзя верить всем данным подряд. Данные нужно проверять, понимать их происхождение и оценивать, насколько они подходят для задачи. Аналитик работает не только с цифрами, но и с контекстом. Без контекста данные легко превращаются в уверенный способ ошибиться.
И если совсем коротко: выборка - это маленькое окно, через которое мы смотрим на большой мир. Но если окно выходит не туда, можно очень уверенно описывать не тот пейзаж.
Запомните, даже самый спокойный медведь умеет рычать, когда надо. Берегите голову, берегите данные - и пусть в вашем дне будет немного тишины, ясности и добрых переменных.
· 5 ч
Огонь) тема актуальная, часто выходящая за пределы работы аналитика)
ответить
коммент удалён