🔄🔄🔄Читаем статьи за Вас №3:
🗣Проблема нормализации данных
Нормализация данных необходима для сравнения признаков с разными диапазонами значений. Стандартизация и робастная нормализация часто используются, но имеют недостатки.
🗣Стандартизация
Среднее арифметическое значение используется для центрирования данных. Медиана предпочтительнее среднего арифметического для разных распределений. Стандартное отклонение не всегда подходит для равномерного влияния признаков.
🗣Межквартильный интервал
Интервал между 75-м и 25-м процентилями используется для нормализации. Проблема "хвостов" распределений может привести к искажению результатов.
🗣Размах значений
Размах значений признака используется для нормализации, но может быть искажен выбросами. Проблема выбросов требует их удаления или учета в новом диапазоне.
🗣Автоматическое определение выбросов
Межквартильный метод используется для автоматического определения выбросов. Проблема длинных "хвостов" может потребовать индивидуального подхода.
🗣Скорректированный интервал
Метод скорректированного интервала учитывает асимметрию распределения и обеспечивает равномерное влияние признаков. Метод эффективен для центрирования и вписывания данных в заданный диапазон.
🗣Сравнение методов
Метод скорректированного интервала превосходит другие методы по универсальности и эффективности. Демонстрационный класс AdjustedScaler доступен для экспериментов.
https://github.com/newchronik/adjdatatools - прикольный инструмент для корректировки данных, в целом не такая замысловатая формула, но очень хорошее объяснение, как правильно проводить анализ смещений в данных при нормализации и стандартизации. вот тут еще есть статейка: https://habr.com/ru/articles/527334/