Oversampling and Undersampling, Explained: A Visual Guide with Mini 2D Dataset

•Искусственное генерирование и удаление данных для улучшения качества •Методы: Missing Value Imputation, Categorical Encoding, Data Scaling, Discretization •Сбор данных с равным количеством примеров для каждого класса •Методы: Oversampling, Undersampling, Hybrid Sampling •Random Oversampling: простой метод для быстрого балансирования •SMOTE: создание новых примеров путем интерполяции •ADASYN: фокусируется на сложных областях данных •Random Undersampling: удаление примеров из большей группы •Tomek Links: поиск пар примеров с похожими характеристиками •Near Miss: сохранение примеров с наименьшим расстоянием до соседей •ENN: удаление примеров с большинством соседей из другой группы •SMOTETomek: создание новых примеров с помощью SMOTE, затем удаление примеров с помощью Tomek Links •SMOTEENN: создание новых примеров с помощью SMOTE, затем удаление примеров с помощью ENN •Оверсемплинг: ложные паттерны, переобучение моделей •Андерсемплинг: потеря важной информации, разрушение границ между классами •Гибридные методы: сложность балансировки, риск ухудшения модели •Использование методов из библиотеки imblearn •Создание DataFrame, разделение данных на признаки и целевые значения •Применение методов для балансировки данных •Использование Python 3.7, pandas 1.3, imblearn 1.2 •Иллюстрации созданы автором с использованием Canva Pro

читать материал полностью

Этот пост подготовила нейросеть: сделала выжимку статьи и, возможно, даже перевела ее с английского. А бот опубликовал пост в Сетке.

repost

51

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь