Oversampling training.

Реальные данные не всегда идеально подходят для использования в математической статистике, анализе опросов и машинном обучении. Наборы данных для классификации могут быть несбалансированными (imbalanced datasets), когда количество экземпляров классов неодинаково. Класс с большим количеством экземпляров называют мажоритарным, а наоборот – миноритарным. Несбалансированные данные могут повлечь ошибки в моделях и снизить их точность.

Работа с данными о мошеннических действиях наглядно демонстрируют важность сбалансированности классов. Раньше на почту полезные письма приходили значительно чаще, чем спам-рассылка. Однако, хватало недовольных пользователей почтовых сервисов, ведь спам-фильтры работали так себе. В таких задачах особого внимания требуют миноритарные классы, которые, как правило, представляют события, которые нужно предсказать среди множества шаблонов мажоритарных классов, представляющих «стандартные ситуации». Кстати, эта тема немного залезает на поле секьюрити и этом направлении есть выпуск подкаста «Безопасно говоря» про искусственный интеллект в информационной безопасности тут.

Чтобы справиться с проблемой несбалансированных данных, обычно применяют методы, которые можно разделить на три категории.

1. Подходы с использованием confusion matrix (error matrix, cost matrix), которые учитывают важность класса и степень дисбаланса (например, мягкий, умеренный, экстремальный).

2. Подходы, которые адаптируют алгоритмы классификации с учетом проблемы дисбаланса, например, модификация метода K-ближайших соседей или метода опорных векторов, адаптация деревьев решений.

3. Подходы на уровне данных, которые изменяют сами данные, чтобы сбалансировать классы. Для этого экземпляры либо уменьшают в мажоритарном классе, либо, чаще, увеличивают в миноритарном.

Oversampling — метод создания синтетических экземпляров для миноритарных классов, чтобы сбалансировать классы в выборке. Основная задача при этом – имитировать распределение при создании новых данных, которое заранее неизвестно. Методы oversampling включают:

Random oversampling – самый простой метод, при котором наблюдения дублируются случайным образом.

SMOTE (Synthetic Minority Oversampling Technique) – алгоритм для создания синтетических примеров вдоль отрезков линий, соединяющих любого / всех ближайших k-соседей миноритарного класса. Расстояние от исходного образца до синтетического определяется случайным образом. Профессор Nitesh V. Chawla предложил алгоритм в 2002 году, когда он был доцентом-исследователем в Университете Южной Флориды и занимался моделированием рисков в банке. Этот подход стал популярным в научном сообществе и продолжает развиваться. Метод имеет ограничения, например, он не учитывает скрытый шум в наборе данных и создаёт одинаковое количество искусственных примеров во всех миноритарных классах, что способствует проблеме распознавания вблизи границ классов.

ADASYN (Adaptive Synthetic Sampling Approach) – метод, основанный на SMOTE, но с определением количества синтетических экземпляров, которые нужно создать для каждого миноритарного класса в соответствии с их сложностью для обучения.

Data augmentation – статистические методы, применяемые для увеличения объёма данных за счёт добавления изменённых копий существующих данных. В 1990-х годах этот метод активно использовали для расширения данных при классификации изображений, применяя аффинные преобразования для создания новых примеров с теми же метками.

repost

191

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь