Александр Колчин пишет:

Космология и кредитный скоринг: что общего?

В задачах вроде предсказания дефолта по кредитной заявке либо признаков мошеннической операции давно используются алгоритмы на основе деревьев решений. В чем их суть? Отбирать признаки, а также разбивать их так, чтобы повысить информативность в системе. Поскольку чем ниже энтропия, тем выше детерминированность, то обучение сводится к снижению величины хаотичности

Необходимо понимать, что существует множество форм энтропии, разделимых на аддитивные и неаддитивные. Конкретно в классическом ML в качестве метрик информативности используют такие аддитивные формы энтропии, как Шеннона и Джинни. В то же время в фундаментальных задачах, например, космологии опираются на неаддитивные формы энтропии, лучше подходящие к рассматриваемым условиям.

Когда я подробно вникал в деревья решений и бустинги, то в силу знаний по термодинамике не смог не заострить внимание на следующем.

Допустим, поручили нам создать модель, которая должна с высокой точностью предсказывать дефолт по кредитной заявке. В общей выборке доля дефолтов составляет 1%. То есть налицо явный дисбаланс классов.

Вне зависимости от того, применяем мы CatBoost либо XGBoost, все равно мы ограничены в выборе метрики информативности: энтропия Шеннона либо Джинни. И, казалось бы, чего я до них докопался. А дело в том, что они не учитывают дисбаланс классов.

Для простоты объяснения можно использовать такую абстракцию. Например, у нас есть 100 ящиков, в котором лежит шар. 99 шаров белые, и только один является черным. И нам нужно найти черный шар.

В рамках энтропий Шеннона и Джинни у нас все информативно. Скорее всего, мы вытащим белый шар. Но найти же необходимо именно черный шар.

И здесь как раз не обойтись без кажущейся далекой от подобных задач космологии. Позаимствовав неаддитивные формы энтропии Цаллиса и Реньи, специально созданных для учета условий, в частных случаях называемых дисбалансом классов.

Мне даже удалось найти научную статью десятилетней давности про применение энтропий Реньи и Цаллиса в алгоритмах на базе деревьев решений. Однако дальше лабораторной пробирки дело не пошло.

_В связи с чем любопытно было бы узнать как мнение аксакалов ML, так и просто неравнодушных граждан, почему достижения космологии, несмотря на очевидную пользу, не востребованы в кредитном скоринге и антифроде?

Тем более история знает много примеров, когда в рамках сугубо фундаментальных исследований рождались прикладные исследования, доступные каждому жителю Земли._

#AI #ML #DS #ANN