Алгоритм CART в скоринге

16
174 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 ОПИСАНИЕ МЕТОДА CART (или СRT) расшифровывается как Classifi- cation and Regression Trees — деревья классифи- кации и регрессии. Данный метод был разрабо- тан в 1974–1984 гг. четырьмя профессорами ста- тистики: Л. Бриманом и Р.А. Олсеном из Беркли, а также Дж.Х. Фридманом и С.Дж. Стоуном из Стэнфорда. Алгоритм CART обладает нескольки- ми важными характеристиками: построение бинарного дерева решений — дихотомической классификационной модели; каждый узел дерева при разбиении имеет только двух потомков; возможность отсечения ветвей (прунинг) — механизм позволяет получить дерево подходя- щего размера, избежать построения ветвистых, усложненных деревьев и при этом достичь наи- более точной оценки классификации; использование суррогатов для независи- мых переменных (предикторов) — для классифи- кации наблюдений, у которых пропущено значе- ние для независимой переменной, используются другие независимые переменные, имеющие КЛЮЧЕВЫЕ СЛОВА: деревья классификации и регрессии, CART, бинарное дерево решений, узлы, кредитный рейтинг В данной статье мы продолжим речь о методе деревьев решений. На этот раз внимание будет уделено алгоритму построения дерева CART, который наиболее часто используется при создании скоринговых моделей. Также в статье будут рас- смотрены техники работы с переобучением модели, предлагаемые в рамках CART. Груздев Артем Владимирович — директор исследо- вательской компании «Гевисста» (г. Москва) БАНКОВСКИЕ РИСКИ: ТЕОРИЯ, ПРАКТИКА, МЕТОДОЛОГИЯ ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

description

Statistical methods

Transcript of Алгоритм CART в скоринге

Page 1: Алгоритм CART в скоринге

174 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

ОПИСАНИЕ МЕТОДА

CART (или СRT) расшифровывается как Classifi-cation and Regression Trees — деревья классифи-кации и регрессии. Данный метод был разрабо-тан в 1974–1984 гг. четырьмя профессорами ста-тистики: Л. Бриманом и Р.А. Олсеном из Беркли, а также Дж.Х. Фридманом и С.Дж. Стоуном из Стэнфорда. Алгоритм CART обладает нескольки-ми важными характеристиками:

построение бинарного дерева решений — дихотомической классификационной модели; каждый узел дерева при разбиении имеет только двух потомков;

возможность отсечения ветвей (прунинг) — механизм позволяет получить дерево подходя-щего размера, избежать построения ветвистых, усложненных деревьев и при этом достичь наи-более точной оценки классификации;

использование суррогатов для независи-мых переменных (предикторов) — для классифи-кации наблюдений, у которых пропущено значе-ние для независимой переменной, используются другие независимые переменные, имеющие

КЛЮЧЕВЫЕ СЛОВА: деревья классификации и регрессии, CART, бинарное дерево решений, узлы, кредитный рейтинг

В данной статье мы продолжим речь о методе деревьев решений. На этот раз

внимание будет уделено алгоритму построения дерева CART, который наиболее

часто используется при создании скоринговых моделей. Также в статье будут рас-

смотрены техники работы с переобучением модели, предлагаемые в рамках CART.

Груздев Артем Владимирович — директор исследо-

вательской компании «Гевисста» (г. Москва)

БАНКОВСКИЕ РИСКИ:

ТЕОРИЯ, ПРАКТИКА,

МЕТОДОЛОГИЯ

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ

БАНКОВСКОГО СКОРИНГА

Page 2: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 175

сильную корреляцию с исходной переменной. Эти альтернативные предикторы называются сур-рогатами.

В основе метода CRT лежит идея уменьшения внутриузловой неоднородности. Степень, в соот-ветствии с которой узел не может соответство-вать однородному подмножеству наблюдений, является показателем неоднородности. Напри-мер, узел, в котором все наблюдения имеют одно и то же значение зависимой переменной, являет-ся терминальным (конечным), не требующим дальнейшего разбиения, поскольку он является однородным, «чистым». В нашем случае зависи-мая переменная — это кредитный статус заемщи-ка, она принимает значения 0 — нет дефолта (хо-роший кредитный рейтинг) и 1 — есть дефолт (плохой кредитный рейтинг).

Узлы — это группы наблюдений, которые раз-биваются с помощью того или иного правила. Правилом выступают предикторы (характеристи-ки заемщиков). Допустим, есть узел, содержащий 100 наблюдений (в нашем случае 100 заемщиков), и он разбит на два класса — на «плохих» и «хоро-ших». Минимальная однородность в узле наблю-дается при разбиении его на два подмножества по 50 наблюдений «плохих» и «хороших» заемщи-ков, а максимальная однородность — при разби-ении на 100 «плохих» и 0 «хороших».

Различные статистические пакеты позволяют выбрать меру неоднородности (impurity measure) и минимальное уменьшение неоднородности (minimum change in improvement), требуемое для расщепления узлов. Для количественных зависи-мых переменных с целью вычисления меры неод-нородности используется метод наименьшего квадратичного отклонения. Она рассчитывается как внутриузловая дисперсия, скорректирован-ная для весов частот или влиятельных значений.

Для категориальных (номинальных, порядко-вых) зависимых переменных в качестве меры не-однородности чаще всего используют индекс Джини (Gini). Разбиения осуществляют так, что-бы максимизировать однородность узлов-по-томков по отношению к значению зависимой

переменной. Индекс Джини основывается на воз-веденных в квадрат вероятностях принадлежно-сти к каждой категории зависимой переменной, он оценивает «расстояние» между распределе-ниями категорий:

где c — текущий узел;pj — вероятность (относительная частота) катего-рии j в узле c.

Он достигает своего минимума (0), когда все наблюдения в узле попадают в единственную ка-тегорию. Такой терминальный (конечный) узел, в котором все наблюдения имеют одно и то же значение зависимой переменной, является, как было указано выше, однородным, «чистым».

Реже в качестве мер неоднородности исполь-зуются бинаризация (twoing) и упорядоченная би-наризация (ordered twoing). При бинаризации ка-тегории зависимой переменной группируются в два подкласса. Разбиения производятся так, что-бы наилучшим образом разделить эти два под-класса. При упорядоченной бинаризации смеж-ные категории могут группироваться. Данная мера используется только для порядковых зави-симых переменных.

Минимальное изменение неоднородности — это ее минимальное уменьшение, требуемое для разбиения узла. Большие значения приводят к уменьшению числа узлов.

ПОДГОТОВКА ДАННЫХ И ПРОЦЕДУРА

АНАЛИЗА

Отдел управления рисками банка хочет опре-делить статус заемщика с точки зрения возможно-го кредитного риска (заемщик погасит / не погасит кредит). Основываясь на различных факторах, вклю-чая уже известный нам кредитный рейтинг 2464 прошлых заемщиков («хороший» и «плохой» кре-дитный рейтинг), мы с помощью метода деревьев решений построим модель, предсказывающую,

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Page 3: Алгоритм CART в скоринге

176 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

насколько будет вероятен дефолт у новых кли-ентов.

Объект исследования: данные о 2464 клиен-тах, которые уже воспользовались кредитом (историческая выборка).

Независимые переменные: возраст клиента, образование клиента, срок проживания по по-следнему адресу, наличие детей, количество

автокредитов и пр. (в данном демонстрационном примере модель упрощена до пяти переменных).

Зависимая переменная — кредитный рейтинг.Клиент — физическое лицо, владелец кредит-

ной карты банка, обратившийся за кредитом и за-полнивший анкету установленного образца.

Процедура анализа включает в себя несколь-ко этапов (рис. 1).

Груздев А.В.

Рис. 1. Алгоритм анализа заемщика

Page 4: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 177

ИНТЕРПРЕТАЦИЯ МОДЕЛИ

Ниже представлены результаты построения модели с помощью метода CART (для лучшего по-нимания дан русский перевод статистики).

В табл. 1 приводится развернутая информация о спецификациях, использованных для построе-ния модели, и практических результатах. В графе «Спецификации» представлены сведения о на-стройках, использованных для построения моде-ли, включая переменные для анализа. В графе «Результаты» дана информация о количестве тер-минальных узлов, глубине дерева (количестве уровней, лежащих ниже корня) и независимых пе-ременных, включенных в итоговую модель. Из пяти независимых переменных, изначально определенных для анализа, четыре были включе-ны в итоговую модель. Переменная «Уровень об-разования» была исключена из анализа.

Две диаграммы дерева графически представля-ют модель, построенную по обучающей выборке,

и модель, построенную по контрольной выборке (рис. 2 и 3 соответственно). Первое, что можно за-метить: построенные деревья являются бинарны-ми, т.е. всегда имеют только двух потомков. За-метьте, что правила разбиения в обеих диаграм-мах совпадают, а вот распределение заемщиков на «хороших» и «плохих» в узлах построенных де-ревьев несколько отличается.

Итак, диаграммы показывают следующее. Переменная «Наличие детей» стала лучшим

предиктором кредитного рейтинга. Для категории «нет» наличие детей — един-

ственно значимый предиктор дефолта. 88,7% кли-ентов, у которых нет детей, не имели долгов по кредиту. Поскольку ниже узлов-сыновей нет, эта категория является терминальным узлом.

Для категории «да» следующим лучшим пре-диктором стала переменная «Срок проживания».

Для категории «≤ меньше года» срок прожи-вания стал самой весомой характеристикой де-фолта. 99,4% клиентов в этой категории имели

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Спецификации

Метод построения CRT

Зависимая переменная Кредитный рейтинг

Независимые переменные

ВозрастНаличие детейУровень образованияКоличество автокредитовСрок проживания по последнему адресу

Проверка Расщепление выборки

Максимальное количество уровней в дереве 5

Минимальное количество наблюдений в узле-отце 100

Минимальное количество наблюдений в узле-сыне 50

Результаты

Включенные независимые переменные

Наличие детейКоличество автокредитовВозрастСрок проживания по последнему адресу

Количество узлов 13

Количество терминальных узлов 7

Количество уровней 5

Таблица 1. Сводка для модели

Page 5: Алгоритм CART в скоринге

178 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

Груздев А.В.

Рис. 2. Диаграмма дерева по обучающей выборке

Page 6: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 179

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 3. Диаграмма дерева по контрольной выборке

Page 7: Алгоритм CART в скоринге

180 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

долги по кредиту. Поскольку ниже узлов-сыновей нет, эта категория является терминальным узлом.

Таким образом, объединяя вышесказанное, мы выделили первую группу «плохих» заемщиков. Это клиенты, у которых есть дети и срок прожива-ния по последнему адресу менее года (узел 3).

В ходе анализа категории «> меньше года» вы-деляем следующую группу «плохих» заемщиков. Это клиенты, у которых есть дети и срок прожива-ния по последнему адресу более трех-четырех лет (узел 6). 92% клиентов в этом узле имели дол-ги по кредиту.

Напротив, значительная часть клиентов с деть-ми и сроком проживания от года до трех-четырех лет может быть причислена к «хорошим» заемщи-кам (узел 5). 62,5% клиентов в этом узле не имели долгов по кредиту. Для данной группы клиентов модель включила еще один предиктор — «Воз-раст». Среди заемщиков с детьми и сроком про-живания от года до трех-четырех лет группу риска представляют те, кто моложе 25 лет (узел 9). 66,4% клиентов в этом узле имели долги по кредиту.

Кривые, изображенные на рис. 4, показывают выигрыши в нашей модели1. Заметим, что они строятся отдельно для обучающей (рис. 4а) и кон-трольной (рис. 4б) выборок. Рассмотрим кривую, построенную по обучающей выборке. Первая точка кривой «Целевая категория: «Плохой» име-ет координаты 10% и 20%: если вы отсортируете все наблюдения с помощью спрогнозированной вероятности «Целевая категория: «Плохой», то первые 10% данных будут содержать примерно 23,9% всех наблюдений, попавших в категорию «Плохой» («плохие» заемщики). Точно так же сле-дует ожидать, что первые 20% данных включат примерно 46% «плохих» заемщиков. Первые 30% данных должны содержать 61,7% «плохих» заем-щиков и т.д. 100% данных содержат все множе-ство «плохих» заемщиков.

Диагональная линия — это «идеальная» кри-вая. Если вы случайным образом отберете 10% всех данных, то следует ожидать «выигрыш»

примерно 10% всех наблюдений, попавших в ка-тегорию «Плохой». Чем выше кривая располагает-ся над диагональной чертой, тем больше выиг-рыш. Можно использовать диаграмму выигрыша, чтобы определить точку отсечения для классифи-кации, выбрав такой процент, который бы соот-ветствовал желаемому выигрышу.

Что понимать под «желаемым» выигрышем, за-висит от задачи, стоящей перед риск-ме нед же-ром. Если первостепенной является задача мини-мизации кредитных рисков, то можно отказать в выдаче кредита аппликантам в первых 40% на-блюдений. Это около 72,2% возможных «плохих» заемщиков. При этом мы потеряем почти полови-ну обратившихся за кредитом. Если приоритет-ным является расширение клиентской базы, то можно отказать аппликантам в первых 10% на-блюдений. Они включают в себя примерно 23,9% «плохих» заемщиков. Руководствуясь вышепере-численными приоритетами, вы должны выбрать такое правило классификации заемщиков, кото-рое будет оптимальным для решения поставлен-ной задачи.

Таблицы риска и классификации (табл. 2 и 3) позволяют нам судить о том, как хорошо работает наша модель.

Исходя из наблюдений, использованных для построения модели, 59,9% клиентов, у которых были долги по кредиту, классифицированы кор-ректно, и 94,2% «хороших» заемщиков также клас-сифицированы правильно. Всего 80% наблюдений в обучающей выборке классифицированы верно.

Нужно помнить, что результаты классификации по обучающей выборке могут быть излишне опти-мистичными. Чтобы исключить это предположе-ние, мы должны проанализировать результаты классификации по проверочной выборке и соот-ношение верных прогнозов по категориям заем-щиков в обеих выборках. Проверка модели осу-ществляется путем классификации клиентов, уже бравших кредит и не задействованных при по-строении модели. Эти результаты представлены

Груздев А.В.

1 См.: Груздев А.В. Применение метода деревьев решений для задач банковского скоринга // Управление финансовыми рисками. — 2012. — №2.

Page 8: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 181

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 4. График выигрышей

Выборка Оценка Стандартная ошибка

Обучающая 0,200 0,010

Контрольная 0,207 0,015

Таблица 2. Оценка риска

Примечание: метод построения: CRT; зависимая переменная: «Кредитный рейтинг».

Примечание: метод построения: CRT; зависимая переменная: «Кредитный рейтинг».

Page 9: Алгоритм CART в скоринге

182 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

в разделе «Контрольная выборка». 79,3% этих на-блюдений в контрольной выборке классифици-рованы корректно.

Меньший процент корректных прогнозов в проверочной выборке может свидетельство-вать о переобучении (overfitting), когда модель выдает правильные прогнозы на обучающей вы-борке, но ошибается в прогнозах по новым объ-ектам, не входившим в состав обучения. Также пе-реобучение довольно легко заметить при изуче-нии диаграмм дерева. Деревья в таком случае по-лучаются слишком детализированными, имеют много узлов и ветвей, сложны для интерпрета-ции. При этом количество ошибок (неправильно классифицированных объектов из обучающего множества) при дальнейшем использовании по-строенного дерева не уменьшается, а, наоборот, растет. Избежать переобучения модели нередко помогает минимальное изменение неоднородно-сти (minimum change in improvement), отсечение ветвей дерева (pruning, прунинг) и введение пе-ременной влияния (influence variable). Рассмо-трим две последние техники.

В основе прунинга лежит идея о том, чтобы ис-пользовать ту информацию, которая может повы-сить точность прогноза, и отсечь ту информацию, которая прогноз не улучшает. Прунинг заключа-ется в том, что, после того как дерево достигнет максимальной глубины, оно автоматически

обрезается до наименьшего поддерева, имеюще-го приемлемое значение риска (количество оши-бок при классификации). После прунинга диа-грамма дерева (рис. 5) стала гораздо удобнее для интерпретации.

Переменная «Наличие детей» вновь являет-ся лучшим предиктором кредитного рейтинга. Для категории «нет» наличие детей — единствен-но значимый предиктор дефолта. Здесь мы выде-ляем группу «хороших» заемщиков. 86,1% клиен-тов, у которых нет детей, не имели долгов по кре-диту. Поскольку ниже узлов-сыновей нет, эта ка-тегория является терминальным узлом.

Для категории «да» следующим лучшим предиктором стала переменная «Возраст».

Для категории «>37,7» возраст является единственно значимым предиктором дефолта. 72,2% клиентов в этой категории не имели дол-гов по кредиту. Поскольку ниже узлов-сыновей нет, эта категория представляет собой терми-нальный узел. Таким образом, наряду с теми, у кого нет детей, мы выделили еще одну группу «хороших» заемщиков — клиентов с детьми старше 37,7 года (узел 4).

Для категории «≤37,7» следующим преди-ктором стала переменная «Срок проживания».

Для категории «≤ меньше года» срок прожи-вания — самый значимый предиктор дефолта. Здесь мы выделяем группу «плохих» заемщиков.

Груздев А.В.

ВыборкаНаблюдаемое

значение

Предсказанное значение

Плохой Хороший Корректно классифицированные заемщики, %

Обучающая

Плохой 440 294 59,9

Хороший 60 973 94,2

Общий процент 28,3 71,7 80,0

Контрольная

Плохой 165 121 57,7

Хороший 23 388 94,4

Общий процент 27,0 73,0 79,3

Таблица 3. Классификация

Примечание: метод построения: CRT; зависимая переменная: «Кредитный рейтинг».

Page 10: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 183

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 5. Диаграмма дерева по обучающей выборке после прунинга

Page 11: Алгоритм CART в скоринге

184 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

Речь идет о клиентах с детьми моложе 37,7 года со сроком проживания по последнему адресу меньше года (узел 5). 99,3% клиентов в этом узле имели долги по кредиту.

Для категории «> меньше года» модель в ка-честве предиктора дефолта снова предлагает «Срок проживания». Для подмножества «>3–4 года» стаж проживания — единственно важная характеристика дефолта. Здесь мы также выявля-ем группу «плохих» заемщиков. Речь идет о кли-ентах с детьми моложе 37,7 года со сроком прожи-вания по последнему адресу более трех-четырех лет (узел 8).

Теперь обратимся к таблице классификации (табл. 4), чтобы посмотреть, насколько улучши-лась прогностическая способность модели.

Из табл. 4 видно, что общая точность класси-фикации снизилась с 79,3% до 77,4%, но при этом общий процент корректных прогнозов в обучаю-щей и проверочной выборке стал одинаковым. Вместе с тем модель по-прежнему значительно хуже прогнозирует «плохих» заемщиков.

Как показали построенные диаграммы де-ревьев, переменная «Наличие детей» является лучшим предиктором кредитного рейтинга, т.е. больше остальных независимых переменных воз-действует на зависимую переменную. Именно ее мы и используем в качестве переменной влияния.

Переменная влияния определяет, насколько большое влияние наблюдение оказывает на по-строенную модель. Наблюдения с более низкими значениями имеют меньшее влияние, наблюде-ния с более высокими значениями — большее. Значения переменной влияния должны быть по-ложительными. Рассмотрим диаграмму дерева (рис. 6), построенную после включения перемен-ной влияния. Теперь лучшим предиктором кре-дитного рейтинга становится переменная «Срок проживания».

Для категории «≤ меньше года» срок прожи-вания — единственно значимый предиктор де-фолта. Здесь мы выделяем группу «плохих» заем-щиков — это клиенты со сроком проживания по последнему адресу меньше года (узел 1). 96,5% клиентов в этом узле имели долги по кредиту. По-скольку ниже узлов-сыновей нет, эта категория является терминальным узлом.

Для категории «> меньше года» модель в ка-честве предиктора дефолта снова предлагает «Срок проживания».

Для категории «>3–4 года» срок прожива-ния — единственно значимый предиктор дефол-та. Здесь мы снова выделяем группу «плохих» за-емщиков — это клиенты со сроком проживания по последнему адресу больше трех-четырех лет (узел 4). 83,6% клиентов в этом узле имели долги

Груздев А.В.

ВыборкаНаблюдаемое

значение

Предсказанное значение

Плохой Хороший Корректно классифицированные заемщики, %

Обучающая

Плохой 431 314 57,9

Хороший 84 932 91,7

Общий процент 29,2 70,8 77,4

Контрольная

Плохой 157 118 57,1

Хороший 41 387 90,4

Общий процент 28,2 71,8 77,4

Таблица 4. Классификация после прунинга

Примечание: метод построения: CRT; зависимая переменная: «Кредитный рейтинг».

Page 12: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 185

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

Рис. 6. Диаграмма дерева по обучающей выборке после включения переменной влияния

Page 13: Алгоритм CART в скоринге

186 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

по кредиту. Поскольку ниже узлов-сыновей нет, эта категория является терминальным узлом.

Для категории «≤3–4 года» следующим пре-диктором стала переменная «Возраст».

Для подмножества «>30,4» возраст — един-ственно значимый предиктор дефолта. Здесь мы, напротив, выделяем группу «хороших» заемщи-ков. Это клиенты со сроком проживания от года до трех-четырех лет старше 30,4 года (узел 6). 83% клиентов в этом узле не имели долгов по кредиту. Поскольку ниже узлов-сыновей нет, эта категория является терминальным узлом.

Для категории «≤30,4» следующим преди-ктором стала переменная «Количество автокре-дитов». Здесь происходит итоговое разбиение на два подмножества. Подмножество «плохих» заем-щиков — это клиенты со сроком проживания по последнему адресу от года до трех-четырех лет моложе 30,4 года с количеством автокредитов два и более (узел 7). 57,8% клиентов в этом узле имели долги по кредиту. Поскольку ниже узлов-сыновей нет, этот узел является терминальным. Подмножество «хороших» заемщиков — это кли-енты со сроком проживания по последнему адре-су от года до трех-четырех лет моложе 30,4 года с количеством автокредитов ноль или один

(узел 8). 76,5% клиентов в этом узле не имели дол-гов по кредиту. Поскольку ниже узлов-сыновей нет, этот узел является терминальным.

Снова обратимся к таблице классификации (табл. 5), чтобы оценить прогностическую способ-ность модели.

Из табл. 5 видно, что общая точность классифи-кации повысилась до 79,7%. Проценты коррект-ных прогнозов по «плохим» и «хорошим» заемщи-кам в обучающей и проверочной выборке практи-чески одинаковы, а модель значительно лучше прогнозирует «плохих» заемщиков. Впрочем, точ-ность классификации «хороших» заемщиков уменьшилась. В целом же с точки зрения прогно-стической способности модель получилась более сбалансированная по сравнению с предыдущими.

ВАЛИДАЦИЯ МОДЕЛИ

ROC-анализ

ROC-анализ (Receiver Operating Characteris-tic) — это анализ прогностической способности бинарного классификатора. В нашем случае ROC-кривая используется для оценки результатов

Груздев А.В.

ВыборкаНаблюдаемое

значение

Предсказанное значение

Плохой Хороший Корректно классифицированные заемщики, %

Обучающая

Плохой 533 185 74,2

Хороший 169 842 83,3

Общий процент 40,6 59,4 79,5

Контрольная

Плохой 223 79 73,8

Хороший 70 363 83,8

Общий процент 39,9 60,1 79,7

Таблица 5. Классификация после включения переменной влияния

Примечание: метод построения: CRT; зависимая переменная: «Кредитный рейтинг».

Page 14: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 187

классификации, выданных моделью деревьев ре-шений2 (рис. 7, 8).

Диагностируемое значение с нулевой сте-пенью прогнозирования изображается линией, наклоненной под углом 45° (диагональю). У иде-альной модели кривая проходит через верхний левый угол, где доля истинно положительных слу-чаев составляет 100%. Таким образом, чем боль-ше выгнута кривая ROC, тем более точным явля-ется прогнозирование результатов модели. Чем ближе кривая ROC расположена к диагональной прямой с нулевой степенью прогнозирования, тем хуже прогностическая способность модели. Индикатором этого свойства служит значение площади под кривой ROC — Area Under Curve

(AUC) (табл. 6). Для теста с нулевой степенью про-гнозирования AUC равна 0,5, а для случая с мак-симальной степенью прогнозирования — 1. Для рассматриваемого примера получились следую-щие значения: для обучающей выборки — 0,823, для проверочной — 0,834. По значению AUC мож-но судить о качестве модели (табл. 7).

Зная AUC, можно вычислить индекс Джини для обучающей и проверочной выборки, который по-зволяет судить о дискриминирующей способно-сти модели, т.е. способности отличать «хороших» и «плохих» заемщиков.

Индекс Джини для обучающей выборки:

Ginitrain = (AUC – 0,5) × 2 = (0,823 – 0,5) × 2 = 0,646.

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА

2 Подробнее см.: Груздев А.В. Метод бинарной логистической регрессии в банковском скоринге // Риск-менеджмент в кредитной организации. — 2012. — №2.

Рис. 7. ROC-кривая для обучающей выборки

Page 15: Алгоритм CART в скоринге

188 УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012

Груздев А.В.

Рис. 8. ROC-кривая для проверочной выборки

ПлощадьСтандартная

ошибкаАсимптотическая

значимость

Асимптотический 95%-ный доверительный интервал

Нижняя граница Верхняя граница

Обучающая выборка

0,823 0,011 0,000 0,802 0,845

Проверочная выборка

0,834 0,016 0,000 0,802 0,867

Таблица 6. Площадь под кривой для обучающей и проверочной выборки

Интервал AUC Качество модели

0,9–1,0 Отличное

0,8–0,9 Очень хорошее

0,7–0,8 Хорошее

0,6–0,7 Среднее

0,5–0,6 Неудовлетворительное

Таблица 7. Оценка качества модели по значению AUC

Page 16: Алгоритм CART в скоринге

УПРАВЛЕНИЕ ФИНАНСОВЫМИ РИСКАМИ 03(31)2012 189

Индекс Джини для проверочной выборки:

Ginitest = (AUC – 0,5) × 2 = (0,834 – 0,5) × 2 = 0,668.

ВЫВОДЫ

Мы использовали алгоритм CART с кросс-ва-лидацией для построения скоринговой модели. Итоговая точность классификации заемщиков в обучающей и контрольной выборках состави-ла 79,5% и 79,7% соответственно. Индекс Джи-ни для обучающей и контрольной выборки со-ставил 0,646 и 0,668. Первоначально модель су-щественно хуже прогнозировала «плохих»

клиентов, но использование прунинга и пере-менной влияния позволило улучшить способ-ность модели верно прогнозировать «плохих» заемщиков.

Следует отметить, что необходимо всегда об-ращать внимание на процент корректных про-гнозов, значение AUC и индекса Джини в прове-рочной выборке. Если он меньше, чем процент корректных прогнозов, значение AUC и индекс Джини в обучающей выборке, это может указы-вать на переобучение и нестабильность модели. В связи с этим всегда важно определить опти-мальный, пусть иногда меньший уровень точно-сти классификации, при котором модель облада-ет наилучшей обобщающей способностью.

ПРИМЕНЕНИЕ АЛГОРИТМА CART ДЛЯ ЗАДАЧ БАНКОВСКОГО СКОРИНГА