与信モデル構築 - SAS...1件借入 758 758 32,539 42.9 42.9 2件借入 269 538 20,725 77.0...

24
与信モデル構築 (入門編) - Credit Model of Development for Data Mining - 平成26年7月24日 株式会社インテック 金融ソリューションサービス事業本部 小野 松澤 一徳(発表者)

Transcript of 与信モデル構築 - SAS...1件借入 758 758 32,539 42.9 42.9 2件借入 269 538 20,725 77.0...

  • 与信モデル構築 (入門編)

    - Credit Model of Development for Data Mining -

    平成26年7月24日

    株式会社インテック 金融ソリューションサービス事業本部

    小野 潔 松澤 一徳(発表者)

  • 2

    銀行が与信モデルの再構築に着目する背景

    金融機関を取り巻く環境の変化

    生涯収益を考慮した住宅ローン融資の検討 消費者金融社会型の無担保ローン 過去取引の無い顧客への融資

    与信モデルの再構築

    個人信用情報センター(JICC)への 銀行の加盟が許可(2012~)

    貸金業法の総量規制施行

    金融庁/日銀の監査強化(2011~)

    住宅ローンの競争激化

    東京、隣接県への出店

    地銀の再編成

  • 3

    与信モデルのフローと本発表の論点

    自動審査~総合判定

    自動審査モデル(SAS)

    No

    判定マトリックス (AVR領域の判定)

    格付算出

    融資判定

    与信限度額の算出

    与信内容を出力

    終了

    倒産率の算出/倒産率補正

    モデルのデータ受取

    与信サーバー

    融資の申込の受付

    否認基準に抵触しない

    個人信用情報の基準を満たす

    自動審査システムによる顧客データ、 取引データ、企業データ収集

    外信 No

    No

    Yes

    Yes

    Yes

    融資の申込の受付

    データの基本統計量

    ターゲット変数の設定 (Black/Whiteの定義)

    分析対象データの決定 (大まかなモデル変数選択)

    欠損値・異常値の削除/修正

    組み合わせ変数の決定

    モデル変数の決定

    決定木分析 ロジスティック回帰分析

    ハイブリッドモデル アンサンブルモデル適用

    モデル格付の決定

    判定マトリックスの決定

    過去シミュレーションの確認

    ①モデル変数の決定 ⇒ 外部信用情報の利用 ②モデルによる分析 a) 決定木分析 ・変数選択 ・樹形図作成 ・審査担当者との検証作業 b) ロジスティック回帰 ・変数選択 ・精度計算 ③ハイブリッドモデル orアンサンブルモデルの適用 ・分析手法の組み合わせ ・複数種類のモデル構築 ・検証データへのモデル適用 ・モデル選定

    ④判定マトリクスの決定 ・AVR領域の設定

    ⑤自動審査システムから SASモデルの呼び出し

  • 4

    ① 外部信用情報の利用

    ② 銀行向けローン審査モデルの決定木分析について

    ③ ハイブリッドモデルとアンサンブルモデルの適用

    ④ 判定マトリクスの考え方

    ⑤ 外部システムからのSASモデルの呼び出し

  • 5

    日本の個人信用情報

    貸金業法の総量規制規制 年収の1/3

    JICCに加盟した銀行 82行(65%)

    名称 金融の業種 DB 更新

    取扱情報 指定信用 情報機関

    JICC (日本信用情報機構)

    消費者金融会社 商工ローン

    日次

    本人特定情報,契約内容,返済状況 取引情報,事故情報,異動情報

    (借入総件数,総残高含む)

    2012年指定

    CIC ((株)シー・アイ・シー)

    クレジット/信販会社 日次 月次

    2012年指定

    KSC (全国銀行個人信用情報センター)

    銀行系 月次 銀行系のため貸金業法の

    総量規制外

    CRIN (Credit Information Network)

    JICC, CIC, KSC提携 - 本人特定情報,延滞,事故・異動情報 -

    FINE (Financial Information Network)

    JICC, CIC提携 - 本人特定情報,残高情報(総量規制) -

  • 6

    JICC統計資料(2014年1月末)

    加盟総会員数 1,432

    内 加入貸金業者数 1,067 (75%)

    内 銀行 82 (6%)

    内 信用金庫 110 (8%)

    総登録情報

    登録件数 3,634 万件

    残高合計 164,911 億円

    残高有り情報

    登録人数 1,196 万人

    登録件数 1,893 万件

    登録残高合計額 74,213 億円

    1人当たり残高有り件数 1.6 件

    1契約当たりの残高 39.2 万円

    異動情報(入金予定日から3カ月以上入金なし)

    登録人数 390 万人

    登録件数 691 万件

    登録人数 登録件数 残高合計 1人当たり

    の残高 1契約当たり

    残高

    (万人) (万件) (億円) (万円) (万円)

    1件借入 758 758 32,539 42.9 42.9

    2件借入 269 538 20,725 77.0 38.5

    3件借入 109 328 11,587 106.0 35.3

    4件借入 41 162 5,576 137.5 34.4

    5件借入 19 107 3,785 195.1 35.4

    合計 1,196 1,893 74,213 62.0 39.2

    (全銀行126行の65%)

    銀行のマーケット範囲:2件、100万円以下

    銀行系の無担保ローンのマーケティング範囲

  • 7

    感度(H

    it Rate

    外部信用情報を未使用の自動審査モデルの精度

    外部信用情報を使用した自動審査モデルの精度

    特異度(False Alarm Rate)

    一般的な個人信用情報JICCの効果

  • 8

    ① 外部信用情報の利用

    ② 銀行向けローン審査モデルの決定木分析について

    ③ ハイブリッドモデルとアンサンブルモデルの適用

    ④ 判定マトリクスの考え方

    ⑤ 外部システムからのSASモデルの呼び出し

  • 9

    個人信用情報を利用した決定木のツリー図

    個人信用情報利用無しモデル 個人信用情報利用モデル

    借入比率

    取引年数 転職回数 借入比率 返済比率

    返済比率 年収

    自振 (公共料金)

    年収 自振 (電気)

    年収

    無担保ローン 借入総件数

    取引年数 転職回数 借入比率 照会件数

    照会件数 無担保ローン 借入総金額

    自振 (公共料金)

    無担保ローン 借入総金額

    自振 (電気)

    年収

    赤文字:外部個信情報

    借入比率、返済比率、年収等を上位の判定で利用 専業の無担保ローンの借入総件数や借入総金額が上位

  • 10

    参考:決定木分析の分割基準

    決定木の種類 分割基準値 定 義 式

    C5.0, C4.5 情報エントロピー値

    CART GINI値

    CHAID カイ2乗値

    ・SAS/EMではノード毎に下記の分割基準を変更可能 ・ただアルゴリズムはSAS特有のため、オリジナルの決定木と相違することに留意

  • 11

    ① 外部信用情報の利用

    ② 銀行向けローン審査モデルの決定木分析について

    ③ ハイブリッドモデルとアンサンブルモデルの適用

    ④ 判定マトリクスの考え方

    ⑤ 外部システムからのSASモデルの呼び出し

  • 12

    ハイブリッドモデルについて

    決定木分析 ロジスティック回帰分析

    決定木分析 ニューラル

    ロジスティック回帰分析 MBR

    ハイブリッドモデル (直列型2分析モデル)

    【モデルA】 【モデルB】 【案件データ】 【判定結果】

    ・ハイブリッドモデルは分析手法を2段階に直列に組み合わせた手法 ・第1段階の分析結果のスコア値を分析データに追加することがミソ。その後に第2段階の分析手法を適用 ・一般に、第1段階のスコア値が最も寄与度が高く、第2段階の分析で微調整を行う ・分析手法の組合せとして金融業界では、第1段階では決定木、第2段階でロジスティック回帰を行う事が多い ※決定木のツリーは審査担当者にわかりやすく、 ロジスティック回帰は種々の指標が算出されしかも一つの式で表現できる点が評価されている

  • 13

    参考:ハイブリッドモデルの計算方法について

    【決定木モデル】 【ロジスティック回帰モデル】 【出力結果のスコア値】

    x

    Ln(p/(1-p))

    =a1x1+a2x2+…+anxn+an+1xn+1 +c

    変数として利用

    ・決定木分析で複数の同スコア(デフォルト率)のセグメントに分解される。 このスコア値を元データに追加し、ロジスティク回帰分析を行う。

  • 14

    アンサンブルモデルについて

    【モデルA~F】

    【案件データ】 【判定結果】 【平均値・中央値等】

    アンサンブルモデル (並列型多数決モデル)

    ・言うなれば、ベテランでない得意分野が違う若手の審査官10人が多数決で判定決定するような方法。 ・アンサンブルモデルの妥当性は証明されていますが、結構理解が難しい内容です(ーー)。 ・並列したN個の複数モデルにより構成される(Nは5~100:誤差から設定) ・多数決による決定方法は、複数モデルの算出値の平均、中央値、多数等を代表値として確定 ・採用分析手法として“弱い分類器”(精度が高いモデルを使うと、同じような値を比較することになる為) ・長所は「モデルの安定性」と「多数決法という考え方」のわかりやすさ

  • 15

    データ モデル1 モデル2 モデル3 モデル3 ・・・・ モデルN 単純平均 最大値 最小値 最大値,最小値を

    除いた平均

    案件A 90% 80% 90% 70% ・・・・ 60% 78% 90% 60% 80%

    案件B 50% 40% 30% 40% ・・・・ 20% 36% 50% 20% 37%

    案件C 10% 15% 5% 30% ・・・・ 20% 16% 30% 5% 15%

    案件D 30% 35% 50% 30% ・・・・ 20% 33% 50% 20% 32%

    案件E 60% 5% 30% 40% ・・・・ 80% 43% 80% 5% 43%

    案件F 70% 30% 15% 20% ・・・・ 30% 33% 70% 15% 27%

    参考:アンサンブルモデルの計算方法について

    ・アンサンブルモデルの計算例 例ではモデル1~Nの最大値と最小値を除いた平均値を利用した(モデル数Nの値は別の統計値から設定する)。 計算方法としては、多数決、線形結合、最小値、最大値、平均等を利用する ・同じ分類器から、Begging, Boostingといった手法で分類器を生成する方法も可能

    モデルとしては5~8層の決定木を 利用する場合が多い(弱い分類器)

  • 16

    モデル4個の平均値とするアンサンブルモデル

    同じ手法で平均値を利用したバギングモデル

    参考:SAS/EnterpriseMinerでのアンサンブルモデル

  • 17

    ① 外部信用情報の利用

    ② 銀行向けローン審査モデルの決定木分析について

    ③ ハイブリッドモデルとアンサンブルモデルの適用

    ④ 判定マトリクスの考え方

    ⑤ 外部システムからのSASモデルの呼び出し

  • 18

    判定マトリックス ~与信モデル特有の考え方~ モデル審査の限界

    ・全案件を自信をもって判定できるモデルはない ⇒ どうしてもグレーゾーンが発生 ⇒ 専門家による審査

    ・AVR領域の設定は、判定マトリックスを用いる ・AVR領域の判定は、信用リスク(モデル格付)×回収額(融資額)×収益(生涯収益)が一般的

    参考:AVR領域について

    モデル格付 (自動審査モデル判定結果)

    R1 R2 R3 R4 R5 R6 R7 R8 R9 R10

    収益・回収可能性等

    A A A A A A A V V V R

    B A A A A V V V R R R

    C A A A V V V R R R R

    D A A V V V V R R R R

    E A A V V R R R R R R

    A Accept 自動審査モデルにより自動的に判定を承認する領域(所謂ホワイト領域)

    V Review 審査担当者により審査の承認/謝絶を判定する領域 (所謂グレー領域)

    R Reject 自動審査モデルにより自動的に判定を謝絶する領域(所謂ブラック領域)

    モデル採用変数はせいぜい10~20個

    人の目の審査が必要な範囲(グレーゾーン)が発生 ⇒ 専門家の審査が必要!!

    V領域(審査担当者を要する領域)を小さく設定することで 真の自動審査の実現につながる

    モデルのターゲットや変数でない値を利用

  • 19

    (参考)住宅ローンの生涯収益に必要なリスクモデル

    住宅ローン収益の変動リスク

    市場リスク 市場金利変動リスク

    金利リスク管理 プリベイメントリスク

    信用リスク デフォルトリスク

    生涯収益 シミュレーション

    回収率変動リスク

    経 費

    団体信用生命保険料

    審査費用

    サービシング・コスト(管理回収経費)

    ・住宅ローンは商品の特性上、その収益性を判断するには単年度の収益分析では不十分であり、 住宅ローンが完済する迄のトータルリターンの計測が必要 ・しかし、その計測には各案件のデフォルト率やプリベイメントリスク、経費等のコスト等の シーズン効果を含めたモデルが必要 ・2014年現在では、様々なリスクを統合する方法論は未完成な状態であり、 分析に必要な長期間のデータも見つからない状態 ・実務では左記計算が困難であることから、単純収益(利息)や個信データで代用

  • 20

    ① 外部信用情報の利用

    ② 銀行向けローン審査モデルの決定木分析について

    ③ ハイブリッドモデルとアンサンブルモデルの適用

    ④ 判定マトリクスの考え方

    ⑤ 外部システムからのSASモデルの呼び出し

  • 21

    Java

    Java

    パラメータ等 引数の意味

    c:¥..¥sas 9.1¥sas.exe SASシステム実行

    -sysin c:¥..¥mypgm.sas -sysin以下に実行するsasプログラムの場所を記載

    -sysparm Tokyo (SASシステムへ引数を渡す場合) -sysparm Tokyo "と書くことでマクロ変数 &sysparm に 文字データ"Tokyo"を代入

    -config c:¥..¥sasv9.cfg -config以下にsasのconfigファイルを記載

    *.bat

    ・外部環境からの与信モデル実行例 - 外部環境からのSASの起動はWindowsコマンド等からの呼び出しが一般的 - 自動審査システムそのものは他の高級なプログラミング言語(Java等)で開発されるケース多いため、 出力コマンドを記載したbatファイル等を自動審査システムのプログラム言語から呼び出すことが多い。

    外部環境からの与信モデル実行と変数引渡し

  • 22

    最後に

  • 23

    最後に

    ・与信モデル構築は決して精度だけでモデル選択を行わず 経済状況、監査官庁の動きを先回りし、所属業界に合わせることが肝要 【今後の銀行のローンモデルをめぐる動き】 - 無担保ローンモデル ⇒ 消費者金融会社型モデルへ急速な舵取りが必要 但し、消費者金融と銀行では回収率が相違するため、 あくまでも市場のターゲットは「借入件数2件&限度額100万円」であり工夫を要する

    - 有担保ローンモデル(住宅ローンモデル) ⇒ 住宅ローンの収益は2011年より金融庁・日銀の監査対象となっており、 地銀・信金は収益に関するDB構築を早期に着手が必要な状態(現実には未整備) ⇒ 今後は収益を判定マトリクスに含める方向に舵取りが必要

    ・次回テーマ「与信モデル構築 中級編 ~ 自動審査システムの新たな潮流 ~ 」 - 可変型与信モデルを取入れた自動審査システム - 少量データ対応の新しいモデル構築法 - チャネルを配慮した与信モデル構築法 - 承認率UPのためのユーザー・コントローラー機能 - 経済悪化に伴う新規案件のSelection機能

  • 24

    Go Beyond

    ご清聴ありがとうございました