TokyoWebmining統計学部 第1回

67
iAnalysis LLC 最高解析責任者 倉橋一成 1

Transcript of TokyoWebmining統計学部 第1回

Page 1: TokyoWebmining統計学部 第1回

iAnalysis LLC 最高解析責任者 倉橋一成

1

Page 2: TokyoWebmining統計学部 第1回

2

この統計学部の 位置づけ

Page 3: TokyoWebmining統計学部 第1回

3

Page 4: TokyoWebmining統計学部 第1回

4

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

Page 5: TokyoWebmining統計学部 第1回

5

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

データマイニング

Page 6: TokyoWebmining統計学部 第1回

データマイニング

6

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

仮説

Page 7: TokyoWebmining統計学部 第1回

データマイニング

7

Phase IV 効果検証デザイン

A/Bテスト、ランダム化試験 実験計画

Page 8: TokyoWebmining統計学部 第1回

8

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

データマイニング

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

TokyoWebmining統計学部 では主にここを教えます

Page 9: TokyoWebmining統計学部 第1回

9

第1回 一般化線形モデル

Page 10: TokyoWebmining統計学部 第1回

10

始める前に

Page 11: TokyoWebmining統計学部 第1回

11

謝辞

Page 12: TokyoWebmining統計学部 第1回

12

Twitterのキャプチャ

Page 13: TokyoWebmining統計学部 第1回

13

Twitterのキャプチャ

Page 14: TokyoWebmining統計学部 第1回

14

Twitterのキャプチャ

Page 15: TokyoWebmining統計学部 第1回

15

Twitterのキャプチャ

Page 16: TokyoWebmining統計学部 第1回

16

提供

Page 17: TokyoWebmining統計学部 第1回

17

Page 18: TokyoWebmining統計学部 第1回

モデルって? ◦ ある現象を簡単に説明するもの

18

Page 19: TokyoWebmining統計学部 第1回

モデルって? ◦ ある現象を簡単に説明するもの

19

Page 20: TokyoWebmining統計学部 第1回

モデルって? ◦ ある現象を簡単に説明するもの

20

Page 21: TokyoWebmining統計学部 第1回

モデルって? ◦ ある現象を簡単に説明するもの

21

主にModel 1について

Page 22: TokyoWebmining統計学部 第1回

x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力

y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット

22

Page 23: TokyoWebmining統計学部 第1回

結果変数: y 説明変数: x 手法

連続値 2値 t検定

3つ以上のカテゴリー 分散分析

連続 線形単回帰、線形重回帰

カテゴリー、連続 共分散分析

2値 カテゴリー 分割表、ロジスティック回帰

連続 ロジステック回帰など

カテゴリー、連続 ロジステック回帰

3つ以上のカテゴリー カテゴリー 分割表

カテゴリー、連続 名義ロジステック回帰

順序 カテゴリー、連続 順序ロジステック回帰

カウント値 カテゴリー 対数線形モデル

カテゴリー、連続 ポアソン回帰

生存時間 カテゴリー、連続 Cox回帰

相関のある値、グループ値 カテゴリー、連続 混合効果モデル 23

Page 24: TokyoWebmining統計学部 第1回

結果変数: y 説明変数: x 手法

連続値 2値 t検定

3つ以上のカテゴリー 分散分析

連続 線形単回帰、線形重回帰

カテゴリー、連続 共分散分析

2値 カテゴリー 分割表、ロジスティック回帰

連続 ロジステック回帰など

カテゴリー、連続 ロジステック回帰

3つ以上のカテゴリー カテゴリー 分割表

カテゴリー、連続 名義ロジステック回帰

順序 カテゴリー、連続 順序ロジステック回帰

カウント値 カテゴリー 対数線形モデル

カテゴリー、連続 ポアソン回帰

生存時間 カテゴリー、連続 Cox回帰

相関のある値、グループ値 カテゴリー、連続 混合効果モデル 24

Page 25: TokyoWebmining統計学部 第1回

一般線形モデル(GLM) ◦ 線形単回帰 ◦ 線形重回帰 ◦ (分散分析)

一般化線形モデル(GLIM) ◦ 線形重回帰 ◦ ロジスティック回帰 ◦ ポアソン回帰

25

Page 26: TokyoWebmining統計学部 第1回

線形:線のようにまっすぐな性質

26

y = a + bx a: 切片 b: 傾き

誤差

x

y

Page 27: TokyoWebmining統計学部 第1回

xiを条件付けたときのyiの期待値がxiの線形式になっている

それぞれのyiはxiの線形式に誤差を足した値になっている

27

E[yi|xi] = a + bxi

yi = a + bxi + ei

Page 28: TokyoWebmining統計学部 第1回

誤差の小さいモデルが最も良いモデルだろう 誤差の二乗和が最小になるようなa, bを求める

上式の目的関数が最小になるa, bを求める a, bに関して目的関数を偏微分して「=0」を解く

28

Σ{yi – (a + bxi)}2

Page 29: TokyoWebmining統計学部 第1回

確率分布を当てはめて「最も尤もらしい」a, bを求める 結果変数(y)または誤差(e)に正規分布を仮定する

最尤法でパラメータ推定すると、最小二乗法と同じ解になる

29

yi = a + bxi + ei, ei~N(0, σ2)

E[yi|xi] = a + bxi, yi~N(a + bxi, σ2)

Page 30: TokyoWebmining統計学部 第1回

xiを条件付けるとyiは正規分布に従っている

30

E[yi|xi] = a + bxi

x

y

Page 31: TokyoWebmining統計学部 第1回

yiの分散は同じ

31

E[yi|xi] = a + bxi

x

y

Page 32: TokyoWebmining統計学部 第1回

yiの期待値をモデル化

説明変数はp個ある

パラメータはp個

32

E[yi|xi] = βxi

xi=(x1i, …, xpi)

β=(β1, …, βp)

Page 33: TokyoWebmining統計学部 第1回

統計解析の数式を読むときのコツ ◦ スカラー(単一の値) ◦ ベクトル ◦ 行列

の違いをはっきりとさせる

33

E[y] = βX

y: n次元ベクトル β: p次元ベクトル

X: n×p行列

Page 34: TokyoWebmining統計学部 第1回

最小二乗法、最尤法ともに同じ結果となる

行列とベクトルの混在に慣れよう!

34

β = (XTX)-1XTy p×n

n×p

p×p

p×n

p×n n×1

p×1

p×1

Page 35: TokyoWebmining統計学部 第1回

一般線形モデル(GLM) 様々なモデルを表現している ◦ 線形重回帰 ◦ 分散分析(ANOVA) Xはカテゴリもしくはダミー変数

◦ 共分散分析(ANCOVA) Xはカテゴリと連続変数の混在

35

E[y] = βX

Page 36: TokyoWebmining統計学部 第1回

一般化線形モデル(GLIM) g: リンク関数 y: 連続値 ◦ GLM→恒等変換(変換しない)

y: 2値 ◦ ロジスティック回帰→ロジット変換 ◦ プロビットモデル→プロビット変換(標準正規分布の逆累積分布関数) ◦ 極地分布のモデル→c log-log関数

y: カウント値 ◦ ポアソン回帰→対数変換

36

g(E[y]) = βX

Page 37: TokyoWebmining統計学部 第1回

サービス加入者が1ヶ月以内に辞めるかどうか ◦ 辞める: 1, 辞めない: 0

会社が6ヶ月以内に倒産するかどうか ◦ 倒産する: 1, 倒産しない: 0

ある人が1年以内に糖尿病になるかどうか ◦ 糖尿病になる: 1, 糖尿病にならない: 0

37

Page 38: TokyoWebmining統計学部 第1回

x: 連続値、y: 2値

38

x

y

1

0

Page 39: TokyoWebmining統計学部 第1回

yの推定値が[0, 1]の範囲をはみ出してしまう

39

E[y] = βX

x

y

1

0

Page 40: TokyoWebmining統計学部 第1回

yが[0, 1]の範囲に収まるような変換を行う

40

logit(E[y]) = βX

x

y

1

0

Page 41: TokyoWebmining統計学部 第1回

サービス加入者が課金を行った回数

システムがエラーを起こす回数

喘息の患者が発作を起こした回数

41

Page 42: TokyoWebmining統計学部 第1回

x: 連続値、y: カウント値

42

x

y

Page 43: TokyoWebmining統計学部 第1回

yの推定値が[0, ∞]の範囲をはみ出してしまう

43

x

y E[y] = βX

Page 44: TokyoWebmining統計学部 第1回

yが[0, ∞]に収まるような変換を行う

44

x

y log(E[y]) = βX

Page 45: TokyoWebmining統計学部 第1回

連続値→正規分布 2値→二項分布 カウント値→ポアソン分布

45

これらは指数型分布族に属する

f(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)] a(y) = yのとき正準形 b(θ): 自然パラメータ 正規、2項、ポアソンは全て正準形

Page 46: TokyoWebmining統計学部 第1回

yは指数型分布族に従う 分布が決まれば、リンク関数が決まる

46

g(E[y]) = βX

一般化線形モデルは 指数型分布族の線形モデル

Page 47: TokyoWebmining統計学部 第1回

47

尤度: Π{exp[a(y)b(θ) + c(θ) + d(y)]}

対数尤度: Σ[a(y)b(θ) + c(θ) + d(y)]

偏微分して=0を解くと 反復重み付き最小2乗法が求まる

XTWXb(m) = XTWz

m: 反復回数, W: 重み, b: パラメータ, z: yの関数

Page 48: TokyoWebmining統計学部 第1回

重み付き最小二乗法

通常の最小二乗法

48

XTWXb(m) = XTWz b(m) = (XTWX)-1XTWz

b = (XTX)-1 XT y

Page 49: TokyoWebmining統計学部 第1回

決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準

49

Page 50: TokyoWebmining統計学部 第1回

決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準

50

Page 51: TokyoWebmining統計学部 第1回

51

A B

Page 52: TokyoWebmining統計学部 第1回

52

A B

Page 53: TokyoWebmining統計学部 第1回

53

A B

Page 54: TokyoWebmining統計学部 第1回

Aは赤丸があるとモデルの傾きが大きく変わる Bは赤丸があってもモデルの傾きは変わらない

一般にてこ比が p/n の2~3倍以上であれば注意が必要

A:外れ値 B:外れ値でない

54

Page 55: TokyoWebmining統計学部 第1回

55

A B

Page 56: TokyoWebmining統計学部 第1回

56

A B

Page 57: TokyoWebmining統計学部 第1回

57

回帰モデル

Page 58: TokyoWebmining統計学部 第1回

58

0

0

回帰モデル 残差プロット

Page 59: TokyoWebmining統計学部 第1回

59

0

0

どのx値でも0を中心に均等にばらつく

均等ではない。「パターン」が出ている

回帰モデル 残差プロット

Page 60: TokyoWebmining統計学部 第1回

擬似R2乗 AUC(ロジステック回帰) 尤度比χ2乗検定 AIC

60

Page 61: TokyoWebmining統計学部 第1回

指数型分布族に対する線形モデルが一般化線形モデル yが連続値で正規分布を仮定すると一般線形モデル 一般化線形モデルはGLIM、一般線形モデルはGLM パラメータは尤度を最大化することで推定する ◦ 最小二乗法、重み付き最小二乗法が導かれる

GLMの回帰診断のうち、外れ値と残差プロットは特に重要

61

Page 62: TokyoWebmining統計学部 第1回

62

・一般線形モデルの仮定:反応変数が正規分布に従う、反応変数が説明変数の線形式で 表現できる、すべての反応は共通の分散をもつ、反応が互いに独立。残差分析でこれを チェックする。歪んでたらBoxCox変換するとか。 ・ハット行列の対角成分をてこ比と呼ぶ てこ比と標準化残差を組み合わせた指標が Cookの距離 ・説明変数が連続値の場合、当てはめたモデルから予測確率を求め10くらいのグループに 分割し成功失敗の度数を算出、これに対してピアソンカイ二乗統計量を計算し適合度の 指標とする。これをホズマー・レメショウ統計量と呼ぶ。 ・線形従属によりアレが特異に近くなり結果としてソレが著しく不安定になる。つまりデータが 変わる度にソレが大きく変化する。1からほげを引いてその逆数をとったもの(VIF)でその従属 っぷりは判断する。5以上ヤバい。ちなみにほげはある変数をそれ以外の変数で重回帰した 時の決定係数。 ・分散分析は質的変数が定めるカテゴリーの間で連続変数の平均値を比較する統計手法 ・共分散分析とは、説明変数がダミー変数で表わされる名義変数と共変量と呼ばれる連続 変数からなるモデル。分散分析と目的は同じだが、反応に影響をおよぼす共変量をモデルに 加え調整を行う。

Page 63: TokyoWebmining統計学部 第1回

63

・飽和モデルを立ててから、仮説に応じて項を省略した縮小モデルを検討する ・目的変数の分布を仮定→分布の期待値の式を線形に変形 ・確率を線形モデルで表現したいがそのままやると0-1の範囲に収まらないので、その範囲に 収まるようにシュシュの許容値分布の累積分布関数を用いる。 ・許容値分布→連結関数の順でいうと、プロビットモデル:正規分布→標準正規分布の逆累積 分布関数、ロジスティックモデル:なんかごにょごにょ→ロジット関数。極値分布を許容値分布 に使うモデルもありその場合、連結関数はcloglog関数 ・ 2値データの時最低限確認すること2つ 1.連結関数の妥当性 2.超過分散してないか。後者 については逸脱度がデータ数-説明変数よりはるかに大きい値をとっている時に疑う。この 問題については目的変数の分散の記述モデルにパラメータφを加えたり、GEEとして扱ったり して対処する。 ・尤度比カイ二乗統計量:当てはめモデルと最小モデルの対数尤度関数の差から求める。 最小モデルの対数尤度関数から当てはめモデルの対数尤度関数を引いたものを最小モデル の対数尤度関数で除したものを擬似R2と呼ぶ。 ・ポアソン分布は群内の標本平均と標本分散がほぼ同じ値を持つ計数データに対する妥当 な確率モデルとして知られている

Page 64: TokyoWebmining統計学部 第1回

設立:2011年3月24日 場所:東京都港区南青山2-2-15 ウィン青山 1403 ホームページ:http://ianalysis.jp/ 取引先 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社

64

Page 65: TokyoWebmining統計学部 第1回

2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心 疫学、臨床試験

◦ 博士から:データマイニング分野の研究 統計的学習、機械学習 「統計学博士」は日本にないので「保険学博士」です

2011年iAnalysis設立 ◦ 分析ノウハウをビジネスへ ◦ 溜まっているデータをどうやったら有効活用できるか?

Twitter:@isseing333

65

Page 66: TokyoWebmining統計学部 第1回

66

Page 67: TokyoWebmining統計学部 第1回

67

ご清聴 有難うございました