TokyoWebmining統計学部 第1回

Post on 19-Jun-2015

17.241 views 8 download

Transcript of TokyoWebmining統計学部 第1回

iAnalysis LLC 最高解析責任者 倉橋一成

1

2

この統計学部の 位置づけ

3

4

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

5

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

データマイニング

データマイニング

6

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

仮説

データマイニング

7

Phase IV 効果検証デザイン

A/Bテスト、ランダム化試験 実験計画

8

Phase I データの収集・加工

DBの作成・接続 ログの収集

Phase II データの可視化

ヒストグラム 散布図

時系列プロット 円グラフ、棒グラフ

地域プロット

データマイニング

Phase III モデル作成 予測モデル 機械学習

クラスタリング 因果推論

TokyoWebmining統計学部 では主にここを教えます

9

第1回 一般化線形モデル

10

始める前に

11

謝辞

12

Twitterのキャプチャ

13

Twitterのキャプチャ

14

Twitterのキャプチャ

15

Twitterのキャプチャ

16

提供

17

モデルって? ◦ ある現象を簡単に説明するもの

18

モデルって? ◦ ある現象を簡単に説明するもの

19

モデルって? ◦ ある現象を簡単に説明するもの

20

モデルって? ◦ ある現象を簡単に説明するもの

21

主にModel 1について

x ◦ 説明変数 ◦ 独立変数 ◦ 予測変数 ◦ 共変量 ◦ 入力

y ◦ 結果変数 ◦ 従属変数 ◦ 応答変数 ◦ アウトプット ◦ 出力 ◦ ターゲット

22

結果変数: y 説明変数: x 手法

連続値 2値 t検定

3つ以上のカテゴリー 分散分析

連続 線形単回帰、線形重回帰

カテゴリー、連続 共分散分析

2値 カテゴリー 分割表、ロジスティック回帰

連続 ロジステック回帰など

カテゴリー、連続 ロジステック回帰

3つ以上のカテゴリー カテゴリー 分割表

カテゴリー、連続 名義ロジステック回帰

順序 カテゴリー、連続 順序ロジステック回帰

カウント値 カテゴリー 対数線形モデル

カテゴリー、連続 ポアソン回帰

生存時間 カテゴリー、連続 Cox回帰

相関のある値、グループ値 カテゴリー、連続 混合効果モデル 23

結果変数: y 説明変数: x 手法

連続値 2値 t検定

3つ以上のカテゴリー 分散分析

連続 線形単回帰、線形重回帰

カテゴリー、連続 共分散分析

2値 カテゴリー 分割表、ロジスティック回帰

連続 ロジステック回帰など

カテゴリー、連続 ロジステック回帰

3つ以上のカテゴリー カテゴリー 分割表

カテゴリー、連続 名義ロジステック回帰

順序 カテゴリー、連続 順序ロジステック回帰

カウント値 カテゴリー 対数線形モデル

カテゴリー、連続 ポアソン回帰

生存時間 カテゴリー、連続 Cox回帰

相関のある値、グループ値 カテゴリー、連続 混合効果モデル 24

一般線形モデル(GLM) ◦ 線形単回帰 ◦ 線形重回帰 ◦ (分散分析)

一般化線形モデル(GLIM) ◦ 線形重回帰 ◦ ロジスティック回帰 ◦ ポアソン回帰

25

線形:線のようにまっすぐな性質

26

y = a + bx a: 切片 b: 傾き

誤差

x

y

xiを条件付けたときのyiの期待値がxiの線形式になっている

それぞれのyiはxiの線形式に誤差を足した値になっている

27

E[yi|xi] = a + bxi

yi = a + bxi + ei

誤差の小さいモデルが最も良いモデルだろう 誤差の二乗和が最小になるようなa, bを求める

上式の目的関数が最小になるa, bを求める a, bに関して目的関数を偏微分して「=0」を解く

28

Σ{yi – (a + bxi)}2

確率分布を当てはめて「最も尤もらしい」a, bを求める 結果変数(y)または誤差(e)に正規分布を仮定する

最尤法でパラメータ推定すると、最小二乗法と同じ解になる

29

yi = a + bxi + ei, ei~N(0, σ2)

E[yi|xi] = a + bxi, yi~N(a + bxi, σ2)

xiを条件付けるとyiは正規分布に従っている

30

E[yi|xi] = a + bxi

x

y

yiの分散は同じ

31

E[yi|xi] = a + bxi

x

y

yiの期待値をモデル化

説明変数はp個ある

パラメータはp個

32

E[yi|xi] = βxi

xi=(x1i, …, xpi)

β=(β1, …, βp)

統計解析の数式を読むときのコツ ◦ スカラー(単一の値) ◦ ベクトル ◦ 行列

の違いをはっきりとさせる

33

E[y] = βX

y: n次元ベクトル β: p次元ベクトル

X: n×p行列

最小二乗法、最尤法ともに同じ結果となる

行列とベクトルの混在に慣れよう!

34

β = (XTX)-1XTy p×n

n×p

p×p

p×n

p×n n×1

p×1

p×1

一般線形モデル(GLM) 様々なモデルを表現している ◦ 線形重回帰 ◦ 分散分析(ANOVA) Xはカテゴリもしくはダミー変数

◦ 共分散分析(ANCOVA) Xはカテゴリと連続変数の混在

35

E[y] = βX

一般化線形モデル(GLIM) g: リンク関数 y: 連続値 ◦ GLM→恒等変換(変換しない)

y: 2値 ◦ ロジスティック回帰→ロジット変換 ◦ プロビットモデル→プロビット変換(標準正規分布の逆累積分布関数) ◦ 極地分布のモデル→c log-log関数

y: カウント値 ◦ ポアソン回帰→対数変換

36

g(E[y]) = βX

サービス加入者が1ヶ月以内に辞めるかどうか ◦ 辞める: 1, 辞めない: 0

会社が6ヶ月以内に倒産するかどうか ◦ 倒産する: 1, 倒産しない: 0

ある人が1年以内に糖尿病になるかどうか ◦ 糖尿病になる: 1, 糖尿病にならない: 0

37

x: 連続値、y: 2値

38

x

y

1

0

yの推定値が[0, 1]の範囲をはみ出してしまう

39

E[y] = βX

x

y

1

0

yが[0, 1]の範囲に収まるような変換を行う

40

logit(E[y]) = βX

x

y

1

0

サービス加入者が課金を行った回数

システムがエラーを起こす回数

喘息の患者が発作を起こした回数

41

x: 連続値、y: カウント値

42

x

y

yの推定値が[0, ∞]の範囲をはみ出してしまう

43

x

y E[y] = βX

yが[0, ∞]に収まるような変換を行う

44

x

y log(E[y]) = βX

連続値→正規分布 2値→二項分布 カウント値→ポアソン分布

45

これらは指数型分布族に属する

f(y; θ) = exp[a(y)b(θ) + c(θ) + d(y)] a(y) = yのとき正準形 b(θ): 自然パラメータ 正規、2項、ポアソンは全て正準形

yは指数型分布族に従う 分布が決まれば、リンク関数が決まる

46

g(E[y]) = βX

一般化線形モデルは 指数型分布族の線形モデル

47

尤度: Π{exp[a(y)b(θ) + c(θ) + d(y)]}

対数尤度: Σ[a(y)b(θ) + c(θ) + d(y)]

偏微分して=0を解くと 反復重み付き最小2乗法が求まる

XTWXb(m) = XTWz

m: 反復回数, W: 重み, b: パラメータ, z: yの関数

重み付き最小二乗法

通常の最小二乗法

48

XTWXb(m) = XTWz b(m) = (XTWX)-1XTWz

b = (XTX)-1 XT y

決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準

49

決定定数(R2乗、寄与率)、調整済みR2乗 外れ値の検討 残差プロット キャリブレーションプロット ホスマーレメショー統計量 赤池情報量基準

50

51

A B

52

A B

53

A B

Aは赤丸があるとモデルの傾きが大きく変わる Bは赤丸があってもモデルの傾きは変わらない

一般にてこ比が p/n の2~3倍以上であれば注意が必要

A:外れ値 B:外れ値でない

54

55

A B

56

A B

57

回帰モデル

58

0

0

回帰モデル 残差プロット

59

0

0

どのx値でも0を中心に均等にばらつく

均等ではない。「パターン」が出ている

回帰モデル 残差プロット

擬似R2乗 AUC(ロジステック回帰) 尤度比χ2乗検定 AIC

60

指数型分布族に対する線形モデルが一般化線形モデル yが連続値で正規分布を仮定すると一般線形モデル 一般化線形モデルはGLIM、一般線形モデルはGLM パラメータは尤度を最大化することで推定する ◦ 最小二乗法、重み付き最小二乗法が導かれる

GLMの回帰診断のうち、外れ値と残差プロットは特に重要

61

62

・一般線形モデルの仮定:反応変数が正規分布に従う、反応変数が説明変数の線形式で 表現できる、すべての反応は共通の分散をもつ、反応が互いに独立。残差分析でこれを チェックする。歪んでたらBoxCox変換するとか。 ・ハット行列の対角成分をてこ比と呼ぶ てこ比と標準化残差を組み合わせた指標が Cookの距離 ・説明変数が連続値の場合、当てはめたモデルから予測確率を求め10くらいのグループに 分割し成功失敗の度数を算出、これに対してピアソンカイ二乗統計量を計算し適合度の 指標とする。これをホズマー・レメショウ統計量と呼ぶ。 ・線形従属によりアレが特異に近くなり結果としてソレが著しく不安定になる。つまりデータが 変わる度にソレが大きく変化する。1からほげを引いてその逆数をとったもの(VIF)でその従属 っぷりは判断する。5以上ヤバい。ちなみにほげはある変数をそれ以外の変数で重回帰した 時の決定係数。 ・分散分析は質的変数が定めるカテゴリーの間で連続変数の平均値を比較する統計手法 ・共分散分析とは、説明変数がダミー変数で表わされる名義変数と共変量と呼ばれる連続 変数からなるモデル。分散分析と目的は同じだが、反応に影響をおよぼす共変量をモデルに 加え調整を行う。

63

・飽和モデルを立ててから、仮説に応じて項を省略した縮小モデルを検討する ・目的変数の分布を仮定→分布の期待値の式を線形に変形 ・確率を線形モデルで表現したいがそのままやると0-1の範囲に収まらないので、その範囲に 収まるようにシュシュの許容値分布の累積分布関数を用いる。 ・許容値分布→連結関数の順でいうと、プロビットモデル:正規分布→標準正規分布の逆累積 分布関数、ロジスティックモデル:なんかごにょごにょ→ロジット関数。極値分布を許容値分布 に使うモデルもありその場合、連結関数はcloglog関数 ・ 2値データの時最低限確認すること2つ 1.連結関数の妥当性 2.超過分散してないか。後者 については逸脱度がデータ数-説明変数よりはるかに大きい値をとっている時に疑う。この 問題については目的変数の分散の記述モデルにパラメータφを加えたり、GEEとして扱ったり して対処する。 ・尤度比カイ二乗統計量:当てはめモデルと最小モデルの対数尤度関数の差から求める。 最小モデルの対数尤度関数から当てはめモデルの対数尤度関数を引いたものを最小モデル の対数尤度関数で除したものを擬似R2と呼ぶ。 ・ポアソン分布は群内の標本平均と標本分散がほぼ同じ値を持つ計数データに対する妥当 な確率モデルとして知られている

設立:2011年3月24日 場所:東京都港区南青山2-2-15 ウィン青山 1403 ホームページ:http://ianalysis.jp/ 取引先 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社

64

2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心 疫学、臨床試験

◦ 博士から:データマイニング分野の研究 統計的学習、機械学習 「統計学博士」は日本にないので「保険学博士」です

2011年iAnalysis設立 ◦ 分析ノウハウをビジネスへ ◦ 溜まっているデータをどうやったら有効活用できるか?

Twitter:@isseing333

65

66

67

ご清聴 有難うございました