Rで学ぶ 傾向スコア解析入門 -...

Post on 31-May-2015

17.848 views 2 download

description

Rで学ぶ 傾向スコア解析入門- 無作為割り当てが出来ない時の因果効果推定 -

Transcript of Rで学ぶ 傾向スコア解析入門 -...

Rで学ぶ傾向スコア解析入門

@yokkuns: 里 洋平2011.09.24 第17回R勉強会@東京(#TokyoR)

- 無作為割り当てが出来ない時の因果効果推定 -

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

自己紹介

• ID : yokkuns• 名前 : 里 洋平• データマイニングエンジニア• 統計解析 パターン認識機械学習 データマイニングNLP 金融工学 などを勉強中

2011年9月23日金曜日

ご参加ありがとうございます!

Tokyo.Rの主催者

2011年9月23日金曜日

Rパッケージ本執筆

2011年9月23日金曜日

動画レコメンド

2011年9月23日金曜日

テキストマイニング+金融工学

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

1~3歳まで母親の側 1~3歳に保育園

3歳神話 : 子供は3歳までは母親の元で育つ方が社会性•知能発達が向上する

8歳時点の社会性得点•知能検査

を比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

1~3歳まで母親の側 1~3歳に保育園

3歳神話 : 子供は3歳までは母親の元で育つ方が社会性•知能発達が向上する

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

8歳時点の社会性得点•知能検査

を比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

1~3歳まで母親の側 1~3歳に保育園

3歳神話 : 子供は3歳までは母親の元で育つ方が社会性•知能発達が向上する

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

8歳時点の社会性得点•知能検査

を比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

1~3歳まで母親の側 1~3歳に保育園

3歳神話 : 子供は3歳までは母親の元で育つ方が社会性•知能発達が向上する

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

8歳時点の社会性得点•知能検査

を比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

1~3歳まで母親の側 1~3歳に保育園

3歳神話 : 子供は3歳までは母親の元で育つ方が社会性•知能発達が向上する

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

8歳時点の社会性得点•知能検査

を比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

1~3歳まで母親の側 1~3歳に保育園

3歳神話 : 子供は3歳までは母親の元で育つ方が社会性•知能発達が向上する

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

◇親の学歴◇親の収入◇親の職業◇親の教育意欲

8歳時点の社会性得点•知能検査

を比較

2群で親の学歴や収入などの傾向が違う2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

TVCMを見たグループ TVCMを見てないグループ

テレビCMの効果測定

当該商品の購買量の比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

TVCMを見たグループ TVCMを見てないグループ

テレビCMの効果測定

◇購買意欲◇ライフスタイル◇年齢層◇所得

◇購買意欲◇ライフスタイル◇年齢層◇所得

当該商品の購買量の比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

TVCMを見たグループ TVCMを見てないグループ

テレビCMの効果測定

◇購買意欲◇ライフスタイル◇年齢層◇所得

◇購買意欲◇ライフスタイル◇年齢層◇所得

当該商品の購買量の比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

TVCMを見たグループ TVCMを見てないグループ

テレビCMの効果測定

◇購買意欲◇ライフスタイル◇年齢層◇所得

◇購買意欲◇ライフスタイル◇年齢層◇所得

当該商品の購買量の比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

TVCMを見たグループ TVCMを見てないグループ

テレビCMの効果測定

◇購買意欲◇ライフスタイル◇年齢層◇所得

◇購買意欲◇ライフスタイル◇年齢層◇所得

当該商品の購買量の比較

2011年9月23日金曜日

傾向スコア解析実験出来ないデータの因果関係を解析する

TVCMを見たグループ TVCMを見てないグループ

テレビCMの効果測定

◇購買意欲◇ライフスタイル◇年齢層◇所得

◇購買意欲◇ライフスタイル◇年齢層◇所得

当該商品の購買量の比較

2群でライフスタイルや購買意欲の傾向が違う企業ターゲット層に合わせた時間にCMを出稿している

2011年9月23日金曜日

傾向スコア解析

処置群のデータ  欠測 

対照群のデータ 欠測 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

共変量で割当をモデリング傾向スコアの算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

2011年9月23日金曜日

傾向スコア解析

欠測 

対照群のデータ 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

対照群

処置群と対照群の割当(コントロール出来ない)

共変量で割当をモデリング傾向スコアの算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

処置群のデータ 

欠測 

処置群

何らかの特別な条件が与えられた群または、何らかの介入が行われた群

2011年9月23日金曜日

傾向スコア解析

欠測 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

処置群

処置群と対照群の割当(コントロール出来ない)

共変量で割当をモデリング傾向スコアの算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

処置群のデータ 

対照群のデータ 

欠測 

対照群

特別な条件が与えられていない群 または、何の介入も行われなかった群

2011年9月23日金曜日

傾向スコア解析

対照群のデータ 欠測 

共通で得られている変数 

介入を受けない場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

共変量で割当をモデリング傾向スコアの算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

欠測 処置群のデータ 介入を受けた場合の結果

何らかの介入を受けた場合の値

処置群は介入を受けているので観測された値

対照群は介入を受けていないので観測出来ない

2011年9月23日金曜日

傾向スコア解析

欠測 

共通で得られている変数 

介入を受けた場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

共変量で割当をモデリング傾向スコアの算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

処置群のデータ 

対照群のデータ 欠測 介入を受けない場合の結果

何の介入も受けていない場合の値

処置群は介入を受けているので観測出来ない

対照群は介入を受けていないので観測された値

2011年9月23日金曜日

傾向スコア解析

8歳時の知能得  欠測 

8歳時の知能得点 欠測 

親の学歴、収入、教育意欲など 

1~3歳の時に母親の側の結果

1~3歳の時に保育園の結果

共変量項目

処置群 対照群

1~3歳まで母親の側(コントロール出来ない)

親の学歴や収入、教育意欲などから「母親の側」である確率を算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

2011年9月23日金曜日

傾向スコア解析

購買量  欠測 

購買量 欠測 

ライフスタイル、収入、年齢など 

CMを見た場合の結果

CMを見ていない場合の結果

共変量項目

処置群 対照群

CMを見たグループ(コントロール出来ない)

ライフスタイル、収入、年齢などから「CMを見たグループ」である確率を算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

2011年9月23日金曜日

実験出来るデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

因果効果は単純な処置群と対照群の差になる

因果効果 = 処置群の平均 - 対照群の平均

2011年9月23日金曜日

実験出来るデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

因果効果は単純な処置群と対照群の差になる処置群と対照群をランダムに割当

因果効果 = 処置群の平均 - 対照群の平均

2011年9月23日金曜日

実験出来るデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

因果効果は単純な処置群と対照群の差になる処置群と対照群をランダムに割当

因果効果 = 処置群の平均 - 対照群の平均

欠測 

欠測 

介入を受けた場合の結果

介入を受けない場合の結果

2011年9月23日金曜日

実験出来るデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

因果効果は単純な処置群と対照群の差になる処置群と対照群をランダムに割当

因果効果 = 処置群の平均 - 対照群の平均

欠測 

欠測 

介入を受けた場合の結果

介入を受けない場合の結果

•対照群が介入を受けていた場合の期待値と介入を受けた処置群の期待値は同じ

•処置群が介入を受けない場合の期待値と介入を受けなかった対照群の期待値は同じ

期待値が等しい!

2011年9月23日金曜日

実験出来ないデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

割当によって処置群と対照群に差が生じるため単純に比較することが出来ない

因果効果 ≠ 処置群の平均 - 対照群の平均

2011年9月23日金曜日

実験出来ないデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

割当によって処置群と対照群に差が生じるため単純に比較することが出来ない

因果効果 ≠ 処置群の平均 - 対照群の平均

処置群と対照群の割当(コントロール出来ない)

2011年9月23日金曜日

実験出来ないデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

割当によって処置群と対照群に差が生じるため単純に比較することが出来ない

因果効果 ≠ 処置群の平均 - 対照群の平均

処置群と対照群の割当(コントロール出来ない)

欠測 

欠測 

介入を受けた場合の結果

介入を受けない場合の結果

2011年9月23日金曜日

実験出来ないデータ

処置群のデータ 

対照群のデータ 

処置群 対照群

割当によって処置群と対照群に差が生じるため単純に比較することが出来ない

因果効果 ≠ 処置群の平均 - 対照群の平均

処置群と対照群の割当(コントロール出来ない)

欠測 

欠測 

介入を受けた場合の結果

介入を受けない場合の結果

•対照群が介入を受けていた場合の期待値と介入を受けた処置群の期待値が異なる

•処置群が介入を受けない場合の期待値と介入を受けなかった対照群の期待値が異なる

期待値が違う!

2011年9月23日金曜日

実験出来ないデータ

8歳時の知能得点

8歳時の知能得点

処置群 対照群

3歳神話 : 母親側グループと保育園グループを単純に比較することは出来ない

母親側効果 ≠ “母親側” - “保育園”

1~3歳時に母親の側(コントロール出来ない)

欠測 

欠測 

母親の側の場合の結果

保育園の場合の結果

•保育園グループがもし母親の側だった場合の得点と母親が側グループの得点の期待値は異なる

•母親の側グループがもし保育園だった場合の得点と保育園グループの得点の期待値は異なる

2011年9月23日金曜日

実験出来ないデータ

購買量

購買量

処置群 対照群

CM効果 : CM見たグループと見てないグループを単純に比較することは出来ない

CM効果 ≠ “CM見た” - “CM見てない”

CMを見たグループ(コントロール出来ない)

欠測 

欠測 

CMを見た場合の結果

CMを見ていない場合の結果

•CMを見ていないグループがもしCMを見た時の購買量とCMを見たグループの購買量の期待値は異なる

•CMを見たグループがもしCMを見なかった場合の購買量とCMを見ていないグループの購買量の期待値は異なる

2011年9月23日金曜日

共変量調整

処置群のデータ  欠測 

対照群のデータ 欠測 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

割当や結果変数に影響している共通の変数を用いて因果効果以外の効果を除去する

2011年9月23日金曜日

共変量調整

処置群のデータ  欠測 

対照群のデータ 欠測 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

割当や結果変数に影響している共通の変数を用いて因果効果以外の効果を除去する

共変量調整◇マッチング◇層別解析◇回帰モデル

2011年9月23日金曜日

共変量調整

処置群のデータ  欠測 

対照群のデータ 欠測 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

割当や結果変数に影響している共通の変数を用いて因果効果以外の効果を除去する

共変量調整◇マッチング◇層別解析◇回帰モデル

親の学歴、収入、教育意欲など共通で得られる性質を揃えて

2群を比較する

2011年9月23日金曜日

欠測モデル

処置群のデータ  欠測 

対照群のデータ 欠測 

介入を受けた場合の結果

介入を受けない場合の結果

処置群 対照群

潜在的結果変数を考える

 

  

z=1 z=0

y1とy0は両方存在するが割当によって観測出来ないと考える

2011年9月23日金曜日

欠測モデル

処置群のデータ  欠測 

対照群のデータ 欠測 

介入を受けた場合の結果

介入を受けない場合の結果

処置群 対照群

割当変数zと求めたい因果効果

 

  

z=1 z=0

処置群と対照群の割当 z

処置群での平均介入効果average treatment effect on the treated

2011年9月23日金曜日

欠測モデル

処置群のデータ  欠測 

対照群のデータ 欠測 

介入を受けた場合の結果

介入を受けない場合の結果

処置群 対照群

割当変数zと求めたい因果効果

 

  

z=1 z=0

処置群と対照群の割当 z

処置群での平均介入効果average treatment effect on the treated

z=1の時のy1とy0の差を知りたいがどちらか一方は観測出来ない

2011年9月23日金曜日

欠測モデル

処置群のデータ  欠測 

対照群のデータ 欠測 

介入を受けた場合の結果

介入を受けない場合の結果

処置群 対照群

共変量の影響を除去した因果効果

 

  

z=1 z=0

処置群と対照群の割当 z

共通で得られている変数 共変量項目

強く無視出来る割当条件

共変量の影響を除去した因果効果

::

共変量の値が等しい時は割当はランダムという仮定

2011年9月23日金曜日

欠測モデル

処置群のデータ  欠測 

対照群のデータ 欠測 

介入を受けた場合の結果

介入を受けない場合の結果

処置群 対照群

共変量の影響を除去した因果効果

 

  

z=1 z=0

処置群と対照群の割当 z

共通で得られている変数 共変量項目

強く無視出来る割当条件

共変量の影響を除去した因果効果

::

共変量が同じならz=1のy0の期待値をz=0の時のy0の期待値で代用出来る

2011年9月23日金曜日

共変量調整

• マッチング• 処置群と対照群で共変量が同じになる対象者のペアを作り差をとり、ペア数分の平均を取る

• 層別解析• 共変量の値をいくつかの層に分け、層ごとで2つのグループがその共変量の値について等質になるようにし、比較した結果を結合する

• 回帰モデル• 各群ごとに回帰関数E(y1|z=1,x)とE(y0|z=0,x)をデータから推定し、その差の標本平均を取る事で因果効果を推定する

2011年9月23日金曜日

共変量調整の問題点• マッチング•層別解析での問題• 共変量に連続変数があると完全一致のペアは作れない• 次元問題• サポート問題• 回帰モデルでの問題点• 結果変数と共変量のモデリングが必要• 直接因果効果の推定値は得られない

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

傾向スコア解析

処置群のデータ  欠測 

対照群のデータ 欠測 

共通で得られている変数 

介入を受けた場合の結果

介入を受けない場合の結果

共変量項目

処置群 対照群

処置群と対照群の割当(コントロール出来ない)

共変量で割当をモデリング傾向スコアの算出

傾向スコアを用いた調整◇マッチング◇層別解析◇共分散分析

実験出来ないデータの因果関係を解析する

2011年9月23日金曜日

傾向スコアとは対象者の群1へ割り当てられる確率

第i対象者の割当変数の値

第i対象者の共変量の値

2011年9月23日金曜日

傾向スコアの推定プロビット回帰やロジスティック回帰で推定する

2011年9月23日金曜日

傾向スコアを用いた調整

• マッチング• 2つの群で傾向スコアが等しい(近い)対象者をペアにしてその差の平均を因果効果とする

• 層別解析• 傾向スコアの大小によっていくつかのサブクラスに分け、その各クラスで処置群と対照群の平均の計算と、全体としての効果の推定量を計算する

• 共分散分析• 割当変数と傾向スコアを説明変数とした線形の回帰分析を行う

2011年9月23日金曜日

傾向スコアを用いた調整の問題点

• マッチング•層別解析• 因果効果の推定値は計算出来るが、その標準誤差が計算出来ない

• 各周辺期待値の推定が出来ない• マッチングの場合、対象者の数が多い群でデータの多くが無駄になる

• マッチングによる推定値は「対象者数の少ない群の共変量の分布」の上で期待値を取った時の因果効果

• 共分散分析• 傾向スコアと目的変数が線形な関係にある必要があるが、傾向スコアが0~1である以上、その関係の仮定には無理がある

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

IPW推定量 傾向スコアの逆数による重み付け平均

2011年9月23日金曜日

IPW推定量 傾向スコアの逆数を重みづけたyの期待値は

y1の周辺平均の不偏推定量になる

2011年9月23日金曜日

IPW推定量 因果効果の推定値とその分散が計算出来る

因果効果

因果効果の分散

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

Rによる実行Matching パッケージ

lalondeデータセット

age 年齢 re74 74年実質賃金educ 教育年数 re75 75年実質賃金black 黒人かどうか re78 78年実質賃金hisp ヒスパニックかどうか u74 74年の賃金が0かどうかmarried 結婚してるかどうか u75 75年の賃金が0かどうかnodegr 高校卒業有無 treat NSW対象者有無

NSW職業訓練データ

2011年9月23日金曜日

Rによる実行Matching パッケージ

Match(Y=NULL, Tr, X, caliper=F,...)

Y : 結果ベクトルTr : 割当ベクトルX : 共変量または傾向スコアcaliper : キャリパーマッチングをやる場合にTRUE...

2011年9月23日金曜日

Rによる実行Matchingパッケージとデータセットの読み込み

2011年9月23日金曜日

Rによる実行ロジスティック回帰分析で傾向スコアを算出

2011年9月23日金曜日

Rによる実行マッチングで因果効果を推定

NSWプログラムの効果

2011年9月23日金曜日

Rによる実行マッチングのペアの確認

2011年9月23日金曜日

Rによる実行マッチングのペアの確認

処置群のindex

対照群のindex

2011年9月23日金曜日

Rによる実行キャリパーマッチングで因果効果を推定

キャリパーマッチング : ペアが特定の距離以上になる時はマッチングしないマッチング

NSWプログラムの効果

2011年9月23日金曜日

RでIPW推定量傾向スコアの逆数による重みベクトルを作成

2011年9月23日金曜日

RでIPW推定量lmで重みベクトルを指定してIPW推定量を算出

2011年9月23日金曜日

RでIPW推定量lmで重みベクトルを指定してIPW推定量を算出

処置群のIPW推定量と標準誤差

対照群のIPW推定量と標準誤差

2011年9月23日金曜日

RでIPW推定量lmで重みベクトルを指定してIPW推定量を算出

処置群のIPW推定量と標準誤差

対照群のIPW推定量と標準誤差

因果効果 = 6213.0 - 4589.4 = 1623.6

標準誤差 = √(462.2^2+436.4^2) = 635.668

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日

次回以降の発表者•LTを募集しています!

2011年9月23日金曜日

ご清聴ありがとうございました

2011年9月23日金曜日

AGENDA• 自己紹介• 傾向スコア解析• 実験出来るデータ• 実験出来ないデータ• 共変量調整• 傾向スコア推定• 傾向スコアを用いた調整• IPW推定量• Rによる実行• 最後に

2011年9月23日金曜日