統計基礎(第14回)
単回帰、多重回帰分析
早稲田大学大学院商学研究科
2017年1月18日
大塚忠義1
2
課題(最終回)
2
エクセルに記載された身長と体重のデータをもとに次の作業を行ってください
1.散布図を作成する
2.身長と体重の相関係数を求めよ
3.身長と体重の関係を示す回帰方程式を求める
4.その回帰方程式の決定係数を示す期限は1月25日(水) コースナビへ
3
回帰分析:平均への回帰
3
実験回数が増えると平均に近づく
・・大数の法則、中心極限定理
美男美女の子供はハンサムか?
・・No
平均へ回帰する
メンデルのもう一つの発見である平均への回帰
散布図
4
5
回帰分析(1)
5
2変数X,Yのデータがあるとき回帰方程式を用いて、XとYの関係を定量的に表す
モデル:確率変数を用いて、YをXで説明する:Xの値によってYが定まる確率(=説明力=決定係数)が存在する
2変数X,Yの組合せの標本に対して、XとYの因果関係を決定係数を用いて定量的に表す
Y=aX+b:線形回帰
6
回帰分析(2)
6
Y=aX+b+ε
ε :誤差項、測定誤差:確率変数で正規分布にしたがう
⇒Yも正規分布に従う確率分布となる
a,b を母数として、標本として得られたすべてのx、yを上記の関係式で示すことができる
7
回帰分析(3)
7
XによってYが一意に定まる方程式とは、Yが生起する確率を示すことで決定的に異なる
相関関係はXとYが同時に発生する確率が存在するが、因果関係を示すことはない
8
最小二乗法(1)
8
Y=aX+b:回帰方程式の母数a,b を定める手法
Sを最小にする 標本値をもとに算出し、その値をa,b の推定量とする⇒線形偏微分方程式の解を求める
2 2
( )
( ( ))
i i i
i i i
i i i
Y aX b
Y aX b
S Y aX b
,a b
9
最小二乗法(2)
9
a : 傾き
b : 切片
:残差:標本値と回帰式による結果との差⇒回帰式で説明できない部分
:残差二乗和:残差の分散
最小二乗法では、これを最小にする を定める
( )i i iY aX b
2
iS ,a b
0, 0i i ix
10
最小二乗法(3)
10
:決定係数:線形モデルの当てはまりの良さを示す指標
:全変動:被説明変数の標本分散全変動は、回帰式で説明できる変動部分とできない変動部分がある回帰式で説明できる部分が大きい=残差二乗和が小さい
=1-残差二乗和
全変動
2R
2( )iy y
11
12
決定係数(1)
12
:決定係数:線形モデルの当てはまりの良さを示す指標
:全変動:被説明変数の標本分散:TSS: total squared deviation全変動は、回帰式で説明できる変動部分とできない変動部分がある
残差二乗和:回帰式で説明できない変動:RSS: residual sum of suqres
2R
2( )iy y
2 2( ( ))i i iS Y aX b
13
決定係数(2)
13
回帰式で説明できる部分が大きい=残差二乗和が小さい
=1-残差二乗和
全変動=1-
𝑅𝑆𝑆
𝑇𝑆𝑆
14
決定係数(3)
14
:決定係数:1に近いほど説明係数の説明力が大きい通常0.66以上はほしい
0.5以下の場合:別の説明係数を探す
説明変数を複数にし重回帰分析を行う
2R
15
多重回帰分析(1)
15
単回帰分析
2変数 のデータがあるとき回帰方程式を用いて、 の関係を定量的に表す
多重回帰分析
多変数 のデータがあるとき回帰方程式を用いて、 の関係を定量的に表す
i i iY aX b
1 1 2 2i i i n ni iY a X a X a X b
,X Y
1, ,nX X Y
16
多重回帰分析(2)
16
ε :誤差項、測定誤差:確率変数で正規分布にしたがう
⇒Yも正規分布に従う確率分布となる
考え方は、単回帰の場合とまったく同じ
被説明変数Y:家計消費
説明変数:家計収入、貯蓄額、家族数、景気動向
1 1 2 2 n nY a X a X a X b
17
多重回帰分析(3)
17
:重回帰:複数の外生変数、各外生変数は独立であることが望ましい。少なくとも強い相関があってはならない
社会現象のなかで候補となる説明変数は、強い相関:従属関係になっているものが多く存在する
1, , nX X
18
多重回帰分析(4)
18
クロスセッション同時期に得られるX,Yの因果関係を調べる
売り上げに貢献する要素は何か?価格、品質、営業担当者数、広告宣伝費顧客の評判は、因果関係を形成しない
野球選手の打率に貢献する要素は?
19
多重回帰分析(5)
19
時系列分析異なった時期に得られる同一種のデータをもとに、過去の実績で現在を説明する将来推計を行う時に活用する
コブダグラスの生産関数生産額:GDP、投下資本:K、雇用者数:L月平均労働時間H
( )
log log log
GDP AK LH
GDP A K LH
20
多重回帰分析(6)
20
パネル分析クロスと時系列の複合
将来のGDP, 失業率…
説明変数と被説明変数のタイムラグ:今年の売上は昨年の設備投資と相関?、今年の家計消費は昨年の家計収入と相関?
昨日の福岡、大阪の天気と今日の東京の天気
21
分布を活用した検定(1)
21
• 分散分析
3つ以上のグループに対する平均差の検定
• 適合性の検定
ベルヌーイ試行(成功・不成功、表・裏)から三択以上(骰子の目)への拡張
• 独立性の検定
相関の大きさを検定する
2
22
分布を活用した検定(1)
22
適合性の検定
サイコロを100回投げて、1~6の目の数を調べる。
帰無仮説:さいころの目の出る確率は1/6
対立仮説:1/6でない
独立性の検定
2×2の分割表を作成しする
帰無仮説:同時確率は周辺確率の積に等しい
2
23
分散分析(1)
23
t 検定、z 検定は2つの標本の平均が等しいかを検定
3つ以上の標本グループの平均を較べたいときはt 検定を繰り返すか?
分散分析
n 個の標本グループ、それぞれのグループにm 個の標本
:n×m個の標本
,i jX
24
分散分析(2)
24
観測値の総平均からの偏差=観測値のグループ平均からの偏差
+グループ平均の総平均からの偏差
全変動:
級内変動:
級間変動:
, ,( ) ( )i j i j i iX X X X X X
2
,
1 1
( )n m
i j
i j
TSS X X
2
,
1 1
( )n m
i j i
i j
X X
2
1
( )n
i i
i
n X X
25
分散分析(3)
25
級間変動が級内変動に較べて小さければ各グループの平均の差異は無視できる
帰無仮説:母平均は等しい
対立仮説:母平均は等しくない
級間変動(グループ間の標本分散)と級内変動(各グループ内の標本分散)の差異をF 検定する
26
ノンパラメトリックな検定(1)
26
パラメトリックな検定母分布を仮定(一般には正規分布)し平均などを検定する(t 検定)
ノンパラメトリックな検定母分布が不明で、正規分布を仮定できない場合に、等平均、相関の大きさ等を検定する
順位和検定、符号検定、クラスカル・ワリス検定、スピアマン順位相関検定ケンドール順位相関検定
27
検出力(1)
27
①④は正しい
③:第1種の過誤:生産者のリスク仮説が正しいのに棄却してしまう規格に合格した良品を不合格にする
④:第2種の過誤:消費者のリスク仮説が正しくないのに棄却しない規格に合格しないはずの不良品を合格にする
が正しい が誤り
を棄却しない ① ②
を棄却する ③ ④0H
0H
28
検出力(2)
28
検定における、帰無仮説の棄却は、第1種の過誤が発生する確率が有意水準以下になること
では、第2種の過誤が発生する確率は?
第1種の過誤が発生する確率:α第2種の過誤が発生する確率:βαは固定(5, 1%)されている。α⇒小 β⇒大検出力=1-β検出力が大きいほど優れた検定といえる
Question?
お疲れ様でした
29
Top Related