統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義...

37
科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学 講義 29 2020 8 11 日(火)4 担当教員: 唐渡 広志(からと・こうじ) 研究室: 経済学研究棟4432号室 email: [email protected] website: http://www3.u-toyama.ac.jp/kkarato/ 1

Transcript of 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義...

Page 1: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

科目コード110225, 111215, 111216, 130019, 130119, 130219

統計学講義第 29 回

2020 年 8 月 11 日(火)4 限担当教員: 唐渡 広志(からと・こうじ)研究室: 経済学研究棟4階432号室email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/

1

Page 2: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

講義の目的多重回帰分析の方法について理解します。回帰分析におけるダミー変数の使い方,ダミー変数の係数推定値の意味を理解します。多重共線性が起きる状況について理解します。切片を除くすべての回帰係数がゼロであるという帰無仮説を検定(ゼロ・スロープ検定)する方法について学びます。

key words: ダミー変数,多重共線性,ゼロ・スロープ検定

参考書:宮川 pp.287-302,白砂 pp.218-242,大屋 pp.253-272,山本pp. 197-240,鳥居 pp.233-257

2

Page 3: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

異常値(外れ値)異常値が発生する理由

分析者のデータ入力ミス調査に使用した機器の故障アンケートに回答した人の錯誤重要な説明変数が欠落しているため,異常値になってしまうケース

異常値への対処方法方法1. 異常値を落とす方法2. ダミー変数を使う

ダミー変数データが異常である原因は明確であるが,その「原因」に該当する変数が利用できない場合,ダミー変数によってその「原因」が「結果」に与える効果を偽装することができる。ダミー dummy = 本物に似せて偽装したもの

3

Page 4: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

散布図と外れ値

4

0

5

10

15

20

0 5 10 15 20

Y

X

0

10

20

30

40

0 5 10 15 20

Y

X

0

10

20

30

40

0 5 10 15 20

Y

X

Page 5: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

異常値を含むデータセット

5

i Xi Yi

1 2 32 4 53 6 64 8 105 7 24

0 2 4 6 8 10 12

05

1015

2025

30

X

Y

の回帰直線i = 1,2,3,4,5

を除いた回帰直線i = 5

(7, 24)

93.0,1.15.0ˆ 2RXY ii

39.0,19.222.2ˆ 2RXY ii

【重要】回帰直線は異常値の影響を受けやすい

異常値

異常値を含まない回帰式

異常値を含む回帰式

Page 6: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

異常値に対するダミー変数ダミー変数

= 1 = 5 のとき 0 = 1,2,3,4 のとき

ダミー変数を含む多重回帰モデル

= α+ β + γ +

= α+ β + γ 0 += α+ β + γ 0 += α+ β + γ 0 += α+ β + γ 0 += α+ β + γ 1 +

= α+ γ+ β + , = 1 α+ β + , = 0切片の大きさは = 1 のとき α+ γ, = 0 のとき α

6

i Xi Di Yi

1 2 0 32 4 0 53 6 0 64 8 0 105 7 1 24 γ gamma ガンマ

Page 7: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

ダミー変数を含む回帰式の推定被説明変数を ,説明変数をと として回帰分析を行う。

推定結果= 0.5 + 1.1 + 15.8

= 1 のときの切片はα+ γ = 0.5 + 15.8 = 16.3= 0 のときの切片は

α = 0.5= 0 のときの回帰式は異常値

をデータセットから除いて推定したときの結果に等しくなっている。

7

0 2 4 6 8 10 12

05

1015

2025

30

X

YYi^ 0.5 1.1Xi

Di 0

Yi^ 0.5 1.1Xi 15.8Di

Di 1

γ = 15.8

Page 8: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

練習問題 (1)1981年から2011年までの = 31 のデータ( 作付面積[千 ha], 水稲収穫量[千 t])を利用して,次の回帰モデルを推定する。

= α+ β + γ +ここで, はダミー変数であり次のように定義する。

= 1 データが1993年のとき0 それ以外 推定結果は次のようになった= 1868 + 4 − 2750 ,2.82 12.02 −5.81= 0.85, . = 0.841993年は例年に比べ夏の気温が低く,冷害による農作物被害が出たという。作付面積をコントロールした場合の冷害による水稲収穫の被害量を求めなさい。

8

Page 9: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

練習問題 (1)

9

1981

1982 1983

19841985

1986

1987

1988 1989

1990

1991

1992

1993

19941995

1996

1997

1998

1999

200020012002

2003

2004

2005

2006

2007

2008

20092010

2011

6000

7000

8000

9000

10000

11000

12000

13000

1400 1600 1800 2000 2200 2400

収穫

量[

千ト

ン]

作付面積 [千 ha]

日本経済新聞 1993年10月4日

Page 10: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (1)単身世帯(34歳以下,男性15名,女性15名)の所得 と支出 (被覆及び履物),単位:千円

10

男性 女性i 所得 支出 i 所得 支出

1 2854 135 1 4050 1692 2474 46 2 2244 1483 3102 146 3 2824 1604 2538 111 4 4251 2155 2414 126 5 3277 1766 3069 93 6 4042 2387 1275 61 7 1996 1478 1779 83 8 1970 1319 2447 66 9 2986 165

10 2836 101 10 2909 20811 3016 122 11 3588 22612 1858 38 12 1594 10813 2771 101 13 3384 13114 3341 112 14 2849 19015 4278 151 15 3986 232

0

50

100

150

200

250

0 1000 2000 3000 4000 5000

支出

Y[千

円]

所得 X [千円]

男性女性

= 5.49 + 0.04

= 64.02 + 0.04

Page 11: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (2)男女別々に回帰分析(カッコ内は 値)

男性 = 5.49 + 0.04 , = 0.52, . = 0.48 0.21 3.72女性 = 64.02 + 0.04 , = 0.58, . = 0.55 2.34 4.24

男女のデータを統合した回帰分析= 5.49 + 0.05 , = 0.46, . = 0.44 2.34 4.24

11

0

50

100

150

200

250

0 1000 2000 3000 4000 5000支

出Y[

千円

所得 X[千円]

Page 12: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (3)仮説:男女間で支出額に差があるといえるか?

母平均の差の検定 (ウェルチの 検定)= −5.56, 棄却域−2.052 > または 2.052 <

問題点:所得の違いが考慮されていない。 回帰分析が必要

ダミー変数

= 1 女性のとき0 男性のとき

推定モデル

= α+ β + γ +推定結果

= α+ γ+ β , = 1α + β , = 012

• データが「女性」の場合, = 1 であるから,切片は α + γになる。

• データが「男性」の場合, = 0 であるから,切片は αになる。

• ダミー変数の係数推定値 γは男女間の支出額の差を示している。

Page 13: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (4)性別 所得 女性ダミー 支出

1 男性 2854 0 1352 男性 2474 0 463 男性 3102 0 1464 男性 2538 0 1115 男性 2414 0 1266 男性 3069 0 937 男性 1275 0 618 男性 1779 0 839 男性 2447 0 66

10 男性 2836 0 10111 男性 3016 0 12212 男性 1858 0 3813 男性 2771 0 10114 男性 3341 0 11215 男性 4278 0 15116 女性 4050 1 16917 女性 2244 1 14818 女性 2824 1 16019 女性 4251 1 21520 女性 3277 1 17621 女性 4042 1 23822 女性 1996 1 14723 女性 1970 1 13124 女性 2986 1 16525 女性 2909 1 20826 女性 3588 1 22627 女性 1594 1 10828 女性 3384 1 13129 女性 2849 1 19030 女性 3986 1 232

13

推定結果 = 3.24 + 0.04 + 62.63 ,0.18 5.78 6.44= 0.79, . = 0.77

0

50

100

150

200

250

300

0 1000 2000 3000 4000 5000

支出

Y[千

円]

所得 X[千円]

= 1= 0

γ = 62.63ダミー変数の係数は有意であるから,所得が同一金額であったとしても,女性は男性よりも62.63千円だけ支出額が高い。

男性

女性

Page 14: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (5)

14

例. 中古マンションの価格と建築後年数(金沢市 148件,高岡市 27件,富山市168件)

建築後年数価格[万円/m2]

仮説:地域によって価格差は存在するといえるだろうか?

分散分析 (F検定)

= = .. ≅ 6.2

棄却域3.02 <問題点:建築後年数の違いが考慮されていない。

回帰分析が必要

0

20

40

60

0 20 40価

格[

万円

/m2]

X 建築後年数

統合データの散布図 n =343

金沢市 高岡市 富山市# X Y # X Y # X Y1 16 21.3 1 8 30.0 1 12 38.9 2 16 21.5 2 14 21.4 2 13 28.2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮⋮ ⋮ ⋮ 27 26 12.5 ⋮ ⋮ ⋮

148 11 35.0 ⋮ ⋮ ⋮168 20 18.5

観測値の数 148 27 168平均 17.8 27.9 16.0 21.7 18.0 24.4 標準偏差 8.5 10.3 8.2 10.0 9.6 11.2 全体平均 17.8 25.7全体標準偏差 9.0 10.9

Page 15: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (6)

15

0

10

20

30

40

50

60

0 10 20 30 40 50

Y 価

格[

万円

/m2 ]

X 建築後年数

金沢市高岡市富山市

Page 16: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (7)ダミー変数(カテゴリーが3の場合,ダミー変数は2つあればよい)

= 1 金沢市の場合0 それ以外 , = 1 高岡市の場合0 それ以外 推定モデル

= α+ β + γ + δ +推定結果

= α+ γ+ β , = 1 α+ δ+ β , = 1 α + β , = 0 かつ = 0= 42.88 − 1.02 + 3. − 4. , = 0.752, . = 0.750 59.17 −31.29 5.31 −4.32

16

金沢市の場合高岡市の場合富山市の場合

Page 17: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (8)データセットの準備

17

建築後年数 金沢市ダミー 高岡市ダミー 価格[万円/m2]i 市区町村名 X KD TD Y1 金沢市 16 1 0 21.3 2 金沢市 16 1 0 21.5 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

148 金沢市 11 1 0 35.0 149 高岡市 8 0 1 30.0 150 高岡市 14 0 1 21.4 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮175 高岡市 26 0 1 12.5 176 富山市 12 0 0 38.9 177 富山市 13 0 0 28.2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮343 富山市 20 0 0 18.5

Page 18: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

グループに対するダミー変数 (8)

18

0

10

20

30

40

50

60

0 10 20 30 40

Y 価

格[

万円

/m2]

X 建築後年数

金沢市

高岡市

富山市

金沢市= 42.88 + 3.26 − 1.02

富山市= 42.88 − 1.02高岡市= 42.88− 4.88 − 1.02

その他の事情が等しい場合,• 金沢市は富山市に比べて価格が

3.26万円高い。• 高岡市は富山市に比べて価格が

4.88万円低い。ダミー変数として利用されなかったカテゴリーを「参照基準」にして結論を考える。

Page 19: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

練習問題 (2)気温によって電力消費量がどのように変動するのかを分析する(関西電力2012年7月の電力実績, =31 日間)。

電力消費を ,最高気温を として回帰分析を行う。

ただし,土曜・日曜は企業の大半が休みなので,平日を参照基準に,土曜ダミー ,日曜ダミー を利用する。

推定モデルを次のように定義した。= β + β + β + β 2 +

表の推定結果を解釈しなさい。

19

年月日 曜日 最高気温℃ 電力消費 [万kwh]

2012/7/1 日曜日 26.4 16482012/7/2 月曜日 30.9 20582012/7/3 火曜日 26.0 19952012/7/4 水曜日 29.6 20772012/7/5 木曜日 25.4 19922012/7/6 金曜日 28.5 20992012/7/7 土曜日 27.9 17912012/7/8 日曜日 29.1 15982012/7/9 月曜日 32.3 2063

2012/7/10 火曜日 32.2 21822012/7/11 水曜日 30.7 21392012/7/12 木曜日 29.7 21942012/7/13 金曜日 31.2 22832012/7/14 土曜日 32.2 20122012/7/15 日曜日 34.1 19442012/7/16 月曜日 33.6 20942012/7/17 火曜日 34.9 24972012/7/18 水曜日 33.4 25162012/7/19 木曜日 32.5 25242012/7/20 金曜日 31.3 23642012/7/21 土曜日 32.9 20522012/7/22 日曜日 32.2 18522012/7/23 月曜日 32.5 22642012/7/24 火曜日 34.1 24232012/7/25 水曜日 33.6 24902012/7/26 木曜日 35.5 25992012/7/27 金曜日 35.7 26282012/7/28 土曜日 35.9 23392012/7/29 日曜日 35.9 21682012/7/30 月曜日 35.8 26052012/7/31 火曜日 35.8 2586

推定値 t 値 p 値定数項 325 1.41 0.169 最高気温 62 8.65 0.000 土曜ダミー -265 -4.14 0.000 日曜ダミー -430 -7.34 0.000

決定係数 0.84 自由度調整済み決定係数 . 0.82 回帰の標準誤差 117.93

Page 20: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

練習問題 (2)

20

土日

1000

1500

2000

2500

3000

24 26 28 30 32 34 36 38

電力

消費

[万

kwh]

最高気温 ℃

Page 21: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (1)多重回帰分析の注意点

多重回帰モデルにおいて,説明変数の間に「完全な線形関係」がある場合,推定値を計算できなくなる。

例. = β + β + β + において と の間に次の線形関係があるものとする:

= + , = 1,2,⋯ ,この場合, = , = なので, と の相関係数は

= = = = 1 となる。

β = = = 1 の場合 計算不能

β = = = 1 の場合 計算不能

説明変数に「完全な線形関係」を持つデータが含まれていないか,あるいはそのようなモデルを推定しようとしていないか,分析者が注意する必要がある。

21

Page 22: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (2)例.華氏 と摂氏 の間には次の完全な線形関係がある:= 32 + 1.8 たとえば 摂氏 19.5 ℃ 華氏 67.1 ℉

華氏 摂氏

22

華氏 摂氏 カゼ薬への支出額[円]

月 X2i X3i Yi1 39.92 4.4 2412 40.64 4.8 2633 45.68 7.6 2354 57.74 14.3 1605 63.14 17.3 1556 72.86 22.7 1187 77.00 25.0 1118 81.14 27.3 1009 74.84 23.8 113

10 64.4 18.0 20411 51.8 11.0 26812 39.92 4.4 314

0

100

200

300

400

0 20 40 60 80 100

支出

額[

円]

華氏 ℉

華氏と支出額

0

100

200

300

400

0 10 20 30

支出

額[

円]

摂氏 ℃

摂氏と支出額

= 451.68− 4.43 , = 0.86, . = 0.8513.15 −7.84

= 310.06− 7.97 , = 0.86, . = 0.8517.82 −7.84

Page 23: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (3)PC (Excel)での計算例:数値計算上のエラーが起きる #NUM!

推定モデル = + + +

解決方法:説明変数のうち ないし のどちらかを落とす。= 451.68 − 4.43 , = 0.86, . = 0.85 13.15 −7.84

または= 310.06 − 7.97 , = 0.86, . = 0.85 17.82 −7.84

23

Page 24: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (4)スライド #11 :性別のカテゴリー2つ(女性か,男性か)

女性ダミー変数を一つ利用するだけで,カテゴリー間の差異を計算することができる。

多重回帰分析において,女性ダミー変数に加えて,男性ダミー変数も利用したらどうなるか。 多重共線性に陥る + = 1 。

24

性別所得 女性ダミー 男性ダミー 支出 +

1 男性 2854 0 1 135 12 男性 2474 0 1 46 1⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15 男性 4278 0 1 151 116 女性 4050 1 0 169 117 女性 2244 1 0 148 1⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮30 女性 3986 1 0 232 1

計算不能

= + + + +

Page 25: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (5)説明変数間の相関係数が高すぎることによって生じる多重共線性問題もある。

回帰モデル = β + β + β + において, , の相関係数 が 1 に近いと,推定値の分母が 0 に近づくので不安定な値になることがある。また標準誤差においても分母が 0 に近づくので,標準誤差が極端に大きくなることで 値が低下し,帰無仮説を棄却しづらくなる。

β = == =

25

Page 26: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (6)例. スライド #19

26

年月日 曜日最高気温 平均気温 電力消費

2012/7/1 日曜日 26.4 23.9 16482012/7/2 月曜日 30.9 26.4 2058⋮ ⋮ ⋮ ⋮ ⋮

2012/7/31 火曜日 35.8 30.8 2586

1500

1700

1900

2100

2300

2500

2700

20 25 30 35 40

電力

消費

万kw

h

最高気温℃

1500

1700

1900

2100

2300

2500

2700

20 25 30 35 40電

力消

費万

kwh

平均気温℃

20

25

30

35

40

20 25 30 35 40

X 3平

均気

温℃

X2 最高気温 ℃

相関係数 0.69

相関係数 0.78

相関係数 0.93

最高気温と平均気温はどちらも電力消費と相関持つが,最高気温と平均気温の間にも高い相関関係がある。このような場合,多重共線性の問題が生じやすい。

Page 27: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

多重共線性 (7)(a), (b)単純回帰分析 では, 検定に問題がない。

(c) 相関の強い , を同時に説明変数として利用すると,最高気温の推定値の符号は期待とは反対に負となり,標準誤差も大きく

なっている。

(d) 土曜ダミー,日曜ダミーを追加しても,最高気温の係数推定値は有意でない。

27

(a) (b) (c) (d)推定値 標準誤差 推定値 標準誤差 推定値 標準誤差 推定値 標準誤差

定数項 136 402 -370 378 -390 380 -28 213 最高気温 64 13 * -28 30 3 17 平均気温 92 14 * 125 37 * 80 22 *土曜ダミー -203 56 *日曜ダミー -394 49 *

0.48 0.62 0.63 0.90 . 0.46 0.60 0.60 0.88 207.23 177.87 178.26 97.34

表. 推定結果一覧(有意水準5%で有意のとき * の印をつけている)

Page 28: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

特殊な多重回帰分析 (1)定数項しかない回帰モデル

= α+推定すべきパラメータは αのみ。定数項 = 1,1,⋯ , 1 が省略されている。

αの推定値をαとするとき,理論値は = α,残差は = − =− α と書ける。したがって,残差2乗和は = ∑ − α である。

最小2乗法により, を最小にする αは

α = ∑ =定数項しかない回帰モデルにおける αの最小2乗推定値は,データの平均 であることがわかる。 また,その場合の残差2乗和は

= − =この場合の残差2乗和 の自由度は − 1 である。

28

Page 29: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

特殊な多重回帰分析 (2)

29

面積[m2]

駅までの徒歩時間[分]

土地取引価格[百万円]

i X2i X3i Yi

1 100 13 422 85 14 433 740 12 2304 320 13 1505 230 4 1106 85 14 487 170 5 408 180 8 899 100 8 42

10 90 8 5011 30 9 2012 300 6 15013 120 11 6314 100 9 6015 250 2 15016 480 2 30017 155 2 8818 480 3 17019 200 6 14020 105 9 56

0

100

200

300

400

0 5 10 15 20

Y 土

地取

引価

格[

100万

円]

i 観測値番号

例. 土地の取引価格推定モデル = α +推定結果 α = = 102.05

α = = 102.05

Page 30: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

特殊な多重回帰分析 (3)2次式を推定する方法:2乗項を説明変数に加える。

= + + +例. 所定内給与額は年齢とともにどのように変化するか?

30

150

200

250

300

350

400

450

10 20 30 40 50 60 70

Y 所

定内

給与

額[

千円

/月]

X 年齢

= 148.6 + 2.9 ,= 0.48, . = 0.47

データ出所:『賃金構造基本統計調査』(厚生労働省),製造業(企業規模:10~99人)の生産労働者(高校卒,男性)の年齢と賃金

= −137.7 + 18.5 − 0.2= 0.79, . = 0.78

Page 31: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

特殊な多重回帰分析 (4)データセットに2乗項を加えて, と を説明変数とする多重回帰分析を行う。

31

年齢 年齢の2乗 所定内給与額[千円/月]

18 324 167.719 361 170.820 400 170.121 441 179.222 484 176.6⋮ ⋮ ⋮64 4096 260.765 4225 260.0

推定結果= −137.7 + 18.5 − 0.2= 0.79, . = 0.78< 0 のとき, が増えると,

の増え方は減少していく(最大値を持つ)。

Page 32: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

ゼロ・スロープ検定 (1)多重回帰モデル = β + β + β + ⋯+ β + において

:β = β = ⋯ = β = 0を検定することをゼロ・スロープ検定とよぶ。帰無仮説は,β を除くすべての回帰係数がゼロであることを示している。

対立仮説:ゼロ・スロープ検定において主張したい事柄は,β ,β ,⋯ ,β のうち少なくとも一つはゼロでない( でない)である。

制約ありモデル: を仮に正しいと考えた場合のモデルを= α+ 1

制約なしモデル: β を除くすべての回帰係数がゼロであるという の制約がないモデルを

= β + β + β + ⋯+ β + 2:β = β = ⋯ = β = 0 を検定するために F 検定の考え方(分散の比に

関する検定)を利用する。

32

Page 33: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

ゼロ・スロープ検定 (2)制約ありモデル [1]と制約なしモデル [2]の残差2乗和を次のように書く。

==

検定統計量: 値は分子の自由度 − 1 ,分母の自由度 − の 分布にしたがう。 分布での上側検定になる。

=−− 1−

~ − 1, −分子の自由度 − 1 は帰無仮説(制約ありモデル)における制約式の数を示している (β = 0,β = 0,⋯ ,β = 0)分母の自由度 − は制約なしモデルにおける残差2乗和の自由度に対応している。

33

Page 34: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

ゼロ・スロープ検定 (3)= 3 の場合:

34

面積[m2]

駅までの徒歩時間[分]

土地取引価格[百万円]

i X2i X3i Yi

1 100 13 422 85 14 433 740 12 2304 320 13 1505 230 4 1106 85 14 487 170 5 408 180 8 899 100 8 42

10 90 8 5011 30 9 2012 300 6 15013 120 11 6314 100 9 6015 250 2 15016 480 2 30017 155 2 8818 480 3 17019 200 6 14020 105 9 56

1. 制約ありモデルを計算する (α = より理論値は = α = ,残差は = −= − )。残差2乗和は

= ∑ − = = 101,2672. 制約なしモデルを計算する。残差2乗和は = ∑ = 17,5213. 棄却域 . 2,17 = 3.59 <4. F 値を計算する。

=101,267 − 17,5212101,26717

= 41,8731,031 = 40.65. 検定統計量は棄却域に入るので帰無仮説を棄却する。 β , β のうち少なくとも一つはゼロでないと主張できる。

Page 35: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

ゼロ・スロープ検定 (4)分散分析において,

全変動 = グループ間変動 + グループ内変動 ↔ =回帰分析において

= + ↔ = = − ↔ =ゼロ・スロープ検定は回帰モデルにおける分散分析になっている。

35

制約なしモデルの分散分析自由度 変動 分散 F値

回帰 2 83746 41873 40.629 残差 17 17521 1031 合計 19 101267

Page 36: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

練習問題 (3)スライド #26, #27 のデータ = 31最高気温と平均気温を説明変数として電力消費の推定を行い,次の結果が得られた。= −389.79 − 27.58 + 124.92= 2383152, = 889753有意水準5%で帰無仮説 :β = β = 0 を検定しなさい。

36

制約なしモデルの分散分析自由度 変動 分散 F値

回帰残差合計

Page 37: 統計学講義...科目コード110225, 111215, 111216, 130019, 130119, 130219 統計学講義 第29 回 2020 年8 月11 日(火)4 限 担当教員: 唐渡 広志(からと・こうじ)

まとめデータが異常である原因は明確であるが,その「原因」に該当する変数が利用できない場合,ダミー変数によってその「原因」が「結果」に与える効果を偽装することができる。ダミー変数を利用した多重回帰分析においてグループ間での差異を調べることができる。多重回帰モデルにおいて,説明変数の間に「完全な線形関係」がある場合,推定値を計算できなくなる(多重共線性)。説明変数間の相関係数が高すぎることによって生じる多重共線性問題もある。定数項しかない回帰モデルの推定値は被説明変数の標本平均に等しく,残差2乗和は被説明変数の偏差2乗和に等しくなる。2乗項を加えることで,放物線の形状をもつ回帰モデルが推定できる。定数項の係数を除くすべての回帰係数がゼロであるという帰無仮説の検定をゼロ・スロープ検定とよび,F検定で判定できる。

37