医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3...

23
医学統計勉強会 2 回 回帰分析 1 医学統計勉強会 東北大学病院循環器内科・東北大学臨床研究推進センター 共催 東北大学大学院医学系研究科 EBM 開発学寄附講座 宮田 敏 Absence of evidence is not evidence of absence! - Carl Sagan -

Transcript of 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3...

Page 1: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

1

医学統計勉強会

東北大学病院循環器内科・東北大学臨床研究推進センター 共催

東北大学大学院医学系研究科 EBM 開発学寄附講座

宮田 敏

Absence of evidence is not evidence of absence!

- Carl Sagan -

Page 2: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

2

第 2 回 回帰分析 1. 線形回帰モデル

第 1回で取り上げた「基本統計量」は、単独の変数の持つ特徴、傾向、分布を

解析するものでした。しかし、自然科学、社会科学において取り扱われる現象

の多くは、複数の要因が相互に依存しあって成り立っています。今回取り上げ

る回帰分析 (regression analysis) は、多数の変数の間の関係を解析する多変量

解析 (multivariate analysis) と呼ばれる手法の一つで、一つの連続数(実数)

の値を複数の変数によって説明、予測する統計モデルになります。

多数の変数の間の関係を解析するのが回帰分析の目的ですが、最初は 2 変数の

間の関係を解析することから始めます。

1. 1 二変量データの解析

いま、x と y、2 つの変数の組が n 組得られたとします。

nn yxyxyx ,,,,,, 2211

このとき、x と y の関係を推測することを目的とします。例として、以下のもの

を考えます。

Example 1: Galton の親子の身長のデータ

図 1.1 は、205 組の夫婦の平均身長(インチ単位)と、彼らから生まれた 928人の成人した子供の身長の関係を図示したものです。データは 0.1 インチ単位に

丸められているため、格子点上に分布しています。また、そのために多くのサ

ンプルが同じ位置にプロットされています。図 1.1 から明らかな通り、身長の高

い両親からは身長の高い子が生まれる傾向があり、親子の身長の間には正の相

関関係があることがわかります。(「相関」という概念については、すぐ後で詳

述します) なおこのデータは、Galton, F. (1886) で取り上げられたものですが、筆者の

Francis Galton は回帰分析や相関係数の概念を提唱した人物として知られてお

り、この親子の身長のデータは回帰分析の歴史のごく初期の例として有名です。

Page 3: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

3

図 1. 1

Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal of the Anthropological Institute, 15, 246-263 1. 2 二変量データの要約

基本統計量の解説で強調した通り、データ解析の第一歩はデータを数値的、視

覚的に要約し、データの持つ特徴、傾向を把握することにあります。

二変量データを視覚的に要約するもっとも簡単な方法は、図 1.1 にあるように

二つの変数の値を二次元平面にプロットしたもので、これを散布図 (scatter plot) 

と呼びます。 

 

一方、二変量データを数量的に要約するには、1)個々の変数に対する通常の数

値的要約と、2)二変量の関係の強さを要約する「共分散」「相関係数」の概念

があります。 

 

1)個々の変数に対する数量的要約:Galton の親子の身長

Min. 1st Qu. Median Mean 3rd Qu. Max. SD IQR

parent 64 67.50 68.5 68.31 69.5 73 1.79 2

child 61.7 66.20 68.2 68.09 70.2 73.7 2.52 4

64 66 68 70 72 74

6264

6668

7072

74

parent

child

Page 4: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

4

parent, child 各変数の要約統計量を見ると、平均、中央値がほぼ等しく分布の

中心は同じである一方、標準偏差(SD)、四分位点間距離(IQR)を見ると、childの散らばりの方が大きいことがわかります。このことは、以下のヒストグラム、

ボックスプロットを用いた視覚的要約でも確認することが出来ます。

図 1.2

2)共分散、相関係数

二変量のデータが存在し互いに影響し合っているとき、二つの変数がいかに影

響し合っているかを定量的に理解することを考えます。このとき、よく用いら

れる統計量に以下の共分散と相関係数があります。

定義:今、 xn yxyx ,,,, 11 が与えられたとする。このとき xと y の間の共分散

を以下で定義する。

n

i ii yyxxn

yx1

1,Cov

共分散の性質:

xと y の間に正の(負の)相関があるとき、Cov(X, Y)はそれぞれ正(負)になる。

従って、共分散を考えるときは共分散の符号が問題で有り、共分散の値そのも

のはあまり問題になりません。共分散の値は xと y の単位に依存しますが、単位

は二つの変数の相関にあまり関係がありません。

Histogram of parent

parent

Fre

quen

cy

62 64 66 68 70 72 74

01

0020

0

Histogram of child

child

Fre

que

ncy

62 64 66 68 70 72 74

05

01

50

parent child

62

64

66

68

70

72

74

Page 5: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

二つ

次の

xと

分は

るの

定義

する

Cor

相関

統計勉強会

つの変数の間

のようなもの

y の間に正

は第 1,3 象

ので、共分散

義: yx ,, 11

ryx,rr

関係数の性質

相関係数は

近いほど、

11 r 1 r

相関係数は

間に正の相

のです。

正の相関が

象限に存在し

n

in

11

xn yx ,, が

n

in

n

1

1

1

質:

は、xと y の

xと y の関

:正(負)

は xと y の単

相関があると

あるときデ

します。第

iyxx1

が与えられ

i

n

i i

nxx

xx

2

1

1

の線形関係

関係は直線

の完全な

単位に依存

とき,共分

図 1.3

データ領域

1,3 象限の

y も正に

れたとき、

n

i i

i

yyn

yy

1

係の強さを測

線に近い。

な相関。線形

存しない。

分散が正の値

を yx, で分

のいずれで

になります。

xと y の間

n

iy 2

測る尺度。

形関係。

値をとる直

分割すると、

でも 1 xx

間の相関係数

n

i

n

i i

xx

xx

1

2

1

相関係数の

第 2 回 回帰

直感的な説明

、データの

0 yyi

数を以下で

n

i i

i

y

yyx

1

の絶対値が

帰分析

5

明は

の大部

0とな

で定義

y 2

が 1 に

Page 6: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

例、

Galtます

あり

の直

1. 3

いま

xと

ただ

resp

inde

regr

係を

際に

統計勉強会

共分散、相

ton の親子

す。共分散、

ます。また

直線関係は強

3 回帰分析

、二つの変

y の関係を

だし、(左辺

ponse vari

ependent v

ression coe

のうち、 y

を示していま

に観測される

相関係数:

子の身長のデ

相関係数

た、相関係数

強くもなく

変数 xと y の

を以下の回帰

辺の)説明さ

able,(右

variable と

efficient、

xy 10

ます。実際

る被説明変

Galton の

データの場

数が正の値で

数の絶対値

弱くもない

の関係が線

帰式 (regr

yi 0

される変数

辺の)説明

と呼びます。

を誤差項

xを真の回

のデータに

変数 y の値は

の親子の身長

場合、共分散

ですから、

値は 0 と 1 の

い、といっ

線形(直線)

ression equ

ix ii ,1

数 y を,従属

明する変数

。また、未

項、撹乱項、

回帰関数とよ

にはランダ

は「真の回

図 1.4

散=2.064、親と子の身

の間くらい

ったところで

で近似でき

uation) で

ni ,,1

属変数、被

数 xを独立変

未知のパラ

、error ter

よび、 xと

ムな誤差回帰関数+誤

相関係数=

身長の間に

いであり、二

です。

きるとしま

でモデル化し

被説明変数、

変数、説明

メター 0 ,

rm と呼び

y の間に想

が含まれて

誤差」にな

第 2 回 回帰

=0.459 と

には正の相関

二つの変数

ます。そのと

します。

、応答変数

明変数、共変

1 を回帰係

ます。

想定した関

ているので

なっています

帰分析

6

なり

関が

数の間

き、

数、

変量、

係数、

数関

で,実

す。

Page 7: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

7

回帰モデルの仮定:

線形性 (linearity):被説明変数 y と説明変数 x の関係は直線で近似できる。

独立性 (independence):サンプル xn yxyx ,,,, 11 は互いに独立である。す

なわち,あるサンプルの値が他のサンプルの値に影響を与えない。

正規性 (normality):撹乱項は期待値 0,分散 2 の正規分布に従う。正規

分布については、以下に説明する。 2,0~ N

等分散性 (homoscedasticity):撹乱項の分散は(従って、被説明変数 y の

分散も) 2 で一定である。 .22 EV

以上の仮定に従って、未知の回帰係数と真の回帰関数を推定するわけですが、

その前に、上の回帰モデルの仮定に出てきた「正規分布」という確率分布につい

て解説しておきます。

1. 4 正規分布

正規分布 (normal distribution) は、最も代表的な連続型の(実数値をとる)確

率分布といえます。正規分布は自然界の様々な局面で登場しますが、特に計測

値に含まれるランダムな測定誤差を表すのに用いられています。

正規分布の確率密度関数は、以下のように与えられます。(「確率密度関数」と

いう概念については、数理統計学の教科書を参照してください。)

.,2exp2

1 22 xxxf

図 1.5:標準正規分布の確率密度関数

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Standerd Normal Distribution

Page 8: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

8

正規分布の特徴:

i. ., 2 XVXE 正規分布は期待値(平均)= 、分散= 2 。 ii. 正規分布の分布型は、 と 2 で特徴付けられる。すなわち、 あるいは 2 が

異なれば、異なる種類の正規分布になる。 iii. 特に、期待値=0,分散=1 の正規分布を、標準正規分布 (standard normal

distribution) と呼ぶ。 iv. 釣り鐘型 (bell-shaped) で、左右対称な分布。

正規分布の極めて有用な性質:

前に述べたとおり、正規分布は様々な場面における測定誤差をモデル化するの

に有用です。さらに,以下に述べるとおり様々な確率的現象が正規分布で近似

される、という性質を持つため,正規分布は極めて重要な確率分布となってい

ます。

確率変数の標準化 (standardization):

いま、X を期待値(平均)= 、分散= 2 である確率変数とする。 このとき、 XZ とすると、

.111

,0

222

XVXV

XEZE

すなわち、任意の確率変数 X に対して、 XZ は必ず期待値=0、分散=1を持つ。この、 XZ なる変換を確率変数 X の標準化 (standardization)

と呼ぶ。

正規確率変数の標準化:

上で述べた確率変数の標準化は任意の確率変数に対して成り立つが、特に、X が

期待値= 、分散= 2 の正規分布に従うとき(このことを 2,~ NX と表す)、 正規確率変数 X の標準化 XZ は期待値=0,分散=1 の標準正規分布

1,0N に従います。

上の正規分布の特徴 (ii) で述べたとおり、正規分布は と 2 が異なれば別の

正規分布になりますが、標準化により全ての正規分布は 1,0N に帰着します。

中心極限定理 (Central Limit Theorem, CLT):

中心極限定理は,任意の確率分布から得られたサンプルの標本平均の分布は,

サンプル数が大きくなるとき正規分布で近似できる,という重要な定理です。

Page 9: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

9

定理:中心極限定理

nXX ,,1 を独立かつ同一の分布に従う確率変数とする。ただし、

2, XVXE とする。このとき、標本平均の分布は正規分布に収束する。

nnNXn

Xn

ii ,,

1 2

1

中心極限定理では、元のデータ nXX ,,1 がどのような確率分布に従うか仮定さ

れていないことに注意してください。すなわち、どのような確率的現象から出

発しても、十分多くのサンプルを集めれば、標本平均の性質は正規分布という

特定の確率分布で解析できることを示しています。

中心極限定理と正規確率変数の標準化:

さらに、上に述べた標準化と中心極限定理を組み合わせれば、以下の結果を導

くことができます。

nXX ,,1 を独立かつ同一の分布に従う確率変数とする。 2, XVXE と

すると、 nXVXE 2, となる。このとき標準化した標本平均の分布は標

準正規分布に収束する。

nNn

XZ ,1,0

この結果はきわめて強力であって、元データがいかなる確率分布に従おうとも、

サンプル数が十分大きければすべての議論は標準正規分布というただ一つの分

布に帰着してしまうことを意味します。

1. 5 回帰係数の推定

与えられたデータ xn yxyx ,,,, 11 に対して、未知の回帰係数 10 , を推定し、

回帰式 iii xy 10 を当てはめることを考えます。説明変数 ixx が与えら

れた時、推定された(説明された)回帰式の値は ix10 となります。このと

Page 10: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

き i

誤差

で回

ずれ

義す

明変

ます

最小

推定

最小

統計勉強会

番目のサン

差項 ii y

回帰によって

れの値もとり

することにし

変数の値 iy の

すから、この

小二乗推定量

定された回帰

小二乗推定量

不偏性 (un

正規性 (no

0 ~ N

ただし

ンプルとし

ix10

て説明でき

りますから

します。こ

の変動のう

n

i i1

2 が

量 (Ordina

帰直線: y

量の性質:

nbiasednes

ormality):

2ˆ00

ˆ,,

N

し、

2ˆ0 n

して観察され

になりま

なかった部

、被説明変

このとき残差

ち、回帰に

が最小にな

ary Least S

x10ˆˆ

s): 0 E

11 ,~ˆ N

2

22

xx

x

i

i

れた被説明

す。つまり

部分に当た

変数 iy と真

差二乗和

によって説

るように回

quares Est

x

10ˆ, E

2

1

2

ˆ1

,

明変数の値 y

り、誤差項

たります。誤

真の回帰モデ

n

i i1

2 は、

説明できなか

回帰式を推

timator, OL

1

2

2

xxi

iy と回帰式

項とは被説明

誤差項その

デルの「乖

データ全体

かった変動

定すること

LSE):

第 2 回 回帰

式の値の差

明変数の値

のものは正負

乖離」を 2i

体における

動の総和にな

とを考えま

帰分析

10

は、

値の中

負い

で定

被説

なり

す。

Page 11: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

ただ

ただ

るこ

下に

(使

M

p

統計勉強会

回帰係数の

回帰係数

0 の信頼区

1 の信頼区

だし、j

s:

回帰係数に

0 : jH

検定統計量

だし、 0j は

とが多い。

に示すのは、

使用したソフ

回帰分析の解

回帰係数の

回帰係数の

決定係数

Model utilit

p 値

撹乱項の標

の信頼区間

数 10 , の信

区間:

区間:

j の標準誤

に関する仮

10 : vs.j H

量:ˆ

st j

は帰無仮説 H

回帰分析

フトは R v解析結果を

の推定値

の有意性検定

(被説明変数

ty test(回帰

標準誤差

(Confiden

信頼区間は,

,2ˆ00

ˆ ts

,2ˆ11

ˆ nts

誤差、 2,2 nt

説検定

0jj

0 ~ ts n

j

j

H0 の元で仮

析を行う統計

ersion 3.0を検討すると

定の p 値

数の変動の

帰モデル全

nce Interva

以下のよ

ˆ02,ˆ, n s

ˆ121

ˆ, n s

2:自由度

0under H

仮定される

計解析ソフ

.1) ときは,以

のうち回帰

全体の有意性

al, CI):

ように与え

2,20

nt

2,2 nt

n-2 の t 分布

る定数で、通

フトの典型的

以下の点に注

によって説

性検定。後

られます。

布の上側

通常 :0H

的な出力例

注意します

説明された

後でもう一度

第 2 回 回帰

2 点。

0j が検定

例になります

す。

変動の割合

度触れます

帰分析

11

定され

す。

合)

す)の

Page 12: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

12

1. 6 多変量回帰分析

前項までは,説明変数が一つのいわゆる単純回帰 (simple regression) について解

説してきました。本項以降では,複数の説明変数を持つ多変量回帰分析

(multivariate regression analysis) について検討します。

多変量回帰の場合、モデルを記述するのには行列表示を用いた方が便利です。

まず、行列を使って回帰モデルを定式化します。

niNxxy iikikii ,,1,,0~, 2110

行列表示を使うと、上の多変量回帰モデルは以下のように簡潔に表せます。

matrix.identity ldimensiona-:,,~

,,,

1

1

1

,

,

2

2

1

1

0

1

212

111

2

1

nIIN

xx

xx

xx

y

y

y

nn

nkknn

k

k

n

0

Xy

Xy

前項の単純回帰の場合と同様、残差二乗和

n

i i1

2 を最小化すると回帰係数

k ,,, 10 の最小二乗推定量 (Least Squares Estimators, LSE) は、以下のよ

うに得られます。

yX'XX' 1

1

2110

,,,

ˆ

min10

n

i kikii xxyk

最小二乗推定量の性質:

不偏性 (unbiasedness): ˆE

正規性 (normality): 12,~ˆ XX' N

Page 13: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

13

回帰係数の信頼区間 (Confidence Interval, CI):

j の信頼区間: 1,2ˆ1,2ˆˆ,ˆ

knjknj tstsjj

ただし、 2112ˆ ' jjXXss

j

: j の標準誤差、 1,2 knt :自由度 n-(k+1)の t 分布

の上側 2 点。

22

2

22 ,1

ˆˆ

sE

kn

yys ii

回帰係数に関する仮説検定

0100 : vs.: jjjj HH

検定統計量: 01ˆ

0 under ~ˆ

Hts

t knjj

j

ただし、 0j は帰無仮説 H0 の元で仮定される定数で、通常 0:0 jH が検定され

ることが多い。

決定係数:

上で述べた回帰係数の有意性検定は,個々の係数が有意か(主として 0に等し

いか否か)を検定するものでした。しかし、回帰モデル全体の有意性を議論す

るためには,別の概念が必要になります。そのために、まず以下を定義します。

SST (Total Sum of Squares):

n

i i yy1

2 被説明変数 y の、データ全体にお

ける変動(全変動)を示します。SST を(n-1)で割ると y の分散になりますね。

SSE (Error Sum of Squares):

n

i ii yy1

2ˆ iy は回帰モデルによって推定さ

れた y の値ですから、 ii yy ˆ は y の中で回帰によって説明されなかった部

分でこれを残差 (residuals) といいます。SSE は y の回帰では説明されなか

った変動を表します。

SSR (Regression Sum of Squares):

n

i i yy1

2ˆ iy は回帰によって説明され

た(推定された) y の値です。一方もし回帰モデルが存在せず、説明変数 x

Page 14: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

14

の情報なしに y の値を推定するとすれば、それは y の平均値 y で推定するし

かありません。すなわち yyi ˆ は、回帰モデルを適用することで初めて説

明できた y の変化を示しており、SSR は y の回帰によって説明された変動を

表しています。

このとき、以下の定理が成立します。

定理:SST =SSR + SSE

(証明略)

以上の概念を用いて、回帰モデル全体のパフォーマンスを評価する尺度として、

以下のものを定義します。

定義:決定係数 (coefficient of determination) SSTSSRR 2

すなわち決定係数とは、被説明変数 y の変動のうち、「回帰によって説明された

変動の割合」を示しています。上の定理から、 10 2 R であり、 2R が 1に近い

ほど回帰は有効である、といえます。

Model Utility Test: さらに、決定係数 2R を使って、以下の仮説を検定することが

できます。

0: 10 kH vs. not H0

この検定を Model utility test といいます。まず、帰無仮説の意味を考えてみます。

もし帰無仮説 H0 が真であるとすると、回帰式は 0y となり、説明変数 x

は被説明変数 y を説明するのに、全く役に立たないということになります。も

し対立仮説 H1 が正しければ、いずれかの説明変数がなにがしかの説明力を持つ

ということになります。

この Model utility test の検定統計量は、以下で与えられることが知られています。

01,2

2

under ~111

HFknSSE

kSSR

knR

kRF knk

Page 15: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

15

1. 7 回帰診断 (Regression diagnostics)

これまでの解析で、多変量の回帰モデルを推定し、その結果を解釈するところ

まで来ました。しかし、ここで解析を終わらせるわけにはいきません。なぜな

ら、仮にいま手元にあるデータに回帰分析を適用したとして、そのデータにお

いて回帰モデルに必要な前提条件が満たされているとは限らないからです。

ここで、回帰モデルの仮定を再掲すると以下の通りです。

回帰モデルの仮定:

線形性 (linearity):被説明変数 y と説明変数 x の関係は直線で近似できる。

独立性 (independence):サンプル xn yxyx ,,,, 11 は互いに独立である。す

なわち,あるサンプルの値が他のサンプルの値に影響を与えない。

正規性 (normality):撹乱項は期待値 0,分散 2 の正規分布に従う。正規

分布については、以下に説明する。 2,0~ N

等分散性 (homoscedasticity):撹乱項の分散は(従って、被説明変数 y の

分散も) 2 で一定である。 .22 EV

この回帰モデルの仮定がすべて満たされていない限り、推定や仮設検定の結果

は(仮に計算できたとしても)まったくナンセンスなものとなります。

この回帰モデルを成り立たせている前提条件を事後的に確認することを、回帰

診断 (regression diagnostics) といいます。

また、多重回帰モデルに特有の問題として、もし説明変数の間に線形関係があ

るならば、パラメターの推定が不安定になる、という多重共線性

(multicollinearity) という現象が知られています。これは、数学的には回帰式

Xy において、もし説明変数が一次従属の関係にあると XX' が「特異」

行列になり、最小二乗推定量 yX'XX' 1ˆ の中の 1XX' が定義できなくなる

のが原因です。( XX' が完全に特異でなくても、 1XX' の計算が非常に不安定

なんる)直感的には、複数の説明変数が比例関係にあるとき、それらの変数が

本質的に同じ情報を持ち冗長であるのが、多重共線性であるといえます。この

多重共線性を発見することも、回帰診断の目的の一つになります。

Page 16: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

16

上に示した回帰モデルの仮定は、1)x, y にかかわるもの、2)撹乱項にかかわる

もの、の二つに分けられます。

線形性の仮定の確認と多重共線性の有無の確認は 1)にかかわる問題ですが、こ

れは各変数間の散布図を用いるのが適当です。

線形性の仮定:被説明変数と説明変数の間に、非線形な関係が存在しないこと

を確認する。(x, y の間に相関がないように見える場合も、モデルに含めて結構

です。相関がなければ、「有意ではない」という結果が出るだけです。)

多重共線性:説明変数相互の間に、線形関係が存在しないことを確認する。

一方、独立性、正規性、等分散性の仮定の確認は、2)にかかわります。しかし

撹乱項そのものはデータから観察することはできませんので、それに代わるも

のが必要になります。

定義:残差 (residuals) iii yye ˆ .すなわち残差とは、被説明変数 y と推定さ

れた回帰式の値の差になります。

定義:残差プロット (residual vs. fitted value plot) 縦軸に残差 ie 、横軸に推定さ

れた回帰式の値 iy をとった図。撹乱項と被説明変数の関係を示すものとして、

独立性、等分散性の仮定の確認に用いられる。

図 1.6 左は、説明変数 x の値が大きくなるにつれ被説明変数 y の分散が増大する

傾向のあるデータの例と、それにあてはめられた回帰直線を示しています。一

方図 1.6 右は、左図のデータから構成した残差プロットを示していますが、図の

右のほうに行くにしたがって残差の分散が大きくなることがわかります。

このように、残差プロットではプロットの中で残差の範囲が変動することを見

ることで、等分散性の仮定が満たされているかを判断できます。等分散性の仮

定が満たされていれば、残差の範囲は均一になります。

また、独立性の仮定が満たされる場合、残差プロットには特異なパターンが現

Page 17: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

17

れず、残差プロット一面に一様に点が現れることが知られています。

図 1.6

正規性の確認:

標本分布の正規性の確認は、適切なモデルを選択する上で重要なものとなりま

す。正規性の仮定は後述する “QQ-norm plot” という図で確認しますが、

QQ-norm plot を定義するため、まず次の概念を導入します。

定義:n 個の標本を大きさ順に並べたとき、i 番目に小さな標本は [100(i-.5)/n] 標

本パーセント点 (sample percentile) であるという。

例えば標本が、正規分布など特定の確率分布から抽出されたとします。このと

き、その特定の分布の理論上の [100(i-.5)/n] パーセント点はデータの

[100(i-.5)/n] 標本パーセント点の近くにあるはずです。したがって、正規分布の

理論上のパーセント点と標本パーセント点をプロットすれば、もし元のデータ

が正規分布から生成されていた場合プロットが直線状に並ぶはずです。

定義:n 個の標本が得られたとき,標準正規分布の[100(i-.5)/n] パーセント点と,

i 番目に小さな観測値= [100(i-.5)/n] 標本パーセント点のプロットを、QQ-norm

plot (Normal probability plot, 正規確率プロット) という。

回帰モデルの正規性の仮定を確認するためには、回帰から得られた残散の

QQ-norm plot を描き、プロットが直線状に並ぶかどうかを確認すればよい、と

いうことになります。

-2 -1 0 1 2 3

-4-2

02

4

x

y

-1 0 1 2-6

-4-2

02

4

fitted values

resi

dua

ls

Page 18: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

例:

209 種

めた

syct

mmin

mma

cach

chmi

chma

perf

P. Ei

units

Vena

editio

まず

CPU

y

x

統計勉強会

CPU データ

種類のコン

たデータ。特

cycle ti

n minimu

ax maximu

cache s

in minimu

ax maximu

publish

n-Dor and J

s: a relative

ables, W. N.

on. Springe

ず、各変数の

U データの散

y と x の間

– perf と

誤差項の分

– mmin

x 同士の間

– 例えば

ンピュータ

特性値の値

ime in nano

um main me

um main m

size in kilob

um number

um number

hed perform

J. Feldmess

e performan

and Ripley

er.

の散布図を

散布図を観

に,非線形

と syct の間

分散は一定

等に,明ら

間に,線形な

ば,mmin と

図 1.7

の中央演算

値から、CPU

seconds

emory in kil

emory in ki

bytes

of channels

r of channel

mance on a b

ser (1987) A

nce predictio

y, B. D. (200

を示すと図

観察すると、

形な関係が

間に,明ら

か?

らかな分差

な関係が存

と mmax の

7:QQ-norm

算装置(CP

U の性能 (

lobytes

ilobytes

s

s

benchmark m

Attributes of

on model. C

02) Modern A

1.8 のよう

、以下のよ

が存在しない

かな非線形

差増大傾向が

存在しないか

の間に明ら

m plot

PU)の性能

(perf) を予

mix relative

f the perform

Comm. ACM

Applied Sta

になります

うな問題点

いか?

形関係があ

がある。

か?

かに線形関

能と、各種の

予測するのが

e to an IBM

mance of ce

M. 30, 308–3

atistics with

す。

点があるの

る。

関係がある

第 2 回 回帰

の特性値を

が目的。

M 370/158-3

entral proce

17.

h S. Fourth

のがわかりま

帰分析

18

をまと

essing

ます。

Page 19: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

した

は不

と、

統計勉強会

たがって、予

不適切である

結果は次の

050

015

000

3000

00

2040

予備的な視

ることがわ

のようにな

perf

0 5

050

015

00

s

030

000

020

40

0 400 1000

視覚的要約の

わかります。

なります。

500 1500

syct

mmin

0 15000

図 1.8

の段階でも

。しかしと

0 30000

n

mmax

0

も、線形回

ともかく、

0 20

cach

chm

100 250

帰モデルを

回帰モデル

40

min

0 50 150

chmax

第 2 回 回帰

を当てはめ

ルを当ては

040

010

000

1500

00

100

250

050

150

帰分析

19

めるの

はめる

Page 20: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

元デ

M

すな

か言

よる

疑問

定が

した

図 1.

図か

(inve

一方

する

ロッ

いこ

分析

がわ

最後

計算

とを

統計勉強会

データの回帰

説明変数の

決定係数:

Model utilit

なわち、回帰

言いようがな

視覚的なデ

問があり、ま

が満たされて

た。

.9 左は、元デ

から明らかな

erse S-shape

方図 1.9 左は

傾向がみら

トは明らか

とがわかり

析の仮定が満

わかります。

後に、このよ

算の出力から

を強調してお

帰分析の結

の有意性検定

R2=0.8649

ty test: p-va

帰分析の出

ない、とい

データの要

また、多重

ているか確

データに対

なとおり、

e) を描いて

は、残差プロ

られ、等分

かに非線形

ります。こ

満たされて

ように元デ

らは決して

おきます。

結果、次のよ

定は,chm

9 被説明変

alue < 2.2×1

出力結果を見

うことにな

要約の結果、

重共線性の存

確認するため

対する回帰分

QQ-norm p

ており、残

ロットを示

分散性の仮定

形な傾向を示

このように、

ておらず、回

データにおい

てわからず回

(回帰診断

ようなこと

min を除き

変数の変動

10-16

見る限り、

なります。

、線形性の

存在も予想

め、残差の

図 1.9

分析による

plot の点は

残差の非正規

示しています

定が破れて

示しており

、回帰診断

回帰分析を

いて回帰モ

回帰診断に

断の重要性)

がわかりま

,ほとんど

動の 86.49%

この回帰分

しかし、も

の仮定、等分

想されました

のプロットに

る残差の QQ

は直線からか

規性を示し

す。まず図

ていることが

、線形性の

断を行うこと

を適用するこ

モデルの仮定

によってはじ

ます。

どが強く有

%が説明で

分析は成功

もともと図

分散性の仮

た。そこで

による回帰

Q-norm plo

かけ離れた

しています。

図からは残差

がわかりま

の仮定も満

とで元のデ

ことは不適

定が破綻し

じめてわか

第 2 回 回帰

有意.

きた.

功している

1.8 の散布

仮定には大き

で、モデルの

帰診断を行い

ot になりま

た逆 S 字型

差の分散が

ます。また、

満たされてい

データでは回

適切であるこ

していること

かる、とい

帰分析

20

とし

布図に

きな

の仮

いま

ます。

が増大

、プ

いな

回帰

こと

とは、

うこ

Page 21: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

21

1. 8 変数変換

前項でみたとおり、回帰モデルの仮定が満たされていないときは、直接回帰モ

デルを適用することはできません。(モデルを適用すること自体はできるかもし

れませんが、解析結果の解釈は不能で、仮設検定その他の推測も理論的に正当

化できません。)

線形回帰モデルの仮定(線形性, 正規性, 等分散性)が満たされないとき、変数

に何らかの変換を施すことで、モデルを改善できる場合があります。

例えば、撹乱項の分散が説明変数の値とともに大きくなる場合、対数変換

(logarithmic transformation)、冪変換 (power transformation) によって、モデ

ルの仮定が満たされるようにモデルを修正できる場合があります。

被説明変数の予測値を得るには、まず変換された被説明変数に対して回帰モデ

ルを当てはめ、そのあとで元のモデルに逆変換します。(例えば、対数変換→

指数変換)もっともよい返還を選ぶため、いくつかの返還を試してみる必要が

あります。

ただしこれら対数変換、冪変換などは、その変換を選択した根拠が恣意的なも

のとならざるを得ず、また、その変換によってモデルが改善したことを理論的

に示すことも困難です。このようなとき、対数変換,冪変換を組み合わせた

Box-Cox 変換により、分散の安定化と正規性の改善を同時に達成できる場合が

あります。

定義:Box-Cox 変換

0 :log

0 :1

yy

Box, George E. P.; Cox, D. R. (1964). "An analysis of transformations". Journal of the

Royal Statistical Society, Series B 26 (2): 211–252.

Box-Cox 変換は、パラメターλによって特徴付けられる。パラメターλは、モデ

ルの適合度を最適化するように、ソフトウエアにより自動的に選択される。

例えば、統計解析ソフト R などは、Box-Cox 変換を実装している。

Page 22: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統

参考

with

例:

VenaCP

その

ータ

c 決

M 回帰

上に

の範

こと

統計勉強会

考文献:Ven

h S. Fourth

CPU データ

ables and U データに

の結果、Boxタに対する

chmin,ch決定係数:

Model util

帰診断のため

にプロットさ

範囲は均一で

がわかりま

nables, W.

h edition.

タの Box-C

Ripley (20に対して B

x-Cox 変換

回帰分析の

hmax は有

R2=0.882

lity test: p

めの残差プ

され、正規

で、分散が

ます。

N. and Ri

Springer.

Cox 変換

002), §6.8Box-Cox 変

換の最適な

の結果は、

有意ではない

21 被説明

-value < 2

プロットは、

規性が向上

が安定化され

ipley, B. D

8とR vers換を行いま

λは、λ= 以下の通り

い. 明変数の変動

2.2×10-16

、以下の通

したことが

れ全体とし

. (2002) M

sion 3.0.1, ました。

0.2929 と

りです。

動の 88.21

通りです。Qがわかりま

して回帰モ

Modern App

MASSパッ

なりました

1%が説明で

QQ-norm pす。また、

デルの仮定

第 2 回 回帰

plied Stati

ッケージを

た。返還後

できた。

plot はほぼ

残差プロ

定が満たさ

帰分析

22

tistics

を用い、

後のデ

ぼ直線

ロット

された

Page 23: 医学統計勉強会 - cardio.med.tohoku.ac.jp · 医学統計勉強会 第2 回 回帰分析 3 図1. 1 Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal

医学統計勉強会 第 2 回 回帰分析

23

Take Home Message

1. 回帰分析

2. 共分散と相関係数

3. 線形回帰モデル 回帰係数の推定.最小二乗推定量の性質

4. 回帰診断:回帰モデルの仮定の確認 散布図:線形性の確認 QQ-norm プロット:残差の正規性の確認 残差プロット:等分散性,独立性の確認

5. Box-Cox 変換:分散の安定化と正規性の向上

以上