第5章 いろいろなグラフ - 甲南大学...第5章 いろいろなグラフ 5.1 3次元のラインプロット MATLAB で3 次元のグラフをラインプロット(line
5.いろいろな確率分布
-
Upload
dorothy-harding -
Category
Documents
-
view
39 -
download
1
description
Transcript of 5.いろいろな確率分布
5.いろいろな確率分布
• χ 2乗分布( chi-square distribution )• t - 分布( t distribution )• F 分布( F distribution )• 2 項分布( binominal distribution )• ポアソン分布( Poisson distribution
χ 2 分布 (chi-square)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布 N(μ, σ) に従うとき、統計量
の分布は、自由度 n - 1 の χ 2 分布に従う。
• χ 2 分布は母集団の分散の推定・検定に用いる。
2
222
212 )(........)()(
XXXXXX n
nXVnXE 2)(,)(
χ 2 分布 )0(
22
1)( 2
12
2
xexn
xfxn
n
nXVnXE 2)(,)(
t – 分布 (t distribution)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布 N(μ, σ) に従うとき、
とおくとき、統計量
の分布は自由度 n – 1 の t 分布に従う。
n
sX
t
n
XXXXXXs n
1
)(......)()( 222
21
2
12
12
21
)(
2,2
)(,0)(
n
nxn
n
n
xf
nn
nXVXE
t 分布は 母集団の平均の推定・検定に用いる。
自由度nが大きいと正規分布に近くなる
t – 分布(別の表現)• 確率変数Xが N(0, σ) に従い、確率変数Yが自
由度 n-1 の χ 2分布に従うとき、統計量
の分布は自由度 n – 1 の t 分布に従う。
1
nY
Xt
F分布 (F distribution )
• 確率変数X , Y が独立で、各々自由度 n1, n2 のχ 2分布に従うとき、統計量
は、自由度( n1, n2 )のF分布に従う。
• F分布は2つの母集団の分散比の推定・検定のときに利用される。
)4()2(
)2(2)(,
2)(,
22
21
2221
2
2
2
1
nnn
nnnXV
n
nXE
nYnX
F
ガンマ関数( Gamma function )
0
1)(
1)2(,2
1
2
3,1)1(,
2
1
2
1..........
2
4
2
2
2:
!.......)()1(integer:
dttex
nnnoddn
mmmmm
functionGamma
xt
2 項分布( binominal distribution )• 確率pで存在する当たりくじから、復元抽
出でn個とりだしたとき、x個当たる確率。B(n,p)X =0, 1, 2, …….,n
f(x)=nCx px (1-p) n-x
• E(X)=np, V(X)=np(1-p)
• B(n,p) は、 n∞ で、 N(np, np(1-p)) となる。
ポアソン分布 (Poisson) : rare probability
• 2 項分布において、 np を一定値 λ に固定して、n→∞ としたものが ポアソン分布めったに起こらない事象が起こる確率分布λ =1だと、 P (X=x) = 0.36788/x!
例:馬に蹴られて死ぬ人数、交通事故死亡者数
)(,)(!
)()(
XVXE
ex
xXPxfx
6.統計的推定( statistical estimation )
• 不偏推定値( unbiased estimate )E(f(X1,X2,…….,Xn))=θとなる f(X1, X2,…..Xn) を不偏推定量という。
母集団Population
母数Parameterθ例:平均 μ
標本Sample
推定値Estimateθ*例: Xbar
ランダム抽出
推定
*母平均( mean) μ の不偏推定値 (unbiased estimate )
*母分散 σ 2の不偏推定値( μ 既知)
*母分散 σ 2の不偏推定値( μ未知)
221
221
21
)(.......)(1
1
)(.......)(1
......
xxxxN
xxN
N
xxxx
n
n
N
不偏推定値( unbiased estimate )
区間推定母分散( σ 2)が未知で平均を推定
..2
,
..
)(.......)(1
1,
22
1
221
2
11
EStxthen
N
sES
xxxxN
shere
N
stx
N
stx
N
N
NN
標準誤差( standard error )
もし、データ数が 21 だったら、自由度は20 。両側で5%危険率で推定するとする。
t(α )=2.086
標準誤差 (SE)を計算して、 誤差範囲は、
t(α) ・SE
• 自由度 10 、 95 %信頼区間なら X +- 2.228 S.E.
• 自由度 60 、 95 %信頼区間なら X +- 2.000 S.E.
無限大なら 1.96 S.E.
21
)1(
2
)1(
21
22
21
2
NN
sNsN
母平均が未知な場合の母分散の推定
7.統計的検定( statistical testing )
7.1 考え方( method )
• 帰無仮説 H0 検定統計量 棄却(裏に対立仮説) nil hypothesis statistical variable reject
ランダムである。 = 確率は小さい∴ ランダムではない! 有意水準 5%、1%の 危険率
7.2 母平均の検定• 正規母集団 N(μ , σ) とする。
母分散が既知( σ2 )、平均 μ0 (既知)
• 帰無仮説 H0 :母集団の平均 μ は μ0 である。対立仮説 H1 :母集団の平均 μ は μ0 でない。 (本当は対立仮説を示したい)
• 検定統計量
)1,0()(
..,)( 00
NobeysxT
givenis
N
xxT
7.2 母平均の検定• 正規母集団 N(μ , σ) とする。
母分散が未知、平均 μ0 (既知)
• 帰無仮説 H0 :母集団の平均 μ は μ0 である。対立仮説 H1 :母集団の平均 μ は μ0 でない。 (本当は対立仮説を示したい)
• 検定統計量
ondistributitobeyssxT
givenis
N
sx
xT
N 12
00
),(
..,)(
7.3 平均の差の検定
• 2つの正規母集団とする。N(μ1,σ1), N(μ2,σ2)μ1 と μ2 が違うことを示したい。
• σ1,σ2 既知
• σ1,σ2 未知だが等しい。2
21
222
2112
2
21
21221
2
22
1
21
2121
21
,2
)1()1(,
11),,(
)1,0(),(
NNtobeysT
NN
sNsNswhere
sNN
xxsxxT
Nobeys
NN
xxxxT
)1()1(
,
,....1
,
),,,(
222
42
121
41
2
2
22
1
21
1
2
1,121
2
22
1
21
2122
2121
NN
s
NN
s
Ns
Ns
m
tobeysT
N
xxswhere
Ns
Ns
xxssxxT
m
i
7.4 母相関係数の検定 - t 分布 ー
無相関が帰無仮説大きさNの標本の相関係数が r のとき
221
2)0,(
Ntobeys
r
NrrT
自由度 α = 0.05 α = 0.01
10 0.5760 0.7079
20 0.4227 0.5368
50 0.2732 0.3541
100
0.1946 0.2540
影が 90, 95, 99 %で有意な差。t検定
QBOの西風シアの 5年と東風シアの 5年の 1月の帯状平均オゾン混合比の差(実線)。単位は ppmv。有意性で差が有意な領域を影で示す。
図2 1 月の 50 hPa におけるオゾン混合比。等値線の単位はppmv 。( a ) QBO の西風シアの 5 年平均。( b ) QBO の東風シアの 5 年平均。( c)差(西風-東風)。 影は有意性を表し図1と同じ。
7.5 ノンパラメトリック検定non-parametric test
• 母集団の分布の型に関する情報を仮定せずに検定する手法。これまで述べた検定は母集団が正規分布をすると仮定したが、その仮定を行わない。
• それぞれの検定の名前がある。Wilcoxen’s rank sum test
ウィルコクスン検定 Wilcoxen’s rank sum test
• 2つの分布型は同じだが、位置がずれている。
これを検定する順位和検定。
グループ G1
X1
1
X12 X13 …… X1N1
グループG2
X21 X22 X23 …….. X2N2
2つのグループの標本を1つにまとめて、 Xij の小さいほうから順位を付けたときの順位を rij とする。
帰無仮説:2つのグループの分布の中央値は同じである。
• 検定量 W は
1
1
11211
11
........ N
N
ii
rrr
rW
(グループ G1 の順位の総和)
( N1,N2) が小さいときは、ウィルコクスン検定の数表で決める。
大きいときは、 W は以下の正規分布に近似されることを使う。
12
1,
2
1 2121211 NNNNNNNN
• ウィルコクスン検定(中央値の差)Wilcoxen’s test
• アンサリー・ブラッドレィ検定(分布の広がり)Ansari-Bradley test
• ラページ検定(上記を同時に検定)Lepage test
• モンテカルロ法(いろいろ場合によって統計量を考える。サンプルを乱数で発生させ、確率を求める。コンピュータ向き)
8.重回帰分析( Multiple Regression Analysis )
• P 個の説明変数 x1, x2,….,xp から目的変数y を予測する。
y = f( x1, x2, … , xp) + e
• 線形重回帰モデル
Y = a0 + a1x1 + a2X2 + ….. + apxp + e
データ番号
目的変数
説明変数 誤差
y x1, x2, …………, xp e
1 y1 x11, x21, ………, xp1 e1
2 y2 x12, x22, ………, xp2 e2
.
.
.
.
.
.
.
.
.
.
.
.
N yn x1n, x2n, …………, xpn en
データ
X35
変数番号 データ番号
• データのn組(n>=p+1)から最小2乗法により係数の最良不偏推定値を求める。ai : y の xi に関する偏回帰係数。
以下の仮定をおく
• eα の期待値はゼロ: E[eα]=0: 不偏性
• eα と eα’ は互いに独立: E[eαeα’]=0: 独立性
• eα の分散はすべて等しい: E[eα2]=σ2: 等分散性
• Eα は N(0, σ2) に従う。: 正規性
予測誤差の平方和を最小にするように、係数を求める。係数に関する連立方程式を正規方程式という。
分散・共分散行列
py
y
y
ppppp
p
p
y
n
ijjiiyj
n
ikkijjikj
pppp
p
p
S
S
S
a
a
a
sss
sss
sss
SaS
xxyyn
S
pkjxxxxn
s
here
sss
sss
sss
S
,
2,
1,
2
1
,2,1,
,22,21,2
,12,11,1
1
1,
,2,1,
,22,21,2
,12,11,1
......
.....
.................
.....
.....
1
),.......2,1,(1
,
.....
.................
.....
.....
pp xaxaya .....110
8.3 分散分析 -回帰の有意性
ReT
ii
iiiii
iiiiyy
SSS
YYe
YYeYYYy
YYYyyyS
0
222
22
22
全変動(分散)=残差変動 + 回帰による変動
変動 自由度 平方和 分散 分散比 F
全体 n-1 Syy VT=Syy/(n-1)
回帰 P SR VR=SR/p VR/Ve
残差 n-p-1 Se Ve=Se/(n-p-1)
重回帰の分散分析表
F は a1=a2=….=0 の帰無仮説のもとで、自由度 (p, n-p-1) の F 分布となる。(全体として回帰式が意味があるかどうかの検定となる)
8.4 重相関係数と決定係数
yy
R
i
i
ii
i
i
iii
iiiiii
ii
ii
S
S
yy
YY
YYyy
YYR
YY
YYYYe
YYYYYyYYyy
YYyy
YYyyR
2
2
22
22
2
2
2
22
0
)(
11
1,
1
22
2
22
2
RF
pnRpR
V
VF
SRSSRS
S
S
S
SR
e
R
yyeyyR
yy
e
yy
R
R 2 を寄与率または決定係数という回帰で全分散が説明できる割合。
F検定が R 2 の有意性検定と一致。
重回帰の注意点
(1) ai の値そのもので寄与は決まらない。
(2) Xi と Xj に相関があるとき、注意。単回帰と符号さえ変わる。