Statistik Lektion 4
description
Transcript of Statistik Lektion 4
StatistikLektion 4
Kovarians og korrelationMere om normalfordelingenDen centrale grænseværdisætningStikprøvefordelingen
Repetition: Kontinuerte stokastiske variable f (x) er en sandsynlighedstætheds-
funktion, hvis
Fordelingsfunktion
- arealet til venstre for x.
Sandsynlighed for interval
R alle for xxf 0)(
1 er under arealet - f(x) dxxf 1)(
xdttfxXPxF )()()(
f(x)
F(x) = P(X≤x)
F(x)
P(2 ≤x≤3)
b
adxxfaFbFbXaP )()()()(
Simultan kumulativ fordelingsfunktion og uafhængighed
Definition: Lad X1,X2,…,Xn være stokastiske variable. Da er den Simultane kumulativ fordelingsfunktion givet ved
Dvs. sandsynligheden for at X1 er mindre end x1, samtidig med at X2 er mindre end x2 osv.
)(),,,( 221121 nnn xXxXxXPxxxF
Definition: De stokastiske variable X1,X2,…,Xn er uafhængige hvis og kun hvis
hvor F(xi) = P(Xi ≤ xi) er den marginale fordelingsfunktion for Xi.
)()()(),,,( 2121 nn xFxFxFxxxF
KovariansDefinition: Lad X og Y være stokastiske variable (kontinuerte eller diskrete), med middelværdier E[X]=mX og E[X]=mY. Da er kovariansen mellem X og Y givet ved
YX
YX
μXYE)μYXEYXCov
mm
][
]([(),( )
Sætning: Hvis X og Y er uafhængige stokastiske variable, så er Cov(X,Y) = 0. Det modsatte gælder generelt ikke.
Bemærk: Der gælder at Cov(X,X) = Var(X).
KorrelationDefinition: Lad X og Y være stokastiske variable (diskrete eller kontinuerte) med varianser Var[X] = s2
X og Var[Y] = s2Y.
Da er korrelationen mellem X og Y givet ved
YX
YXCovYXCorrss
),(),(
▪ Korrelationen tager værdier i intervallet [-1;1]▪ Korrelationen beskriver graden af lineær sammenhæng.▪ Både = 1 og = - 1 betyder perfekt lineær sammenhæng▪ > 0 : store x med store y og små x med små y▪ < 0 : store x med små y og små x med store y▪ = 0 : ingen lineær sammenhæng mellem X og Y
Korrelation: Eksempler Stikprøver fra par af stokastiske variable, X og Y, med
forskellige korrelationer.
-2 -1 0 1 2 3
-2
-1
0
1
2
-3 -2 -1 0 1 2 3 4
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
-3 -2 -1 0 1 2 3
-2
-1
0
1
2
1.0 0.8
0.3 0.0
Linearkombinationer af to stok. var.
Sætning: Lad X og Y være to stokastiske variable (kontinuerte eller diskrete) med
E[X] = mX, E[Y] = mY, Var[X] = s2x og Var[Y] = s2
Y. Da gælder
og
Hvis X og Y er uafhængige gælder
),(2][ 2222 YXabCovbacbYaXVar YX ss
cbacbYaXE YX mm][
2222][ YX bacbYaXVar ss
Linearkombination af stokastiske variable
Sætning: Lad X1, X2,…,Xn være stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s1
2, s22,…, sn
2.
Middelværdien af en sum
nnnn aaaXaXaXaE mmm 22112211 ][
Linearkombination af stokastiske variable
Sætning: Lad X1, X2,…,Xn være stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s1
2, s22,…, sn
2.
Variansen af en sum, hvis X1, X2,…,Xn er indbydes uafhængige
Hvis afhængige
2222
22
21
212211 ][ nnnn aaaXaXaXaV sss
),(2
][1
1 1
2222
22
21
21
2211
j
n
i
n
ijijinn
nn
XXCovaaaaa
XaXaXaV
sss
Repetition: Normal fordelingen Dens kendetegn er:
Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi=median=mode Den er karakteriseret ved en middelværdi μ og varians σ² (eller
standard afvigelse σ). X~N( m , s² ) betyder, at X følger en normal fordeling med middelværdi μ
og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for
enhver normal fordeling, uanset middelværdi og standard afvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage
værdier fra minus uendelig til plus uendelig)
m
s
Standard normal fordelingen, er normalfordelingen med middelværdi μ=0 og standard afvigelse σ=1, Z~N(0,1²)
Standard normal fordelingen
543210- 1- 2- 3-4- 5
0 .4
0 .3
0 .2
0 .1
0 .0
Z
f(z)
Standard Normal fordeling
m = 0
s=1{
NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.
Ny type spørgsmål
z
Tabelløsning: I Tabel 1 find z, så F(z) er tættest mulig på 0.90. F(1.28)
= 0.8997 og F(1.29) = 0.9015. Dvs. Svaret er et sted mellem 1.28 og 1.29…
Eksempel fra sidst: Find P(Z ≤ -1.76 )
Nyt eksempel: Find en værdi z, så
P(Z ≤ z) = F(z) = 0.90
F(z) = 90%
Ny type spørgsmål - fortsat Eksempel igen:
Find en værdi z, så P(Z ≤ z) = 0.90.
R løsning:> qnorm(p=0.90,mean=0,sd=1)[1] 1.281552
R løsning – endnu simplere:> qnorm(0.90)[1] 1.281552
90%
z
Repetition: Standardisering En lineær transformation af normalfordelt stokastisk
variabel er stadig en normalfordelt stokastisk variabel.
Lad X ~N(m,s2) og definer Y = aX + b, så gælder E[Y] = aE[X] + b = am + b V[Y] = a2V[X] = a2s2 Y ~ N(am + b, a2s2)
Lad X ~N(m,s2) og definer , så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)
sm
XZ
Transformation: Eksempel Antag studerendes score til eksamen er normalfordelt med
middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Find x, så P(X ≤ x) = 0.90 Ide: Transformer problemet til et, der vedrører en standard
normal-fordelt stokastisk variabel.
Vi ved allerede P(Z ≤ 1.282 ) = 0.90
Dvs. 90% af de studerende har en score under 79.23.
90.015
60)(
xZPxXPxXP
sm
sm
23.796015282.115
60282.1
xx
Sum af normalfordelte stok. var. Antag X1,…, Xn er uafhængige stokastiske variable, hvor
Dvs. Xi er normal-fordelt med middelværdi mi og varians si2.
Regel: Summen af normalfordelte stokastiske variable er også en normalfordelt stokastisk variabel.
Definer S = X1 + ⋯ + Xn . Da gælder
),(~ 2iii NX sm
222
2121 ,~ nnNS sssmmm
Statistik
Drage konklusioner om egenskaber for en population...
…på basis af observationer i en stikprøve, en del af populationen.
Statistisk Inferens: Udtale os om værdier af populations parametre Teste hypoteser om værdier af populations parametre Tage beslutninger på basis af stikprøver
Demokrater Republikanere
Folk, der har telefon og/eller bil og/eller læser Digest.
Biasedstikprøve
Population
Demokrater Republikanere
Ikke biased stikprøve
Population
Ikke biased, repræsentativ stikprøve fra hele populationen.
Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest.
The Literary Digest Poll (1936)
Data indsamling Data indsamling
Direkte observationer Eksperimenter Registre Spørgeskemaer
Et problem med spørgeskemaer er nonrespons bias – hvad gør man når folk ikke vil svare?
Hvordan laver man en stikprøve Simpel stikprøve
I en simpel stikprøve er observationerne udvalgt, så enhver anden stikprøve med samme antal observationer, er lige så sandsynlig at vælge
Stratificeret stikprøve Opdele populationen i disjunkte mængder (strata) og
tage en simpel stikprøve fra hver strata. Hvis man for eksempel vil sammenligne hjemløse med
resten af befolkningen, så dur en simpel stikprøve ikke.
Stikprøvefordeling
Antag at vi vil udtale os om en populationsparameter (fx middelværdien m på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ).
Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve
Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)
x
x
Stikprøvefordeling: Eksempel En direktør har seks ansatte med ancienniteten målt i år:
2 4 6 6 7 8 Populationens gennemsnit er
Vi udtager nu en stikprøve på to ansatte og udregner stikprøve-gennemsnittet.
Bemærk: Vi kan udvælge to ansatte på 15 måder:
5.56
876642
m
15432121654321
)!26(!2!6
26
Stikprøvefordeling: Eksempel De 15 lige sandsynlige stikprøver
og deres stikprøve-gennemsnit.
Stik-prøve
Stikpr-genst
Stik-prøve
Stikpr.gnst
2,4 3.0 4,8 6.02,6 4.0 6,6 6.02,6 4.0 6,7 6.52,7 4.5 6,8 7.02,8 5.0 6,7 6.54,6 5.0 6,8 7.04,6 5.0 7,8 7.54,7 5.5
Stikpr. gnst
Sandsyn-lighed
3.0 1/154.0 2/154.5 1/155.0 3/155.5 1/156.0 2/156.5 2/157.07.5
2/151/15
De mulige gennemsnit og deres sandsynlighed.
Stikprøvefordeling: Eksempel Samme direktør og ansatte, men nu en stikprøvestørrelse
på n = 5.
Bemærk 1: Kun værdier tæt på populations-middelværdien er sandsynlige.
Bemærk 2: Stikprøve-gennemsnittet tættest på populations-middelværdien er mest sandsynlig.
Stikprøve Sandsynlighed2,4,6,6,7 5.0 1/62,4,6,6,8 5.2 1/62,4,6,7,8 5.4 2/62,6,6,7,8 5.8 1/64,6,6,7,8 6.2 1/6
x
Stikprøve-fordeling
Antag nu at vi tager en tilfældig stikprøve bestående af n observationer fra en meeeget stor population.
Populationen har middelværdi m og varians s2. Vi betragter de enkelte observationer i stikprøven som
stokastiske variable X1, X2,…,Xn.
For hver observation Xi antager vi at E[Xi] = m og V[Xi] = s2.
Hvad kan vi nu sige om fordelingen af stikprøve-gennemsnittet?
Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig
stikprøve fra en population.
Stikprøve-gennemsnittet af disse SV er
Den forventede værdi af stikprøve-gennemsnittet er
Dvs stikprøve-gennemsnittet i middel er lig populationens middelværdi.
n
iiX
nX
1
1
mm
nnXXX
nEXE n21
1
Stikprøve-gennemsnittets stikprøve-fordeling: Varians Hvis stikprøvestørrelsen n er lille i forhold til populationens
størrelse N kan vi antage at SV X1, X2,…,Xn er uafhængige. Variansen af stikprøve-gennemsnittet er da
Bemærk: Jo større stikprøve, jo mindre varians. Hvis n er stor i forhold til N kan vi ikke antage
uafhængighed. Variansen af stikprøve-gennemsnittet er da
nnn
Xn
Xn
VXV nX
22
22
2
12 1111 ssss
1
22
N
nNn
XVXss
Normal-fordelt Population Hvis populationen er normal-fordelt gælder Xi ~ N(m,s2)
Da summen af normal-fordelte SV er en normal-fordelt SV har vi at
Vi kan standardisere stikprøve-gennemsnittet:
2,~ XNX sm
1,0~ Nn
XXZX s
ms
m
Udregnes som på forrige slide
0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
y
Freq
uenc
y
0 1 2 3 4 5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Freq
uenc
y
0 1 2 3 4 5
0
1
2
3
4
Freq
uenc
y
0 1 2 3 4 5
0
1
2
3
4
5
6
Freq
uenc
y
0 1 2 3 4 5
0
50
100
150Population
Stikprøver (n=10)
Fordelingen af stikprøve gennemsnit
(1000 stikprøver)
Eksempel: Tændrør Producent påstår at levetiden for tændrør er
normalfordelt med middelværdi 36.000 miles og SD 4.000 miles.
En stikprøve af størrelse n = 16 har en gennemsnits-levetid på 34.500.
Spørgsmål: Hvis producenten har ret, hvad er sandsynligheden for et stikprøvegennemsnit mindre end eller lig 34.500?
Løsning:
Tror vi på producentens påstande?
Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem)
Sætning: Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af
nærme sig mere og mere en standard normal-fordeling.
nXZs
m
Tommelfingerregel: n = 30 er nok til en god tilnærmelse.
Java Eksempel
Her er en animeret illustration af den centrale grænseværdi sætning.
http://www.intuitor.com/statistics/CentralLim.html
Prøv selv at google efter flere…
AcceptområdeAntag vi har en population med middelværdi m og varians s2. Vi udtager en stikprøve, der er så stor at CLT ”virker”, dvs.
Med lidt omskrivning får vi
Hvor za/2 er defineret så P(Z>za/2) = a/2.
Dvs. (1-a)100% sandsynlighed ligger i intervallet (acceptområdet)
nNX 2,~ sm
%100122
asmsm aa nzX
nzP
nz sm a 2
X