Statistik Lektion 4

StatistikLektion 4

Kovarians og korrelationMere om normalfordelingenDen centrale grænseværdisætningStikprøvefordelingen

Repetition: Kontinuerte stokastiske variable f (x) er en sandsynlighedstætheds-

funktion, hvis

Fordelingsfunktion

- arealet til venstre for x.

Sandsynlighed for interval

R alle for xxf 0)(

1 er under arealet - f(x) dxxf 1)(

xdttfxXPxF )()()(

f(x)

F(x) = P(X≤x)

F(x)

P(2 ≤x≤3)

b

adxxfaFbFbXaP )()()()(

Simultan kumulativ fordelingsfunktion og uafhængighed

Definition: Lad X1,X2,…,Xn være stokastiske variable. Da er den Simultane kumulativ fordelingsfunktion givet ved

Dvs. sandsynligheden for at X1 er mindre end x1, samtidig med at X2 er mindre end x2 osv.

)(),,,( 221121 nnn xXxXxXPxxxF

Definition: De stokastiske variable X1,X2,…,Xn er uafhængige hvis og kun hvis

hvor F(xi) = P(Xi ≤ xi) er den marginale fordelingsfunktion for Xi.

)()()(),,,( 2121 nn xFxFxFxxxF

KovariansDefinition: Lad X og Y være stokastiske variable (kontinuerte eller diskrete), med middelværdier E[X]=mX og E[X]=mY. Da er kovariansen mellem X og Y givet ved

YX

YX

μXYE)μYXEYXCov

mm

][

]([(),( )

Sætning: Hvis X og Y er uafhængige stokastiske variable, så er Cov(X,Y) = 0. Det modsatte gælder generelt ikke.

Bemærk: Der gælder at Cov(X,X) = Var(X).

KorrelationDefinition: Lad X og Y være stokastiske variable (diskrete eller kontinuerte) med varianser Var[X] = s2

X og Var[Y] = s2Y.

Da er korrelationen mellem X og Y givet ved

YX

YXCovYXCorrss

),(),(

▪ Korrelationen tager værdier i intervallet [-1;1]▪ Korrelationen beskriver graden af lineær sammenhæng.▪ Både = 1 og = - 1 betyder perfekt lineær sammenhæng▪ > 0 : store x med store y og små x med små y▪ < 0 : store x med små y og små x med store y▪ = 0 : ingen lineær sammenhæng mellem X og Y

Korrelation: Eksempler Stikprøver fra par af stokastiske variable, X og Y, med

forskellige korrelationer.

-2 -1 0 1 2 3

-2

-1

0

1

2

-3 -2 -1 0 1 2 3 4

-2

-1

0

1

2

3

-3 -2 -1 0 1 2 3

-3

-2

-1

0

1

2

-3 -2 -1 0 1 2 3

-2

-1

0

1

2

1.0 0.8

0.3 0.0

Linearkombinationer af to stok. var.

Sætning: Lad X og Y være to stokastiske variable (kontinuerte eller diskrete) med

E[X] = mX, E[Y] = mY, Var[X] = s2x og Var[Y] = s2

Y. Da gælder

og

Hvis X og Y er uafhængige gælder

),(2][ 2222 YXabCovbacbYaXVar YX ss

cbacbYaXE YX mm][

2222][ YX bacbYaXVar ss

Linearkombination af stokastiske variable

Sætning: Lad X1, X2,…,Xn være stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s1

2, s22,…, sn

2.

Middelværdien af en sum

nnnn aaaXaXaXaE mmm 22112211 ][

Linearkombination af stokastiske variable

Sætning: Lad X1, X2,…,Xn være stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s1

2, s22,…, sn

2.

Variansen af en sum, hvis X1, X2,…,Xn er indbydes uafhængige

Hvis afhængige

2222

22

21

212211 ][ nnnn aaaXaXaXaV sss

),(2

][1

1 1

2222

22

21

21

2211

j

n

i

n

ijijinn

nn

XXCovaaaaa

XaXaXaV

sss

Repetition: Normal fordelingen Dens kendetegn er:

Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi=median=mode Den er karakteriseret ved en middelværdi μ og varians σ² (eller

standard afvigelse σ). X~N( m , s² ) betyder, at X følger en normal fordeling med middelværdi μ

og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for

enhver normal fordeling, uanset middelværdi og standard afvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage

værdier fra minus uendelig til plus uendelig)

m

s

Standard normal fordelingen, er normalfordelingen med middelværdi μ=0 og standard afvigelse σ=1, Z~N(0,1²)

Standard normal fordelingen

543210- 1- 2- 3-4- 5

0 .4

0 .3

0 .2

0 .1

0 .0

Z

f(z)

Standard Normal fordeling

m = 0

s=1{

NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.

Ny type spørgsmål

z

Tabelløsning: I Tabel 1 find z, så F(z) er tættest mulig på 0.90. F(1.28)

= 0.8997 og F(1.29) = 0.9015. Dvs. Svaret er et sted mellem 1.28 og 1.29…

Eksempel fra sidst: Find P(Z ≤ -1.76 )

Nyt eksempel: Find en værdi z, så

P(Z ≤ z) = F(z) = 0.90

F(z) = 90%

Ny type spørgsmål - fortsat Eksempel igen:

Find en værdi z, så P(Z ≤ z) = 0.90.

R løsning:> qnorm(p=0.90,mean=0,sd=1)[1] 1.281552

R løsning – endnu simplere:> qnorm(0.90)[1] 1.281552

90%

z

Repetition: Standardisering En lineær transformation af normalfordelt stokastisk

variabel er stadig en normalfordelt stokastisk variabel.

Lad X ~N(m,s2) og definer Y = aX + b, så gælder E[Y] = aE[X] + b = am + b V[Y] = a2V[X] = a2s2 Y ~ N(am + b, a2s2)

Lad X ~N(m,s2) og definer , så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)

sm

XZ

Transformation: Eksempel Antag studerendes score til eksamen er normalfordelt med

middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Find x, så P(X ≤ x) = 0.90 Ide: Transformer problemet til et, der vedrører en standard

normal-fordelt stokastisk variabel.

Vi ved allerede P(Z ≤ 1.282 ) = 0.90

Dvs. 90% af de studerende har en score under 79.23.

90.015

60)(

xZPxXPxXP

sm

sm

23.796015282.115

60282.1

xx

Sum af normalfordelte stok. var. Antag X1,…, Xn er uafhængige stokastiske variable, hvor

Dvs. Xi er normal-fordelt med middelværdi mi og varians si2.

Regel: Summen af normalfordelte stokastiske variable er også en normalfordelt stokastisk variabel.

Definer S = X1 + ⋯ + Xn . Da gælder

),(~ 2iii NX sm

222

2121 ,~ nnNS sssmmm

Statistik

Drage konklusioner om egenskaber for en population...

…på basis af observationer i en stikprøve, en del af populationen.

Statistisk Inferens: Udtale os om værdier af populations parametre Teste hypoteser om værdier af populations parametre Tage beslutninger på basis af stikprøver

Demokrater Republikanere

Folk, der har telefon og/eller bil og/eller læser Digest.

Biasedstikprøve

Population

Demokrater Republikanere

Ikke biased stikprøve

Population

Ikke biased, repræsentativ stikprøve fra hele populationen.

Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest.

The Literary Digest Poll (1936)

Data indsamling Data indsamling

Direkte observationer Eksperimenter Registre Spørgeskemaer

Et problem med spørgeskemaer er nonrespons bias – hvad gør man når folk ikke vil svare?

Hvordan laver man en stikprøve Simpel stikprøve

I en simpel stikprøve er observationerne udvalgt, så enhver anden stikprøve med samme antal observationer, er lige så sandsynlig at vælge

Stratificeret stikprøve Opdele populationen i disjunkte mængder (strata) og

tage en simpel stikprøve fra hver strata. Hvis man for eksempel vil sammenligne hjemløse med

resten af befolkningen, så dur en simpel stikprøve ikke.

Stikprøvefordeling

Antag at vi vil udtale os om en populationsparameter (fx middelværdien m på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ).

Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve

Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)

x

x

Stikprøvefordeling: Eksempel En direktør har seks ansatte med ancienniteten målt i år:

2 4 6 6 7 8 Populationens gennemsnit er

Vi udtager nu en stikprøve på to ansatte og udregner stikprøve-gennemsnittet.

Bemærk: Vi kan udvælge to ansatte på 15 måder:

5.56

876642

m

15432121654321

)!26(!2!6

26

Stikprøvefordeling: Eksempel De 15 lige sandsynlige stikprøver

og deres stikprøve-gennemsnit.

Stik-prøve

Stikpr-genst

Stik-prøve

Stikpr.gnst

2,4 3.0 4,8 6.02,6 4.0 6,6 6.02,6 4.0 6,7 6.52,7 4.5 6,8 7.02,8 5.0 6,7 6.54,6 5.0 6,8 7.04,6 5.0 7,8 7.54,7 5.5

Stikpr. gnst

Sandsyn-lighed

3.0 1/154.0 2/154.5 1/155.0 3/155.5 1/156.0 2/156.5 2/157.07.5

2/151/15

De mulige gennemsnit og deres sandsynlighed.

Stikprøvefordeling: Eksempel Samme direktør og ansatte, men nu en stikprøvestørrelse

på n = 5.

Bemærk 1: Kun værdier tæt på populations-middelværdien er sandsynlige.

Bemærk 2: Stikprøve-gennemsnittet tættest på populations-middelværdien er mest sandsynlig.

Stikprøve Sandsynlighed2,4,6,6,7 5.0 1/62,4,6,6,8 5.2 1/62,4,6,7,8 5.4 2/62,6,6,7,8 5.8 1/64,6,6,7,8 6.2 1/6

x

Stikprøve-fordeling

Antag nu at vi tager en tilfældig stikprøve bestående af n observationer fra en meeeget stor population.

Populationen har middelværdi m og varians s2. Vi betragter de enkelte observationer i stikprøven som

stokastiske variable X1, X2,…,Xn.

For hver observation Xi antager vi at E[Xi] = m og V[Xi] = s2.

Hvad kan vi nu sige om fordelingen af stikprøve-gennemsnittet?

Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig

stikprøve fra en population.

Stikprøve-gennemsnittet af disse SV er

Den forventede værdi af stikprøve-gennemsnittet er

Dvs stikprøve-gennemsnittet i middel er lig populationens middelværdi.

n

iiX

nX

1

1

mm

nnXXX

nEXE n21

1

Stikprøve-gennemsnittets stikprøve-fordeling: Varians Hvis stikprøvestørrelsen n er lille i forhold til populationens

størrelse N kan vi antage at SV X1, X2,…,Xn er uafhængige. Variansen af stikprøve-gennemsnittet er da

Bemærk: Jo større stikprøve, jo mindre varians. Hvis n er stor i forhold til N kan vi ikke antage

uafhængighed. Variansen af stikprøve-gennemsnittet er da

nnn

Xn

Xn

VXV nX

22

22

2

12 1111 ssss

1

22

N

nNn

XVXss

Normal-fordelt Population Hvis populationen er normal-fordelt gælder Xi ~ N(m,s2)

Da summen af normal-fordelte SV er en normal-fordelt SV har vi at

Vi kan standardisere stikprøve-gennemsnittet:

2,~ XNX sm

1,0~ Nn

XXZX s

ms

m

Udregnes som på forrige slide

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

y

Freq

uenc

y

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Freq

uenc

y

0 1 2 3 4 5

0

1

2

3

4

Freq

uenc

y

0 1 2 3 4 5

0

1

2

3

4

5

6

Freq

uenc

y

0 1 2 3 4 5

0

50

100

150Population

Stikprøver (n=10)

Fordelingen af stikprøve gennemsnit

(1000 stikprøver)

Eksempel: Tændrør Producent påstår at levetiden for tændrør er

normalfordelt med middelværdi 36.000 miles og SD 4.000 miles.

En stikprøve af størrelse n = 16 har en gennemsnits-levetid på 34.500.

Spørgsmål: Hvis producenten har ret, hvad er sandsynligheden for et stikprøvegennemsnit mindre end eller lig 34.500?

Løsning:

Tror vi på producentens påstande?

Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem)

Sætning: Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af

nærme sig mere og mere en standard normal-fordeling.

nXZs

m

Tommelfingerregel: n = 30 er nok til en god tilnærmelse.

EksemplerNormal Uniform Skewed

Population

n = 2

n = 30

XmXmXmXm

General

Java Eksempel

Her er en animeret illustration af den centrale grænseværdi sætning.

http://www.intuitor.com/statistics/CentralLim.html

Prøv selv at google efter flere…

http://www.intuitor.com/statistics/CentralLim.html

AcceptområdeAntag vi har en population med middelværdi m og varians s2. Vi udtager en stikprøve, der er så stor at CLT ”virker”, dvs.

Med lidt omskrivning får vi

Hvor za/2 er defineret så P(Z>za/2) = a/2.

Dvs. (1-a)100% sandsynlighed ligger i intervallet (acceptområdet)

nNX 2,~ sm

%100122

asmsm aa nzX

nzP

nz sm a 2

X

Eksempel: Nok Espresso?

Kafe Kjeld har købt en ny espresso-maskine! Producent påstår at hver kop espresso fylder i

gennemsnit 30ml med en SD på 2ml. En stikprøve bestående af n = 36 kopper espresso har

et gennemsnitsvolumen på sølle 29.3 ml. Spørgsmål: Skal Kafe Kjeld brokke sig?

Statistik Lektion 4

Documents

Transcript of Statistik Lektion 4