STATISTIKApavesic/POUK/BIOKEMIJA... · MATEMATIKA 2 VERJETNOST IN STATISTIKA VZORČENJE 2 Včasih...
Transcript of STATISTIKApavesic/POUK/BIOKEMIJA... · MATEMATIKA 2 VERJETNOST IN STATISTIKA VZORČENJE 2 Včasih...
MATEMATIKA 2
VERJETNOST IN STATISTIKA STATISTIKA
1
STATISTIKA
Formulacija problema:
opazujemo neko množico (končno ali neskončno), ki ji pravimo populacija;(npr. prebivalci Slovenije, izdelki neke tovarne, bolniki z neko boleznijo, delnice na borzi, izidi na ruleti)
vsak element populacije ima neko merljivo lastnost X;(npr. starost, kakovost izdelka, učinek zdravila, cena delnice)
vrednost X je zaradi nekega razloga (velikost populacije, način ali cena ugotavljanja, ...)znana le na delu populacije, ki mu pravimo vzorec;
Osnovni problem statistike:Kaj lahko povemo o lastnosti X na podlagi njenih vrednosti na vzorcu?
MATEMATIKA 2
VERJETNOST IN STATISTIKA VZORČENJE
2
Včasih skušamo reprezentativnost doseči z dirigiranim vzorčenjem (npr. onesnaženje običajno merijo na stalnih lokacijah). Obstaja nevarnost, da je takšno vzorčenje pristransko.
Če je vzorec naključno izbran, so vrednosti X na vzorcu slučajna spremenljivka. Enako velja za vse druge količine (povprečja, standardni odkloni...), ki jih izpeljemo iz teh vrednosti.
Idealni vzorec je reprezentativen v smislu, da se značilnosti X na vzorcu se ujemajo z značilnostmi na celotni populaciji. Pri naključnem vzorcu lahko določimo verjetnost, da je reprezentativen.
Omejili se bomo na primere, ko je izbira vzorca povsem naključna. To pomeni, da vzorec izbiramo zaporedoma in pri tem imajo vsi elementi populacije enako verjetnost, da se znajdejo v vzorcu.
VZORČENJE
(gre torej za izbiro z vračanjem; če je velikost vzorca majhna v primerjavi z velikostjo populacije smemo izbirati brez vračanja)
MATEMATIKA 2
VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI
3
Populacijski parametri:
velikost populacije: N
vrednosti X na populaciji:
x1,x2,...,xN
1
1 N
kk
xN
populacijsko povprečje:
22
1
1 N
kk
σ x m N
populacijska razpršenost:
Vzorčni parametri:
velikost vzorca: n
vrednosti X na vzorcu:
X1,X2,...,Xn
vzorčno povprečje:
1
1 n
kk
X Xn
vzorčna razpršenost:2
2
1
1
1
n
kk
s X X n -
MATEMATIKA 2
VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI
4
POVPREČNA VREDNOST IN RAZPRŠENOST VZORČNIH PARAMETROV
vzorec velikosti 1:
E(Xk)= (populacijsko povprečje )
D(Xk)= 2 (populacijska razpršenost)
1 1
1 1n n
k kk k
E( X ) E X E(X ) μ n n
2
(σ σ
D( X ) , σ X )n n
vzorec velikosti n:
korekcijski faktor za primer relativno velikega vzorca
(enostavno vzorčenje)
E( X ) μ
2 2 11
1 1
σ N - n σ n -D( X ) -
n N - n N -
2
21 1
1 1n n
k kk k
σD( X ) D X D(X )
n n n
(vzorčenje z vračanjem)
MATEMATIKA 2
VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI
5
2
1
1:Izračun
n
kk
E X X n
2 2 2 2
22 2 2
2 2
k k kE(X ) D(X ) E(X ) σ μσ
E( X ) D( X ) E( X ) μn
2 22
1 1
1 1n n
k kk k
E X X E(X ) E( X )n n
2 2 2 22 2 2
1 1 1 1 1
1 1 1 1 12 2
n n n n n
k k k k k kk k k k k
X X X XX X X X X X X Xn n n n n
Povprečna vrednost količine na množici vseh vzorcev ni enaka 2.
Pravimo, da gre za pristransko oceno populacijske razpršenosti.
2
1
1 n
kk
X X n
E(s2)= 2
22 2 2 21n
σn
σσ μ μ
n
Pri dovolj velikih vzorcih je razlika zanemarljiva, pri majhnih vzorcih pa ne,
zato kot mero vzorčne razpršenosti vzamemo 2
2
1
1
1
n
kk
s X X n
2
11
1
Povzetek:
1. vzorčno povprečje je nepristranska ocena za populacijsko povprečje
2. standardni odklon pri tej oceni je (oz. , kadar je vzorec relativno velik)
3. vzorčna razpršenost j
X
n
Nn n
s 2e nepristranska ocena za populacijsko razpršenost
MATEMATIKA 2
VERJETNOST IN STATISTIKA OPISOVANJE PODATKOV
6
rezultatikolokvija
40
19
68
48
59
28
31
30
25
25
36
39
41
88
66
60
57
37
94
44
90
98
59
29
92
55
64
43
54
52
87
34
36
74
61
80
54
0
1
2
3
4
5
6
7
8
9
1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100
0
1
2
3
4
5
6
1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 71-75 76-80 81-85 86-90 91-95
0
1
2
3
1 11 21 31 41 51 61 71 81 91
53.9722.16
Xs
52.8321.95
Xs
53.1721.93
Xs
intervalidolžine 5
intervali dolžine 10
Običajno tvorimo 10-20 kategorij. Zaželjeno je, da je v večini kategoriji vsaj 5 enot. Pri računanju povprečja in razpršenosti upoštevamo sredine intervalov.
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
7
INTERVALSKO OCENJEVANJE
Vzorčno povprečje in razpršenost sta primerna približka za populacijskopovprečje in razpršenost. Kolikšna je natančnost teh približkov?
Simulirali smo 10 zaporedij po 100 metov kocke in dobili naslednjo tabelo:
1.simulacija 5 5 6 3 2 6 4 6 4 3 5 4 5 4 2 6 6 1 4 2 6 6 5 2 5 4 3 5 1 5 6 6 3 2 2 6 6 6 1 3 3 6 4 1 4 1 3 6 4 1
6 2 1 2 1 4 6 5 3 1 1 4 6 1 4 5 4 6 4 2 3 6 3 3 4 2 6 3 2 6 4 5 3 1 1 4 1 6 1 6 3 5 1 1 1 3 2 2 2 2
2.simulacija
1 4 6 4 5 4 6 2 6 1 4 4 2 4 6 2 1 2 3 6 2 1 3 1 5 2 6 5 1 3 2 1 1 1 5 3 5 3 1 6 5 2 4 5 2 6 1 3 5 4
5 4 1 6 1 6 4 1 2 2 4 4 6 2 5 3 2 3 6 5 2 5 4 5 3 3 1 2 4 2 3 1 2 6 4 4 6 5 4 4 3 4 5 2 3 3 2 6 6 4
3.simulacija
4 5 5 4 6 6 3 5 6 2 2 5 5 4 6 1 6 4 5 5 4 1 5 2 6 3 3 5 5 4 4 2 4 5 4 4 2 6 6 5 2 6 4 4 5 5 6 1 2 5
2 5 6 6 6 3 6 4 4 2 5 1 6 3 4 1 3 5 2 1 3 1 3 5 2 2 2 5 5 4 6 6 4 6 5 3 1 3 6 1 4 5 4 4 5 5 3 2 4 1
4.simulacija
6 1 5 6 4 2 6 5 3 3 4 1 2 3 5 4 2 2 3 6 6 5 2 6 1 1 1 6 2 1 5 1 5 3 4 1 6 2 6 3 2 6 2 6 1 6 6 1 1 2
3 3 5 6 5 2 5 1 1 3 1 6 5 2 1 1 6 1 6 2 6 6 2 5 2 2 5 4 3 6 5 6 4 5 2 6 1 6 4 4 1 1 3 1 3 1 1 5 5 1
5.simulacija
2 3 3 5 5 1 4 4 4 1 6 6 6 4 3 5 6 3 3 5 5 2 3 5 3 3 6 2 5 4 2 4 2 4 2 5 4 5 1 1 2 3 5 4 4 1 4 5 4 4
2 5 2 5 4 5 4 1 3 5 6 4 5 1 1 2 3 4 6 2 5 6 5 1 6 6 5 5 1 4 5 4 6 4 2 5 2 2 5 2 1 2 5 2 4 5 4 2 6 3
6.simulacija
1 4 1 2 3 1 6 1 3 6 6 5 6 1 3 2 2 2 2 2 4 2 2 2 2 6 3 5 5 4 1 2 6 3 2 3 4 1 6 1 5 1 1 4 5 1 1 2 4 1
2 4 1 5 5 4 6 6 5 5 5 1 1 3 2 6 4 1 5 4 1 1 2 5 6 4 6 5 6 4 2 3 4 4 1 3 6 4 5 1 4 1 6 1 3 1 3 3 5 5
7.simulacija
4 2 4 4 2 5 5 2 3 1 1 6 4 3 1 6 6 6 4 1 6 2 4 5 4 5 4 1 5 6 3 2 3 6 4 2 3 4 6 5 1 5 4 4 5 5 2 4 5 1
5 2 2 1 1 3 3 4 2 5 5 2 4 3 3 5 5 3 3 5 2 5 1 1 4 3 5 4 2 2 6 1 4 6 3 5 2 2 2 2 3 6 6 4 6 2 4 3 4 1
8.simulacija
2 6 2 2 5 4 4 1 3 4 5 2 1 6 6 1 5 4 1 1 4 1 6 3 6 5 5 6 5 3 5 1 6 3 1 4 2 1 6 4 3 5 3 4 6 5 2 3 4 3
1 2 3 2 4 1 4 5 1 4 2 6 2 4 2 4 3 6 2 4 3 1 5 5 6 5 1 2 5 2 5 1 1 2 6 3 1 3 6 2 3 5 3 3 6 3 4 1 4 4
9.simulacija
2 5 5 3 2 3 2 1 3 5 3 5 6 6 3 3 2 5 2 3 6 2 2 6 5 4 6 6 3 2 4 2 1 6 5 2 3 2 2 1 1 6 3 1 1 4 1 2 4 2
5 2 5 2 6 4 6 1 3 5 1 5 1 4 4 2 3 5 6 2 2 3 2 4 5 6 3 5 6 4 3 3 2 5 6 3 2 3 3 4 6 1 1 4 2 2 5 1 6 4
10.simulacija
5 5 3 2 6 4 2 4 5 4 1 3 3 4 1 3 4 1 6 4 1 1 4 6 3 5 1 2 5 6 4 3 6 3 1 1 6 5 1 1 5 5 3 3 1 2 3 6 4 5
2 6 1 5 2 5 5 2 6 4 4 3 4 1 3 5 6 1 3 3 2 6 4 5 4 5 2 2 1 2 4 3 6 4 2 5 4 3 2 2 5 3 6 2 4 3 4 4 3 5
3.59 1.800
3.47 1.687
3.94 1.605
3.44 1.930
3.68 1.567
3.28 1.789
3.53 1.602
3.43 1.692
3.42 1.668
3.50 1.609
X s
Kaj lahko sklepamo o dejanski povprečni vrednosti in standardnemu odklonu?
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
8
Razsevni diagram za povprečja in standardne odklone simulacij.
Dejanska vrednost: =3.5, =1.708
Povprečje simulacij: =3.53, =1.695
...pač pa lahko določimo interval, za katerega je zelo verjetno, da vsebuje iskani populacijski parameter.
Osnovni problem je: kako na podlagi vzorčnih parametrov oceniti dejanske populacijske parametre?
Pri numeričnih metodah določimo približek in oceno za napako približka. Dejanska vrednost je nekje na intervalu okoli približka.
Na podlagi vzorca ni mogoče sklepati o parametrih populacije s 100% zanesljivostjo,...
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
9
2 2 2 0 9544X - a
P n .σ
2 295 44
σ σP X a X . %
n n
XNa vzorcu velikosti n dobimo vrednosti X1,X2,...,Xn in izračunamo njihovo povprečje
Naj bo količina X normalno porazdeljena na celotni populaciji z neznanim povprečjem a. Zaradi enostavnosti privzemimo, da je standardni odklon enak .
, 0,1 .Velja: porazdelitev je normalna z je porazdeljena po X - a
X E X a X n Nσn
2 2. S 95% verjetnostjo lahko trdimo, da leži populacijsko povprečje na intervalu
σ σX , X
n n
(tj. za okoli 95% vzorcev je populacijsko povprečje na izračunanem intervalu, za okoli 5% vzorcev pa je izven)
3 32 3 0 9972Podobno dobimo:
σ σP X a X ( ) .
n n3 3
. S 99.7% verjetnostjo je populacijsko povprečje na intervalu σ σ
X , Xn n
Verjetnost, s katero se iskani parameter nahaja na nekem intervalu je stopnja zaupanja.
Pripadajoči interval je interval zaupanja.
Večja stopnja zaupanja ali večja razpršenost ⇒ potreben je širši interval zaupanja.Večji vzorec ⇒ zadošča ožji interval zaupanja.
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
10
Splošni postopek za določanje intervala
zaupanja za populacijski parameter u:
1) določimo vzorčni parameter ū, ki je primeren približek za u
(npr. za povprečje ali s 2 za razpršenost)
2) določimo porazdelitveni zakon vzorčnega parametra ū(npr. normalni, binomski,...; to je najzahtevnejši korak - praviloma se omejimo na standardne primere)
3) izberemo stopnjo zaupanja(običajno =95% ali =99%)
4) na podlagi porazdelitve in vrednosti vzorčnega parametra ū na danem vzorcu določimo interval zaupanja [U1,U2] za u, ki pripada izbrani stopnji zaupanja( tj. tako, da velja P(U1 ≤ u ≤ U2) = ).
X
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
11
Pri manjših vzorcih ali neznanemu standardnemu odklonu ne moremo privzeti, da je povprečje normalno porazdeljeno. Običajno dobimo za približek porazdelitev, ki je odvisna od velikosti vzorca.
Naj bo količina X porazdeljena normalno z neznanim povprečjem a in standardnim odklonom .Iščemo interval zaupanja za populacijsko povprečje a pri stopnji zaupanja .
,
.
Imamo vzorec velikosti : parameter ocenimo z
parameter pa z in tvorimo novo spremenljivko X a
T
X
n
a
ss
n
Velja: T je porazdeljena po t.im. Studentovem porazdelitvenem zakonu S(n-1)
2
2
2
52 2
3
1
6 33 :
3
1
1
1 :
2 :
2
S p
S p xπ x
..
S p x
x
...
x
.
x
.
12 2
1Studentova porazdelitev ima gostoto
n-
n
xS n p(x) k
n
0,1N
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
12
Tabela mejnih vrednostiporazdelitve S(n):
parameter n(‘stopnje prostosti’)
mejna vrednost nastopnji zaupanja 1-
( P(|T|≤ t )=1- )
95%
99%
t
Senčena ploščina je enaka .
mejne vrednosti za normalno porazdelitev
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
13
Za izbrano stopnjo zaupanja iz tabel določimo t , da velja P(|T|≤ t )=
Interval zaupanja za a na stopnji zaupanja je α α
s sX - t , X t
n n
X s
3.59 1.800 [3.237,3.942] [3.125,4.054]
3.47 1.687 [3.139,3.800] [3.034,3.905]
3.94 1.605 [3.625,4.254] [3.495,4.354]
3.44 1.930 [3.061,3.818] [2.941,3.938]
3.68 1.567 [3.372,3.987] [3.275,4.084]
3.28 1.789 [2.929,3.630] [2.818,3.741]
3.53 1.602 [3.215,3.844] [3.116,3.943]
3.43 1.692 [3.098,3.761] [2.993,3.866]
3.42 1.668 [3.092,3.747] [2.989,3.850]
3.50 1.609 [3.184,3.815] [3.084,3.915]
interval zaupanja95% 99%
pri 3. poskusu je dejansko povprečje izven 95%-intervala zaupanja in komajda znotraj 99%-intervala zaupanja.
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
14
Porazdelitvena gostota ni simetrična, zato za zahtevano stopnjo zaupanja poiščemo meji 2
a in 2b , da velja
P( 2 ≤ 2a )=P( 2 ≥ 2
b )=1- /2 ⇒ P( 2a ≤ 2 ≤ 2
b )=
Intervalska ocena za standardni odklon pri normalni porazdelitvi:
22
21
s(n )
σ
Primerjamo populacijsko razpršenost2 z vzorčno razpršenostjo s2:
Velja: 2 je porazdeljena po zakonu ‘hi-kvadrat’ 2(n-1).
2 2
2
2 2
1 1Interval zaupanja za na stopnji zaupanja je
b a
n s n s,
χ χ
Porazdelitev hi-kvadrat 2(n) ima gostoto1
2 2 ( 0)n x
-
n p(x) k x e x
2
2
2
2
2
2
2
2
1
14
4
1
1
2
1
2
2
3
2
x
x-
-
x-
x-
χ ( ) :
eχ ( ) :
χ ( ) : p(x)
p(x)
χ ( ) : p(x) e
x
.
p(x
....
e
e
)x
π
π
x
2
a
2
b
MATEMATIKA 2
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV
15
mejna vrednost 2
( P( 2 ≥ 2 )= )
Tabela mejnih vrednostiporazdelitve 2(n)
parameter n(‘stopnje prostosti’)
2
Senčena ploščina je enaka .
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
16
PRESKUŠANJE STATISTIČNIH DOMNEV
Statistična domneva je trditev o porazdelitvenem zakonu slučajne spremeljivke, ki jo želimo potrditi ali ovreči na podlagi vrednosti, ki jih zavzame na nekem vzorcu.
parametrične domneve (trditve o parametrih znanega porazdelitvenega zakona, npr. Poissonovoporazdeljena spremenljivka ima povrečje a)
neparametrične domneve(trditve o naravi porazdelitvenega zakona, npr. spremenljivka je normalno porazdeljena)
Domneva je enostavna, če v celoti določa porazdelitev (tip in parametre), sicer pa je sestavljena.
(npr. če H0 trdi, da je porazdelitev Poissonova z neznanim parametrom - H1 pa, da ni Poissonova, sta obe sestavljeni)
Omejili se bomo na osnovne primere parametričnih domnev, ko je vsaj ničelna domneva enostavna.
primerjamo dve domnevi:
H0: ničelna domneva in H1: alternativna domneva
(npr. H0 trdi, da porazdelitev ustreza zakonu P(2), H1 pa, da ustreza zakonu P(3.5))
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
17
Leta 2003 je bilo v Sloveniji 17321 živorojenih otrok, od tega 8930 dečkov in 8391 deklic. Zanima nas, ali je to v nasprotju z domnevo, da je rojstvo dečka enako verjetno kot rojstvo deklice.
Izberemo majhno število (npr. 0.05 ali 0.01) in poiščemo kritično vrednost c , da je pri pogoju p=0.5 verjetnost P(X > c )= .
Za slučajno spremenljivko X vzamemo število rojstev dečkov. X je porazdeljena binomsko b(n,p).
H0 je enostavna domneva p=0.5, H1 je sestavljena domneva p > 0.5.
Če je število dečkov večje od c , potem H0 zavrnemo, v nasprotnem primeru pa je ne zavrnemo.
Binomsko porazdelitev b(17321,0.5) aproksimiramo z N(8660.5, 65.80), in vzamemo =0.05.
0 050 05 0 05
0 050 05 0 05
1 8660 51 1 0 05
2 65 808660 5 8
8768660 5
0 45 1 6565 80 65 8
50
.
.
..
. .
c .P(X c ) P(X c ) Φ .
.c . c .
Φ . . . .
c .
Ker je dejanska vrednost (8930) večja od c0.05, ničelno domnevo zavrnemo.
Pri 1% značilnosti preskusa dobimo c0.01=8813.5, torej domnevo zavrnemo tudi pri ostrejšem preskusu.
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
18
Enostavna parametrična domneva u=u0 ima tri alternativne parametrične domneve:
u > u0
u < u0
u ≠ u0
Za prvo in drugo alternativo pravimo, da sta enostranski, za tretjo pa, da je dvostranska.
u0 c
sprejmemo zavrnemo
c u0
zavrnemo sprejmemo
c1 u0 c2
zavrnemo sprejmemo zavrnemo
Pri preskušanju trdnosti nekega materiala je smiselna enostranska alternativa, saj nas ne moti, če je le-ta trdnejši kot pričakujemo. Pri preskušanju odstopov velikosti vijaka glede na matico pa raje oblikujemo dvostransko alternativo.
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
19
Z porazdeljena po N(0,1) - kako določimo c ?
11 1 2
2α α α α
αα P( Z c ) P( Z c ) Φ c Φ c
1 11 1
2 2α α α αα P(Z c ) P(Z c ) Φ c Φ c - α
1 1
2 2α α αα P(Z c ) Φ c Φ c α
Podobno ravnamo pri drugih preskusih. Pri t-testu tvorimo in upoštevamo, da je T porazdeljen po zakonu S(n-1).
Kritične vrednosti za dvostranski poskus pri značilnosti so v (n-1)-vivrstici in stolpcu, ki ustreza .
Kritične vrednosti za enostranski poskusa pa so v stolpcu, ki ustreza .
X - aT n
s
2
α
dvostranski preskus:
enostranski preskus:
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
20
Povprečje 10 meritev gostote neke snovi nam je dalo 1.35 g/cm3, čeprav bi
teoretično pričakovali gostoto 1.2 g/cm3. Na podlagi izkušenj vemo, da je
pri tovrstnem merjenju standardna napaka =0.25g/cm3. Ali na podlagi tega
lahko zavrnemo H0( =1.2 g/cm3)? Značilnost preskusa naj bo 5%.
1.) H1( ≠1.2) (dvostranski preskus)
1 35 1 210 1 89
0 25
X - ρ . .Z n .
σ .
0 05 0 050 475 1 96. .Φ c . c . Ničelne domneve ne zavrnemo.(testna vrednost je manjša od kritične)
2.) H1( > 1.2) (enostranski preskus)
0 05 0 050 45 1 65. .Φ c . c . Ničelno domnevo zavrnemo.(testna vrednost je večja od kritične)
Pri sestavljeni alternativi lahko manj verjetni del alternative zmanjša možnost za izključitev ničelne domneve.