Matematická statistika mmfch5Rozdelení pravdˇ epodobnostiˇ 2/25 mmfch5 Varování. Ve fyzice a...
Transcript of Matematická statistika mmfch5Rozdelení pravdˇ epodobnostiˇ 2/25 mmfch5 Varování. Ve fyzice a...
Matematická statistika 1/25mmfch5
Náhodná/stochastická promenná prirazuje pravdepodobnost/hustotu pravdepo-dobnosti moznému diskrétnímu/spojitému jevu z diskrétní/spojité mnoziny jevu.
diskrétní príklad: hod kostkou: p = 1/6 pro ∈ { , , , , , }
spojitý príklad: cas rozpadu jádra: p(t) = ke−kt
Spojitou náhodnou velicinu v 1D (tj. ∈ R) popisuje distribucní funkce (hustotapravdepodobnosti, rozdelení/rozlození pravdepodobnosti) p():
p()d je pravdepodobnost, ze nastane jev ∈ [, +d)
Ve dvou dimenzích definujeme hustotu pravdepodobnosti p(, y) tak, ze jev ∈[ + d) a zároven y ∈ [y + dy) nastane s pravdepodobností p(, y)ddy.
Normalizace:∑
p = 1 nebo∫ ∞
−∞p()d = 1
Kumulativní (integrální) distribucní funkce = pravdepodobnost, ze padne náhodnáhodnota ≤ :
P() =∫
−∞p(′)d′
Rozdelení pravdepodobnosti 2/25mmfch5
Varování. Ve fyzice a technice nepresne a volne zamenujeme symbol pro náhod-nou velicinu a pro její hodnotu (napr. pri integraci).
Strední hodnota (téz expectation value, ocekávaná hodnota; slovo prumer bu-deme rezervovat pro aritmetický prumer, tj. strední hodnotu výberu)
E () ≡ ⟨⟩ ≡ ⟨⟩volne= ⟨⟩ =
∫
p()d or∑
p
Príklad. Platí p() = e− (exponenciální rozdelení). Vypoctete ⟨⟩. 1
Variance (téz: rozptyl, fluktuace, strední kvadratická odchylka (MSD), disperze)
Var ()volne= Var = ⟨( − ⟨⟩)2⟩ = ⟨Δ2⟩ = ⟨2⟩ − ⟨⟩2, kde Δ = − ⟨⟩
Smerodatná odchylka (standard deviation) =p
Var (), ozn. σ(), σ(), δ
Príklad. Mejme rovnomerné rozdelení v intervalu [0,1); na pocítaci napr. rnd(0).Vypoctete strední hodnotu a varianci.
⟨⟩=1/2,Var()=1/12(viztézmmpc5.mw,Functionofrandomvariable)
Funkce náhodné veliciny 3/25mmfch5
Mejme reálnou náhodnou velicinu s rozdelením p() areálnou funkci ƒ (). Velicina (pozorovatelná) ƒ () má roz-delení (scítá se pres vsechny koreny):
pƒ (y) =∑
:ƒ ()=y
p()
|ƒ ′()|
Príklad. Mejme rovnomerné rozdelení v intervalu [0,1).Jaké rozdelení má t = − ln?
exp(−t):napr.casrozpadu1atomusk=1
> restart:> with(Statistics):> rectf := t->piecewise(t<0,0, t<1,1, 0);> Rect := Distribution(PDF=(rectf));> X := RandomVariable(Rect);> Mean(X); StandardDeviation(X);> PDF(-log(X),x);
Príklad: Giniho koeficient (index) 4/25mmfch5
Míra nerovnosti príjmu. Príjem s hustotou pravdepodobnosti p(), ≥ 0.
G =1
2⟨⟩
∫ ∞
0p()d
∫ ∞
0p(y)dy | − y|, G ∈ [0,1]
Príklad. Vypoctete Giniho koeficient pro:
a) Diracovu delta-distribuci (vsichni berou stejne),b) exponenciální rozdelení príjmu.
a)0;b)1/2
> restart:> Gini:=p->int(p(x)*int(p(y)*abs(x-y),y=0..infinity),x=0..infinity)
/2/int(p(x)*x,x=0..infinity)> assume(a>0);> p:=x->Dirac(x-a);> int(p(x),x=0..infinity);> Gini(p);> p:=x->a*exp(-x*a);> int(p(x),x=0..infinity);> Gini(p);
Funkce náhodné veliciny: strední hodnota 5/25mmfch5
Strední hodnota veliciny ƒƒƒ :
⟨ƒ ⟩ =∫
ƒ ()p()d (1)
nebo z nové náhodné promenné ƒƒƒ = ƒ ():
⟨ƒ ⟩ =∫
ypƒ (y)dy (2)
Obe strední hodnoty jsou stejné:
⟨ƒ ⟩ =∫
ƒ ()p()dsubst. y=ƒ ()
=∫
yp()
ƒ ′()dy =
∫
ypƒ (y)dy
kde v 2. integrálu = resení rovnice ƒ () = y, které zde pro jednoduchost uvazujemejen jedno a také predpokládáme, ze funkce ƒ je rostoucí.
Pozn. Jednotný a obecnejsí popis dostaneme zavedením pravdepodobnostní míryμ na jistém prostoru – zatím jsme uvazovali R, R2 a diskrétní prostor. Místo (1) a (2)pak píseme napr. ⟨ƒ ⟩μ =
∫
ƒ ()dμ().
Kovariance 6/25mmfch5
Kovariance a y dvojrozmerného rozdelení p(, y)
Cov (, yyy) = ⟨ΔΔy⟩ =∫
ΔΔyp(, y)ddy
Kovariance dvou velicin ƒ () a g() (obdobne u diskrétného ci vícerozmernéhorozdelení):
Cov (ƒ , g) = ⟨ΔƒΔg⟩ =∫
ΔƒΔgp()d
Nezávislé náhodné veliciny
Náhodné veliciny (s rozdelením p1()) a yyy (s rozdelením p2(y)):
p(, y) = p1()p2(y) (3)
V diskrétním prípade (napr. dva hody kostkou, pj = 1/36):
pj = p1,p2,j
Kovariance nezávislých náhodných velicin je nula:
Cov (, yyy) = ⟨ΔΔy⟩+yyy =∫
d∫
dyΔp1()Δyp2(y) = ⟨Δ⟩⟨Δy⟩yyy = 0
Korelacní koeficient[plot/matnum2r.sh] 7/25
mmfch5
r(, y) =Cov (, y)
p
Var ()Var (y)
Príklad. Necht’ 1 a 2 jsou dve nezávislá rovnomerný rozdelení v [0,1]. Vypoctete:a) r(1,−1)b) r(21,
21)
c) r(1, 2 + 1) (viz Maple) a)−1,b)1,c)1/p2
tab 1 100000 | tabproc "rnd(0)" "rnd(0)" | tabproc A A+B | lr
Soucet náhodných promenných[plot/matnum2conv.sh] 8/25
mmfch5
Necht’ a yyy jsou dve spojité náhodné promenné s rozdelením p(, y). Rozdelenísouctu + yyy je
p+yyy(z)dz =∫ ∫
+y∈(z,z+dz)p(, y)ddy
y:=z−=
∫
p(, z − )ddz
⇒
p+yyy(z) =∫
p(, z − )d
Necht’ nyní p(, y) = p1()p2(y). Pak
p+yyy(z) =∫
p1()p2(z − )d ≡ (p1∗ p2)(z)
p1∗ p2 se nazývá konvoluce
Diskrétní príklad: Hodíme dvojicí kostek. Jaké rozdelení má soucet ok?
p(2)=1/36,p(3)=2/36,...p(7)=6/36,...p(12)=1/36
Príklad. Vypoctete rozdelení 1 − 2 0for||>1,1−||otherwise
tab 1 100000 | tabproc "rnd(0)-rnd(0)" | histogr -1.5 1.5 .1 | plot -
Soucet nezávislých náhodných promenných[show/convol.sh] 9/25
mmfch5
Strední hodnota i variance souctu nezávislých náhodných velicin jsou aditivní.Prímo z (3):
E ( + yyy) =∫
p1()p2(y)( + y)ddy
=∫
p1()p2(y)ddy+∫
p1()p2(y)yddy =∫
p1()d+∫
p2(y)ydy = E ()+E (yyy)
Pomocí konvoluce distribucí:
E ( + yyy) =∫
zp+yyy(z)dz =∫
zp1()p2(z − )ddz
y:=z−z=
∫
( + y)p1()p2(y)ddy = ⟨⟩1 + ⟨y⟩2 = E () + E (yyy)
A variance:
Var ( + yyy) = ⟨(Δ + Δy)2⟩+yyy
= ⟨(Δ)2⟩+yyy + 2⟨ΔΔy⟩+yyy + ⟨(Δy)2⟩+yyy = Var () + Var (yyy)
Centrální limitní veta[show/galton.sh] 10/25
mmfch5
Soucet n stejných nezávislých rozdelení s konecnou strední hodnotou a konecnouvariancí je pro velké n rovno Gaussove rozdelení se strední hodnotou n⟨⟩ a variancínVar.
Príklad. Uvazujme diskrétní rozdelení bbb: p(−1/2) = p(1/2) = 1/2. Aproximujte sou-cet n takových rozdelení.
n = 1 p(−1/2) = 1/2, p(1/2) = 1/2, Varbbb = 1/4n = 2 p(−1) = 1/4, p(0) = 1/2, p(1) = 1/4, Varbbb2 = 2/4n = 3 p(±3/2) = 1/8, p(±1/2) = 3/8, Varbbb3 = 3/4
Pro jednoduchost uvazujme jen sudé n. Pak pro k = −n/2..n/2:
p(k) =�
n
n/2 + k
�
2−n ≈1
p2πσ
exp
−k2
2σ2
!
, σ2 = Var (bbbn) =n
4
Dukaz: potrebujeme Stirlinguv vzorec ve tvaru n! ≈ nne−np2πn
See Maple for numerical verification using convolution of rectangular distributions
Gaussovo rozdelení a Cebysevova nerovnost 11/25mmfch5
Pro náhodnou promennou s normálním rozdelením platí:
prob�
| − ⟨⟩| ≥ tσ()�
= 2∫ ∞
t
e−2/2
p2π
= erfc(t/p
2)
napr.: prob�
| − ⟨⟩| ≥ 2σ()�
= 0.0455 ≈ 5%
Cebysevova nerovnost: Pro obecnou náhodnoupromennou s konecným prumerem i variancí platí:
prob�
| − ⟨⟩| ≤ tσ()�
t normální obecné1 68.27 % ≥ 100 %2 95.45 % ≥ 75 %3 99.73 % ≥ 88.89 %
prob�
| − ⟨⟩| ≥ tσ()�
≤1
t2
napr.: prob�
| − ⟨⟩| ≥ 2σ()�
= 25%
Dukaz. Definujme (jako v C/C++): ( ≤ 1) = 1 pro ≤ 1 a ( ≤ 1) = 0 jindy.
prob�
| − ⟨⟩| ≥ tσ()�
=¬
| − ⟨⟩| ≥ tσ()¶
=
*
�
− ⟨⟩
tσ()
�2
≥ 1
+
≤
*
�
− ⟨⟩
tσ()
�2+
=1
t2
rovnost pro: X =
−1, p = 12t2
0, p = 1 − 1t2
+1, p = 12t2
Matematická statistika a metrologie 12/25mmfch5
Názvosloví kolísá podle oboru...
Statistika, odhad, „statistický algoritmus“, (úzeji) „statistický funkcionál, (v met-rologii „mericí funkce“, measurement function) je vzorec/algoritmus, podle kteréhopocítáme výsledek z (vzorku) náhodných velicin (v metrologii z dat). Statistika jetaké náhodnou velicinou.
Príklady: aritmetický prumer, parametry modelu pri fitování metodou nejmensíchctvercu.
Standardní chyba statistiky = smerodatná (standardní) odchylka (odmocnina va-riance) rozdelení (rozdelovací funkce) této statistiky.
Nejistota (uncertainty) v metrologii zahrnuje kritické posouzení systematických,náhodných, diskretizacních aj. chyb. Obdobne „standardní nejistota“.
In English:
statistic = estimator
statistics = field of mathematics
Aritmetický prumer jako príklad statistiky 13/25mmfch5
Mejme vzorek (výber, sample) náhodné velicinyPríklady:
velikosti bot 1000 lidí
100× hodíme kostkou
tlak v prubehu simulace
Aritmetický prumer (vzorku, výberu):
n =1
n
n∑
=1
Toto je nestranný (nevychýlený, unbiased) odhad ⟨⟩, protoze
pro jednoduchostpísi ⟨⟩ místo ⟨⟩
⟨n⟩ = ⟨⟩
Spocteme varianci veliciny n:σ() ≡
pVar
Var (n) = ⟨(n − ⟨⟩)2⟩ =
*
1
n
n∑
=1Δ
!2+
=Var
n≡σ()2
n, Δ = − ⟨⟩
kde jsme predpokládali, ze ’s jsou nezávislé, ⟨ΔΔj⟩ = 0 pro 6= j.
Smerodatná (standardní) odchylka jako príklad statistiky 14/25mmfch5
Jak odhadnout rozptyl σ()2? Neznáme strední hodnotu ⟨⟩, ale jen její odhad, n.
σ2() = ⟨⟨⟨( − ⟨⟨⟨⟩⟩⟩)2⟩⟩⟩ ≈1
n
n∑
=1
�
− n�2 =
1
n
n∑
=1
−1
n
n∑
j=1j
2
=1
nn�
(1 −1
n)1 −
1
n2 + · · ·
�2=n− 1
nσ()2
Výberový rozptyl (corrected sample variance):
1
n− 1
n∑
=1( − n)2
kde 1 = pocet stupnu volnosti. Protoze platí*
1
n− 1
n∑
=1( − n)2
+
= σ2() = Var
je to nestranný (nevychýlený) odhad rozptylu.Ale odmocnina výberového rozptylu (výberovásmerodatná odchylka) je vychýlený odhad σ().
Výberový rozptyl aritmetic-kého prumeru:
1
n(n− 1)
n∑
=1( − n)2
jeho odmocnina je odhademstandardní chyby aritm. prum.“Korekci” −1 zavedl FriedrichWilhelm Bessel, bez korekcemáme (uncorrected) sample va-riance, ceský termín neznám.
Souhrn 15/25mmfch5
Pro zpracování nekorelovaných dat metodou aritmetického prumeru, se stejnýmivahami dat:
Smerodatná (standardní) odchylka náhodné promenné = standardní chyba jed-noho merení
σ() =Ç
⟨( − ⟨⟩)2⟩
je aproximována vzorcem
sn() =
√
√
√
√
1
n − 1
n∑
=1( − n)2
Smerodatná (standardní) chyba aritmetického prumeru n merení náhodné pro-menné = standardní chyba (nejistota), se kterou n approximuje ⟨⟩ je
σ(n) = σ()/pn
a my ji pocítáme (= aproximujeme) vzorcem
sn(n) =
√
√
√
√
1
n(n − 1)
n∑
=1( − n)2
Zvyky 16/25mmfch5
Výsledky statistického zpracování píseme takto:
velicina = odhad veliciny± odhad chyby†
Fyzika: odhad chyby† = σ = odhadnutá smerodatná (standardní) chyba†; nepresne
(odhadnutá) chyba†, smerodatná (standardní) odchylka (rozumí se aritmetickéhoprumeru ci jiné statistiky)
Obvyklá notace: 123.4 ± 0.5 ≡ 123.4(5) ≡ 123.45V prípade Gaussova rozdelení máme sanci 68 %, ze jsme se trefili do udaného inter-valu.
Biologie, ekonomie, inzenýrství: Zpravidla se pouzívá hladina významnosti (con-fidence level) 95 % (data jsou s pravdepodobností 95 % uvnitr mezí); v poslednídobe se kritizuje jako nedostatecná. V prípade Gaussova rozdelení:
odhad chyby† = 2 × (standardní chyba)
Chemie: casto ignorováno; pokud udáno, tak nikdo neví, zda σ ci 2σ...
vzdy nutno udat typ chyby
†nebo nejistoty
Príklad 17/25mmfch5
V pruzkumu volebních preferencí bylo dotázáno 1080 lidí. Ve výsledcích jsou udányintervaly spolehlivosti, neznáme vsak pouzitou hladinu spolehlivosti (tj. s jakou prav-depodobností je skutecná hodnota uvnitr intervalu). Odvod’te tuto hladinu z dat.
Rada: vypoctete nejprve varianci náhodné promenné , která je 1 s pravdepodob-ností p a 0 s pravdepodobností 1 − p. p(1−p);95%
Testování hypotéz 18/25mmfch5
Nulová hypotéza: Hypotéza, ze vlastnost (urcitá hodnota veliciny, rozdíl. aj.) od-vozená ze vzorku dat je vysvetlitelná chybou vzorkování nebo experimentálnímichybami a není signifikantní.
Príklad: Studentky si merí tep (pulse rate, tep). Je strední hodnota tepu studentekrovna 72, coz je udávaná hodnota pro zeny tohoto veku?
Nulová hypotéza: ⟨PR⟩ = 72
Alternativní hypotéza: ⟨PR⟩ 6= 72
Ze n = 300 merení jsme dostali: PRn = 73.23(55); tj. sn(PRn) = 0.55
Pro n = 300 muzeme predpokládat, ze rozdelení PRn je normální a sn(PRn) je dosta-tecne presné.
t =PRn − ⟨PR⟩null
sn(PRn)=73.23 − 72
0.55= 2.24 (“2.24σ”)
p = 2∫ ∞
t
e−2/2
p2π
= erfc(k/p
2) = 0.025 < α = 0.05
Na hladine významnosti 95 % hypotézu zamítneme.
Viz mmpc5.mw “Normal distribution example”
Studentovo t-rozdelení[plot/student.sh 1] 19/25
mmfch5
Ukázali jsme, ze náhodná promenná n má Gaussovo rozdelení se strední hodnotou⟨n⟩ = ⟨⟩ a smerodatnou odchylkou σ(n) =
p
Var/n. Ale známe jen jejich odhady,takze nemuzeme tvrdit, ze n je v mezích ± odhadnutého σ(n) s pravdepodobností68 %.
Definujme Studentovo rozdelení t s parametrem ν (pocet stupnu volnosti) jako roz-delení následující náhodné promenné:
ν+1 − ⟨⟩
σ(ν+1)
Distribucní funkce je
() =∫∞0 n+1e−d,
(n) = (n − 1)!,(n+12) =
pπ·12 ·
32 · · · (n−
12)
tν() =�
ν+12
�
pνπ
�ν2
�
1 +2
ν
!−ν+12
Limita pro velké vzorky je normalizované normální rozdelení
limν→∞
tν() =1p2πe−
2/2
Bacha, t1() má nekonecný rozptyl a (striktne) nedefinovanou strední hodnotu.
Opet tep 20/25mmfch5
Namerili jsme jen 10 osob: PR = [69,84,67,82,71,81,73,71,76,86], PRn = 76
Nulová hypotéza: ⟨PR⟩ < 72Alternativní hypotéza: ⟨PR⟩ ≥ 72
t =PRn − ⟨PR⟩null
sn(PRn)= 1.865, p =
∫ ∞
ttn−1()d = 0.0475 < 0.05
Nulovou hypotézu na hl. význ. 95 % odmítneme, ⟨PR⟩ < 72 je nepravdepodobné.
Muzeme se mýlit: toto je „chyba I. druhu“ neboli „falesne pozitivní“ výsledek, pro-toze jsme neprávem prijali „nasi“ alternativní hypotézu.
Nulová hypotéza: ⟨PR⟩ = 72Alternativní hypotéza: ⟨PR⟩ 6= 72
t =PRn − ⟨PR⟩null
sn(PRn)= 1.865, p = 2
∫ ∞
ttn−1()d = 0.095 > 0.05
Nemáme dostatecný duvod k prijetí hypotézy, ⟨PR⟩ = 72 je celkem pravdepodobné.
Muzeme se mýlit: toto je „chyba II. druhu“ neboli „falesne negativní“ výsledek,protoze jsme neprávem odmítli „nasi“ alternativní hypotézu.
Porovnání dvou výberu 21/25mmfch5
Porovnáváme 2 výbery (n a m dat) ze stejného souboru.
Tvrzení. Náhodná velicina
t =n − m
sp
1/n + 1/m, where s2 =
(n − 1)[sn()]2 + (m − 1)[sm(y)]2
n +m − 2
má Studentovo rozdelení.
sn je výberová smerodatná odchylka (tj. s Besselovou korekcí)
Typická úloha: Máme dve sady merení takové, ze muzeme predpokládat, ze oce-kávané rozptyly v obou sadách jsou stejné.Nulová hypotéza: Rovnají se strední hodnoty?
Applety napr.:
https://stattrek.com/online-calculator/t-distribution.aspx
https://surfstat.anu.edu.au/surfstat-home/tables/t.php
Excel, LibreOffice: funkce T.TEST(array1,array2,tails,type)
Príklad (viz mmpc5.mw) 22/25mmfch5
Firma vyrábí podpery pro prílis dlouhé jezevcíky. Zadala dvema agenturám mereníspodní výsky jezevcíka.Firma SmileyDog: = [12.1,20,15.1,20.8,19.7] cmFirma HappyDog: y = [18.9,10.1,12.1,9.2,12.4,16.7,12.7] cm
a) Jsou oba výsledky v souladu (na hladine významnosti 95 %)?b) Jaký je nejlepsí odhad výsky podpery?
a)predpokládajícestejnerozptyly:t=2.08,p=0.064⇒obesadymereníasisouhlasíb)15.0(12)cm
Váhy 23/25mmfch5
Vázený prumer (váhy nemusí být normalizované)
=
∑
∑
Známe (nezávislé) s chybami σ. Jaké máme volit váhy?
Odvodíme pro 2 veliciny:
=1 + (1 − )2
σ2() = ⟨( − ⟨⟩)2⟩ = ⟨(Δ1 + (1 − )Δ2)2⟩ =2σ21 + (1 − )2σ22
Minimum nastane pro
=1/σ21
1/σ21 + 1/σ22
, 1 − =2 =1/σ22
1/σ21 + 1/σ22
Tedy (a platí obecne):
=1
σ2
Ale problém muze být, pokud neznáme σ presne.
Prumerování nezávislých merení 24/25mmfch5
Máme data s odhady standardních chyb σ.
1. Známé váhy. Napr. (nenormalizováno) ≈ n � 1 (kazdé vzniklo zpracová-ním mnoha nezávislých merení), ≈ cas v simulaci.
=
∑m=1∑m=1
, σ =
r
∑m=1
2 σ2
∑m=1
Nepouzívat ≈ 1/σ2 , jsou-li známy!
2. Neznámé váhy. Pak = 1/σ2 (jsou-li σ dost presná) a z výse uvedenéhovzorce:
=
∑m=1 /σ
2
∑m=1 1/σ
2
, σ =1
r
∑m=1 1/σ
2
Je-li málo dat. . . + 25/25mmfch5
3. Málo dat. Data vznikla z výberu po n kouscích, pro které jsme spocítali prumery(oznaceny nyní ) a odhady standardních chyb prumeru (σ). Pak
=
∑m=1 n∑m=1 n
, σ =
√
√
√
√
∑m=1 n(n − 1)σ
2 +
∑m=1 n( − )
2�
∑m=1 n − 1
�
∑m=1 n
jsou stejné, jako kdybychom data spojili.
Príklad. Podle dat v príkladu s jezevcíky jsme spocítali:
= [12.1,20,15.1,20.8,19.7] : 5 = 17.54 ± 1.68y = [18.9,10.1,12.1,9.2,12.4,16.7,12.7] : y7 = 13.16 ± 1.31
Vypoctete nejlepsí odhad spodní výsky ruznými metodami.
1.=n:14.983±1.0402.=1/σ2:14.812±1.0363.14.983±1.185(tosamévyjdepospojenídat)