Matematická statistika mmfch5Rozdelení pravdˇ epodobnostiˇ 2/25 mmfch5 Varování. Ve fyzice a...

Matematická statistika 1/25mmfch5

Náhodná/stochastická promenná prirazuje pravdepodobnost/hustotu pravdepo-dobnosti moznému diskrétnímu/spojitému jevu z diskrétní/spojité mnoziny jevu.

diskrétní príklad: hod kostkou: p = 1/6 pro ∈ { , , , , , }

spojitý príklad: cas rozpadu jádra: p(t) = ke−kt

Spojitou náhodnou velicinu v 1D (tj. ∈ R) popisuje distribucní funkce (hustotapravdepodobnosti, rozdelení/rozlození pravdepodobnosti) p():

p()d je pravdepodobnost, ze nastane jev ∈ [, +d)

Ve dvou dimenzích definujeme hustotu pravdepodobnosti p(, y) tak, ze jev ∈[ + d) a zároven y ∈ [y + dy) nastane s pravdepodobností p(, y)ddy.

Normalizace:∑

p = 1 nebo∫ ∞

−∞p()d = 1

Kumulativní (integrální) distribucní funkce = pravdepodobnost, ze padne náhodnáhodnota ≤ :

P() =∫

−∞p(′)d′

Rozdelení pravdepodobnosti 2/25mmfch5

Varování. Ve fyzice a technice nepresne a volne zamenujeme symbol pro náhod-nou velicinu a pro její hodnotu (napr. pri integraci).

Strední hodnota (téz expectation value, ocekávaná hodnota; slovo prumer bu-deme rezervovat pro aritmetický prumer, tj. strední hodnotu výberu)

E () ≡ ⟨⟩ ≡ ⟨⟩volne= ⟨⟩ =

∫

p()d or∑

p

Príklad. Platí p() = e− (exponenciální rozdelení). Vypoctete ⟨⟩. 1

Variance (téz: rozptyl, fluktuace, strední kvadratická odchylka (MSD), disperze)

Var ()volne= Var = ⟨( − ⟨⟩)2⟩ = ⟨Δ2⟩ = ⟨2⟩ − ⟨⟩2, kde Δ = − ⟨⟩

Smerodatná odchylka (standard deviation) =p

Var (), ozn. σ(), σ(), δ

Príklad. Mejme rovnomerné rozdelení v intervalu [0,1); na pocítaci napr. rnd(0).Vypoctete strední hodnotu a varianci.

⟨⟩=1/2,Var()=1/12(viztézmmpc5.mw,Functionofrandomvariable)

Funkce náhodné veliciny 3/25mmfch5

Mejme reálnou náhodnou velicinu s rozdelením p() areálnou funkci ƒ (). Velicina (pozorovatelná) ƒ () má roz-delení (scítá se pres vsechny koreny):

pƒ (y) =∑

:ƒ ()=y

p()

|ƒ ′()|

Príklad. Mejme rovnomerné rozdelení v intervalu [0,1).Jaké rozdelení má t = − ln?

exp(−t):napr.casrozpadu1atomusk=1

> restart:> with(Statistics):> rectf := t->piecewise(t<0,0, t<1,1, 0);> Rect := Distribution(PDF=(rectf));> X := RandomVariable(Rect);> Mean(X); StandardDeviation(X);> PDF(-log(X),x);

Príklad: Giniho koeficient (index) 4/25mmfch5

Míra nerovnosti príjmu. Príjem s hustotou pravdepodobnosti p(), ≥ 0.

G =1

2⟨⟩

∫ ∞

0p()d

∫ ∞

0p(y)dy | − y|, G ∈ [0,1]

Príklad. Vypoctete Giniho koeficient pro:

a) Diracovu delta-distribuci (vsichni berou stejne),b) exponenciální rozdelení príjmu.

a)0;b)1/2

> restart:> Gini:=p->int(p(x)*int(p(y)*abs(x-y),y=0..infinity),x=0..infinity)

/2/int(p(x)*x,x=0..infinity)> assume(a>0);> p:=x->Dirac(x-a);> int(p(x),x=0..infinity);> Gini(p);> p:=x->a*exp(-x*a);> int(p(x),x=0..infinity);> Gini(p);

Funkce náhodné veliciny: strední hodnota 5/25mmfch5

Strední hodnota veliciny ƒƒƒ :

⟨ƒ ⟩ =∫

ƒ ()p()d (1)

nebo z nové náhodné promenné ƒƒƒ = ƒ ():

⟨ƒ ⟩ =∫

ypƒ (y)dy (2)

Obe strední hodnoty jsou stejné:

⟨ƒ ⟩ =∫

ƒ ()p()dsubst. y=ƒ ()

=∫

yp()

ƒ ′()dy =

∫

ypƒ (y)dy

kde v 2. integrálu = resení rovnice ƒ () = y, které zde pro jednoduchost uvazujemejen jedno a také predpokládáme, ze funkce ƒ je rostoucí.

Pozn. Jednotný a obecnejsí popis dostaneme zavedením pravdepodobnostní míryμ na jistém prostoru – zatím jsme uvazovali R, R2 a diskrétní prostor. Místo (1) a (2)pak píseme napr. ⟨ƒ ⟩μ =

∫

ƒ ()dμ().

Kovariance 6/25mmfch5

Kovariance a y dvojrozmerného rozdelení p(, y)

Cov (, yyy) = ⟨ΔΔy⟩ =∫

ΔΔyp(, y)ddy

Kovariance dvou velicin ƒ () a g() (obdobne u diskrétného ci vícerozmernéhorozdelení):

Cov (ƒ , g) = ⟨ΔƒΔg⟩ =∫

ΔƒΔgp()d

Nezávislé náhodné veliciny

Náhodné veliciny (s rozdelením p1()) a yyy (s rozdelením p2(y)):

p(, y) = p1()p2(y) (3)

V diskrétním prípade (napr. dva hody kostkou, pj = 1/36):

pj = p1,p2,j

Kovariance nezávislých náhodných velicin je nula:

Cov (, yyy) = ⟨ΔΔy⟩+yyy =∫

d∫

dyΔp1()Δyp2(y) = ⟨Δ⟩⟨Δy⟩yyy = 0

Korelacní koeficient[plot/matnum2r.sh] 7/25

mmfch5

r(, y) =Cov (, y)

p

Var ()Var (y)

Príklad. Necht’ 1 a 2 jsou dve nezávislá rovnomerný rozdelení v [0,1]. Vypoctete:a) r(1,−1)b) r(21,

21)

c) r(1, 2 + 1) (viz Maple) a)−1,b)1,c)1/p2

tab 1 100000 | tabproc "rnd(0)" "rnd(0)" | tabproc A A+B | lr

Soucet náhodných promenných[plot/matnum2conv.sh] 8/25

mmfch5

Necht’ a yyy jsou dve spojité náhodné promenné s rozdelením p(, y). Rozdelenísouctu + yyy je

p+yyy(z)dz =∫ ∫

+y∈(z,z+dz)p(, y)ddy

y:=z−=

∫

p(, z − )ddz

⇒

p+yyy(z) =∫

p(, z − )d

Necht’ nyní p(, y) = p1()p2(y). Pak

p+yyy(z) =∫

p1()p2(z − )d ≡ (p1∗ p2)(z)

p1∗ p2 se nazývá konvoluce

Diskrétní príklad: Hodíme dvojicí kostek. Jaké rozdelení má soucet ok?

p(2)=1/36,p(3)=2/36,...p(7)=6/36,...p(12)=1/36

Príklad. Vypoctete rozdelení 1 − 2 0for||>1,1−||otherwise

tab 1 100000 | tabproc "rnd(0)-rnd(0)" | histogr -1.5 1.5 .1 | plot -

Soucet nezávislých náhodných promenných[show/convol.sh] 9/25

mmfch5

Strední hodnota i variance souctu nezávislých náhodných velicin jsou aditivní.Prímo z (3):

E ( + yyy) =∫

p1()p2(y)( + y)ddy

=∫

p1()p2(y)ddy+∫

p1()p2(y)yddy =∫

p1()d+∫

p2(y)ydy = E ()+E (yyy)

Pomocí konvoluce distribucí:

E ( + yyy) =∫

zp+yyy(z)dz =∫

zp1()p2(z − )ddz

y:=z−z=

∫

( + y)p1()p2(y)ddy = ⟨⟩1 + ⟨y⟩2 = E () + E (yyy)

A variance:

Var ( + yyy) = ⟨(Δ + Δy)2⟩+yyy

= ⟨(Δ)2⟩+yyy + 2⟨ΔΔy⟩+yyy + ⟨(Δy)2⟩+yyy = Var () + Var (yyy)

Centrální limitní veta[show/galton.sh] 10/25

mmfch5

Soucet n stejných nezávislých rozdelení s konecnou strední hodnotou a konecnouvariancí je pro velké n rovno Gaussove rozdelení se strední hodnotou n⟨⟩ a variancínVar.

Príklad. Uvazujme diskrétní rozdelení bbb: p(−1/2) = p(1/2) = 1/2. Aproximujte sou-cet n takových rozdelení.

n = 1 p(−1/2) = 1/2, p(1/2) = 1/2, Varbbb = 1/4n = 2 p(−1) = 1/4, p(0) = 1/2, p(1) = 1/4, Varbbb2 = 2/4n = 3 p(±3/2) = 1/8, p(±1/2) = 3/8, Varbbb3 = 3/4

Pro jednoduchost uvazujme jen sudé n. Pak pro k = −n/2..n/2:

p(k) =�

n

n/2 + k

�

2−n ≈1

p2πσ

exp

−k2

2σ2

!

, σ2 = Var (bbbn) =n

4

Dukaz: potrebujeme Stirlinguv vzorec ve tvaru n! ≈ nne−np2πn

See Maple for numerical verification using convolution of rectangular distributions

Gaussovo rozdelení a Cebysevova nerovnost 11/25mmfch5

Pro náhodnou promennou s normálním rozdelením platí:

prob�

| − ⟨⟩| ≥ tσ()�

= 2∫ ∞

t

e−2/2

p2π

= erfc(t/p

2)

napr.: prob�

| − ⟨⟩| ≥ 2σ()�

= 0.0455 ≈ 5%

Cebysevova nerovnost: Pro obecnou náhodnoupromennou s konecným prumerem i variancí platí:

prob�

| − ⟨⟩| ≤ tσ()�

t normální obecné1 68.27 % ≥ 100 %2 95.45 % ≥ 75 %3 99.73 % ≥ 88.89 %

prob�

| − ⟨⟩| ≥ tσ()�

≤1

t2

napr.: prob�

| − ⟨⟩| ≥ 2σ()�

= 25%

Dukaz. Definujme (jako v C/C++): ( ≤ 1) = 1 pro ≤ 1 a ( ≤ 1) = 0 jindy.

prob�

| − ⟨⟩| ≥ tσ()�

=¬

| − ⟨⟩| ≥ tσ()¶

=

*

�

− ⟨⟩

tσ()

�2

≥ 1

+

≤

*

�

− ⟨⟩

tσ()

�2+

=1

t2

rovnost pro: X =

−1, p = 12t2

0, p = 1 − 1t2

+1, p = 12t2

Matematická statistika a metrologie 12/25mmfch5

Názvosloví kolísá podle oboru...

Statistika, odhad, „statistický algoritmus“, (úzeji) „statistický funkcionál, (v met-rologii „mericí funkce“, measurement function) je vzorec/algoritmus, podle kteréhopocítáme výsledek z (vzorku) náhodných velicin (v metrologii z dat). Statistika jetaké náhodnou velicinou.

Príklady: aritmetický prumer, parametry modelu pri fitování metodou nejmensíchctvercu.

Standardní chyba statistiky = smerodatná (standardní) odchylka (odmocnina va-riance) rozdelení (rozdelovací funkce) této statistiky.

Nejistota (uncertainty) v metrologii zahrnuje kritické posouzení systematických,náhodných, diskretizacních aj. chyb. Obdobne „standardní nejistota“.

In English:

statistic = estimator

statistics = field of mathematics

Aritmetický prumer jako príklad statistiky 13/25mmfch5

Mejme vzorek (výber, sample) náhodné velicinyPríklady:

velikosti bot 1000 lidí

100× hodíme kostkou

tlak v prubehu simulace

Aritmetický prumer (vzorku, výberu):

n =1

n

n∑

=1

Toto je nestranný (nevychýlený, unbiased) odhad ⟨⟩, protoze

pro jednoduchostpísi ⟨⟩ místo ⟨⟩

⟨n⟩ = ⟨⟩

Spocteme varianci veliciny n:σ() ≡

pVar

Var (n) = ⟨(n − ⟨⟩)2⟩ =

*

1

n

n∑

=1Δ

!2+

=Var

n≡σ()2

n, Δ = − ⟨⟩

kde jsme predpokládali, ze ’s jsou nezávislé, ⟨ΔΔj⟩ = 0 pro 6= j.

Smerodatná (standardní) odchylka jako príklad statistiky 14/25mmfch5

Jak odhadnout rozptyl σ()2? Neznáme strední hodnotu ⟨⟩, ale jen její odhad, n.

σ2() = ⟨⟨⟨( − ⟨⟨⟨⟩⟩⟩)2⟩⟩⟩ ≈1

n

n∑

=1

�

− n�2 =

1

n

n∑

=1

−1

n

n∑

j=1j

2

=1

nn�

(1 −1

n)1 −

1

n2 + · · ·

�2=n− 1

nσ()2

Výberový rozptyl (corrected sample variance):

1

n− 1

n∑

=1( − n)2

kde 1 = pocet stupnu volnosti. Protoze platí*

1

n− 1

n∑

=1( − n)2

+

= σ2() = Var

je to nestranný (nevychýlený) odhad rozptylu.Ale odmocnina výberového rozptylu (výberovásmerodatná odchylka) je vychýlený odhad σ().

Výberový rozptyl aritmetic-kého prumeru:

1

n(n− 1)

n∑

=1( − n)2

jeho odmocnina je odhademstandardní chyby aritm. prum.“Korekci” −1 zavedl FriedrichWilhelm Bessel, bez korekcemáme (uncorrected) sample va-riance, ceský termín neznám.

Souhrn 15/25mmfch5

Pro zpracování nekorelovaných dat metodou aritmetického prumeru, se stejnýmivahami dat:

Smerodatná (standardní) odchylka náhodné promenné = standardní chyba jed-noho merení

σ() =Ç

⟨( − ⟨⟩)2⟩

je aproximována vzorcem

sn() =

√

√

√

√

1

n − 1

n∑

=1( − n)2

Smerodatná (standardní) chyba aritmetického prumeru n merení náhodné pro-menné = standardní chyba (nejistota), se kterou n approximuje ⟨⟩ je

σ(n) = σ()/pn

a my ji pocítáme (= aproximujeme) vzorcem

sn(n) =

√

√

√

√

1

n(n − 1)

n∑

=1( − n)2

Zvyky 16/25mmfch5

Výsledky statistického zpracování píseme takto:

velicina = odhad veliciny± odhad chyby†

Fyzika: odhad chyby† = σ = odhadnutá smerodatná (standardní) chyba†; nepresne

(odhadnutá) chyba†, smerodatná (standardní) odchylka (rozumí se aritmetickéhoprumeru ci jiné statistiky)

Obvyklá notace: 123.4 ± 0.5 ≡ 123.4(5) ≡ 123.45V prípade Gaussova rozdelení máme sanci 68 %, ze jsme se trefili do udaného inter-valu.

Biologie, ekonomie, inzenýrství: Zpravidla se pouzívá hladina významnosti (con-fidence level) 95 % (data jsou s pravdepodobností 95 % uvnitr mezí); v poslednídobe se kritizuje jako nedostatecná. V prípade Gaussova rozdelení:

odhad chyby† = 2 × (standardní chyba)

Chemie: casto ignorováno; pokud udáno, tak nikdo neví, zda σ ci 2σ...

vzdy nutno udat typ chyby

†nebo nejistoty

Príklad 17/25mmfch5

V pruzkumu volebních preferencí bylo dotázáno 1080 lidí. Ve výsledcích jsou udányintervaly spolehlivosti, neznáme vsak pouzitou hladinu spolehlivosti (tj. s jakou prav-depodobností je skutecná hodnota uvnitr intervalu). Odvod’te tuto hladinu z dat.

Rada: vypoctete nejprve varianci náhodné promenné , která je 1 s pravdepodob-ností p a 0 s pravdepodobností 1 − p. p(1−p);95%

Testování hypotéz 18/25mmfch5

Nulová hypotéza: Hypotéza, ze vlastnost (urcitá hodnota veliciny, rozdíl. aj.) od-vozená ze vzorku dat je vysvetlitelná chybou vzorkování nebo experimentálnímichybami a není signifikantní.

Príklad: Studentky si merí tep (pulse rate, tep). Je strední hodnota tepu studentekrovna 72, coz je udávaná hodnota pro zeny tohoto veku?

Nulová hypotéza: ⟨PR⟩ = 72

Alternativní hypotéza: ⟨PR⟩ 6= 72

Ze n = 300 merení jsme dostali: PRn = 73.23(55); tj. sn(PRn) = 0.55

Pro n = 300 muzeme predpokládat, ze rozdelení PRn je normální a sn(PRn) je dosta-tecne presné.

t =PRn − ⟨PR⟩null

sn(PRn)=73.23 − 72

0.55= 2.24 (“2.24σ”)

p = 2∫ ∞

t

e−2/2

p2π

= erfc(k/p

2) = 0.025 < α = 0.05

Na hladine významnosti 95 % hypotézu zamítneme.

Viz mmpc5.mw “Normal distribution example”

Studentovo t-rozdelení[plot/student.sh 1] 19/25

mmfch5

Ukázali jsme, ze náhodná promenná n má Gaussovo rozdelení se strední hodnotou⟨n⟩ = ⟨⟩ a smerodatnou odchylkou σ(n) =

p

Var/n. Ale známe jen jejich odhady,takze nemuzeme tvrdit, ze n je v mezích ± odhadnutého σ(n) s pravdepodobností68 %.

Definujme Studentovo rozdelení t s parametrem ν (pocet stupnu volnosti) jako roz-delení následující náhodné promenné:

ν+1 − ⟨⟩

σ(ν+1)

Distribucní funkce je

() =∫∞0 n+1e−d,

(n) = (n − 1)!,(n+12) =

pπ·12 ·

32 · · · (n−

12)

tν() =�

ν+12

�

pνπ

�ν2

�

1 +2

ν

!−ν+12

Limita pro velké vzorky je normalizované normální rozdelení

limν→∞

tν() =1p2πe−

2/2

Bacha, t1() má nekonecný rozptyl a (striktne) nedefinovanou strední hodnotu.

Opet tep 20/25mmfch5

Namerili jsme jen 10 osob: PR = [69,84,67,82,71,81,73,71,76,86], PRn = 76

Nulová hypotéza: ⟨PR⟩ < 72Alternativní hypotéza: ⟨PR⟩ ≥ 72


sn(PRn)= 1.865, p =

∫ ∞

ttn−1()d = 0.0475 < 0.05

Nulovou hypotézu na hl. význ. 95 % odmítneme, ⟨PR⟩ < 72 je nepravdepodobné.

Muzeme se mýlit: toto je „chyba I. druhu“ neboli „falesne pozitivní“ výsledek, pro-toze jsme neprávem prijali „nasi“ alternativní hypotézu.

Nulová hypotéza: ⟨PR⟩ = 72Alternativní hypotéza: ⟨PR⟩ 6= 72


sn(PRn)= 1.865, p = 2

∫ ∞

ttn−1()d = 0.095 > 0.05

Nemáme dostatecný duvod k prijetí hypotézy, ⟨PR⟩ = 72 je celkem pravdepodobné.

Muzeme se mýlit: toto je „chyba II. druhu“ neboli „falesne negativní“ výsledek,protoze jsme neprávem odmítli „nasi“ alternativní hypotézu.

Porovnání dvou výberu 21/25mmfch5

Porovnáváme 2 výbery (n a m dat) ze stejného souboru.

Tvrzení. Náhodná velicina

t =n − m

sp

1/n + 1/m, where s2 =

(n − 1)[sn()]2 + (m − 1)[sm(y)]2

n +m − 2

má Studentovo rozdelení.

sn je výberová smerodatná odchylka (tj. s Besselovou korekcí)

Typická úloha: Máme dve sady merení takové, ze muzeme predpokládat, ze oce-kávané rozptyly v obou sadách jsou stejné.Nulová hypotéza: Rovnají se strední hodnoty?

Applety napr.:

https://stattrek.com/online-calculator/t-distribution.aspx

https://surfstat.anu.edu.au/surfstat-home/tables/t.php

Excel, LibreOffice: funkce T.TEST(array1,array2,tails,type)

https://stattrek.com/online-calculator/t-distribution.aspx

https://surfstat.anu.edu.au/surfstat-home/tables/t.php

Príklad (viz mmpc5.mw) 22/25mmfch5

Firma vyrábí podpery pro prílis dlouhé jezevcíky. Zadala dvema agenturám mereníspodní výsky jezevcíka.Firma SmileyDog: = [12.1,20,15.1,20.8,19.7] cmFirma HappyDog: y = [18.9,10.1,12.1,9.2,12.4,16.7,12.7] cm

a) Jsou oba výsledky v souladu (na hladine významnosti 95 %)?b) Jaký je nejlepsí odhad výsky podpery?

a)predpokládajícestejnerozptyly:t=2.08,p=0.064⇒obesadymereníasisouhlasíb)15.0(12)cm

Váhy 23/25mmfch5

Vázený prumer (váhy nemusí být normalizované)

=

∑

∑

Známe (nezávislé) s chybami σ. Jaké máme volit váhy?

Odvodíme pro 2 veliciny:

=1 + (1 − )2

σ2() = ⟨( − ⟨⟩)2⟩ = ⟨(Δ1 + (1 − )Δ2)2⟩ =2σ21 + (1 − )2σ22

Minimum nastane pro

=1/σ21

1/σ21 + 1/σ22

, 1 − =2 =1/σ22

1/σ21 + 1/σ22

Tedy (a platí obecne):

=1

σ2

Ale problém muze být, pokud neznáme σ presne.

Prumerování nezávislých merení 24/25mmfch5

Máme data s odhady standardních chyb σ.

1. Známé váhy. Napr. (nenormalizováno) ≈ n � 1 (kazdé vzniklo zpracová-ním mnoha nezávislých merení), ≈ cas v simulaci.

=

∑m=1∑m=1

, σ =

r

∑m=1

2 σ2

∑m=1

Nepouzívat ≈ 1/σ2 , jsou-li známy!

2. Neznámé váhy. Pak = 1/σ2 (jsou-li σ dost presná) a z výse uvedenéhovzorce:

=

∑m=1 /σ

2

∑m=1 1/σ

2

, σ =1

r

∑m=1 1/σ

2

Je-li málo dat. . . + 25/25mmfch5

3. Málo dat. Data vznikla z výberu po n kouscích, pro které jsme spocítali prumery(oznaceny nyní ) a odhady standardních chyb prumeru (σ). Pak

=

∑m=1 n∑m=1 n

, σ =

√

√

√

√

∑m=1 n(n − 1)σ

2 +

∑m=1 n( − )

2�

∑m=1 n − 1

�

∑m=1 n

jsou stejné, jako kdybychom data spojili.

Príklad. Podle dat v príkladu s jezevcíky jsme spocítali:

= [12.1,20,15.1,20.8,19.7] : 5 = 17.54 ± 1.68y = [18.9,10.1,12.1,9.2,12.4,16.7,12.7] : y7 = 13.16 ± 1.31

Vypoctete nejlepsí odhad spodní výsky ruznými metodami.

1.=n:14.983±1.0402.=1/σ2:14.812±1.0363.14.983±1.185(tosamévyjdepospojenídat)

Matematická statistika mmfch5Rozdelení pravdˇ epodobnostiˇ 2/25 mmfch5 Varování. Ve fyzice a...

Documents

Transcript of Matematická statistika mmfch5Rozdelení pravdˇ epodobnostiˇ 2/25 mmfch5 Varování. Ve fyzice a...