Download - A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Transcript

A Matematikai Statisztika Alapjai

Dr. Márkus László

2017. március 1.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 1 / 80

Matematikai statisztika alapjai Valszám alapfogalmak

Valszám alapfogalmak ismétlés

Véletlen szám: Olyan mérési eredmény, amely a kísérlet vagy megfi-gyelés minden lehetséges ismétlése esetén más-más elore pontosan nemkiszámítható értéket vesz fel. Az egyes kísérletek/megfigyelések egy-egyelemi véletlennek felelnek meg (ezekbol nagyon sok lehet), amelyeketaz Ω eseménytérben gyujtünk össze. A véletlen szám tehát ezen el-emi véletlenekhez, kísérletekhez hozzárendeli a mért értéket, tehát egyszámértéku függvény Ω-n.

Valószínuség: Az Ω részhalmazairól semmit nem tudunk, pont azértvéletlenek. Csak azt tudjuk megmondani, hogy az egész Ω kb.hányadrészét töltik ki, vagyis mennyi a mértékük, a ”területük”. Ez a”területmérték” a valószínuségi mérték, P, amely egyre normált P(Ω)= 1.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 2 / 80

Matematikai statisztika alapjai Valszám alapfogalmak

Valszám alapfogalmak ismétlés

Eloszlás: A valváltozó eloszlásán, Q-n, durván szólva azokat avalószínuségeket értjük, összegyujtve minden lehetséges [a,b] interval-lumra, hogy a valváltozó (= a mérés/megfigyelés) két érték, a és b közéesik: Q[a,b] = P(a < X < b).Pl. Legyen a valváltozó egy homérsékletmérés. Ekkor Q[5.7,6.3] = amért homérséklet 5.7C és 6.3C közé esésének valószínusége.Az eloszlás megadható azzal is, hogy adott értéknél kisebb mérésvalószínusége mennyi - ez az eloszlásfüggvény, FX: FX(x) = P(X < x)Ha az eloszlásfüggvény sima, azaz differenciálható, akkor deriváltja asuruségfüggvény, fX: fX(x) = F′X(x)A lépcsos függvény nem sima, tehát diszkrét valváltozónak nincs suru-ségfüggvénye!!A suruségfüggvény (egy intervallumra integrálva) empirikusan (= tapasz-talati szinten) tényleg azt mondja meg, hogy adott intervallumban milyensurun fognak elofordulni a mért értékek: az összes érték kb. hányadrészeesik az intervallumba.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 3 / 80

Matematikai statisztika alapjai Valszám alapfogalmak

Valszám alapfogalmak ismétlés

Várható érték EX: A valváltozó (vagyis pl. egy mérés) lehetségesértékeinek felvételük valószínuségével súlyozott átlaga. Nem keverendotöbb mérés átlagával! (Az már a nagy számok törvénye.) A várható értéka valváltozó centruma, ami körül ingadozik.

Ha diszkrét a valváltozó, akkor a fenti súlyozott átlagolás az ismert ké-pletbol is látszik. Ha folytonos értéku, akkor persze a szumma integrálbamegy át, a valószínuséget meg a suruségfüggvény adja meg.

Szórásnégyzet vagy variancia: A valváltozó centruma körüli ingadozásá-nak méroszáma. A centrumtól való négyzetes eltérést nézzük, és ezt át-lagoljuk a valószínuséggel súlyozva, azaz várható értéket véve: D2X =E(X−EX)2

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 4 / 80

Matematikai statisztika alapjai Valszám alapfogalmak

Valszám alapfogalmak ismétlés

Kovariancia: Két valváltozó centrált szorzatának várható értéke:cov(X,Y) = E [(X−EX)(Y−EY)]A kovariancia egyfajta skalárszorzat. Az önmagával vett kovarianciaa szórásnégyzet. Az önmagával vett skalárszorzat a hossznégyzet. Aszórásnégyzet tehát hossznégyzet, a szórás a valváltozó hossza.A korreláció: Kovariancia osztva a szórások szorzatával.

cor(X,Y) =cov(X,Y)DX ·DY

A korreláció a lineáris függés méroszáma. Nem minden függést mér.Korreláció = skalárszorzat osztva a hosszak szorzatával = a bezárt szögkoszinusza! Igen, a korreláció két valváltozó szögének koszinusza, ezértméri (csak) a lineáris függést! És így persze, hogy -1 és 1 között van, stb.Még egyszer: csak a lineáris függést méri. Szimmetrikus (pl. normális)eloszlású valváltozónak és négyzetének a korrelációja 0, pedig annyiraösszefüggnek, hogy egyik a másikból kiszámolható!

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 5 / 80

Page 6: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

Elfajult eloszlás

P(X = x0) = 1

EX = x0

D2X = 0

X biztosan (1 valószínuséggel) az x0 értéket veszi fel. Más szóval X nemvéletlen = determinisztikus, azaz közönséges valós szám.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 6 / 80

Page 7: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

Egyenletes eloszlás

Egyenletes eloszlás, Unif (x1,x2, . . . ,xn)Minden lehetséges értéket ugyanakkora valószínuséggel vesz fel.

x1,x2, . . . ,xn1n , 1

n , . . . ,1n

Legyenek X értékei a természetes számok n-ig:x1,x2, . . . ,xn = 1,2, ...,n. Ekkor

EX =∑xi

∑ in

=n+1

EX2 =n

∑k=1

1n· n(n+1)(2n+1)

D2X = EX2− (EX)2 =n(n+1)(2n+1)

6− (n+1)2

=4n2 +6n+2−3n2−6n−3

12=

n2−112

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 7 / 80

Page 8: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

Indikátor eloszlás

Indikátor valószínuségi változó χA eloszlásaAz A esemény indikátora 1 ha A bekövetkezik és 0 ha nem.

χA (ω) =

1 , ha ω ∈A

0 , ha ω /∈A

P(A ) = p

P(χA = 1) = p

P(χA = 0) = 1−p = q

EχA = p

D2χA = pq

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 8 / 80

Page 9: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

Binomiális eloszlás

Binomiális eloszlás, n-edrendu, p paraméteru, B(n,p)

Az X valváltozó értékét az adja meg, hogy egy p valószínuségu A eseményn független kísérletbol hányszor következik be. (Minden kísérletben vagy Avagy nem A következik be egyértelmuen.)Pl.: Kockával n dobás során hány hatos lesz?

P(X = k) =(n

)pkqn−k (Kocka:

(nk

)(1

6)k(5

6)n−k)

X = Y1,Y2, . . . ,Yn, ahol Yi-k független indikátorok.

Így EX = ∑EYi = np

D2X = ∑D2Yi = npq

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 9 / 80

Page 10: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

Geometriai vagy Pascal eloszlás

Geometriai eloszlás (Pascal eloszlás), p paraméteru, Geom(p)

Az Y valváltozó értékét az adja meg, hogy a fenti kísérletsorozatbanhányadikra következett be eloször az A esemény.Pl.: Kockával hányadikra dobok eloször hatost?

P(Y = k) = pqk−1

EY = 1p

D2Y = qp2

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 10 / 80

Page 11: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

EY =∑∞k=1 k ·pqk−1 = p ·

1+q+q2 +q3 + . . .+

q+q2 +q3 + . . .+q2 +q3 + . . .+

...

= p ·

11−q+

q1−q+q2

1−q+...

= p(1p +

1p q+ 1

p q2 + . . .) = p(1p ·

11−q) = p 1

p2 =1p

D2Y hasonlóan.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 11 / 80

Page 12: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes diszkrét eloszlások

Negatív binomiális eloszlás

Negatív binomiális eloszlás, n-edrendu, p paraméteru, NB(r,p)

A Z valváltozó értékét az adja meg, hogy a fenti kísérletsorozatbanhányadikra következett be r-edszer az A esemény.Pl.: Kockával hányadikra dobok r-edszer hatost?

P(Z = k) =(k−1

r−1

)prqk−r

Z = Y1 + Y2 + . . .+ Yr, ahol Yi =az A esemény (i-1)-edik utáni elsobekövetkezése⇒ Yi p paraméteru geometriai eloszlású. Ezért

EZ = rp

D2Z = rqp2

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 12 / 80

Page 13: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes abszolút folytonos eloszlások

Normális eloszlás

Normális eloszlás, (m,σ2) paraméteru, N(m,σ2)

Leggyakrabban sok, kis, független, elemi véletlen hatás összegzodésekénteloálló valváltozó. Az elso paraméter a várható érték a második a szórásnégy-zet.

P(X = x) = 0, mert ez már abszolút folytonos eloszlású.

Suruségfüggvénye:

standard: f (x) =1√2π

e−x22 általános: f (x) =

1√2π ·σ

e−(x−m)2

2σ2

Eloszlásfüggvénye elemi függvényekkel nem felírható, a fenti f integrálfügg-vénye (−∞-tol x-ig integrálunk), standard normális eloszlás esetén jelöléseΦ(x). Független normálisak összege normális, a várható értékek és a

szórásnégyzetek összeadódnak.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 13 / 80

Page 14: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes abszolút folytonos eloszlások

Exponenciális eloszlás

Exponenciális eloszlás, λ paraméteru, Exp(λ )

Leggyakrabban idoben folytonosan (=bármikor) bekövetkez(het)o eseményelso bekövetkezési idejének eloszlása . Exponenciális konstansszorosa maradexponenciális. A paraméter a skála reciproka. (Pl. egy exponenciális vv. két-szeresének a paramétere az eredeti fele, háromszorosának a harmada. Ez isabszolút folytonos eloszlású.

Suruségfüggvénye:f (x) = λe−λx

Eloszlásfüggvénye:F(x) = 1− e−λx

Várható értéke: EX = 1λ

, szórásnégyzete: D2X = 1λ 2

Az exponenciális eloszlás örökifjú

P(X > s+ t|X > s) = P(X > t)

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 14 / 80

Page 15: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes abszolút folytonos eloszlások

Gamma eloszlás

Gamma eloszlás, α rendu λ paraméteru, Γ(α,λ )

Leggyakrabban idoben folytonosan (=bármikor) bekövetkez(het)o esemény n-edik bekövetkezési idejének eloszlása lesz Γ(n,λ ) eloszlású. Ez is abszolútfolytonos eloszlású.

Suruségfüggvénye:

f (x) =λ α

Γ(α)x(α−1)e−λx

Eloszlásfüggvényét nem szoktuk számolni, egész rend esetén egy rend tagúösszeg.

Várható értéke: EX = α

λ, szórásnégyzete: D2X = α

λ 2

n darab független, azonos λ paraméteru exponenciális eloszlású valváltozóösszege Γ(n,λ ) eloszlású.Független, azonos λ paraméteru Γ eloszlású valváltozók összege ugyancsak λ

paraméteru Γ eloszlású, és a rendek összeadódnak.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 15 / 80

Page 16: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes abszolút folytonos eloszlások

Khi négyzet eloszlás

Khi négyzet eloszlás, d szabadsági fokú, χ2d

Független standard normális eloszlású valváltozók négyzetösszegének el-oszlása. A szabadsági fok az összeadandók darabszáma.Úgy is gondolhatunk rá, mint független standard normális eloszlású ko-ordinátákkal rendelkezo d dimenziós véletlen vektor hossznégyzetének el-oszlása. A szabadsági fok a dimenzió.Megmutatható, hogy egy standard normális eloszlású valváltozó négyzeteΓ(1

2 ,12), tehát a független gammákra vonatkozó összegzési szabály miatt

χ2d = Γ(

d2,12)

Suruségfüggvénye:

f (x) =1

2d2 Γ((d

2 −1))x(

d2−1)e−

12 x

Eloszlásfüggvényét nem szoktuk számolni.Várható értéke: EX = d, szórásnégyzete: D2X = 2d

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 16 / 80

Page 17: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Nevezetes abszolút folytonos eloszlások

Khi és t eloszlás

Khi eloszlás, d szabadsági fokú, χd

Egy khi négyzet eloszlású valváltozó négyzetgyökének eloszlása. A sza-badsági fok a khi négyzet eloszláséval egyezik.Úgy is gondolhatunk rá, mint független standard normális eloszlású ko-ordinátákkal rendelkezo d dimenziós véletlen vektor hosszának eloszlása.A szabadsági fok a dimenzió.Suruségfüggvénye: pontosan pl. a wikipédián

Student féle t eloszlás, d szabadsági fokú, tdStandard normális eloszlású és khi eloszlású valváltozók hányadosának elosz-lása. Suruségfüggvénye:

f (x) = const ·(

1+x2

)− d+12

Eloszlásfüggvényét nem szoktuk számolni.Várható értéke: EX = 0, szórásnégyzete: D2X = d

d−2Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 17 / 80

Page 18: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Bevezetés - A minta

A minta

A minta fogalmának megértéséhez vegyünk például egy adott for-rásból különbözo idopontból származó vízmintát, amelyeknek kémiaiösszetételére vagyunk kíváncsiak. A vízmintákban mérünk pl. kalciumkoncentrációt.Kétszer nem mérnénk ugyanazt, nem csak a muszer hibája miatt, hanemazért is, mert az adott jelenség sem zajlik kétszer pontosan ugyanúgy.Ezért minden egyes mérés valváltozónak tekintheto. Az adott mért érték,pl.125 mg/l ennek a valváltozónak egy realizációja. Több mérés eseténa mérések sorozata az X1,X2, . . . ,Xn valváltozók sorozata a minta, míga hozzájuk tartozó x1,x2, . . . ,xn számértékeket a minta realizációjánaknevezünk.

Xi valváltozó a minta i-edik eleme.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 18 / 80

Page 19: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Bevezetés - A minta

Független ill. azonos eloszlású minta

Mivel minden mérésünkben a kalcium koncentrációt határoztuk meg,ezért mindegyik mérés ugyanazt a törvényszerüséget követi. Ezt atörvényszerüséget a valószínuségszámításban az eloszlás írja le, tehátazt mondhatjuk, hogy ezek az X1,X2, . . . ,Xn valváltozók valamennyiena azonos eloszlásúak, tehát azonos eloszlású mintánk van.

Ha a méréseink egymást nem befolyásolva és egymástól kelloen távoliidopontban zajlanak, akkor a mintában szereplo valváltozók teljesenfüggetlenek egymástól, és ilyenkor független mintáról beszélünk.

Független, azonos eloszlású mintánk van, ha a mintaelemek eloszlásailyen.

A függetlenséget a realizáción közvetlenül nem látjuk, hiszen az csak 1-1mérés.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 19 / 80

Page 20: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Bevezetés - A minta

Sokszor beszélünk független azonos eloszlású mintáról, gyakran azon-ban csak azért mert erre vonatkozóan könnyebben végezheto el az ada-tok elemzése. Az életben a függetlenség messze nem mindig biztosí-tott. Tipikusan ilyenek az idoben egymás után zajló megfigyelések, ha azidotáv nem túl távoli. A Budapesti januári napi átlaghomérsékletek nemlesznek egymástól függetlenek, de mondjuk az utolsó 10 év január 30-ánmért adatai már független változók realizációinak tekinthetoek, még haesetleg várható értékük és szórásuk meg is egyezik.

Nem független adatok, mérések elemzése sokkal nehezebb és sokszor ahelyes összefüggési struktúra érdekében a független mintákra vonatkozóalapveto elvek feladására is kényszerülünk.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 20 / 80

Page 21: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Bevezetés - A minta

Az eloszláscsalád

A minta eloszlását általában nem ismerjük, célunk pont ennek, vagy azeloszlás valamilyen jellemzojének meghatározása a minta alapján.Bár az eloszlást nem ismerjük pontosan, de alakjáról (és ezen leggyakrab-ban a suruségfüggvény alakját értjük) van azért némi elképzelésünk. Ezáltalában azt jelenti, hogy az eloszlás családját ismerjük, vagy ismert-nek tekintjük, és csak a paramétereit akarjuk megbecsülni a mintából. Pl.azt gondolhatjuk, hogy az eloszlás normális, de két paramétere (várhatóértéke m és szórása σ ) akármi lehet. Néha korlátozni érdemes a lehet-séges paramétereket arra, ami értelmes (pl. Bp napi középhom. várhatóértéke -30C és +50C között).A paramétert ϑ -val jelöljük, akkor is ha egy szám, akkor is ha vektor. Pl.a fenti normális eloszlásra ϑ = (m,σ), tehát a paraméter két dimenziósvektor. A lehetséges paraméterek összessége adja a Θ paraméterteret.A minta eloszláscsaládja a lehetséges Qϑ eloszlások összessége, ahol ϑ

végigfut a Θ paramétertéren.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 21 / 80

Page 22: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Statisztika, becslés

A realizált minta lehet nagyon sok szám is, pl. száz éves napi adatokközel 37000 számot jelentenek. Ez, bár nagyon sok információ, de át-tekinthetetlen. Tömöríteni kell az információt, néhány jól értelmezheto,és ezért könnyen átlátható számba kell suríteni, ki kell számítani a mintaegy, vagy néhány függvényét (pl. átlag, maximum etc.).

A minta egy tetszoleges T (mérheto∗) függvényét statisztikának hívjuk.

Az X1,X2, . . . ,Xn minta T(X1,X2, . . . ,Xn) = T(X) függvénye a statisztiká-nak a mintán felvett értéke, ami tehát maga is valváltozó (így pl. van el-oszlása), míg T(x1,x2, . . . ,xn) = T(x) a statisztika értékének realizációja.(Nem mindig teszünk ebben élesen különbséget.)

A becslés olyan statisztika, amelyet az eloszlás paraméterének, vagy eparaméter egy függvényének becslésére használunk. Igazából mindenstatisztika becslés is, legfeljebb rossz vagy értelmetlen becslés.∗ Matematikai értelemben - itt nem adunk pontos definíciót

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 22 / 80

Page 23: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: átlag

A mintaátlag X1+X2+...+Xnn . Jelölése X. Itt a függvény n-változós:

Tn(x1,x2, . . . ,xn) =x1+x2+...+xn

n , tehát igazából más és más mintaelem-számra másik és másik függvénybe helyettesítjük a mintát: X1+X2+...+Xn

n =Tn(X1,X2, . . . ,Xn), mégsem szoktuk az elemszámfüggést hangsúlyozni.

A mintaátlag minimalizálja a mintaértékeknek egy számtól vett átlagosnégyzetes eltérését, tehát az átlag a minta centruma.

∑i=1

(xi−a)2 min−→ a = x

Azonos eloszlású minta esetén minden mintaelem várható értéke ugyanan-nyi, (tehát a mérés várható eredménye ugyanaz). Ilyen mintára az átlagvárható értéke is ugyanannyi, azaz:

EX = EX1 = EX2 = . . .= EXn

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 23 / 80

Page 24: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: tapasztalati szórásnégyzet

Tapasztalati szórásnégyzet:

S2n =

∑i=1

(Xi−X)2

Könnyu látni, hogy független, azonos eloszlású minta esetén, amikor min-den mintaelem szórásnégyzete ugyanannyi,

ES2n =

(n−1)n

D2X1

tehát ezt a becslést korrigálni kell, hogy igazán jó szórásbecslésünklegyen. Ez a korrigált tapasztalati szórásnégyzet

S∗2n =1

n−1

∑i=1

(Xi−X)2

Nem független mintára ez sem lesz jó becslés!!!

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 24 / 80

Page 25: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: medián és kvantilis

Tapasztalati medián: Az a szám, amelynél a mintaelemek fele kisebb, amásik fele meg nagyobb. Sorbarendezzük nagyság szerint a mintát ésha páratlan elemszámú a minta, akkor a középso elem a medián, ha megpáros az elemszám, akkor a két ”középso” számtani közepe.A tapasztalati medián minimalizálja a mintaértékeknek egy számtól vettátlagos abszolút eltérését, tehát a tapasztalati medián a minta centrumaebben az értelemben.

∑i=1|xi−a| min−→ a = m,

ahol m a medián. Míg az átlag a kiugró mintaértékekre (adott eset-ben mérési anomáliára) érzékeny, addig a medián nem, u.n. robusztusstatisztika.Tapasztalati q%-os kvantilis: Az a szám, aminél a mintaelemek q%-akisebb. Extremális viselkedések jellemzésére jó.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 25 / 80

Page 26: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: Rendezett minta

Az x1,x2, . . . ,xn mintarealizációt nagyság szerint sorba rendezhetjük:x∗1 ≤ x∗2 ≤ . . .≤ x∗n,

Ugyanezt az X1,X2, . . . ,Xn mintával is megtehetjük minden ω mellett, ígykapjuk az X∗1 ,X

∗2 , . . . ,X

∗n rendezett mintát. Spec.: X∗1 a minta minimuma,

X∗n a maximuma.

A rendezett mintában persze minden ω-ra más és más az eredeti mintaele-mek nagyság szerinti sorrendje, pl. az egyik ω-ra a kilencedik mintaelema legnagyobb egy másik ω-ra esetleg a negyedik. Tehát például a maxi-mum, X∗n , nem lesz egyenlo egyik eredeti mintaelemmel sem, hanem holaz egyikbol, hol a másikból kapja az értékét, ez egy teljesen új valváltozólesz, csakúgy, mint bármely másik X∗k .

A rendezett minta elemei nem függetlenek, hiszen pont az az összefüggésközöttük, hogy a nagyobb indexu értéke is nagyobb.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 26 / 80

Page 27: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: Tapasztalati eloszlásfüggvény

Legyen X1,X2, . . . ,Xn független azonos eloszlású minta.

Fn(x) =

0 , ha x≤ X∗1 , azaz, ha x kisebb a minimumnálkn , ha X∗k < x≤ X∗k+1

1 , ha X∗n < x, azaz, ha x nagyobb a maximumnál

Mi ez? Ez egy lépcsos függvény, amelyben a lépcsok a mintarealizációértékeinél vannak, és a függvény a−∞ felol 0-ból indulva minden lépcso-nél pont 1

n nagyságút ugrik.Fn(x) nem egyszeruen egy függvény, hanem minden ω-ra másik ésmásik, tehát igazából egy véletlen függvény, vagyis u.n. sztochasztikusfolyamat.Glivenko tétele: Legyen n elemu független azonos eloszlású mintánkF(x) közös eloszlásfüggvénnyel. Az Fn(x) tapasztalati eloszlásfüggvé-nyek a mintaelemszám n növelésével 1 valószínuséggel egyenletesen tar-tanak F(x)-hez.Ez egy elvi lehetoség az eloszlás meghatározására.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 27 / 80

Page 28: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példa tapasztalati eloszlásfüggvényre

x=c(1.2, 7.4, 3.3, 5.1, 5.3, 1.6, 7.9, 6.2)plot(ecdf(x), do.points=TRUE, verticals=TRUE)points(x,nn,pch=16, col=2,cex=2)

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 28 / 80

Page 29: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példa Glivenko tételre

Tapasztalati eloszlásfüggvény 50 ill. 200 elemu normális mintából, és azelméleti eloszlásfüggvény (pirossal)

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 29 / 80

Page 30: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példa Glivenko tételre

Tapasztalati eloszlásfüggvény 10,25,100 ill. 500 elemu normálismintából, és az elméleti eloszlásfüggvény (pirossal)

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 30 / 80

Page 31: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: Hisztogram

Gyakoriság hisztogram: az alapintervallumot felosztjuk k egyenlo részre,k n, megszámoljuk hány mintaérték esik a i-edik részintervallumba, ésilyen magas téglalapot rajzolunk fölé.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 31 / 80

Page 32: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: Hisztogram

Relatív gyakoriság: Megszámoljuk n kísérletbol hányszor következik beaz A esemény és osztjuk a kísérletek számával. Ez az A eseményvalószínuségének becslése.Relatív gyakoriság hisztogram: Durván: a gyakoriság hisztogramot”leosztjuk” a mintaelemszámmal n-nel. A gyakoriság hisztogram konst-rukcióját követve a téglalapok magasságát most nem a darabszám, hanema relatív gyakoriság adja. Csak az y-tengely skálája változik ettol.Mintaterjedelem (range): A legnagyobb és a legkisebb mintaelemkülönbsége, X∗n−X∗1 .Suruség hisztogram: most a legkisebb és a legnagyobb mintaelem általmeghatározott intervallumot osztjuk fel n egyenlo részre, megszámoljukhány mintaérték esik a k-adik részintervallumba, ezt osztjuk a mintater-jedelemmel és ilyen magas téglalapot rajzolunk fölé.A suruség hisztogram alatti terület 1 tehát ez a suruségfüggvény egyfajtabecslése

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 32 / 80

Page 33: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Példák statisztikákra: Suruségfüggvény becslés

A Parzen-Rosenblatt féle magfüggvényes suruségfüggvény becslés: min-den mintaérték fölé egy sima függvényt (u.n. magfüggvényt) rajzolunk,(például Gauss görbét, háromszög-függvényt, egy cos ívet) majd mindenalappontban összeadjuk a fölötte lévo függvényértékeket, így kapjuk abecsült suruségfüggvény értéket.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 33 / 80

Page 34: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslések tulajdonságai

Igazi paraméternek nevezzük azt a paramétert, ami a minta tényleges el-oszlását adja meg az eloszláscsaládban.A becslés torzítatlan, ha legalább várhatóan, várható értékben azt adja,amit becsülni szeretnénk, bármi is a minta eloszlása az eloszláscsaládból.Ha a paramétert ϑ -t vagy annak egy függvényét g(ϑ)-t becsüljük, akkorformulával: Eϑ T(X) = g(ϑ).Az Eϑ egy teljesen általánosan alkalmazott, de szerintem gyakorlati szem-pontból rossz (túl absztrakt) jelölés. Ugyanis nem a várható érték függ aϑ -tól, hanem a minta (méréseink) eloszlása∗. Tehát igazából X-et kelleneindexelni ϑ -val, a várható értéket pedig nem.A torzítatlanság tehát azt mondja, hogy ha 5 paraméteru eloszlással ren-delkezo mintát helyettesítek ebbe a statisztikába/becslésbe, akkor g(5)lesz a várható értéke, de ha ugyanebbe 3.2 paraméterut, akkor g(3.2) lesza várható érték sít.

∗ Változtathatnánk a valószínuségi mértéket is, de ez túl absztrakt megközelítés.Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 34 / 80

Page 35: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslések tulajdonságai

Egy torzítatlan becslés hatásos, ha o a torzítatlanok között a legkevésbéingadozó, vagyis szórása a legkisebb.

Egy torzítatlan becslés hatásosabb mint a másik, ha szórása kisebb amásikénál.

Torzítatlan becslések sorozata (erosen) konzisztens, ha a sorozat in-gadozása elenyészik, azaz szórásnégyzete 0-hoz tart, és így végülhatárértékben pontosan megadja a becsülendo mennyiséget.

Tipikusan egy torzítatlan becsléstípus (mint pl. az átlag vagy a maximum,amit egyre több és több megfigyelésbol is számolhatunk) konzisztens, haa mintaelemek számát növelve az ingadozás elenyészik, azaz a szórásné-gyzet 0-hoz tart.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 35 / 80

Page 36: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Elégségesség, információs határ

Említettük, hogy pl. normális eloszlás esetén a várható érték (m)paramétert az átlaggal tudjuk becsülni, és nevezetes tény, hogy ez alegjobb becslése. Az átlag tehát minden információt tartalmaz az mparaméterrol, hiszen ha lenne még elérheto információ, akkor azt fel-használva jobb becslést is készíthetnénk.Azokat a statisztikákat, amelyek a paraméterrol a mintában rejlo összesinformációt tartalmazzák, elégséges statisztikáknak hívjuk. Nem adunkformális definíciót és nem vizsgáljuk ezt a témakört.Egy mintából a paramétert vagy annak függvényét nem lehet tetszolegespontossággal = megbízhatósággal becsülni, valamennyi bizonytalanságmindenféle becslés esetén marad, vagyis a becslés szórásnégyzete nemlehet tetszolegesen kicsiny.A becslés szórásnégyzetére bizonyos feltételek mellett elvi alsó korlátotad a nevezetes Rao-Cramér egyenlotlenség a Fisher féle információs men-nyiség reciproka segítségével.Ezeket a fogalmakat, eredményeket sem részletezzük.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 36 / 80

Page 37: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslési elvek: Maximum Likelihood (ML)

Legyen adott egy mintarealizáció, azaz mérési eredmények egy sorozata,és egyelore tegyük fel, hogy diszkrét eloszláscsaládból származik.

Ekkor elvileg az összes lehetséges szóbajövo eloszlás, azaz az összeslehetséges paraméter mellett kiszámolhatjuk, hogy pont ennek a megfi-gyelésnek mekkora a valószínusége. Ezek után elég természetes azt aparamétert választani az igazi ismeretlen paraméter becslésének, ame-lyik mellett a legnagyobb ez a valószínuség, azaz a legnagyobb avalószínusége, hogy pont az a minta ”jön ki”, amit éppen mértünk. Eza maximum likelihood elv, a leggyakrabban használt becslési eljárás.

Az ML becslés számítása azonban nem mindig könnyu, sot sok esetbennem is lehetséges a bonyolult maximalizációs feladat miatt. Ilyenkor al-goritmikus eljárásokat alkalmaznak.

Abszolút folytonos eloszlású minta esetén nem a valószínuséget, hanem asuruségfüggvényt maximalizáljuk, a paraméter szerint.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 37 / 80

Page 38: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslési elvek: Maximum Likelihood (ML)

A Maximum Likelihood elv szerint azt a paramétert választjuk, ame-lyik mellett a legnagyobb a valószínusége a ténylegesen megfigyelt, mértmintarealizációnak.

Technikailag ez diszkrét eloszlás feltételezése mellett pontosan a mértx1,x2, . . . ,xn mintarealizáció helyén vett valószínuségfüggvény maxi-mumhelyének megkeresését jelenti a paraméter szerint azaz ϑ -ban:

Pϑ (X1 = x1,X2 = x2, . . . ,Xn = xn) = p(x1,x2, . . . ,xn,ϑ)maxϑ−ban−→

Abszolút folytonos eloszlású minta esetén nem a valószínuséget, hanema minta együttes suruségfügvényét a megfigyelt helyen maximalizáljuk aparaméter szerint.

f (x1,x2, . . . ,xn,ϑ)maxϑ−ban−→

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 38 / 80

Page 39: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslési elvek: A maximum likelihood számítása

Definíció: p(x,ϑ) és f (x,ϑ) közös neve likelihood függvény.

Mivel p > 0 és f > 0 valamint a logaritmus függvény szigorúan monotonnövo ezért p vagy f maximuma ugyanott van ahol a logaritmusáé. Mivela legtöbb suruségfügvény exp(valami) jellegu, ezért gyakran célszeru amaximumkereséshez logaritmálni.

Definíció: log(p(x,ϑ)) és log(f (x,ϑ)) közös neve loglikelihood függ-vény.

Ha még differenciálható is a loglikelihood függvény, akkor a maxi-mumhely megtalálása a derivált nullahelyének megkeresésével is lehet,azaz a likelihood egyenletet kell megoldani:

∂

∂ϑlog(f (x,ϑ)) = 0

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 39 / 80

Page 40: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslési elvek: A maximum likelihood tulajdonságai

Adott mintaelemszámra a ML becslés semmilyen jó tulajdonsága sem garan-tált, de határértékben, azaz gyakorlatilag nagy mintára számos jó tulajdonság-gal rendelkezik:

Tétel: Bizonyos regularitási feltételek mellett a maximum likelihood becslés:

aszimptotikusan torzítatlan,

aszimptotikusan hatásos (aszimptotikusan Cramér-Rao, azaz azinformációs határt közelíti),

erosen konzisztens,

aszimptotikusan normális eloszlású.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 40 / 80

Page 41: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Becslési elvek: Momentum Módszer (MM)

Tapasztalati momentum: Az X1,X2, . . . ,Xn minta k-adik tapasztalatimomentuma

Mk =1n

∑i=1

Xki

Legyen a ϑ paraméter egy d dimenziós vektor. A d dimenziós paraméter-rel kifejezett elso d elméleti és tapasztalati momentum egyenlové tételéveld ismeretlenes egyenletrendszert kapunk a paraméterre, ennek megoldásaa paraméter momentum módszeres becslése.

Ez általában se nem torzítatlan se nem hatásos, de legalább erosenkonzisztens becslés.

Eloszlásáról sem lehet semmit mondani általánosságban.

Akkor hasznos, amikor az ML vagy túl bonyolult, vagy olyan optimal-izációs problémára vezet, amit nem lehet (még akár numerikusan sem)megoldani.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 41 / 80

Page 42: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Konfidencia Intervallum

Becslés gyanánt egyetlen számérték soha nem elég informatív, mert sem-mit nem mond arról, hogy mennyire ingadozhat a becslés, és így az éppenszámított érték milyen messze lehet az igazitól.

A ϑ paraméter értékét egy a mintától függo (ezért véletlen) intervallumbelsejébe akarjuk szorítani eloírt valószínuséggel. Ezt az intervallumothívjuk megbízhatósági azaz konfidencia intervallumnak.

A konfidencia intervallum megkonstruálásához olyan T1,T2 statisztikákatkeresünk, amelyre minden ϑ esetén teljesül, hogy

Pϑ (T1(X)< ϑ < T2(X)) = 1− ε

Ha ez teljesül akkot a (T1(X),T2(X) véletlen intervallumot 1− ε meg-bízhatóságú konfidencia intervallumnak nevezzük T1 alsó és T2 felso kon-fidencia határral.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 42 / 80

Page 43: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Hipotézisvizsgálat

Legyen egy X1,X2, . . . ,Xn mintánk, Pϑ igazi eloszlással, amelyrol tudjuk,hogy a ϑ paraméter a Θ paramétertér egy számunkra nem ismert eleme.

A Θ paraméterteret két diszjunkt részhalmaz uniójára bontjuk Θ = Θ0∪Θ1 és a minta alapján el szeretnénk dönteni, hogy az igazi ϑ paramétermelyik részhalmazba tartozik.

Nullhipotézisnek nevezzük az a feltevést, hogy a minta igazi eloszlásánakparamétere a Θ0 részhalmazba tartozik.

Alternatív vagy ellenhipotézisnek nevezzük azt, hogy az igazi eloszlásparamétere a Θ1 részhalmazba tartozik:

H0 : ϑ ∈Θ0H1 : ϑ ∈Θ1

Hipotézisünkrol a statisztikai próba vagy teszt segítségével döntünk.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 43 / 80

Page 44: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A statisztikai próba

A mintából mindenek elott kiszámítunk egy T(X1,X2, . . . ,Xn) statisztikaértéket, ezt a statisztikát nevezzük próbastatisztikának.A nullhipotézist igaznak feltételezve meghatározzuk a próbastatisztika el-oszlását.Ezek után megvizsgáljuk, hogy a minta realizációjából, tehát a konkrétmért vagy megfigyelt értékekbol számított próbastatisztika érték ezeneloszlás mellett tipikusnak, szokásosnak tekintheto-e, vagyis számot-tevo valószínuséggel elofordulhat-e, és ha igen akkor elfogadjuk a null-hipotézist.Ha a próbastatisztika érték a meghatározott eloszlás mellett atipikus,vagyis csak igen kis valószínuséggel kapható meg, akkor elutasítjuk anullhipotézist.Az eloszlásra nézve tipikus próbastatisztika értékeket az Xe elfogadásitartományban, míg az atipikus értékeket az Xk kritikus tartománybangyujtjük össze.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 44 / 80

Page 45: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A próba hibái

A próbastatisztika alapján tehát kétféleképpen döntünk: elfogadjuk a null-hipotézist ha T(X) ∈Xe és elutasítjuk, ha T(X) ∈Xk. Ennek során két-féleképpen véthetünk hibát.Elsofajú hibát vétek, ha elutasítom a nullhipotézist pedig igaz.Másodfajú hibát vétek, ha elfogadom a nullhipotézist pedig hamis.Mindkét hiba elkövetésének valószínusége felírható:

P(elsofajú hiba) = Pϑ (T(X) ∈Xk) ϑ ∈Θ0

P(másodfajú hiba) = Pϑ (T(X) ∈Xe) ϑ ∈Θ1

Általában a kritikus tartományt adjuk meg, és ezt az alapján tesszük meg,hogy az elsofajú hibát szeretnénk eloírtan alacsony szinten tartani.Az α szint a próba terjedelme, ha az elsofajú hiba kisebb, mint α , ésa próba pontos terjedelme, ha nincs nála kisebb terjedelem. Egyelemunullhipotézis esetén a terjedelem neve szignifikancia szint.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 45 / 80

Page 46: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A másodfajú hiba – erofüggvény

Ha az elsofajú hiba valószínuségét eloírtuk, akkor a másodfajú hibavalószínusége már adott. Ugyanis az elsofajú hiba alapján meghatározotta kritikus tartomány és

P(másodfajú hiba) = Pϑ (T(X) ∈Xe) = 1−Pϑ (T(X) ∈Xk) ϑ ∈Θ1.

Tehát adott próbastatisztika és próbaterjedelem mellett a másodfajúhiba valószínuségét már nem tudjuk befolyásolni. A próbastatisztikamegválasztásában viszont lehet szabadságunk.

A próba akkor jó, ha egyszerre mindkét hiba kicsi. A másodfajú hibahelyett a próba Θ1-en értelmezett erofüggvényét:

β (ϑ) = 1−Pϑ (másodfajú hiba) = Pϑ (T(X) ∈Xk) ϑ ∈Θ1

szokás vizsgálni.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 46 / 80

Page 47: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Egyenletesen legerosebb próba

Nyilván az a kívánatos, hogy a próba ereje minél nagyobb legyen.

A próba ereje tehát a próbastatisztika függvényében változhat csak. Egypróba(statisztika) T1 egyenletesen erosebb egy másiknál T2, ha az al-ternatív hipotézis minden lehetosége mellett az ereje nagyobb, mint amásiké:

β1(ϑ)≥ β2(ϑ) ϑ ∈Θ1

Egy próba egyenletesen legerosebb, ha minden másik próbánál egyenlete-sen erosebb.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 47 / 80

Page 48: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Véletlenített ill. szekvenciális próbák

Ezekben az esetekben a mintateret nem csupán a kritikus és elfogadásitartományokra bontjuk, hanem három részre, az elobbiek mellett még egyXb bizonytalansági tartományt is megadunk.

Véletlenítet (randomizált) próba esetén az elfogadási és a kritikustartományokba eso próbastatisztika érték esetén értelemszeruen dön-tünk, míg a bizonytalansági tartományban a próbastatisztika értékétolfüggetlenül, adott valószínuséggel, véletlenszeruen döntünk elfogadásvagy elutasítás mellett. (Feldobunk egy eloírtan hamis érmét . . . )

Szekvenciális próba végzésekor a bizonytalansági tartománybaeso próbastatisztika érték esetén egy újabb mintaelemet adunk ameglévokhöz, és ezzel újraszámoljuk a próbát. Ezt mindaddig folytatjuk,amíg egyértelmuen nem tudunk dönteni.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 48 / 80

Page 49: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Neyman-Pearson féle alaplemma I.

Tétel. (Neyman-Pearson féle alaplemma I.)Tegyük fel, hogy

H0 : ϑ = ϑ0H1 : ϑ = ϑ1, ϑ0,ϑ1 ∈Θ

azaz csak két paraméter van: egyszeru nullhipotézis áll szemben egyszeru al-ternatívával.Regularitási feltételek mellett az α terjedelmu (véletlenítet) próbák közöttlétezik egyenletesen legerosebb, amelyet a likelihood hányados segítségévellehet megadni:

Xk =

L(X > c)

Xb =

L(X = c)

Xe =

L(X < c)

,ahol L(x) = f1(x)

f0(x)a likelihood függvények hányadosa.

Vegyük észre, hogy az abszolút folytonos esetben a bizonytalansági tartomány0 valószínuségu, tehát elhagyható, a próba nem véletlenített.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 49 / 80

Page 50: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Neyman-Pearson féle alaplemma II.

Az elso Neyman-Pearson féle alaplemmához hasonló állítás fogalmazható mega

H0 : ϑ ≤ ϑ0H1 : ϑ > ϑ0, ϑ ∈Θ, ϑ0 egy adott szám

típusú hipotézisre vonatkozóan is. Most tehát nem csupán két paraméter van:összetett nullhipotézis áll szemben összetett alternatívával, de azért speciálisalakban.Monoton likelihood hányados, és regularitási feltételek mellett az α terjedelmu(véletlenítet) próbák között létezik egyenletesen legerosebb, amelyet a likeli-hood hányados segítségével lehet megadni, az elozo lemmához hasonlóan.E lemmáknak köszönhetoen a likelihood hányados próbák kituntetett szere-puek, még akkor is, amikor nem tudunk egyenletesen legerosebb próbát találni.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 50 / 80

Page 51: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

χ2 próba

A1, . . . ,Ar teljes eseményrendszer P(Ai)> 0, de a P(Ai) valószínuségeket nemismerjük, azt feltételezzük, hogy ezek rendre az adott p1, . . . ,pr értékek.

H0: P(Ai) = pi ∀iH1: ∃i : P(Ai) 6= pi

Legyen νi az Ai esemény gyakorisága n független kísérletben. Ekkorr∑

i=1νi = n.

A próbastatisztika legyen:

χ =r

∑i=1

(νi−npi)2

npi

ebben a "valószínuség alapján várt" gyakoriság lenne npi, ennek eltérését vizs-gáljuk a tapasztalttól.χ eloszlásban tart egy r−1 szabadsági fokú χ2 eloszláshoz.Emlékeztetoül: az s szabadsági fokú χ2

s eloszlás X21 + . . .+X2

s eloszlása, aholXi-k független N(0,1)-esek.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 51 / 80

Page 52: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

χ2 próba

Ha még a pi-ket sem ismerjük, akkor becsüljük (pl. Poisson eloszlásból szár-mazó valószínuségek, de λ nem ismert, Binomiálisból, de p nem ismert stb.).A becsült pi-ket jelölje pi és ezzel készítsük el el χ-t:

χ =r

∑i=1

(ν−npi)2

npi

Ebben az esetben ez d = r− s−1 szabadsági fokú χ2 eloszláshoz tart, ahol sa becsült paraméterek száma. Nagy n-re, n legalább 16-20, már érvényesnektekintheto a határeloszlás.A kritikus tartomány megválasztása:Xk =

X > χ2

d (α)=

X > cd(α)

ahol χ2d (α) = cd(α) a χ2 eloszlás α szignifikanciaszinthez tartozó kvantilise

P0(χ > cd(α)) = α

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 52 / 80

Page 53: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

χ2 próba illeszkedésvizsgálatra

Diszkrét eset

A minta lehetséges értékei: 1, 2, 3, . . . , r, vagy x1, x2, . . . , xr

Az elofordulási gyakoriságok: ν1,ν2,ν3, . . . ,νr

Azaz megszámoljuk, az n elemu mintából hány 1-est, 2-est, stb. kaptunk.A valószínuségeloszlás szerinti elofordulási valószínuségei ugyanezenértékeknek: p1,p2,p3, . . . ,pr

Ekkorr

∑i=1

(νi−npi)2

npi

χ2 eloszláshoz tart, n növelésével. A χ2 szabadsági foka r− s−1, ahol s az aszám, ahány paraméterét a H0-beli eloszlásnak becsülnünk kellett.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 53 / 80

Page 54: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

χ2 próba illeszkedésvizsgálatra

Ha α a szignifikancia szint, akkor a d = r− s−1 szabadsági fokú χ2d eloszlás

α-kvantilise adja azt a kritikus cd(α) értéket, amelyre tehát

P(χ2 > cd(α)) = α

és ha a próbastatisztika cd(α)-nál nagyobb értéket ad, akkor utasítjuk el H0-t.

Folytonos eset

A lehetséges értékek tartományát intervallumokra osztjuk be, majd ugyanúgyjárunk el, mint a diszkrét esetben: Most az adott intervallumba eso értékekgyakoriságát számoljuk, és vetjük össze a hipotetikus eloszlásból adódó vártgyakorisággal.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 54 / 80

Page 55: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Homogenitásvizsgálat

X, illetve Y valószínuségi változók ugyanolyan eloszlásúak-eX1, . . . ,Xn ; Y1, . . . ,Ym minták

H0 : P(X < x) = P(Y < y)

Intervallumfelosztást készítünk:

νi = az i-ik intervallumba eso mintaelemszám, azaz Ii elofordulásánakgyakorisága az 1. minta alapján

µi = ugyanaz a 2. minta alapján

A próbastatisztika:

χ = n ·m ·r

∑i=1

(νin −

µim

νi +µi

Ez a statisztika r−1 szabadsági fokú χ2 eloszlású.A továbbiakban minden ugyanúgy zajlik.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 55 / 80

Page 56: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Függetlenségvizsgálat

Legyen A1, . . . ,Ar ; B1, . . . ,Bs két teljes eseményrendszer.H0 : P(Ai∩Bj) = P(Ai) ·P(Bj) ∀ i = 1, . . . ,r, j = 1, . . . ,s.

A próbastatisztika:

χ =r

∑i=1

∑j=1

(νij−n ·pi ·qj)2

n ·pi ·qj

ahol νij az Ai∩Bi gyakorisága n független megfigyelésben.Ez r · s−1 fokú χ2 eloszlású.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 56 / 80

Page 57: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Normális eloszlás várható értékére próbák: ismert szórás

Az U-próba (Z-test):Legyen X1, X2, . . . ,Xn egy N(m,σ) eloszlású független minta, melynekszórása σ ismert, de igazi várható értéke m nem, viszont azt feltételezzükróla, hogy egy adott m0 értékkel egyenlo.A H0: m = m0 nullhipotézist teszteljük, vagy a

H1: m > m0 egyoldali, vagy aH1: m 6= m0 kétoldali

alternatíva mellett.A próbastatisztika:

U =√

n · (X−m0)

σ,

azaz az átlag standardizált eltérése a hipotetikus várható értéktol, ha igaza nullhipotézis!!!. (Ne feledjük X szórása: σ√

n , bármi is az m, de aszámláló csak H0 mellett lesz 0 várható értéku.)Mivel a minta normális eloszlású, ezért az átlag is az, és így apróbastatisztika is. Mivel standardizáltuk ha igaz a nullhipotézis, ezért apróbastatisztika standard normális N(0,1) eloszlású lesz H0 mellett.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 57 / 80

Page 58: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Az U-próba kritikus tartománya

A próbastatisztika értékét a standard normális eloszláshoz hasonlítjuk.A kritikus tartomány az α szignifikancia szinten:

Xk = U ≥ uα az egyoldali,

Xk =|U| ≥ u α

a kétoldali

ellenhipotézis esetén, ahol uα a standard normális eloszlás1−α-kvantilise, azaz P(U < uα) = 1−α , illetve másként uα megoldásaa Φ(uα) = 1−α egyenletnek melyben Φ a standard normális eloszláseloszlásfüggvénye.Például u0.05=1.645, míg u0.025=1.96, tehát ha 5%-os, azaz 0.05-összignifikancia szinten akarok dönteni a nullhipotézisrol az egyoldalúalternatívával szemben, akkor 1.645-nél nagyobb próbastatisztikaértékekre utasítom azt el, míg ha kétoldalú az alternatíva, akkor 1.96-nálnagyobb, vagy -1.96-nál kisebb értékekre utasítom el.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 58 / 80

Page 59: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Kétmintás U-próba

Legyen X1, X2, . . . ,Xn1 , valamint Y1, Y2, . . . ,Yn2 két N(m1,σ1) illetveN(m2,σ2) eloszlású független minta, melynek szórásai σ1, σ2 ismertek.Az m1, m2 várható értékekrol azt feltételezzük, hogy egyenloek.A H0: m1 = m2 nullhipotézist teszteljük, vagy a

H1: m1 > m2 egyoldali, vagy aH1: m1 6= m2 kétoldali

alternatíva mellett.Legyen a próbastatisztika ekkor:

U =(X− Y)√

σ21

n1+

σ22

A nullhipotézis igaz volta mellett ez ugyancsak standard normáliseloszlású.Ennek megfeleloen innentol az elozoekben leírt eljárást követve akvantilisek segítségével meghatározzuk a kritikus tartományt, és ennekalapján döntünk.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 59 / 80

Page 60: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Normális eloszlás várható értékére próbák: ismeretlenszórás

A Student féle t-próba:Megint legyen X1, X2, . . . ,Xn egy N(m,σ) eloszlású független minta,melynek azonban szórása σ nem ismert, csakúgy mint igazi várhatóértéke m sem, viszont ez utóbbiról újfent azt feltételezzük, hogy egyadott m0 értékkel egyenlo.A H0: m = m0 nullhipotézist teszteljük, vagy a

H1: m > m0 egyoldali, vagy aH1: m 6= m0 kétoldali

alternatíva mellett.Mivel a szórásnégyzet nem ismert, ezért azt az U-próbapróbastatisztikájában a becsült értékével helyettesítjük. Azonban abecsült érték valváltozó, így a próbastatisztika eloszlását megváltoztatja!A próbastatisztika:

t =√

n · (X−m0)√S∗2n

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 60 / 80

Page 61: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Student féle t-próba

A próbastatisztika tehát az átlagnak a becsült szórással standardizálteltérése a hipotetikus várható értéktol, ha igaz a nullhipotézis. (Aszámláló megint csak H0 mellett lesz 0 várható értéku!)Vegyük észre, hogy az ismeretlen σ szórás nem befolyásolja apróbastatisztika eloszlását, ugyanis a számláló és a nevezo szórásaegyaránt σ -szoros, és így a hányadosból kiesik. Az ismeretlen szórásilyen, becslés nélküli eltávolítását nevezik studentizálásnak.Mivel a minta normális eloszlású, ezért az átlag is az, és így apróbastatisztikában a számláló is, sot, mivel az ismeretlen σ kiesik, ezértH0 mellett standard normális is.A nevezoben normálisak négyzetösszege van, H0 mellett 0 várhatóértékueké, és mivel σ innen is kiesik, ezért az eloszlás n−1 szabadságifokú χ2 lesz (n a minta elemszáma).Mindez együtt adja, hogy a hányados n−1 szabadsági fokú t-eloszlásúlesz a nullhipotézis igaz volta mellett.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 61 / 80

Page 62: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A t-próba kritikus tartománya

A próbastatisztika értékét most tehát az n−1 szabadsági fokú teloszláshoz hasonlítjuk.

A kritikus tartomány az α szignifikancia szinten:

Xk = t ≥ tα,n1 az egyoldali,

Xk =|t| ≥ t α

2 ,n−1

a kétoldali

ellenhipotézis esetén, ahol tα,n az n szabadsági fokú t eloszlás1−α-kvantilise.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 62 / 80

Page 63: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Az U- és t-próba tulajdonságai

Mind az U-próba, mind a t-próba likelihood hányados próba, a normáliseloszlás pedig teljesíti a regularitási feltételeket, ezért az egyoldalúalternatíva mellett ezek egyenletesen legerosebb próbák. A kétoldalúellenhipotézis esetén azonban nem egyenletesen legerosebbek, ilyenkornincs is egyenletesen legerosebb.

Ha a minta elemszáma nagy, a t-próba helyett az U-próba is használható(ezzel a korrigált tapasztalati szórásnégyzetbol kapott becslésingadozását elhanyagoljuk, megbízhatóságát 100%-osnak tekintjük).

Mivel ezek a próbák az átlagot használják, ami közel normális eloszlásúmindig, ha a minta eloszlása a centrális határeloszlás tétel feltételeitteljesíti, ezért a próba nem érzékeny a normális eloszlástól való ilyeneltérésre.

Erosen vastag farkú eloszlás esetén már közelítoleg sem feltétlen admegbízható eredményt a próba.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 63 / 80

Page 64: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Kétmintás t-próba

Legyen X1, X2, . . . ,Xn1 , valamint Y1, Y2, . . . ,Yn2 két N(m1,σ) illetveN(m2,σ) eloszlású független minta, melynek szórásai ismertetlenek bárde megegyeznek. Az m1, m2 várható értékekrol azt feltételezzük, hogyegyenloek.

A H0: m1 = m2 nullhipotézist teszteljük, vagy aH1: m1 > m2 egyoldali, vagy aH1: m1 6= m2 kétoldali alternatíva mellett.

Legyen a próbastatisztika ekkor:

t =

√n1n2

n1 +n2−2n1 +n2

· (X− Y)√∑

n1i=1(Xi−X)2 ∑

n2i=1(Yi−Y)2

A nullhipotézis igaz volta mellett ez ugyancsak t eloszlású, n+m−2szabadsági fokkal. Ennek megfeleloen a kvantilisek segítségévelmeghatározzuk a kritikus tartományt, és ennek alapján döntünk.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 64 / 80

Page 65: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Welch próba

Legyen X1, X2, . . . ,Xn1 , valamint Y1, Y2, . . . ,Yn2 két N(m1,σ1) illetveN(m2,σ2) eloszlású független minta, melynek szórásai σ1, σ2ismertetlenek. Az m1, m2 várható értékekrol azt feltételezzük, hogyegyenloek.A H0: m1 = m2 nullhipotézist teszteljük, vagy a

H1: m1 > m2 egyoldali, vagy aH1: m1 6= m2 kétoldali alternatíva mellett.

Legyen a próbastatisztika ekkor:

t′ = n1n2(X− Y)√

S∗21 n2 +S∗22 n1

A nullhipotézis igaz volta mellett ez közelítoleg t eloszlású. A dszabadsági fok a c =: S∗21 n2

S∗21 n2+S∗22 n1jelölés mellett:

1d=

n1−1+

(1− c)2

n2−1

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 65 / 80

Page 66: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Próba a szórásnégyzetek egyezésének tesztelésére

A (Fisher féle) F-próba:Legyen X1, X2, . . . ,Xn1 , valamint Y1, Y2, . . . ,Yn2 két N(m1,σ1) illetveN(m2,σ2) eloszlású független minta, melynek várható értékei m1, m2 ésszórásai σ1, σ2 egyaránt ismertetlenek.A H0: σ1 = σ2 nullhipotézist teszteljük, a

H1: σ1 6= σ2 kétoldali alternatíva mellett.Legyen a próbastatisztika ekkor:

F =S∗21

S∗22

A nullhipotézis igaz volta mellett ez Fisher féle kétparaméteres Feloszlású, n1, n2 szabadsági fokokkal.Az F próbastatisztika helyett jobb (mert erosebb próbát ad) az

F′ = max(

F,1F

)próbastatisztikát választani, de ekkor a szabadsági

fokok meghatározásánál a sorrendre ügyelni kell.Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 66 / 80

Page 67: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Eloszlásilleszkedés ellenorzése: Kolmogorov–Szmirnov teszt

A Kolmogorov–Szmirnov teszttel1 azt ellenorizzük, hogy egy n elemu független mintának ( pl. egy

valószínuségi változó n-szeri független megfigyelésének) csakugyan azaz eloszlása, amit feltételeztünk, az eloszlást az eloszlásfüggvénnyelmegadva,(Egymintás K-S teszt),

2 vagy két minta (pl. két valószínuségi változó n-szeri függetlenmegfigyelése) eloszlásának egyezésérol döntünk segítségével.(Kétmintás K-S teszt).

A tapasztalati és az elméleti eloszlásfüggvény abszolút eltérésénekmaximuma alapján döntünk.A Glivenko tételbol tudjuk, hogy tapasztalati eloszlásfüggvény tartelméletihez, tehát azt teszteljük, hogy adott mintaelemszám mellett azeltérésük tipikusnak mondható, csak annyi, amennyit ez a mintaszámindokol, vagy ennél nagyobb.A próbát Andrej Nyikolájevics Kolmogorov dolgozta ki.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 67 / 80

Page 68: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Kolmogorov–Szmirnov teszt, a nullhipotézis

Legyen X = X1,X2, . . . , Xn a vizsgált minta, aminek eloszlása FX(x) nemismert, de feltételezzük, hogy megegyezik az F(x) eloszlásfüggvénnyelmegadott eloszlással.

H0 : FX(x) = F(x) vs. H1 : FX(x) 6= F(x)

Definiáljuk a tapasztalati eloszlásfüggvényt a szokásos módon:

Fn(x) = P(X < x) =1n

∑i=1

I(Xi < x)

alapján. A Glivenko–tétel szerint a tapasztalati eloszlásfüggvényegyenletesentart a valódi eloszlásfüggvényhez, tehát

dn = ‖Fn−F‖= supx|Fn(x)−F(x)| → 0.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 68 / 80

Page 69: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Kolmogorov–Szmirnov teszt, a próbastatisztika és eloszlása

A szuprémumot természetesen csak a mintaértékekre számoljuk ki, deehhez eloször sorbarendezzük oket, vagyis a rendezett minta helyeintekintjük a tapasztalati és a hipotetikus eloszlásfüggvény különbségét.

Ami nagyon fontos, hogy a különbség szuprémum√

n-szeresénekeloszlása nem függ az ismeretlen igazi mintaeloszlástól, legalábbis, haF(x) folytonos. Ez teszi lehetové, hogy ezt válasszukpróbastatisztikának:

Dn =√

nsupx|Fn(x)−F(x)|

P(Dn < t) = H(t) = 1−2∞

∑i=1

(−1)i−1e−2i2t

A határeloszlás alapján az α kvantilissel választhatjuk meg a kritikusértéket, és a próbastatisztika ennél nagyobb értékeinél utasítjuk el anullhipotézist.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 69 / 80

Page 70: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

További tesztek az eloszlásilleszkedés ellenorzésére

Elsoként az Anderson–Darling és a Cramér–von Mises teszteket említjükmeg, amelyek ugyancsak a tapasztalati és az elméleti eloszlásfüggvényeltérésének vizsgálatán alapulnak.

A Kolmogorov–Szmirnov teszt a különbség szuprémumának vizsgálatánkeresztül az eloszlás szokásos, gyakori értékei körül követeli meg a jóilleszkedést és ezt ellenorzi. Ezt abból is látjuk, hogy mindeneloszlásfüggvény 0 a −∞-ben és 1 a +∞-ben, tehát nem várhatjuk, hogyaz eltérés szuprémum valahol errefelé legyen, vagyis a nem túl gyakori,szélsoséges értékek között.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 70 / 80

Page 71: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A Cramér–von Mises próbastatisztika

Egyenletesebb, nagyobb értéktartományon meglévo illeszkedéstkövetelhetünk meg, ha az eltérés négyzetintegtáljától várjuk el, hogykicsi legyen. Ezt teszi a Cramér–von Mises teszt.Próbastatisztikája:

n∞∫−∞

(Fn(x)−F(x))2dF(x).

Ez viszont érzéketlen a kis értéktartományban meglévo jelentosváltozásra, pl. egy ugrásra a felvett értékek között.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 71 / 80

Page 72: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Az Anderson Darling teszt

Megfelelo súlyozást bevezetve az integrálásban tovább finomíthatjuk,hogy az értékek mely tartományában szeretnénk pontosabb illeszkedésteloírni, és azt ellenorizni. Alkalmas súlyválasztással a nagy (ritka,szélsoséges) értékek illeszkedése is eloírható, és erre koncentrál jobbanaz Anderson-Darling teszt. Az Anderson-Darling tesztben a szélsoségesértékeket jobban súlyozó súlyfüggvény: w(x) = [F(x) (1−F(x))]−1,ahonnan a négyzetintegrál eltérés:

n∞∫−∞

(Fn(x)−F(x))2

[F(x) (1−F(x))]dF(x).

Ezek után felhasználva a nullhipotézisbol ismert eloszlásfüggvényt, úgytranszformáljuk az adatot, hogy egyenletes eloszlású legyen, majd arendezett mintával számoljuk az alábbi próbastatisztikát:

A2 =−n−S , ahol S =n

∑k=1

2k−1n

[ln(F(X∗k ))+ ln

(1−F(X∗n+1−k)

)].

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 72 / 80

Page 73: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Vegyük észre, hogy a próbastatisztika a tesztelendo eloszlástól függahogy az A2 statisztika eloszlása, és ezért a rá vonatkozó kritikus érték is.

A statisztika és a kritikus értékek változatait a normális, exponenciális,extrém-érték, Weibull, gamma, logisztikus, Cauchy, és von Miseseloszlásokra pl. Stephens (1986) könyvében meg lehet találni, de ma mártöbb statisztikai programcsomag is szolgáltatja a p-értéket, sokszor aQ-Q plothoz kapcsoltan. (Pl. Statistica).

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 73 / 80

Page 74: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A Jarque-Bera teszt

Normalitásellenorzésre szokásos még a Jarque-Bera féle goodness-of-fitteszt is amely az adat ferdeségén (skewness: S ) és lapultságán (kurtosis:K) alapul. A teszt Carlos Jarque és Anil K. Bera után van elnevezve. Ateszt statisztika JB:

JB =n6

(S2 +

14(K−3)2

és aszimptotikusan χ22 eloszlású.

A teszt túlérzékeny, elutasít akkor is, mikor a null igaz, nagy az elsofajúhiba aránya.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 74 / 80

Page 75: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

A Shapiro-Wilk teszt

Az egydimenziós Shapiro-Wilk teszt is igen elterjedt

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 75 / 80

Page 76: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Függetlenségvizsgálat: Fordulópont próba

Hogyan ellenorizheto a függetlenség:Fordulópont próba:y1, · · · ,yn megfigyelésDef.: i-ben 1 < i < n fordulópont van, ha

yi−1 < yi és yi > yi+1

yi−1 > yi és yi < yi+1

Mivel a fordulás valószínusége i-ben 2/3 ezért a várható fordulatok száma:

(n−2)23 = ET = µT

Megmutatható, hogy D2(T) = (16n− 29)/90 = σ2T és hogy T közelítoleg

N(µT ,σ2T) eloszlású.

Megjegyzés: Nagy T−µT érték azt jelenti, hogy hevesebben fluktuál a sorozatmint egy iid. Nagy negatív T − µT érték kis fluktuációra utal => pozitív kor-reláció van a szomszédos tagok közt.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 76 / 80

Page 77: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Függetlenségvizsgálat: Differencia-elojel próba

Differencia-elojel próba:Számoljuk azon i-ket, amelyre yi > yi−1, i = 2, ...,n.

Ez ugyanaz,mint a differenciált sorozat pozitív tagjainak S száma.iid sorozatra:

µS = ES = 12 · (n−1)

σ2S = D2S = n+1

és nagy n-re S∼ N(µS,σ2S )

Ha S−µS nagy pozitív v negatív érték,⇒ valószínuleg trend van (növekvo, illcsökkeno) a sorozatban.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 77 / 80

Page 78: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Függetlenségvizsgálat: Wilcoxon rang próba

Rang próba: hasznos ha lineáris trendet kell detektálni.Legyen P azon (i,j) párok számra, amelyre yj > yi és j > i, i = 1, · · · ,n−1(n

pár van, ahol j > i, és mindegyikre 12 a valószínüsége, hogy yj > yi. Ezért

µp = EP = 14 ·n · (n−1)

Megmutatjuk, hogy:

σ2p = D2P = n · (n−1)(2n+5) · 1

72 és

nagy n-re P∼ N(µp,σ2p )

Nagy poz. - neg. P−µp érték növ., ill csökk. trendre utal.Egy elutasító teszt alapján még nem biztos, hogy el kell utasítani a 0 hipotézist.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 78 / 80

Page 79: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Korrelálatlanság ellenorzése

Hogyan ellenorizheto a fehér zaj tulajdonság, azaz a korrelálatlanság:1 A tapasztalati autokovariancia függvénynek "szignifikánsan" 0-nak

kell lenniemivel tudjuk,hogy ezek gyakorlatilag függetlenek (Nem csak normálisfehér zajra!) és eloszlásuk N(0, 1

n ) így a 95 %-uknak a ±1,96/√

n -eshatárokon belül kell lennie - az 1,96 a standard Normális eloszlás 95 %-oskvantilise. Így például 40 "lag"-re elkészítve, ha 2,3 érték ezen kívül esik,vagy ha 1 nagyon kilóg⇒ elutasítjuk a fehér zaj hipotézist.

2 Portmanteau próbák:Ha a fenti helyett a Q = n ·∑h

j=1 γ2(j)h "lag"-re véve az autokorrelációk négyzetösszegét és ennek n-szereseúgy kell viselkedjen, mint h db N(0,1)-es négyzetösszege⇒ χ2

heloszlású. Ezt teszteljük.Ha Q > χ2

h (1−α)⇒ elutasítjuk a 0 hipotézist.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 79 / 80

Page 80: A Matematikai Statisztika Alapjai - · Matematikai statisztika alapjai Valszám alapfogalmak Valszám alapfogalmak ismétlés Eloszlás: A valváltozó eloszlásán, Q-n, durván

Matematikai statisztika alapjai Becsléselmélet

Ljung és Box finomítja:

QLB = n · (n+2)∑hj=1 γ2(j)/(n− j)

és ezt jobban közelíti a χ2 eloszlás.Ezek az eloszlások nem csak normális fehér zajra jók.

McLeod és Li tesztje (1983) csak Gauss fehér zajra, azaz normális eloszlásesetén, az adatok négyzetét veszi: W → W2 és ezek autokorreláció becsléséthasználja:

Q = n · (n+2)∑hj=1 γ2

W2(j)/(n− j)

Ez is χ2h eloszlású de érzékenyebb.

Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 80 / 80

Top Related