Statistická indukce

Statistická indukce

Teorie odhadu

Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp. některých charakteristik a to na základě výběrových dat.

Hodnoty parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v ZS.

Z toho důvodu hovoříme o odhadu parametrů.

Metody odhadování parametrů:

Bodový odhad – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS; nic však neříká o tom, kde leží skutečné hodnoty parametrů.

Interval spolehlivosti – neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS.

P(T1 T2) = 1 -

Interval T1, T2 nazýváme 100(1- )% intervalem spolehlivosti pro charakteristiku .

Pravděpodobnost, tj. číslo (1-) nazýváme spolehlivostí odhadu nebo také koeficientem spolehlivosti.

Pravděpodobnost se nazývá hladina významnosti (obvykle se volí hodnoty 0,01 nebo 0,05, příp. 0,1).

Spolehlivost odhadu je dána zvolenou pravděpodobností. Čím je tato pravděpodobnost větší, tím je i daný odhad spolehlivější.

Čím více však roste spolehlivost odhadu (tj. roste 1-), tím se zvětšuje i příslušný interval spolehlivosti, který udává přesnost odhadu.

Čím bude daný interval širší, tím bude odhad spolehlivější, tj. hodnota odhadované charakteristiky bude ležet s vysokou pravděpodobností uvnitř intervalu, ale odhad bude méně přesný a jeho praktická využitelnost bude malá.

Závěr: mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost.

Pro intervaly spolehlivosti platí, že

čím je rozsah výběru n větší, tím je interval spolehlivosti užší,

čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší,

čím je vyšší statistická jistota (1 - ), tím je interval spolehlivosti širší.

Je proto výhodné volit takové efektivní odhady, u kterých lze docílit nízkého rozptylu již pro malé rozsahy výběru.

Spolehlivost odhadu je pravděpodobnost, s jakou se charakteristika ZS bude nacházet v intervalu vymezeném příslušnou výběrovou charakteristikou a maximální chybou.

Přesnost odhadu – maximální chyba, které se při odhadu s danou spolehlivostí dopustíme.

S rostoucí šířkou intervalu spolehlivosti klesá přesnost odhadu.

Intervaly spolehlivosti lze udávat trojím způsobem: jsou omezeny pouze shora, jsou omezeny pouze zdola, jsou omezeny zdola i shora.

Omezíme-li interval shora i zdola, jedná se o interval dvoustranný (oboustranný).

P(T1 T2) = 1 -

P( T1) = P( T2) = /2

Jsou-li omezeny pouze zdola či shora, hovoří se o jednostranných intervalech.

Interval omezen shora – interval pravostranný

P( T2) = 1- P( T2) =

Interval omezen zdola – interval levostranný

P( T1) = 1- P( T1) =

Intervalový odhad průměru ZS

Je potřeba vycházet z několika předpokladů:

základní soubor má normální rozdělení,

rozdělení ZS neznáme, ale náhodný výběr má velký rozsah,

známe či neznáme rozptyl ZS 2,

zda se jedná o výběr s vracením nebo bez vracení,

zda půjde o interval jednostranný nebo oboustranný.

Obecně lze interval spolehlivosti pro průměr ZS popsat následujícím způsobem:

,1)xx(P se nazývá přípustná chyba odhadu.

Při konstrukci intervalového odhadu vycházíme z poznatků o asymptotickém rozdělení výběrových průměrů (viz. centrální limitní věty). Odtud vyplývá, že pro dostatečně velký rozsah výběru je rozdělení výběrových průměrů přibližně normální se střední hodnotou , rozptylem 2/n a veličina U má normované normální rozdělení.

n

xU

2

O této veličině lze říci, že má při výběru z normálně rozděleného ZS normované normální rozdělení a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, které lze dobře aproximovat normovaným normálním rozdělením.

Využijeme-li definice náhodné veličiny, můžeme pak psát:

P(U u) = F(u) =

P(U u1-) = F(u1-) = 1-

P(u U u1-) = 1 - 2

V tabulkách normované normální distribuční funkce lze najít pro libovolné (0 < 1) číslo u s vlastností

P(-u u u) = 1- .

Při konstrukci intervalu spolehlivosti vyjdeme tedy ze vztahu:

1)u

n

xu(P

2

Po úpravách dostaneme výraz:

1

nux

nuxP

22

Levostranný interval

Pravostranný interval

Oboustranný interval (symetrický interval)

1

nuxP

2

2

1

nuxP

2

2

1

nux

nuxP

22

Není znám rozptyl ZS – použijeme hodnotu s2

Ke konstrukci intervalu spolehlivosti použijeme veličinu

ns

xt

2

O veličině t lze říci, že při výběru z normálně rozděleného ZS má rozdělení Studentovo o (n-1) stupních volnosti a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, jež lze dobře aproximovat normovaným normálním rozdělením (jde např. o asymptotické normální rozdělení).

Konstrukce intervalu spolehlivosti dozná jen malých změn.

Oboustranný interval

Levostranný interval

1

n

stx

n

stxP

2

)1n(

2

)1n(

1

n

stxP

2

)1n(2

Pravostranný interval

1

n

stxP

2

)1n(2

Kdy se používají hodnoty u a kdy t?

Kritické hodnoty normálního rozdělení u

známe rozptyl ZS 2

známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100)

Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti

jde o výběr z normálního rozdělení a známe pouze rozptyl výběrový s2

rozsah výběrového souboru je malý (n < 100) soubor se řídí asymetrickým normálním

rozdělením

Výraz

se nazývá směrodatná odchylka souboru výběrových průměrů a je odhadnuta ze všech teoreticky možných výběrových průměrů.

Meze dvoustranného intervalu spolehlivosti lze stručně zapsat:

x

22

n

snebo

n

,x kde ,n

u2

n

st

2

)1n(

představuje polovinu šířky intervalu spolehlivosti a nazývá se přípustná chyba, někdy také maximální možná chyba.

PříkladZ velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.

Bodový odhad průměru = 116 mm.

Intervalový odhad

požadovaná spolehlivost (1-) = 0,95

kritická hodnota normálního rozdělení u0,05 = 1,96

n = 400 jde o velký soubor

400

081,496,1116

400

081,496,1116

4,01164,0116

95,04,1166,115P

Interval pravostranný u2.0,05 = u0,1 = 1,6448

400

081,46448,1116

95,03356,116P

= 0,3356

Snížíme počet vybraných jednotek, tzn. n = 30

Kritická hodnota t0,05(29) = 2,045

5237,130

081,4045,2

95,05237,11165237,1116P

P (114,4763 < 117,5237) = 0,95

Tento interval je mnohem širší než v předchozím výpočtu ( = 0,4).

Pokud bychom trvali za jinak stejných podmínek (při pevném rozsahu výběru) na zúžení intervalu spolehlivosti, klesala by zřejmě spolehlivost odhadu.

V praxi se většinou 2 předem odhaduje, musíme jej tedy považovat za konstantu, ale ostatní veličiny lze předem zvolit (n, , ).

Z toho vyplývá, že v praxi je možno vzorec pro výpočet přípustné chyby využít k následujícím účelům:

ke stanovení šířky intervalu při určité žádané spolehlivosti a daném rozsahu výběru,

ke stanovení rozsahu výběru, který by zajistil požadovanou přesnost a spolehlivost,

k výpočtu spolehlivosti při určité požadované šířce intervalu spolehlivosti (ta zde vlastně znamená přesnost odhadu v daném rozsahu výběru).

Stanovení rozsahu souboruJak velký musí být rozsah výběrového souboru, abychom ze zjištěných dat mohli provést intervalový odhad průměru s předem danou přesností?

Přesnost odhadu je charakterizována přípustnou chybou odhadu .

Pro stanovení minimálního rozsahu výběru lze použít vzorce přípustné chyby odhadu, z něhož snadnou úpravou dostaneme za předpokladu, že známe rozptyl ZS 2

.u

n2

22

Neznáme-li rozptyl ZS, musíme provést tzv. dvoufázový náhodný výběr.

1) Předvýběr – zkusmo provedeme menší náhodný výběr o rozsahu m, z něhož vypočteme rozptyl

a nalezneme t(m-1). Požadovaný rozsah výběrového souboru pak vypočteme jako

2

i2 xx

1m

1s

.st

n2

22)1m(

2) Druhá fáze

Je-li m n není již nutné provádět další šetření, protože předvýběr již dává dostatečně přesný odhad.

Je-li m n je nutno doplnit předvýběr o n-m jednotek na požadovaný rozsah n. Výběrový soubor o n jednotkách pak již dává dostatečně přesný odhad.

Příklad – vyjdeme z předchozího zadání

Požadujeme spolehlivost 95 % a přípustnou chybu odhadu 1 mm. Kolik jednotek je potřeba vybrat? Vyjdeme z předpokladů o předvýběru 30 jednotek.

s = 4,081 t0,05(29) = 2,045

7065,691

081,4045,2n

2

22

Pro zajištění požadované spolehlivosti je potřeba rozšířit výběr o 40 jednotek (při zvolené šířce intervalu.

Určení spolehlivosti odhaduPokud nelze doplnit rozsah výběru, pak je možné zjistit, jak spolehlivý je daný odhad při předem zvolené přípustné chybě (šířce intervalu).

2

2

2

2

s

nt.event,

nu

Příklad – vyjdeme z původního zadáníJaká bude spolehlivost odhadu, pokud požadujeme šířku intervalu 1mm a výběr nelze dále rozšířit?

s = 4,081 n = 30

34,1081,4

301t

2

2

Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, tzn. ke stanovení pravděpodobnosti použijeme distribuční funkci normovaného normálního rozdělení.

P(-1,34< u 1,34) = F(1,34) – F(-1,34) = 2F(1,34) –1= = 2 · 0,9099 – 1 = 0,8198

Je možné srovnat následující výsledky:

P = 0,95 n = 30 = 1,5237

P = 0,95 n = 70 = 1

P = 0,8198 n = 30 = 1

Výběr bez vracení

1N

nN

nu

2

1N

nN

n

st

2

)1n(

1N

nN

Uvedená odmocnina se nazývá konečnostní násobitel, který je vždy menší než jedna.

Vztah pro výpočet přípustné chyby lze použít k již uvedeným účelům.

Stanovení rozsahu výběru

Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti

222

22

u)1N(

Nun

)nN(

)1N(nu

2

2

PříkladZ velké zásilky součástek o rozsahu 400 jednotek jsme jich náhodným výběrem pro kontrolu jakosti vybrali 30 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.

Bodový odhad průměru = 116 mm

Intervalový odhad

požadovaná spolehlivost (1-) = 0,95

kritická hodnota Studentova rozdělení t0,05 (29) = 2,045

n = 30 N = 400 jde o výběr bez vracení

46728,11400

30400

30

081,4045,2

95,046728,111646728,1116P

95,046728,11753272,114P

Šířku intervalu chceme snížit na velikost 1 mm. Kolik jednotek výběru k tomu bude potřeba?

60447,59081,4045,2)1400(1

400081,4045,2n

222

22

Jakou spolehlivost zaručí výběr 30 jednotek při požadované chybě 1 mm?

3937,1)30400(081,4

1)1400(30t

2

2

Na základě znalosti distribuční funkce normovaného normálního rozdělení je možné spolehlivost daného odhadu určit jako

P(-1,4 < u 1,4) = F(1,4) – F(-1,4) = 2F(1,4) – 1 = = 2 · 0,9192 – 1 = 0,8384

Statistická indukce

Documents

Transcript of Statistická indukce