Statistická indukce

30
Statistická indukce Teorie odhadu

description

Statistická indukce. Teorie odhadu. Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp. některých charakteristik a to na základě výběrových dat. Hodnoty parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v ZS. - PowerPoint PPT Presentation

Transcript of Statistická indukce

Page 1: Statistická indukce

Statistická indukce

Teorie odhadu

Page 2: Statistická indukce

Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp. některých charakteristik a to na základě výběrových dat.

Hodnoty parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v ZS.

Z toho důvodu hovoříme o odhadu parametrů.

Metody odhadování parametrů:

Bodový odhad – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS; nic však neříká o tom, kde leží skutečné hodnoty parametrů.

Page 3: Statistická indukce

Interval spolehlivosti – neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS.

P(T1 T2) = 1 -

Interval T1, T2 nazýváme 100(1- )% intervalem spolehlivosti pro charakteristiku .

Pravděpodobnost, tj. číslo (1-) nazýváme spolehlivostí odhadu nebo také koeficientem spolehlivosti.

Pravděpodobnost se nazývá hladina významnosti (obvykle se volí hodnoty 0,01 nebo 0,05, příp. 0,1).

Page 4: Statistická indukce

Spolehlivost odhadu je dána zvolenou pravděpodobností. Čím je tato pravděpodobnost větší, tím je i daný odhad spolehlivější.

Čím více však roste spolehlivost odhadu (tj. roste 1-), tím se zvětšuje i příslušný interval spolehlivosti, který udává přesnost odhadu.

Čím bude daný interval širší, tím bude odhad spolehlivější, tj. hodnota odhadované charakteristiky bude ležet s vysokou pravděpodobností uvnitř intervalu, ale odhad bude méně přesný a jeho praktická využitelnost bude malá.

Závěr: mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost.

Page 5: Statistická indukce

Pro intervaly spolehlivosti platí, že

čím je rozsah výběru n větší, tím je interval spolehlivosti užší,

čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší,

čím je vyšší statistická jistota (1 - ), tím je interval spolehlivosti širší.

Je proto výhodné volit takové efektivní odhady, u kterých lze docílit nízkého rozptylu již pro malé rozsahy výběru.

Page 6: Statistická indukce

Spolehlivost odhadu je pravděpodobnost, s jakou se charakteristika ZS bude nacházet v intervalu vymezeném příslušnou výběrovou charakteristikou a maximální chybou.

Přesnost odhadu – maximální chyba, které se při odhadu s danou spolehlivostí dopustíme.

S rostoucí šířkou intervalu spolehlivosti klesá přesnost odhadu.

Intervaly spolehlivosti lze udávat trojím způsobem: jsou omezeny pouze shora, jsou omezeny pouze zdola, jsou omezeny zdola i shora.

Page 7: Statistická indukce

Omezíme-li interval shora i zdola, jedná se o interval dvoustranný (oboustranný).

P(T1 T2) = 1 -

P( T1) = P( T2) = /2

Jsou-li omezeny pouze zdola či shora, hovoří se o jednostranných intervalech.

Interval omezen shora – interval pravostranný

P( T2) = 1- P( T2) =

Interval omezen zdola – interval levostranný

P( T1) = 1- P( T1) =

Page 8: Statistická indukce

Intervalový odhad průměru ZS

Je potřeba vycházet z několika předpokladů:

základní soubor má normální rozdělení,

rozdělení ZS neznáme, ale náhodný výběr má velký rozsah,

známe či neznáme rozptyl ZS 2,

zda se jedná o výběr s vracením nebo bez vracení,

zda půjde o interval jednostranný nebo oboustranný.

Page 9: Statistická indukce

Obecně lze interval spolehlivosti pro průměr ZS popsat následujícím způsobem:

,1)xx(P se nazývá přípustná chyba odhadu.

Při konstrukci intervalového odhadu vycházíme z poznatků o asymptotickém rozdělení výběrových průměrů (viz. centrální limitní věty). Odtud vyplývá, že pro dostatečně velký rozsah výběru je rozdělení výběrových průměrů přibližně normální se střední hodnotou , rozptylem 2/n a veličina U má normované normální rozdělení.

Page 10: Statistická indukce

n

xU

2

O této veličině lze říci, že má při výběru z normálně rozděleného ZS normované normální rozdělení a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, které lze dobře aproximovat normovaným normálním rozdělením.

Využijeme-li definice náhodné veličiny, můžeme pak psát:

P(U u) = F(u) =

P(U u1-) = F(u1-) = 1-

P(u U u1-) = 1 - 2

Page 11: Statistická indukce

V tabulkách normované normální distribuční funkce lze najít pro libovolné (0 < 1) číslo u s vlastností

P(-u u u) = 1- .

Při konstrukci intervalu spolehlivosti vyjdeme tedy ze vztahu:

1)u

n

xu(P

2

Po úpravách dostaneme výraz:

1

nux

nuxP

22

Page 12: Statistická indukce

Levostranný interval

Pravostranný interval

Oboustranný interval (symetrický interval)

1

nuxP

2

2

1

nuxP

2

2

1

nux

nuxP

22

Page 13: Statistická indukce

Není znám rozptyl ZS – použijeme hodnotu s2

Ke konstrukci intervalu spolehlivosti použijeme veličinu

ns

xt

2

O veličině t lze říci, že při výběru z normálně rozděleného ZS má rozdělení Studentovo o (n-1) stupních volnosti a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, jež lze dobře aproximovat normovaným normálním rozdělením (jde např. o asymptotické normální rozdělení).

Page 14: Statistická indukce

Konstrukce intervalu spolehlivosti dozná jen malých změn.

Oboustranný interval

Levostranný interval

1

n

stx

n

stxP

2

)1n(

2

)1n(

1

n

stxP

2

)1n(2

Pravostranný interval

1

n

stxP

2

)1n(2

Page 15: Statistická indukce

Kdy se používají hodnoty u a kdy t?

Kritické hodnoty normálního rozdělení u

známe rozptyl ZS 2

známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100)

Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti

jde o výběr z normálního rozdělení a známe pouze rozptyl výběrový s2

rozsah výběrového souboru je malý (n < 100) soubor se řídí asymetrickým normálním

rozdělením

Page 16: Statistická indukce

Výraz

se nazývá směrodatná odchylka souboru výběrových průměrů a je odhadnuta ze všech teoreticky možných výběrových průměrů.

Meze dvoustranného intervalu spolehlivosti lze stručně zapsat:

x

22

n

snebo

n

,x kde ,n

u2

n

st

2

)1n(

představuje polovinu šířky intervalu spolehlivosti a nazývá se přípustná chyba, někdy také maximální možná chyba.

Page 17: Statistická indukce

PříkladZ velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.

Bodový odhad průměru = 116 mm.

Intervalový odhad

požadovaná spolehlivost (1-) = 0,95

kritická hodnota normálního rozdělení u0,05 = 1,96

n = 400 jde o velký soubor

Page 18: Statistická indukce

400

081,496,1116

400

081,496,1116

4,01164,0116

95,04,1166,115P

Interval pravostranný u2.0,05 = u0,1 = 1,6448

400

081,46448,1116

95,03356,116P

= 0,3356

Page 19: Statistická indukce

Snížíme počet vybraných jednotek, tzn. n = 30

Kritická hodnota t0,05(29) = 2,045

5237,130

081,4045,2

95,05237,11165237,1116P

P (114,4763 < 117,5237) = 0,95

Tento interval je mnohem širší než v předchozím výpočtu ( = 0,4).

Pokud bychom trvali za jinak stejných podmínek (při pevném rozsahu výběru) na zúžení intervalu spolehlivosti, klesala by zřejmě spolehlivost odhadu.

Page 20: Statistická indukce

V praxi se většinou 2 předem odhaduje, musíme jej tedy považovat za konstantu, ale ostatní veličiny lze předem zvolit (n, , ).

Z toho vyplývá, že v praxi je možno vzorec pro výpočet přípustné chyby využít k následujícím účelům:

ke stanovení šířky intervalu při určité žádané spolehlivosti a daném rozsahu výběru,

ke stanovení rozsahu výběru, který by zajistil požadovanou přesnost a spolehlivost,

k výpočtu spolehlivosti při určité požadované šířce intervalu spolehlivosti (ta zde vlastně znamená přesnost odhadu v daném rozsahu výběru).

Page 21: Statistická indukce

Stanovení rozsahu souboruJak velký musí být rozsah výběrového souboru, abychom ze zjištěných dat mohli provést intervalový odhad průměru s předem danou přesností?

Přesnost odhadu je charakterizována přípustnou chybou odhadu .

Pro stanovení minimálního rozsahu výběru lze použít vzorce přípustné chyby odhadu, z něhož snadnou úpravou dostaneme za předpokladu, že známe rozptyl ZS 2

.u

n2

22

Page 22: Statistická indukce

Neznáme-li rozptyl ZS, musíme provést tzv. dvoufázový náhodný výběr.

1) Předvýběr – zkusmo provedeme menší náhodný výběr o rozsahu m, z něhož vypočteme rozptyl

a nalezneme t(m-1). Požadovaný rozsah výběrového souboru pak vypočteme jako

2

i2 xx

1m

1s

.st

n2

22)1m(

Page 23: Statistická indukce

2) Druhá fáze

Je-li m n není již nutné provádět další šetření, protože předvýběr již dává dostatečně přesný odhad.

Je-li m n je nutno doplnit předvýběr o n-m jednotek na požadovaný rozsah n. Výběrový soubor o n jednotkách pak již dává dostatečně přesný odhad.

Příklad – vyjdeme z předchozího zadání

Požadujeme spolehlivost 95 % a přípustnou chybu odhadu 1 mm. Kolik jednotek je potřeba vybrat? Vyjdeme z předpokladů o předvýběru 30 jednotek.

s = 4,081 t0,05(29) = 2,045

Page 24: Statistická indukce

7065,691

081,4045,2n

2

22

Pro zajištění požadované spolehlivosti je potřeba rozšířit výběr o 40 jednotek (při zvolené šířce intervalu.

Určení spolehlivosti odhaduPokud nelze doplnit rozsah výběru, pak je možné zjistit, jak spolehlivý je daný odhad při předem zvolené přípustné chybě (šířce intervalu).

2

2

2

2

s

nt.event,

nu

Page 25: Statistická indukce

Příklad – vyjdeme z původního zadáníJaká bude spolehlivost odhadu, pokud požadujeme šířku intervalu 1mm a výběr nelze dále rozšířit?

s = 4,081 n = 30

34,1081,4

301t

2

2

Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, tzn. ke stanovení pravděpodobnosti použijeme distribuční funkci normovaného normálního rozdělení.

P(-1,34< u 1,34) = F(1,34) – F(-1,34) = 2F(1,34) –1= = 2 · 0,9099 – 1 = 0,8198

Page 26: Statistická indukce

Je možné srovnat následující výsledky:

P = 0,95 n = 30 = 1,5237

P = 0,95 n = 70 = 1

P = 0,8198 n = 30 = 1

Výběr bez vracení

1N

nN

nu

2

1N

nN

n

st

2

)1n(

1N

nN

Uvedená odmocnina se nazývá konečnostní násobitel, který je vždy menší než jedna.

Page 27: Statistická indukce

Vztah pro výpočet přípustné chyby lze použít k již uvedeným účelům.

Stanovení rozsahu výběru

Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti

222

22

u)1N(

Nun

)nN(

)1N(nu

2

2

Page 28: Statistická indukce

PříkladZ velké zásilky součástek o rozsahu 400 jednotek jsme jich náhodným výběrem pro kontrolu jakosti vybrali 30 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.

Bodový odhad průměru = 116 mm

Intervalový odhad

požadovaná spolehlivost (1-) = 0,95

kritická hodnota Studentova rozdělení t0,05 (29) = 2,045

n = 30 N = 400 jde o výběr bez vracení

Page 29: Statistická indukce

46728,11400

30400

30

081,4045,2

95,046728,111646728,1116P

95,046728,11753272,114P

Šířku intervalu chceme snížit na velikost 1 mm. Kolik jednotek výběru k tomu bude potřeba?

60447,59081,4045,2)1400(1

400081,4045,2n

222

22

Page 30: Statistická indukce

Jakou spolehlivost zaručí výběr 30 jednotek při požadované chybě 1 mm?

3937,1)30400(081,4

1)1400(30t

2

2

Na základě znalosti distribuční funkce normovaného normálního rozdělení je možné spolehlivost daného odhadu určit jako

P(-1,4 < u 1,4) = F(1,4) – F(-1,4) = 2F(1,4) – 1 = = 2 · 0,9192 – 1 = 0,8384