Statistická indukce
description
Transcript of Statistická indukce
Statistická indukce
Teorie odhadu
Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp. některých charakteristik a to na základě výběrových dat.
Hodnoty parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v ZS.
Z toho důvodu hovoříme o odhadu parametrů.
Metody odhadování parametrů:
Bodový odhad – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS; nic však neříká o tom, kde leží skutečné hodnoty parametrů.
Interval spolehlivosti – neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS.
P(T1 T2) = 1 -
Interval T1, T2 nazýváme 100(1- )% intervalem spolehlivosti pro charakteristiku .
Pravděpodobnost, tj. číslo (1-) nazýváme spolehlivostí odhadu nebo také koeficientem spolehlivosti.
Pravděpodobnost se nazývá hladina významnosti (obvykle se volí hodnoty 0,01 nebo 0,05, příp. 0,1).
Spolehlivost odhadu je dána zvolenou pravděpodobností. Čím je tato pravděpodobnost větší, tím je i daný odhad spolehlivější.
Čím více však roste spolehlivost odhadu (tj. roste 1-), tím se zvětšuje i příslušný interval spolehlivosti, který udává přesnost odhadu.
Čím bude daný interval širší, tím bude odhad spolehlivější, tj. hodnota odhadované charakteristiky bude ležet s vysokou pravděpodobností uvnitř intervalu, ale odhad bude méně přesný a jeho praktická využitelnost bude malá.
Závěr: mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost.
Pro intervaly spolehlivosti platí, že
čím je rozsah výběru n větší, tím je interval spolehlivosti užší,
čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší,
čím je vyšší statistická jistota (1 - ), tím je interval spolehlivosti širší.
Je proto výhodné volit takové efektivní odhady, u kterých lze docílit nízkého rozptylu již pro malé rozsahy výběru.
Spolehlivost odhadu je pravděpodobnost, s jakou se charakteristika ZS bude nacházet v intervalu vymezeném příslušnou výběrovou charakteristikou a maximální chybou.
Přesnost odhadu – maximální chyba, které se při odhadu s danou spolehlivostí dopustíme.
S rostoucí šířkou intervalu spolehlivosti klesá přesnost odhadu.
Intervaly spolehlivosti lze udávat trojím způsobem: jsou omezeny pouze shora, jsou omezeny pouze zdola, jsou omezeny zdola i shora.
Omezíme-li interval shora i zdola, jedná se o interval dvoustranný (oboustranný).
P(T1 T2) = 1 -
P( T1) = P( T2) = /2
Jsou-li omezeny pouze zdola či shora, hovoří se o jednostranných intervalech.
Interval omezen shora – interval pravostranný
P( T2) = 1- P( T2) =
Interval omezen zdola – interval levostranný
P( T1) = 1- P( T1) =
Intervalový odhad průměru ZS
Je potřeba vycházet z několika předpokladů:
základní soubor má normální rozdělení,
rozdělení ZS neznáme, ale náhodný výběr má velký rozsah,
známe či neznáme rozptyl ZS 2,
zda se jedná o výběr s vracením nebo bez vracení,
zda půjde o interval jednostranný nebo oboustranný.
Obecně lze interval spolehlivosti pro průměr ZS popsat následujícím způsobem:
,1)xx(P se nazývá přípustná chyba odhadu.
Při konstrukci intervalového odhadu vycházíme z poznatků o asymptotickém rozdělení výběrových průměrů (viz. centrální limitní věty). Odtud vyplývá, že pro dostatečně velký rozsah výběru je rozdělení výběrových průměrů přibližně normální se střední hodnotou , rozptylem 2/n a veličina U má normované normální rozdělení.
n
xU
2
O této veličině lze říci, že má při výběru z normálně rozděleného ZS normované normální rozdělení a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, které lze dobře aproximovat normovaným normálním rozdělením.
Využijeme-li definice náhodné veličiny, můžeme pak psát:
P(U u) = F(u) =
P(U u1-) = F(u1-) = 1-
P(u U u1-) = 1 - 2
V tabulkách normované normální distribuční funkce lze najít pro libovolné (0 < 1) číslo u s vlastností
P(-u u u) = 1- .
Při konstrukci intervalu spolehlivosti vyjdeme tedy ze vztahu:
1)u
n
xu(P
2
Po úpravách dostaneme výraz:
1
nux
nuxP
22
Levostranný interval
Pravostranný interval
Oboustranný interval (symetrický interval)
1
nuxP
2
2
1
nuxP
2
2
1
nux
nuxP
22
Není znám rozptyl ZS – použijeme hodnotu s2
Ke konstrukci intervalu spolehlivosti použijeme veličinu
ns
xt
2
O veličině t lze říci, že při výběru z normálně rozděleného ZS má rozdělení Studentovo o (n-1) stupních volnosti a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, jež lze dobře aproximovat normovaným normálním rozdělením (jde např. o asymptotické normální rozdělení).
Konstrukce intervalu spolehlivosti dozná jen malých změn.
Oboustranný interval
Levostranný interval
1
n
stx
n
stxP
2
)1n(
2
)1n(
1
n
stxP
2
)1n(2
Pravostranný interval
1
n
stxP
2
)1n(2
Kdy se používají hodnoty u a kdy t?
Kritické hodnoty normálního rozdělení u
známe rozptyl ZS 2
známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100)
Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti
jde o výběr z normálního rozdělení a známe pouze rozptyl výběrový s2
rozsah výběrového souboru je malý (n < 100) soubor se řídí asymetrickým normálním
rozdělením
Výraz
se nazývá směrodatná odchylka souboru výběrových průměrů a je odhadnuta ze všech teoreticky možných výběrových průměrů.
Meze dvoustranného intervalu spolehlivosti lze stručně zapsat:
x
22
n
snebo
n
,x kde ,n
u2
n
st
2
)1n(
představuje polovinu šířky intervalu spolehlivosti a nazývá se přípustná chyba, někdy také maximální možná chyba.
PříkladZ velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.
Bodový odhad průměru = 116 mm.
Intervalový odhad
požadovaná spolehlivost (1-) = 0,95
kritická hodnota normálního rozdělení u0,05 = 1,96
n = 400 jde o velký soubor
400
081,496,1116
400
081,496,1116
4,01164,0116
95,04,1166,115P
Interval pravostranný u2.0,05 = u0,1 = 1,6448
400
081,46448,1116
95,03356,116P
= 0,3356
Snížíme počet vybraných jednotek, tzn. n = 30
Kritická hodnota t0,05(29) = 2,045
5237,130
081,4045,2
95,05237,11165237,1116P
P (114,4763 < 117,5237) = 0,95
Tento interval je mnohem širší než v předchozím výpočtu ( = 0,4).
Pokud bychom trvali za jinak stejných podmínek (při pevném rozsahu výběru) na zúžení intervalu spolehlivosti, klesala by zřejmě spolehlivost odhadu.
V praxi se většinou 2 předem odhaduje, musíme jej tedy považovat za konstantu, ale ostatní veličiny lze předem zvolit (n, , ).
Z toho vyplývá, že v praxi je možno vzorec pro výpočet přípustné chyby využít k následujícím účelům:
ke stanovení šířky intervalu při určité žádané spolehlivosti a daném rozsahu výběru,
ke stanovení rozsahu výběru, který by zajistil požadovanou přesnost a spolehlivost,
k výpočtu spolehlivosti při určité požadované šířce intervalu spolehlivosti (ta zde vlastně znamená přesnost odhadu v daném rozsahu výběru).
Stanovení rozsahu souboruJak velký musí být rozsah výběrového souboru, abychom ze zjištěných dat mohli provést intervalový odhad průměru s předem danou přesností?
Přesnost odhadu je charakterizována přípustnou chybou odhadu .
Pro stanovení minimálního rozsahu výběru lze použít vzorce přípustné chyby odhadu, z něhož snadnou úpravou dostaneme za předpokladu, že známe rozptyl ZS 2
.u
n2
22
Neznáme-li rozptyl ZS, musíme provést tzv. dvoufázový náhodný výběr.
1) Předvýběr – zkusmo provedeme menší náhodný výběr o rozsahu m, z něhož vypočteme rozptyl
a nalezneme t(m-1). Požadovaný rozsah výběrového souboru pak vypočteme jako
2
i2 xx
1m
1s
.st
n2
22)1m(
2) Druhá fáze
Je-li m n není již nutné provádět další šetření, protože předvýběr již dává dostatečně přesný odhad.
Je-li m n je nutno doplnit předvýběr o n-m jednotek na požadovaný rozsah n. Výběrový soubor o n jednotkách pak již dává dostatečně přesný odhad.
Příklad – vyjdeme z předchozího zadání
Požadujeme spolehlivost 95 % a přípustnou chybu odhadu 1 mm. Kolik jednotek je potřeba vybrat? Vyjdeme z předpokladů o předvýběru 30 jednotek.
s = 4,081 t0,05(29) = 2,045
7065,691
081,4045,2n
2
22
Pro zajištění požadované spolehlivosti je potřeba rozšířit výběr o 40 jednotek (při zvolené šířce intervalu.
Určení spolehlivosti odhaduPokud nelze doplnit rozsah výběru, pak je možné zjistit, jak spolehlivý je daný odhad při předem zvolené přípustné chybě (šířce intervalu).
2
2
2
2
s
nt.event,
nu
Příklad – vyjdeme z původního zadáníJaká bude spolehlivost odhadu, pokud požadujeme šířku intervalu 1mm a výběr nelze dále rozšířit?
s = 4,081 n = 30
34,1081,4
301t
2
2
Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, tzn. ke stanovení pravděpodobnosti použijeme distribuční funkci normovaného normálního rozdělení.
P(-1,34< u 1,34) = F(1,34) – F(-1,34) = 2F(1,34) –1= = 2 · 0,9099 – 1 = 0,8198
Je možné srovnat následující výsledky:
P = 0,95 n = 30 = 1,5237
P = 0,95 n = 70 = 1
P = 0,8198 n = 30 = 1
Výběr bez vracení
1N
nN
nu
2
1N
nN
n
st
2
)1n(
1N
nN
Uvedená odmocnina se nazývá konečnostní násobitel, který je vždy menší než jedna.
Vztah pro výpočet přípustné chyby lze použít k již uvedeným účelům.
Stanovení rozsahu výběru
Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti
222
22
u)1N(
Nun
)nN(
)1N(nu
2
2
PříkladZ velké zásilky součástek o rozsahu 400 jednotek jsme jich náhodným výběrem pro kontrolu jakosti vybrali 30 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce.
Bodový odhad průměru = 116 mm
Intervalový odhad
požadovaná spolehlivost (1-) = 0,95
kritická hodnota Studentova rozdělení t0,05 (29) = 2,045
n = 30 N = 400 jde o výběr bez vracení
46728,11400
30400
30
081,4045,2
95,046728,111646728,1116P
95,046728,11753272,114P
Šířku intervalu chceme snížit na velikost 1 mm. Kolik jednotek výběru k tomu bude potřeba?
60447,59081,4045,2)1400(1
400081,4045,2n
222
22
Jakou spolehlivost zaručí výběr 30 jednotek při požadované chybě 1 mm?
3937,1)30400(081,4
1)1400(30t
2
2
Na základě znalosti distribuční funkce normovaného normálního rozdělení je možné spolehlivost daného odhadu určit jako
P(-1,4 < u 1,4) = F(1,4) – F(-1,4) = 2F(1,4) – 1 = = 2 · 0,9192 – 1 = 0,8384