Nierówność informacyjna
description
Transcript of Nierówność informacyjna
![Page 1: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/1.jpg)
Nierówność informacyjna
IS
I
BS
xf
EExf
xfNEEI
N
i
1
1
;ln
''';
;''
2
22
1
2
2
2
Informacja zawarta w próbie
Zależność między wariancją estymatora S parametru a informacją
Jeżeli obciążenie estymatora (B) jest równe zeru
![Page 2: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/2.jpg)
Weryfikacja hipotez statystycznych
Hipoteza statystyczna – założenie co do rozkładu cech w populacji.
Test statystyczny – narzędzie weryfikacji tej hipotezy.
Testy parametryczne: weryfikacja hipotez parametrycznych, które dotyczą parametrów rozkładu danej cechy w populacji generalnej.
Testy nieparametryczne: weryfikacja hipotez nieparametrycznych dotyczących, np. zgodności rozkładu cech w populacji z rozkładem teoretycznym, zgodności rozkładów cech w dwóch różnych populacjach, losowości próby.
![Page 3: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/3.jpg)
Hipotezy i testy parametryczne
Hipoteza prosta – zakłada wartości wszystkich parametrów rozkładu.
Hipoteza złożona – wartość co najmniej jednego parametru jest nieznana (np. zakładamy tylko postać funkcyjną rozkładu).
Hipoteza zerowa (Ho) – hipoteza, którą weryfikujemy.
Hipoteza alternatywna (H1) – co najmniej jeden z parametrów rozkłady jest różny od tego z hipotezy zerowej.
![Page 4: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/4.jpg)
Błąd pierwszego rodzaju (false negative) – odrzucenie prawdziwej hipotezy Ho.
Błąd drugiego rodzaju (false positive) –przyjęcie fałszywej hipotezy Ho.
Błędy popełniane podczas weryfikacji hipotez statystycznych
![Page 5: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/5.jpg)
Poziom istotności ()
P(|x|xo)= (test dwustronny)
P(xxo)= (test jednostronny)
Obszar krytyczny (Sc):
P(xSc|Ho)=
Poziom istotności definiuje prawdopodobieństwo popełnienia błędu pierwszwego rodzaju (odrzucenia prawdziwej hipotezy zerowej).
![Page 6: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/6.jpg)
Moc testu: prawdopodobieństwo odrzucenia hipotezy zerowej w zależności od hipotezy alternatywnej.
M(Sc,)=P(XSc|H)=P(XSc|)
Test najmocniejszy hipotezy prostej Ho względem hipotezy alternatywnej H1:
P(Sc,1)=1-=max
Test jednostajnie najmocniejszy: test najmocniejszy względem jakiejkolwiek hipotezy alternatywnej.
![Page 7: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/7.jpg)
Test F Fishera równości wariancjiMamy dwie populacje o rozkładzie normalnym (np. przypadek pomiaru tej samej wielkości różnymi przyrządami). Pytanie: czy te populacje mają tą samą wariancję. W tym celu rozważamy iloraz F=s1
2/s22
22
21
1
2
2)2(2
12
2
12
22
22
22
2222
221
21
21
2112
1
2
1exp
22
1
)1()1(
X
X
f
fF
ff
fssNX
fssNX
f
f
![Page 8: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/8.jpg)
1
1
22
2
)(
122
21
0
2
2
11
2
21
212
2
1
22
21
22
21
21
1
1
Fs
sP
dFFf
fF
ff
ff
f
f
Fs
sPF
X
XPFW
Fff
ff
![Page 9: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/9.jpg)
Porównywanie wartości średnich (test Studenta)
tNfx
PtPtF
Nfx
s
Nx
s
xt
xxNN
s
xx
N
jjx
)()(
)1(
1
1
22
![Page 10: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/10.jpg)
)1(2
1d)(f
df
1ff
21
)1f(21
)t(F
't
0
t )1f(2
12
Weryfikacja hipotezy, że x=0
2
11
x
0 ts
N|x||t|
![Page 11: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/11.jpg)
Weryfikacja hipotezy o równości wartości średnich z dwóch serii pomiarów
)1()1(
)1()1(
||||||
21
22
212
2
21
21222
NN
sNsNs
sNN
NNsss
s
yx
st
yx
yx
221
2
11
'
NNf
tts
yx
st
![Page 12: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/12.jpg)
Przykład: porównywanie średnich z dwóch serii oznaczeń azotu w cynchoninie
Grupa 1 Grupa 1
9,29 9,53
9,38 9,48
9,35 9,61
9,43 9,68
średnia 9,363 9,575
odch.stand. 0,058 0,088
71,3)6,01,0(;61414;02,40527.0
575,9363,9
0527,00745,044
44;0745,0
6
088,03058,03 22
tft
ss
![Page 13: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/13.jpg)
Test Studenta dla par wiązanychOznaczanie zawartości NaOH w dwóch seriach roztworu
po elektrolizie NaCl (mg/dm3) przed (x) i za filtrem (y)
x y d=y-x
100,1 96,6 -3,5
115,1 115,6 +0,5
130,0 125,5 -4,5
93,6 94,0 +0,4
108,3 103,3 -5,0
137,2 134,4 -2,8
104,4 100,2 -4,2
97,3 97,3 0
36,27,95,0
93,2832,2
40,2
718
32,2
40,2
P
t
f
s
d
d
![Page 14: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/14.jpg)
Wykrywanie błędów grubych: test Dixona (nieparametryczny)
minmax
21
xx
xxQ
x1 – wynik podejrzany o błąd gruby
x2 – wynik mu najbliższy
Wynik x1 możemy odrzucić na poziomie istotności jeżeli Q > Q(, n) (n jest liczbą pomiarów).
![Page 15: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/15.jpg)
Wartości krytyczne testu Dixona
n1-
0.90 0.95 0.99
3 0.89 0.94 0.99
4 0.68 0.77 0.89
5 0.56 0.64 0.76
6 0.48 0.56 0.70
7 0.43 0.51 0.64
8 0.40 0.48 0.58
![Page 16: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/16.jpg)
Przykład: pomiar zawartości grafitu w żeliwie
1 2,86
2 2,89
3 2,90
4 2,91
5 2,99
5,95,0
62.086.299.2
91.299.2
Q
![Page 17: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/17.jpg)
Testy nieparametryczne
• Testy losowości: badamy, czy próba jest losowa – test mediany (Stevensa).
• Testy zgodności: badamy, czy rozkład z próby jest zgodny z założonym– Test 2, test W Shapiro-Wilka, test Kołmogorowa test
Lillieforsa (badanie normalności rozkładu).
• Testy jednorodności: badamy, czy dwie próby pochodzą z tej samej populacji– test serii Walda-Wolfowitza, test U Manna-Whitneya, test
Kołmogorowa-Smirnowa (dla prób niezależnych),– test znaków, test kolejnosci par Wilcoxona (dla prób
zależnych).
![Page 18: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/18.jpg)
Test 2 dobroci dopasowania
N
i i
iiN
ii
i
iii
fguT
fgu
1
2
1
2
gi: wynik i-tego pomiaru
fi: wartość teoretyczna wyniku i-tego pomiaru
i: odchylenie standardowe i-tego pomiaru.
Wielkości ui mają rozkład normalny o zerowej średniej i jednostkowej wariancji a zatem wielkość T ma rozkład 2 o N-p stopniach swobody, gdzie p jest liczbą estymowanych parametrów funkcji f.
Dopasowanie uznajemy za złe na poziomie istotności jeżeli T
![Page 19: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/19.jpg)
Zastosowanie testu 2 do weryfikacji hipotezy o rozkładzie częstości obserwacji
i
dxxfxPp ii
)()(
} } } }x
f(x)
… k … r
![Page 20: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/20.jpg)
r
ii
r
i i
iir
i i
ii
nn
np
npnnpn
1
1
2
12
22 )()(
Hipotezę o zgodności rozkładu obserwowanego z rozkładem założonym odrzucamy na poziomie istotności a jeżeli dla f stopni swobody.
f=liczba stopni swobody=r-p-1 gdzie p jest liczbą parametrów rozkładu (najwyżej r-1 stopni swobody).
ni: liczba obserwacji wielkości w i-tym przedziale; n: całkowita liczba obserwacji.
npi: wartość oczekiwana liczby obserwacji w i-tym przedziale
Wartość oczekiwana wariancji liczby obserwacji.
![Page 21: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/21.jpg)
Przykład: porównanie liczby zliczeń par elektron-pozyton w komorze pęcherzykowej naświetlonej promieniowaniem z rozkładem Poissona.
2=10.44
20.99=16.81
Nie ma zatem podstaw do odrzucenia rozkładu Poissona.
k k
k
kn
ek
kp
!/~
!)(
![Page 22: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/22.jpg)
Zastosowanie testu 2 do analizy tabeli wkładów
y1 y2 … yl
x1 n11 n12 … n1l
x2 n21 n22 … n2l
… … … … …
xk nk1 nk2 … nkl
k
i
l
jij
k
iijj
l
jiji
k
i
l
j ji
jiij
nn
nn
qnn
p
qpn
qpnn
1 1
11
1 1
22
1~1~
~~)~~(
x, y: zmienne losowe mogące przyjmować wartości odpowiednio x1, x2,…, xk oraz y1, y2,…, yl.
Każdej kombinacji zmiennych (xi,yj) przyporządkowana jest liczba obserwacji nij.
Jeżeli zmienne są współzależne na poziomie istotności to dla f=kl-1-(k+l-2)=(k-1)(l-1) stopni swobody.
![Page 23: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/23.jpg)
y1 y2
x1 n11=a n12=b
x2 n21=c n22=d
))()()((
)( 22
dbcadcba
bcadn
Przykład z medycyny: ocena skuteczności dwóch metod leczenia danej choroby.
x1: pierwsza metoda leczenia
x2: druga metoda leczenia
y1: przypadki wyleczone
y2: przypadki niewyleczone
f=liczba stopni swobody=(2-1)(2-1)=1
Jeżeli metody leczenia mają różną skuteczność to
![Page 24: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/24.jpg)
Test mediany (badanie losowości próby)1.1. Wyznaczamy medianę (m).Wyznaczamy medianę (m).2.2. Danym nieuporządkowanym przyporządkowujemy Danym nieuporządkowanym przyporządkowujemy
następujące oznaczenia:następujące oznaczenia:• A gdy x<mA gdy x<m• B gdy x>mB gdy x>m• 0 gdy x=m0 gdy x=m
3.3. Obliczamy liczbę następujących po sobie serii AAA…A i Obliczamy liczbę następujących po sobie serii AAA…A i BBB…B.BBB…B.
Liczby serii spełniają rozkład normalny z następującą Liczby serii spełniają rozkład normalny z następującą wartością średnią i wariancjąwartością średnią i wariancją
1
1221
22
2
nn
nnnnKs
n
nnKE bababa
na – liczba pomiarów A; nb – liczba pomiarów B; n – liczba pomiarów
![Page 25: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/25.jpg)
74,5 191,0 55,5 5,15 36,4 35,0 46,0 10,9 7,35 6,65
B B B A B A B A A A
173,5 26,0
B A
Mediana m=35,7
n=12, na=6, nb=6
Liczba serii k=8
Przykład (seria 12 pomiarów)
E(k)=2*6*6/12+1=7, s2(k)=2*6*6*(2*6*6-1)/[12*12*(12-1)]=3.23
Dla a=5% (ok. 3s odchylenia) przedział ufności rozciąga się od k=3 do k=10. Próba jest zatem losowa.
![Page 26: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/26.jpg)
Test Wilcoxona (par wiązanych)
• W tabeli ustawiamy w pary odpowiadające wielkości i obliczamy różnice.
• Sortujemy pary według różnic.• Każdej parze przyporządkowujemy rangę, która
jest równa numerowi porządkowemu pary (po sortowaniu), przy czym uśredniamy rangi, którym odpowiadają te same różnice.
• Osobno sumujemy rangi dodatnie i ujemne. • Mniejsza z tych sum stanowi statystykę W
Wilcoxona.• Porównujemy W z wartością krytyczną i
odrzucamy hipotezę o identyczności wyników w parach jeżeli W>Wtab.
![Page 27: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/27.jpg)
W J d ranga znak
3,2 3,5 0,3 5 +
2,7 3,0 0,3 5 +
3,1 3,8 0,7 10 +
2,9 3,2 0,3 5 +
3,4 3,8 0,4 8,5 +
2,8 3,2 0,4 8,5 +
3,4 3,7 0,3 5 +
3,4 3,6 0,2 1,5 +
3,2 3,4 0,2 1,5 +
3,3 3,6 0,3 6 +
suma 31,4 34,8 3,4 55
Przykład: ocena różnic wysokości drzew wiosną i jesienią
![Page 28: Nierówność informacyjna](https://reader030.fdocument.pub/reader030/viewer/2022033102/5681480b550346895db53b8b/html5/thumbnails/28.jpg)
Dla dużych prób liczba znaków „+” spełnia rozkład normalny z wartością średnią E(W+) i wariancją s2(W+):
24
121
4
1 2
nnn
Wsnn
WE