Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...
Transcript of Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...
-
Statystyka
Matematyczna
Anna Janicka
wykład II, 29.02.2016
STATYSTYKA OPISOWA, cz. II
WSTĘP DO STATYSTYKI MATEMATYCZNEJ
-
Plan na dzisiaj
1. Statystyka opisowa, cz. II:� miary położenia – dokończenie
� miary zróżnicowania
� miary asymetrii
� wykres pudełkowy
2. Wstęp do statystyki matematycznej� model statystyczny
-
Moda
Moda (dominanta, wartość modalna)wartość najczęściej pojawiająca się w próbie
� dla szeregu rozdzielczego punktowego:
Mo = wartość najczęstsza
� dla szeregu rozdzielczego przedziałowego
gdzie
nMo – liczebność klasy dominanty,
cL, b – dla dominanty analogicznie do mediany
bnnnn
nncMo
MoMoMoMo
MoMoL ⋅−+−
−+≅
+−
−
)()( 11
1
-
Przykład 1 – cd.
Ocena Liczebność Częstość2 72 0,4293 42 0,250
3,5 32 0,1904 11 0,065
4,5 7 0,0425 4 0,024
Razem 168 1,000
Moda – przykładyKwartyle – przykładyWariancja – przykłady
-
Przykład 3 – cd.
PrzedziałŚrodek
przedziałuLiczebność Częstość
Liczebność skumulowana
Częstość skumulowana
(30,40] 35 11 0,11 11 0,11(40,50] 45 23 0,23 34 0,34(50,60] 55 33 0,33 67 0,67(60,70] 65 12 0,12 79 0,79(70,80] 75 6 0,06 85 0,85(80,90] 85 8 0,08 93 0,93
(90,100] 95 3 0,03 96 0,96(100,110] 105 2 0,02 98 0,98(110,120] 115 2 0,02 100 1Razem 100 1
Moda – przykładyKwartyle – przykładyWariancja – przykłady
-
Moda – przykłady
Przykład 1:
Mo = 2
Przykład 3:
przedział dominanty to (50,60], o liczebności 33
nMo = 33, cL = 50, b = 10, nMo-1 = 23, nMo+1 = 12
23,5310)1233()2333(
233350 ≈⋅
−+−−
+≅Mo
Przykład 1 – cd.
Przykład 3 – cd.
-
Którą miarę stosować?
� Średnia arytmetyczna: do szeregów typowych (jedno max, częstości monotoniczne)
� Dominanta: do szeregów typowych, danych pogrupowanych, długości przedziału dominanty i sąsiednich powinny być równe
� Mediana: nie ma ograniczeń. Najbardziej odporna na zaburzenia, niedokładności pomiaru, zmiany, wartości odstające
-
Kwantyle, kwartyle
� p-ty kwantyl (kwantyl rzędu p): odsetek wartości nie większych niż on wynosi co najmniej p, a wartości nie mniejszych co najmniej 1-p
� Q1 : Pierwszy kwartyl = kwantyl rzędu ¼
� Drugi kwartyl = mediana = kwantyl rzędu ½
� Q3: Trzeci kwartyl = kwantyl rzędu ¾
-
Kwantyle – cd.
Kwantyl próbkowy rzędu p:
∉
∈+
=
+
+
ZnpX
ZnpXX
Q
nnp
nnpnnp
p
:1][
:1:
2
-
Kwartyle – cd.
� Kwantyle dla p = ¼ i p = ¾.
� Dla szeregu rozdzielczego przedziałowego: wzór jak dla mediany
dla k=1 lub 3, odpowiednio
gdzie M1, M3 – numer klasy kwartyla
b – szerokość klasy kwartyla
cL – dolny koniec klasy kwartyla
−
⋅+≅ ∑
−
=
1
14
k
k
M
ii
MLk n
nk
n
bcQ
-
Kwartyle – przykłady
Przykład 1:
a więc
Przykład 3:
a więc
12616842168 4341 =⋅=⋅
( ) ( ) 5,3,2 168:127168:126213168:43168:42211 =+==+= XXQ XXQ
75100 25100 4341 =⋅=⋅
4M ,2 31 ==M
67,66)6775(12
1060 09,40)1125(
23
1040 31 ≈−+≅≈−+≅ QQ
Przykład 1 – cd.
Przykład 3 – cd.
-
Rozproszenie, zmienność, dyspersja
duże
małe
-
Miary rozproszenia
� Miary klasyczne� wariancja, odchylenie standardowe
� odchylenie przeciętne
� współczynnik zmienności (klas.)
� Miary pozycyjne� rozstęp
� rozstęp międzykwartylowy
� odchylenie ćwiartkowe
� współczynnik zmienności (poz.)
-
Miary pozycyjne
� Rozstępnajprostsza miara, nie bierze pod uwagę żadnych wartości oprócz skrajnych
� Rozstęp międzykwartylowybardziej odporny na obserwacje nietypowe niż zwykły rozstęp
nnn XXr :1: −=
13 QQIQR −=
na jego podstawie odchylenie ćwiartkowe Q= IQR/2, oraz pozycyjne współczynniki zmienności VQ = Q/Med albo VQ1Q3 = IQR/(Q3+Q1)także typowy przedział zmienności cechy: [Med – Q, Med + Q]
długość przedziału, w którym mieści się 50% środkowych obserwacji
-
Rozstęp, rozstęp międzykwartylowy –
przykłady
Przykład 1:
Przykład 3:
(w rzeczywistości
5,125,3
,325
=−=
=−=
IQR
r
58,2009,4667,66
)45,8645329118
9030120
=−≅
=
=−≅
IQR
,-,
r
-
Miary klasyczne
Wariancja
� dane surowe
� szereg rozdzielczy punktowy
� szereg rozdzielczy przedziałowy
+ ew. poprawka Shepparda
lub ogólniej
2
1
21
1
212 )()(ˆ ∑∑==
−=−=n
iin
n
iin XXXXS
2
1
21
1
212 )()(ˆ ∑∑==
−=−=k
iiin
k
iiin XXnXXnS
2
1
21
1
212 )()(ˆ ∑∑==
−=−≅k
iiin
k
iiin XcnXcnS
12
22 2ˆ cSS −≅
c=długość przedziałuklasy (jeśli równe)
2
1
112122 )(ˆ ∑
=−−−≅
k
i
iiinccnSS
-
Wariancja – przykłady
Przykład 1:
Przykład 3:
w rzeczywistości
( )4)842,25(7)842,25,4(11)842,24(32)842,25,3(42)842,23(72)842,22( 2222221681 ⋅−+⋅−+⋅−+⋅−+⋅−+⋅−
706,0
ˆ 2
≈
≈S
98,32212
1031,331
31,331
ˆ
22
10012
≈−=
=
⋅≈
S
S
)2)7,58115(2)7,58105(3)7,5895(8)7,5885(6)7,5875(
12)7,5865(33)7,5855(23)7,5845(11)7,5835((22222
2222
⋅−+⋅−+⋅−+⋅−+⋅−+
⋅−+⋅−+⋅−+⋅−
85,333ˆ 2 =S
Przykład 1 – cd.
Przykład 3 – cd.
rozkład nie jest normalny, za mała próba na poprawkę Shepparda – większe błędy wynikają z małej próby niż z podziału na klasy
-
Odchylenie standardowe
W tych samych jednostkach, co wyjściowy szereg
Przykład 1:
Przykład 3:
22 ,ˆˆ SSSS ==
[oceny] S 840,0ˆ ≈
][ 2,18ˆ 2mS ≈
-
Odchylenie przeciętne
średnie odchylenie bezwzględne
obecnie rzadko stosowane, choć łatwiejsze w obliczeniach, wyrażone w jednostkach naturalnych
dla danych surowych
itd...
Mamy: d
-
Współczynniki zmienności (klasyczne)
Do porównywania tej samej cechy w różnych populacjach lub różnych cech jednej populacji
%)100( lub
%),100(ˆ
⋅=
⋅=
X
dV
X
SV
d
S
-
Asymetria
lewostronna symetria prawostronna
(ujemna) (dodatnia)
(typowe układy)
MoMedX >
-
Miary asymetrii
� Współczynnik asymetrii
gdzie M3 jest trzecim momentem centralnym
� Współczynnik skośności
� Pozycyjny współczynnik asymetrii
3
3
Ŝ
MA =
ˆ
lub ˆ 11 S
MedXA
S
MoXA
−=
−=
13
132
2
QQ
QMedQA
−+−
=mierzy asymetrię tylko dla obserwacji drugiej i trzeciej ćwiartki
-
Interpretacja
� Wskaźniki dodatnie = asymetria dodatnia (prawostronna)
� Wskaźniki ujemne = asymetria ujemna (lewostronna)
� Dla współczynnika skośności (z medianą) i pozycyjnego wsp. asymetrii ocena siły asymetrii (co do modułu):
� 0 - 0,33: słaba
� 0,34 - 0,66: średnia
� 0,67 – 1: silna
-
Asymetria – przykłady
Przykład 1:
Przykład 3:
15,009,4667,66
09,4685,54267,66
)( 24,02,18
85,547,58 lub )( 3,0
2,18
23,537,58
,15,1
2
11
≈−
+⋅−≅
≈−
=≈−
≅
≅
A
MedAMoA
A
33,025,3
2325,3
00,1840,0
2842,2
18,0840,0
3842,2
55,0
2
1
1
−≈−+⋅−
=
≈−
=
−≈−
=
=
A
)Mo( A
)Med( A
A
-
Wykres pudełkowy („pudełko z wąsami”)
� Pozwala porównać graficznie dwie populacje (lub więcej)
(ewentualne)
obserwacje odstające:
xmax
obs. odstające
X*
Q3Med
Q1
X*obs. odstającexmin
]},[:max{
]},[:min{
23
33
123
1
IQRQQXXX
QIQRQXXX
ii
ii
+∈=
−∈=∗
∗
∗∗ >< XxXx lub
-
Wykres pudełkowy – przykład porównania
05
1015
1 2
-
Przyklady zestawień statystycznych (1)
Źródło: GUS, Ceny w gospodarce narodowej 2009
-
Przyklady zestawień statystycznych (2)
Źródło: GUS, Zużycie energii w gospodarstwach domowych 2009
-
Przyklady zestawień statystycznych (3)
siatka centylowa masy chłopców w W-wie
Źródło: IMiD, 1999
-
Przykłady zestawień statystycznych (4)
Względne rozstępy międzykwartylowe
Rozstęp międzykwartylowy poziomu emerytury wg płci
Źródło:Komisja Europejska 2013
-
Przykłady zestawień statystycznych (5)
Zróżnicowanie poziomów bezrobocia
Zróżnicowanie poziomów bezrobocia w ujęciu regionalnym (mierzone współczynnikiem zmienności), 2006
Źródło: Komisja Europejska
-
Przykłady zestawień statystycznych (6)
Godzinowe wynagrodzenia brutto, 2002
Źródło: komisja Europejska 2005
-
STATYSTYKA MATEMATYCZNA
-
Założenia statystyki matematycznej
Dane doświadczalne są wynikiem działania pewnego mechanizmu losowego.
A zatem: mamy do czynienia ze zmiennymi losowymi określonymi na pewnej przestrzeni probabilistycznej, których realizacjami (wartościami) są zebrane dane. Problem: nie znamy (dokładnego) rozkładu tych zmiennych losowych...
-
Różnica w podejściach RP i SM:
1. RP, przykład:� Sformułowanie: w procesie produkcyjnym każdy
konkretny wyrób może być wadliwy. Dzieje się tak z prawdopodobieństwem 10%. Wady poszczególnych sztuk są niezależne.
� Problemy: Jaka jest szansa, że w partii 50 sztuk dokładnie 6 będzie wadliwych? Ile średnio sztuk będzie wadliwych? Jaka jest najbardziej prawdopodobna liczba sztuk wadliwych?
� Rozwiązanie: budujemy model probabilistyczny, tu: Schemat Bernoulliego dla n=50, p=0,1
Ewentualnie, jeśli interesują nas też inne pytania (np. jaka jest szansa, że pierwsze 5 sztuk wadliwych), model dla ciągów
-
Różnica w podejściach RP i SM – cd.
2. SM, przykład:� Sformułowanie: Kontroler przebadał partię 50 sztuk
towaru. Wyniki są następujące (1– towar wadliwy, 0 –bez wad):
0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1
� Problemy: jakie jest prawdopodobieństwo, że produkt jest wadliwy (oszacowanie)? Czy prawdą może być deklaracja producenta, że wadliwość to 10%?
� Rozwiązanie: budujemy model statystyczny, czyli model probabilistyczny z nieznanym(i) parametrem(ami) rozkładu
-
Model Statystyczny
Model statystyczny:
gdzie:X – przestrzeń wartości obserwowanej
zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę zmiennych X1, ..., Xn)
FX
– σ-ciało na X
P – rodzina rozkładów prawdopodobieństw Pθ , indeksowana parametrem θ∈Θ
W mniej formalnym opisie zwykle podaje się: X, P, Θ
),,( PFΩ),,( PFX X
w RP było:
-
Model statystyczny – przykład
X = {0,1}n – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla θ ∈[0,1](u nas n=50 oraz X2 = X10 = X15 = X32 =X42 =
X50 =1, pozostałe Xi = 0)
ii
ii
xnx
n
i
xxnn xXxXxXP
Σ−Σ
=
−
−=
−==== ∏
)1(
)1(),...,,(1
12211
θθ
θθθ
-
Model statystyczny – przykład cd.
Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w próbie):
X = {0,1, 2, ..., n} – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla θ ∈[0,1](u nas n=50 oraz X=6)
xnx
x
nxXP −−
== )1()( θθθ
-
Model statystyczny – przykład cd. (2):
pytania
Mamy konkretne dane (próbkę):
� Jaka jest wartość parametru θ ?� interesuje nas konkretna wartość
� interesuje nas przedział (ufności)
→ zagadnienie estymacji
� Weryfikacja hipotezy, że θ =0,1
→ testowanie hipotez statystycznych
� → ew. predykcje
-
Statystyki
Estymację parametrów (punktową, przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:
Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci
Rozkład statystyki T zależy od rozkładu zmiennej X, ale statystyka jako taka nie może zależeć od parametru θ, np. X1+X2 - θ
),...,,( 21 nXXXTT =
-
Statystyki – przykład
są statystykami dla pierwszego sformułowania;
są statystykami dla drugiego sformułowania
Wybór statystyki zależy od pytania, na które mamy odpowiedzieć.
1,0 , ,1
13
1
12
11 −=== ∑∑∑
===
n
iin
n
iin
n
ii XTXTXT
1,0 , , 321 −=== nX
Tn
XTXT
-
Model Statystyczny: Przykład 2
Wzrosty na giełdzie. Analityk bada długość okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X1, X2, ..., Xnsą próbką z rozkładu wykładniczego Exp(λ).λ – nieznany parametrX =(0,∞)n – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla λ > 0
∏=
−−=≤≤≤n
i
xnn
iexXxXxXP1
2211 )1(),...,,(λ
λ
ixnn exxxf
Σ−= 21 ),...,,(λ
λ λ
-
Model Statystyczny: Przykład 3
Pomiar z błędem losowym: powtarzamy pomiar wielkości µ, wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X1, X2, ..., Xn, bo maszyna do pomiaru niedoskonała. Każdy z pomiarów ma jednakowy rozkład normalny N(µ, σ2).µ, σ2 – nieznane parametry (a więc θ = (µ, σ))X = Rn – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
lub
dla µ∈R, σ >0
( )∏=
−Φ=≤≤≤n
i
xnn
ixXxXxXP1
2211, ),...,,( σµ
σµ
( ) ( )∑ = −−= ni inn xxxxf 1 2212121, )(exp),...,,( 2 µσσπσµ