Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...

Statystyka

Matematyczna

Anna Janicka

wykład II, 29.02.2016

STATYSTYKA OPISOWA, cz. II

WSTĘP DO STATYSTYKI MATEMATYCZNEJ

Plan na dzisiaj

1. Statystyka opisowa, cz. II:� miary położenia – dokończenie

� miary zróżnicowania

� miary asymetrii

� wykres pudełkowy

2. Wstęp do statystyki matematycznej� model statystyczny

Moda

Moda (dominanta, wartość modalna)wartość najczęściej pojawiająca się w próbie

� dla szeregu rozdzielczego punktowego:

Mo = wartość najczęstsza

� dla szeregu rozdzielczego przedziałowego

gdzie

nMo – liczebność klasy dominanty,

cL, b – dla dominanty analogicznie do mediany

bnnnn

nncMo

MoMoMoMo

MoMoL ⋅−+−

−+≅

+−

−

)()( 11

1

Przykład 1 – cd.

Ocena Liczebność Częstość2 72 0,4293 42 0,250

3,5 32 0,1904 11 0,065

4,5 7 0,0425 4 0,024

Razem 168 1,000

Moda – przykładyKwartyle – przykładyWariancja – przykłady

Przykład 3 – cd.

PrzedziałŚrodek

przedziałuLiczebność Częstość

Liczebność skumulowana

Częstość skumulowana

(30,40] 35 11 0,11 11 0,11(40,50] 45 23 0,23 34 0,34(50,60] 55 33 0,33 67 0,67(60,70] 65 12 0,12 79 0,79(70,80] 75 6 0,06 85 0,85(80,90] 85 8 0,08 93 0,93

(90,100] 95 3 0,03 96 0,96(100,110] 105 2 0,02 98 0,98(110,120] 115 2 0,02 100 1Razem 100 1

Moda – przykładyKwartyle – przykładyWariancja – przykłady

Moda – przykłady

Przykład 1:

Mo = 2

Przykład 3:

przedział dominanty to (50,60], o liczebności 33

nMo = 33, cL = 50, b = 10, nMo-1 = 23, nMo+1 = 12

23,5310)1233()2333(

233350 ≈⋅

−+−−

+≅Mo

Przykład 1 – cd.

Przykład 3 – cd.

Którą miarę stosować?

� Średnia arytmetyczna: do szeregów typowych (jedno max, częstości monotoniczne)

� Dominanta: do szeregów typowych, danych pogrupowanych, długości przedziału dominanty i sąsiednich powinny być równe

� Mediana: nie ma ograniczeń. Najbardziej odporna na zaburzenia, niedokładności pomiaru, zmiany, wartości odstające

Kwantyle, kwartyle

� p-ty kwantyl (kwantyl rzędu p): odsetek wartości nie większych niż on wynosi co najmniej p, a wartości nie mniejszych co najmniej 1-p

� Q1 : Pierwszy kwartyl = kwantyl rzędu ¼

� Drugi kwartyl = mediana = kwantyl rzędu ½

� Q3: Trzeci kwartyl = kwantyl rzędu ¾

Kwantyle – cd.

Kwantyl próbkowy rzędu p:

∉

∈+

=

+

+

ZnpX

ZnpXX

Q

nnp

nnpnnp

p

:1][

:1:

2

Kwartyle – cd.

� Kwantyle dla p = ¼ i p = ¾.

� Dla szeregu rozdzielczego przedziałowego: wzór jak dla mediany

dla k=1 lub 3, odpowiednio

gdzie M1, M3 – numer klasy kwartyla

b – szerokość klasy kwartyla

cL – dolny koniec klasy kwartyla

−

⋅+≅ ∑

−

=

1

14

k

k

M

ii

MLk n

nk

n

bcQ

Kwartyle – przykłady

Przykład 1:

a więc

Przykład 3:

a więc

12616842168 4341 =⋅=⋅

( ) ( ) 5,3,2 168:127168:126213168:43168:42211 =+==+= XXQ XXQ

75100 25100 4341 =⋅=⋅

4M ,2 31 ==M

67,66)6775(12

1060 09,40)1125(

23

1040 31 ≈−+≅≈−+≅ QQ

Przykład 1 – cd.

Przykład 3 – cd.

Rozproszenie, zmienność, dyspersja

duże

małe

Miary rozproszenia

� Miary klasyczne� wariancja, odchylenie standardowe

� odchylenie przeciętne

� współczynnik zmienności (klas.)

� Miary pozycyjne� rozstęp

� rozstęp międzykwartylowy

� odchylenie ćwiartkowe

� współczynnik zmienności (poz.)

Miary pozycyjne

� Rozstępnajprostsza miara, nie bierze pod uwagę żadnych wartości oprócz skrajnych

� Rozstęp międzykwartylowybardziej odporny na obserwacje nietypowe niż zwykły rozstęp

nnn XXr :1: −=

13 QQIQR −=

na jego podstawie odchylenie ćwiartkowe Q= IQR/2, oraz pozycyjne współczynniki zmienności VQ = Q/Med albo VQ1Q3 = IQR/(Q3+Q1)także typowy przedział zmienności cechy: [Med – Q, Med + Q]

długość przedziału, w którym mieści się 50% środkowych obserwacji

Rozstęp, rozstęp międzykwartylowy –

przykłady

Przykład 1:

Przykład 3:

(w rzeczywistości

5,125,3

,325

=−=

=−=

IQR

r

58,2009,4667,66

)45,8645329118

9030120

=−≅

=

=−≅

IQR

,-,

r

Miary klasyczne

Wariancja

� dane surowe

� szereg rozdzielczy punktowy

� szereg rozdzielczy przedziałowy

+ ew. poprawka Shepparda

lub ogólniej

2

1

21

1

212 )()(ˆ ∑∑==

−=−=n

iin

n

iin XXXXS

2

1

21

1

212 )()(ˆ ∑∑==

−=−=k

iiin

k

iiin XXnXXnS

2

1

21

1

212 )()(ˆ ∑∑==

−=−≅k

iiin

k

iiin XcnXcnS

12

22 2ˆ cSS −≅

c=długość przedziałuklasy (jeśli równe)

2

1

112122 )(ˆ ∑

=−−−≅

k

i

iiinccnSS

Wariancja – przykłady

Przykład 1:

Przykład 3:

w rzeczywistości

( )4)842,25(7)842,25,4(11)842,24(32)842,25,3(42)842,23(72)842,22( 2222221681 ⋅−+⋅−+⋅−+⋅−+⋅−+⋅−

706,0

ˆ 2

≈

≈S

98,32212

1031,331

31,331

ˆ

22

10012

≈−=

=

⋅≈

S

S

)2)7,58115(2)7,58105(3)7,5895(8)7,5885(6)7,5875(

12)7,5865(33)7,5855(23)7,5845(11)7,5835((22222

2222

⋅−+⋅−+⋅−+⋅−+⋅−+

⋅−+⋅−+⋅−+⋅−

85,333ˆ 2 =S

Przykład 1 – cd.

Przykład 3 – cd.

rozkład nie jest normalny, za mała próba na poprawkę Shepparda – większe błędy wynikają z małej próby niż z podziału na klasy

Odchylenie standardowe

W tych samych jednostkach, co wyjściowy szereg

Przykład 1:

Przykład 3:

22 ,ˆˆ SSSS ==

[oceny] S 840,0ˆ ≈

][ 2,18ˆ 2mS ≈

Odchylenie przeciętne

średnie odchylenie bezwzględne

obecnie rzadko stosowane, choć łatwiejsze w obliczeniach, wyrażone w jednostkach naturalnych

dla danych surowych

itd...

Mamy: d

Współczynniki zmienności (klasyczne)

Do porównywania tej samej cechy w różnych populacjach lub różnych cech jednej populacji

%)100( lub

%),100(ˆ

⋅=

⋅=

X

dV

X

SV

d

S

Asymetria

lewostronna symetria prawostronna

(ujemna) (dodatnia)

(typowe układy)

MoMedX >

Miary asymetrii

� Współczynnik asymetrii

gdzie M3 jest trzecim momentem centralnym

� Współczynnik skośności

� Pozycyjny współczynnik asymetrii

3

3

Ŝ

MA =

ˆ

lub ˆ 11 S

MedXA

S

MoXA

−=

−=

13

132

2

QQ

QMedQA

−+−

=mierzy asymetrię tylko dla obserwacji drugiej i trzeciej ćwiartki

Interpretacja

� Wskaźniki dodatnie = asymetria dodatnia (prawostronna)

� Wskaźniki ujemne = asymetria ujemna (lewostronna)

� Dla współczynnika skośności (z medianą) i pozycyjnego wsp. asymetrii ocena siły asymetrii (co do modułu):

� 0 - 0,33: słaba

� 0,34 - 0,66: średnia

� 0,67 – 1: silna

Asymetria – przykłady

Przykład 1:

Przykład 3:

15,009,4667,66

09,4685,54267,66

)( 24,02,18

85,547,58 lub )( 3,0

2,18

23,537,58

,15,1

2

11

≈−

+⋅−≅

≈−

=≈−

≅

≅

A

MedAMoA

A

33,025,3

2325,3

00,1840,0

2842,2

18,0840,0

3842,2

55,0

2

1

1

−≈−+⋅−

=

≈−

=

−≈−

=

=

A

)Mo( A

)Med( A

A

Wykres pudełkowy („pudełko z wąsami”)

� Pozwala porównać graficznie dwie populacje (lub więcej)

(ewentualne)

obserwacje odstające:

xmax

obs. odstające

X*

Q3Med

Q1

X*obs. odstającexmin

]},[:max{

]},[:min{

23

33

123

1

IQRQQXXX

QIQRQXXX

ii

ii

+∈=

−∈=∗

∗

∗∗ >< XxXx lub

Wykres pudełkowy – przykład porównania

05

1015

1 2

Przyklady zestawień statystycznych (1)

Źródło: GUS, Ceny w gospodarce narodowej 2009


Źródło: GUS, Zużycie energii w gospodarstwach domowych 2009


siatka centylowa masy chłopców w W-wie

Źródło: IMiD, 1999

Przykłady zestawień statystycznych (4)

Względne rozstępy międzykwartylowe

Rozstęp międzykwartylowy poziomu emerytury wg płci

Źródło:Komisja Europejska 2013


Zróżnicowanie poziomów bezrobocia

Zróżnicowanie poziomów bezrobocia w ujęciu regionalnym (mierzone współczynnikiem zmienności), 2006

Źródło: Komisja Europejska


Godzinowe wynagrodzenia brutto, 2002

Źródło: komisja Europejska 2005

STATYSTYKA MATEMATYCZNA

Założenia statystyki matematycznej

Dane doświadczalne są wynikiem działania pewnego mechanizmu losowego.

A zatem: mamy do czynienia ze zmiennymi losowymi określonymi na pewnej przestrzeni probabilistycznej, których realizacjami (wartościami) są zebrane dane. Problem: nie znamy (dokładnego) rozkładu tych zmiennych losowych...

Różnica w podejściach RP i SM:

1. RP, przykład:� Sformułowanie: w procesie produkcyjnym każdy

konkretny wyrób może być wadliwy. Dzieje się tak z prawdopodobieństwem 10%. Wady poszczególnych sztuk są niezależne.

� Problemy: Jaka jest szansa, że w partii 50 sztuk dokładnie 6 będzie wadliwych? Ile średnio sztuk będzie wadliwych? Jaka jest najbardziej prawdopodobna liczba sztuk wadliwych?

� Rozwiązanie: budujemy model probabilistyczny, tu: Schemat Bernoulliego dla n=50, p=0,1

Ewentualnie, jeśli interesują nas też inne pytania (np. jaka jest szansa, że pierwsze 5 sztuk wadliwych), model dla ciągów

Różnica w podejściach RP i SM – cd.

2. SM, przykład:� Sformułowanie: Kontroler przebadał partię 50 sztuk

towaru. Wyniki są następujące (1– towar wadliwy, 0 –bez wad):

0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

� Problemy: jakie jest prawdopodobieństwo, że produkt jest wadliwy (oszacowanie)? Czy prawdą może być deklaracja producenta, że wadliwość to 10%?

� Rozwiązanie: budujemy model statystyczny, czyli model probabilistyczny z nieznanym(i) parametrem(ami) rozkładu

Model Statystyczny

Model statystyczny:

gdzie:X – przestrzeń wartości obserwowanej

zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę zmiennych X1, ..., Xn)

FX

– σ-ciało na X

P – rodzina rozkładów prawdopodobieństw Pθ , indeksowana parametrem θ∈Θ

W mniej formalnym opisie zwykle podaje się: X, P, Θ

),,( PFΩ),,( PFX X

w RP było:

Model statystyczny – przykład

X = {0,1}n – przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1](u nas n=50 oraz X2 = X10 = X15 = X32 =X42 =

X50 =1, pozostałe Xi = 0)

ii

ii

xnx

n

i

xxnn xXxXxXP

Σ−Σ

=

−

−=

−==== ∏

)1(

)1(),...,,(1

12211

θθ

θθθ

Model statystyczny – przykład cd.

Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w próbie):

X = {0,1, 2, ..., n} – przestrzeń próbkowa


dla θ ∈[0,1](u nas n=50 oraz X=6)

xnx

x

nxXP −−

== )1()( θθθ

Model statystyczny – przykład cd. (2):

pytania

Mamy konkretne dane (próbkę):

� Jaka jest wartość parametru θ ?� interesuje nas konkretna wartość

� interesuje nas przedział (ufności)

→ zagadnienie estymacji

� Weryfikacja hipotezy, że θ =0,1

→ testowanie hipotez statystycznych

� → ew. predykcje

Statystyki

Estymację parametrów (punktową, przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:

Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci

Rozkład statystyki T zależy od rozkładu zmiennej X, ale statystyka jako taka nie może zależeć od parametru θ, np. X1+X2 - θ

),...,,( 21 nXXXTT =

Statystyki – przykład

są statystykami dla pierwszego sformułowania;

są statystykami dla drugiego sformułowania

Wybór statystyki zależy od pytania, na które mamy odpowiedzieć.

1,0 , ,1

13

1

12

11 −=== ∑∑∑

===

n

iin

n

iin

n

ii XTXTXT

1,0 , , 321 −=== nX

Tn

XTXT

Model Statystyczny: Przykład 2

Wzrosty na giełdzie. Analityk bada długość okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X1, X2, ..., Xnsą próbką z rozkładu wykładniczego Exp(λ).λ – nieznany parametrX =(0,∞)n – przestrzeń próbkowa


dla λ > 0

∏=

−−=≤≤≤n

i

xnn

iexXxXxXP1

2211 )1(),...,,(λ

λ

ixnn exxxf

Σ−= 21 ),...,,(λ

λ λ

Model Statystyczny: Przykład 3

Pomiar z błędem losowym: powtarzamy pomiar wielkości µ, wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X1, X2, ..., Xn, bo maszyna do pomiaru niedoskonała. Każdy z pomiarów ma jednakowy rozkład normalny N(µ, σ2).µ, σ2 – nieznane parametry (a więc θ = (µ, σ))X = Rn – przestrzeń próbkowa


lub

dla µ∈R, σ >0

( )∏=

−Φ=≤≤≤n

i

xnn

ixXxXxXP1

2211, ),...,,( σµ

σµ

( ) ( )∑ = −−= ni inn xxxxf 1 2212121, )(exp),...,,( 2 µσσπσµ

Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...

Documents

Transcript of Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...