KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3....

70
1 KORELACJA I REGRESJA. KORELACJA X , Y - cechy badane równocześnie. Dane statystyczne zapisujemy w szeregu statystycznym dwóch cech x i x 1 x 2 ............... x n y i y 1 y 2 ............... y n

Transcript of KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3....

Page 1: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

1

KORELACJA I REGRESJA .

KORELACJA X , Y - cechy badane równocześnie. Dane statystyczne zapisujemy w szeregu statystycznym dwóch cech

xi x1 x2 ............... xn yi y1 y2 ............... yn

Page 2: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

2

lub w tablicy korelacyjnej.

Y X

y1 y2 ....... yl ni.

x1 n11 n12 ....... n1l n1. x2 n21 n22 ....... n2l n2.

....

....

....

....

....

.....

xk nk1 nk2 ....... nkl nk. n.j n.1 n.2 ...... n.l n

gdzie x1, x2, .... , xk - warianty lub środki klas dla cechy X,

y1, y2, .... , yl - warianty lub środki klas dla cechy Y,

n.j - sumy liczebności kolumn,

ni. - sumy liczebności wierszy.

Page 3: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

3

Wstępnie siłę i kształt zależności między cechami możemy

ocenić na podstawie diagramu korelacyjnego:

korelacja liniowa dodatnia korelacja liniowa ujemna

korelacja krzywoliniowa brak korelacji

Y Y

X X

Y Y

X X

Page 4: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

4

Siłę zależności między cechami mierzymy współczynnikiem korelacji liniowej Pearsona

rX Y

S SX Y

= cov ( , )

Uwaga.

r ∈ −1 1;

Page 5: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

5

gdzie

( )( )

yxn

i iyixn

n

iyiyxix

nYX

−∑=

=

=∑=

−−=

1

1

1

1),(cov

lub (gdy dane w tablicy korelacyjnej)

( )( )yxijn

k

i

l

j jyixn

ijnk

i

l

jyjyxix

nYX

−∑=

∑=

=

=∑=

∑=

−−=

1 1

1

1 1

1),(cov

jest kowariancją między cechami X i Y (kowariancja też mierzy siłę zależności między cechami, jej znak określa kierunek zależności lecz jest wielkością nieunormowaną)

Page 6: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

6

( ) ( )2

1

2

1

2 11xx

nxx

ns

n

ii

n

iiX −=−= ∑∑

==

( ) ( )2

1

2

1

2 11yy

nyy

nS

n

ii

n

iiY −=−= ∑∑

==

Page 7: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

7

lub (gdy dane w tablicy korelacyjnej)

( ) ( )2

1.

2

1

2.

11xnx

nxxn

ns

k

iii

k

iiiX −=−= ∑∑

==

( ) ( )2

1.

2

1

2.

11yny

nyyn

ns

l

jji

l

jijY −=−= ∑∑

==

są odchyleniami standardowymi dla cech X i Y.

Page 8: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

8

Uwaga:

a) ( )( ) yxniyixyiyxix −∑=∑ −−

b) ( ) ( )x x x n xi i− = −∑ ∑

2 2 2

Page 9: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

9

Karl Pearson (1857 - 1936), angielski matematyk, prekursor statystyki matematycznej

Page 10: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

10

Jeśli r > 0 to mówimy, że cechy są skorelowane dodatnio (wzrostowi cechy X towarzyszy wzrost cechy Y), Jeśli r < 0 to mówimy, że cechy są skorelowane ujemnie,(wzrostowi cechy X towarzyszy spadek cechy Y), Jeśli r = 0 to mówimy, że cechy są nieskorelowane, (zmiany wartości cechy X nie powodują zmian wartości cechy Y),

Page 11: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

11

Jeśli 0 0 3< <r , to mówimy, że cechy są skorelowane słabo,

Jeśli 0 3 0 5, ,≤ <r to mówimy, że cechy są

skorelowane średnio,

Jeśli 0 5 0 7, ,≤ <r to mówimy, że cechy są

skorelowane mocno,

Jeśli 0 7, ≤ r to mówimy, że cechy są skorelowane

bardzo mocno.

Powyższe przedziały mają zakres umowny.

Page 12: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

12

Interpretując powyższy współczynnik korelacji

należy pamiętać, że jego wartość bliska zera nie

zawsze oznacza brak zależności a jedynie brak

zależności liniowej. W tym przypadku należy

skorzystać z wykresu lub skorzystać z innych miar

zależności np. policzyć tzw. stosunki korelacyjne.

Wartość współczynnika korelacji zależy od

zakresu zmienności badanych cech, podobnie jak

średnia arytmetyczna podlega wpływom skrajnych

wartości.

Page 13: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

13

Przykład

Badano zależność wartości zużytych surowców (w tys. zł.) Y od wielkości produkcji (tys. szt.) X w 6-ciu zakładach produkcyjnych.

xt 1 2 1,5 1 3 0,5 yt 2 5 4 4 7 2

Wyznaczamy wartość współczynnika

korelacji.

Page 14: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

14

Obliczenia wykonamy w tabeli

ix iy xxi − yyi − ))(( yyxx ii −− 2)( xxi − 2)( yyi −

1 2

1,5 1 3

0,5

2 5 4 4 7 2

-0,5 0,5 0

-0,5 1,5 -1

-2 1 0 0 3 -2

1 0,5 0 0

4,5 2

0,25 0,25

0 0,25 2,25

1

4 1 0 0 9 4

9 24 0 0 8 4 18

x y= = = =9

615

24

64, ; ; r = =8

4 180 9428,

zatem związek pomiędzy wartością zużytych surowców a wielkością produkcji jest bardzo silny (korelacja dodatnia).

Page 15: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

15

Przykład. Badano zależność liczby błędów na stronie maszynopisu Y od stażu pracy X (podano środek przedziału stażu pracy) w grupie 50 sekretarek.

Y X

0 1 2 3 ni.

4 5 10 15 12 10 10 20 10 5 15 28 5 5 10 n.j 5 15 20 10 50

Page 16: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

16

7,150

85

50

103...15150

;2,1550

760

50

1028...1012154

==⋅++⋅+⋅=

==⋅++⋅+⋅=

y

x

Page 17: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

17

S X2

2 2 22 24 15 12 10 28 10

5015 2

15520

5015 2 79 36= ⋅ + ⋅ + + ⋅ − = − =...

, , ,

SY2

2 2 22 20 5 1 15 3 10

501 7

185

501 7 0 81= ⋅ + ⋅ + + ⋅ − = − =...

, , ,

Page 18: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

18

cov( , )...

, , ,X Y = ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ − ⋅ = −4 2 5 4 3 10 12 2 10 28 1 5

5015 2 1 7 7 04

Page 19: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

19

r = − = −7 04

79 36 0 810 878

,

, ,,

zatem związek pomiędzy stażem a ilością błędów jest bardzo silny (korelacja ujemna).

Page 20: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

20

Siłę zależności możemy również mierzyć współczynnikiem korelacji rang Spearmana: Obserwacje numerujemy od najmniejszej do największej (nadajemy rangi). Jeśli dane powtarzają się to przypisujemy im jednakowe rangi równe średniej arytmetycznej z kolejnych numerów.

Qd

n ni= −

−∑

16 2

3

gdzie di - różnice rang.

Page 21: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

21

Charles Edward Spearman (1863 - 1945) angielski psycholog i statystyk

Page 22: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

22

Współczynnik ten stosujemy w przypadku małej liczby danych lub w przypadku cech niemierzalnych, których wartości można uporządkować. W przypadku cech niemierzalnych można mierzyć siłę zależności współczynnikiem Cramera lub Czuprowa (definicja będzie podana przy teście niezależności chi kwadrat).

Page 23: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

23

Przykład. Dwóch członków komisji przetargowej A i B oceniało nadesłane oferty. Członek A oceniał jakość ofert opisowo natomiast członek B przydzielał im punkty od 0 do 100. Oferta Ocena A Ocena B Ranga

oceny A Ranga

oceny B di di

2

I mniej niż przeciętna

50

II słaba 45 III dobra 25 IV przeciętna 30 V bardzo

dobra 25

VI bardzo słaba 42 VII przeciętna 40 Razem x x

Page 24: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

24

Oferta Ocena A Ocena B Ranga

oceny A Ranga

oceny B di di

2

I mniej niż przeciętna

50 3 7

II słaba 45 2 6 III dobra 25 6 1,5 IV przeciętna 30 4,5 3 V bardzo dobra 25 7 1,5 VI bardzo słaba 42 1 5 VII przeciętna 40 4,5 4 Razem x x x x

Page 25: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

25

Oferta Ocena A Ocena B Ranga

oceny A Ranga

oceny B di di

2

I mniej niż przeciętna

50 3 7 -4 16

II słaba 45 2 6 -4 16 III dobra 25 6 1,5 4,5 20,25 IV przeciętna 30 4,5 3 1,5 2,25 V bardzo dobra 25 7 1,5 5,5 30,25 VI bardzo słaba 42 1 5 -4 16 VII przeciętna 40 4,5 4 0,5 0,25 Razem x x x x 0 101

Q = − ⋅−

= −16 101

7 70 8

3,

Wynika stąd zupełny brak zgodności ocen obu członków komisji (bardzo silna korelacja ujemna).

Page 26: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

26

REGRESJA LINIOWA Regresja to kształt zależności między badanymi cechami. Interesuje nas najprostsza zależność w postaci funkcji liniowej. Wyznaczymy prostą

XbbY 10ˆ +=

Najlepiej „dopasowaną” do danych ),( ii yx

Page 27: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

27

Y - zmienna objaśniana, iy - wartości (obserwacje) zmiennej Y; ni ,...,1= - numer obserwacji, X - zmienna objaśniająca, ix - wartości zmiennej X,

10,bb - parametry strukturalne (ich wartość wyznacza się na podstawie obserwacji

),( ii yx )

Page 28: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

28

Aby wyznaczyć wartość parametrów strukturalnych 10,bb na podstawie próby stosujemy metodę najmniejszych kwadratów (MNK). MNK polega na wyznaczeniu takich

10,bb

aby dla danych obserwacji ),( ii yx suma kwadratów odchyleń zaobserwowanych wartości

iy od wartości XbbY 10ˆ += była minimalna, tzn.

chcemy wyznaczyć minimum funkcji:

Page 29: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

29

$Y = b0 +b1X (prosta regresji z próby)

xi

yi

ei

iy

iii yye ˆ−=

Page 30: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

30

∑∑

=

==

−−=

=−==

n

iii

n

iii

n

ii

xbby

yyebbS

1

210

1

2

1

210

)(

)ˆ(),((*)

iii yye ˆ−= nazywamy resztami modelu regresji

Uwaga.

01

=∑=

n

iie

Należy wyznaczyć prostą regresji tak aby suma pól kwadratów była minimalna.

Page 31: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

31

Obliczając pochodne cząstkowe funkcji (*) i przyrównując do zera otrzymujemy (układ równań normalnych)

02))((2

02)1)((2

1 10

1

21

110

1

10

11

110

0

=

−−−=−−−=∂∂

=

−−−=−−−=∂∂

∑ ∑∑∑

∑ ∑∑

= ===

= ==

n

i

n

ii

n

ii

n

iiiiii

n

i

n

ii

n

iiii

xbxbxyxxbbyb

S

nbxbyxbbyb

S

Page 32: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

32

rozwiązując otrzymany układ równań otrzymamy wzory na przybliżone wartości parametrów strukturalnych

( )( )( )

( )

2

2221

1

221

),cov(

)(

XX

Y

i

ii

in

iin

ii

iiii

S

YXr

S

S

xx

yyxx

xx

yxyx

xxn

yxyxnb

==

=−

−−=

−−

=

=−

−=

∑∑

∑∑

∑∑∑∑∑

xbyb 10 −=

Page 33: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

33

Prostą

XbbY 10ˆ +=

nazywamy prostą regresji z próby.

Page 34: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

34

Miary dopasowania. Wariancja resztowa: Wariancja resztowa to uśrednienie pól kwadratów zbudowanych na resztach i odzwierciedla stopień dopasowania prostej regresji do danych statystycznych.

Page 35: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

35

Niech, e y yi i i= − $ , gdzie $y b b xi i= +0 1 wtedy

Se

ne

ii

n

2

2

1

2=

−=∑

czyli

( ) 22

102

2

12

2

Y

iiiie

Srn

nn

yxbybyS

−−

=

=−

−−= ∑∑∑

2ee SS = oznacza średnie (standardowe)

odchylenie od prostej regresji.

Page 36: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

36

Dopasowanie modelu do danych empirycznych można oceniać odchyleniem standardowym reszt lecz jest to miara bezwzględna i nieunormowana, dlatego do porównań lepsze są miary względne lub unormowane.

Page 37: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

37

Najprostszą względną miarą dopasowania jest współczynnik zmienności resztowej:

%100Y

SV e

e =

Współczynnik ten informuje jaką część średniej wartości badanego zjawiska stanowi odchylenie standardowe reszt. Mniejsze wartości tego współczynnika wskazują na lepsze dopasowanie modelu do danych empirycznych, niekiedy żąda się aby np. Ve < 0,2.

Page 38: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

38

Wprowadzamy oznaczenia: Całkowita suma kwadratów (zmienność całkowita): 2)( yyCSK i −=∑ Wyjaśniona suma kwadratów (zmienność wyjaśniona): 2)ˆ( yyWSK i −=∑ Niewyjaśniona suma kwadratów (zmienność przypadkowa): ∑= 2

ieNSK

ii xbbygdzie 10ˆ: +=

Zmienność przypadkowa

Zmienność całkowita

Zmienność wyjaśniona modelem regresji

xi

yi

y

}}

• •

• •

• •

{

Page 39: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

39

Własność: 2)( yyi −∑ =

2)ˆ( yyi −∑ +∑ 2ie

Czyli CSK = WSK + NSK

Page 40: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

40

Miar ą dopasowania modelu do rzeczywistości (wartości zaobserwowanych) jest również współczynnik determinacji 2R Współczynnik determinacji:

CSK

WSKR =2

1,02 ∈R

współczynnik ten określa jaka część całkowitej zmienności zmiennej objaśnianej została wyjaśniona przez model regresji liniowej.

Page 41: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

41

( )

( )( )

222

2

22

1

22

210

2

2

2

22

),(cov

)(1

)(

)ˆ(

rSS

YX

yny

yxnyxb

yny

ynyxbyb

yy

e

yy

yyR

YXi

ii

i

iii

i

i

i

i

==−

−=

=−

−+=

=−

−=−−

=

∑∑

∑∑∑

∑∑

∑∑

Page 42: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

42

Przykład Badano zależności kosztów całkowitych (w tys. zł.) Y od

wielkości produkcji (tys. szt.) X w 6-ciu zakładach produkcyjnych.

xi 4 8 6 4 12 2 yi 2 5 4 4 7 2

Dla xbbY 10ˆ += wyznaczamy przybliżone wartości

parametrów strukturalnych i współczynnik determinacji.

Page 43: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

43

Obliczenia wykonamy w tabeli

ix iy ))(( yyxx ii −− 2)( xxi −

2)( yyi −

4 8 6 4 12 2

2 5 4 4 7 2

36 24

Page 44: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

44

ix iy ))(( yyxx ii −− 2)( xxi −

2)( yyi −

4 8 6 4 12 2

2 5 4 4 7 2

4 2 0 0 18 8

4 4 0 4 36 16

4 1 0 0 9 4

36 24 32 64 18

Page 45: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

45

46

24;6

6

36 ==== yx ;

16*5,04;5,0

64

3201 =−=== bb

zatem związek pomiędzy kosztami całkowitymi a wielkością

produkcji wyraża się zależnością liniową w postaci

XY 5,01ˆ +=

Współczynnik determinacji

89,018

162 ==R

należy oczekiwać, że rozpatrywany model wyjaśnia 89%

całkowitej zmienności badanego zjawiska.

Page 46: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

46

Standardowe błędy oszacowania parametrów

strukturalnych.

X

e

i

e

Sn

S

xx

SbS =

−=∑ 21

)()(

( )( )

2

2

221

212

2

0

1

)(

1)(

)()(

X

eX

i

i

ie

S

xn

SxSbS

xn

bSxxn

xSbS

+⋅

=+⋅=

=⋅=−

= ∑∑∑

Stosujemy niekiedy zapis

)(ˆ))((

1))((

010

ebSbS

SXbbY ±+=±±

Page 47: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

47

Uwaga. W celu dokładniejszego zbadania kształtu zależności między cechami można wykonać wykresy empirycznych linii regresji. Są to łamane wyznaczone przez średnie warunkowe:

j

k

iiji

j n

nxx

.

1∑

==

(tzn. obliczamy średnią wartość X przy ustalonej wartości yj)

.

1

i

l

jijj

i n

ny

y∑

==

(tzn. obliczamy średnią wartość Y przy ustalonej wartości xi) Regresja Y względem X

( ) ( ) ( )kk yxyxyx ,.....;;,;, 2211 Regresja X względem Y

( ) ( ) ( )ll yxyxyx ,.....;;,;, 2211

Łamane te przecinają się w punkcie ( )yx, . Im bliżej siebie są położone tym silniejszy jest związek miedzy cechami.

Page 48: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

48

Przykład. Badano zależność wartości sprzedaży Y (mln zł) od wydatków na reklamę X (tys. zł) w grupie 100 firm. Y X

3-5 5-7 7-9 9-11 11-13 13-15 ni.

50-100 10 13 23 100-150 10 27 11 48 150-200 1 9 8 2 20 200-250 4 5 9

n.j 10 23 28 20 12 7 100

44,8100

844;5,132

100

13250 ==== yx

Zestawienie średnich warunkowych:

Wykres empirycznych linii regresji.

7 5 4 7 5 5 , 19 6 , 7 6 1 2 5 8

1 2 6 , 8 8 1 7 5 1 1 , 11 4 7 , 5 1 0 2 2 5 1 3 , 11 9 1 , 7 1 22 1 0 , 7 1 4

( )jj yx , ( )jj yx ,

Linie regresji

0

2

4

6

8

10

12

14

16

0 50 100 150 200 250

Wartości cechy X

War

toś

ci c

ech

y Y

Regresja Y w zględem XRegresja X w zględem Y

Page 49: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

49

W przypadku gdy wykres danych w układzie współrzędnych

wskazuje na brak zależności liniowej możemy próbować

dobrać funkcję nieliniową do opisu zależności między

cechami.

Równość wariancyjna.

)()()( 222 ySySyS ii +=

gdzie

)(2 yS - wariancja cechy Y

)(2iyS - wariancja międzygrupowa

( )

n

nyyyS

k

iii

i

∑=

−= 1

.2

2 )(

mierzy zróżnicowanie cechy Y wywołane oddziaływaniem

cechy X. Jest to wariancja średnich warunkowych Y(X = xi).

)(2 yS i - wariancja wewnątrzgrupowa n

nysyS

k

iii

i

∑== 1

.2

2

)()(

mierzy zróżnicowanie cechy Y wywołane oddziaływaniem

czynników poza cechą X. Jest to średnia ważona rozkładów

warunkowych Y(X = xi).

Page 50: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

50

Stosunek korelacyjny

)(

)(

yS

ySe i

yx =

mierzy siłę zależności cechy Y względem cechy X.

Analogicznie stosunek korelacyjny

)(

)(

xS

xSe i

xy =

mierzy siłę zależności cechy X względem cechy Y.

Stosunki korelacyjne pokazują siłę związku, lecz nie

informują o jego kierunku.

Przyjmują wartości z przedziału [0, 1]. Wartości eyx i exy są na

ogół różne. Różnica między kwadratem stosunku

korelacyjnego a kwadratem współczynnika korelacji Pearsona

(zwany wskaźnikiem krzywoliniowo ści) mierzy stopień

krzywoliniowości regresji:

22 r e m yxyx −= zmiennej Y względem X,

22 r e m xyxy −= zmiennej X względem Y,

Niekiedy przyjmuje się, że jeśli wskaźnik krzywoliniowości

jest nie większy niż 0,2 to wpływ jednej cechy na drugą jest

liniowy i można stosować regresję liniową, w przeciwnym

przypadku lepiej stosować regresję nieliniową.

Page 51: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

51

Prognoza.

Prognoza punktowa τ - moment (okres prognozy)

τx - wartość cechy X w okresie prognozy

ττ xbby 10* +=

Page 52: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

52

Standardowy błąd prognozy

( )( )

2

11

2

1

2

1

2

1

2

2 21

11

−++=

−++=

∑∑

∑∑

∑==

==

=

n

ii

n

ii

n

ii

n

ii

en

ii

e

xxn

xxnxxS

xx

xx

nSS

τττ

τ

Page 53: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

53

Uwaga 1) eSS >τ

2) τS jest minimalne dla xx =τ

Page 54: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

54

błąd względny prognozy:

%100*τ

ττδ

y

S=

Page 55: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

55

Model tendencji rozwojowej Gdy X jest zmienną czasową txi = (t = 1, 2, ..., n) tzn. model regresji ma postać

tbbY 10ˆ +=

wówczas taki model nazywamy modelem tendencji rozwojowej lub modelem trendu liniowego.

Page 56: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

56

Wtedy korzystając z własności:

(*) 2

)1(

1

+=∑=

nnt

n

t, 6

)12)(1(

1

2 ++=∑=

nnnt

n

t,

2

1+= nt ( ) ( )∑∑ −=− 222 tnttt

Page 57: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

57

mamy

( )( )

)1(

12

)1(

)(1222

221

−−

=−−

=

=−

−=

∑ ∑∑∑ ∑∑ ∑∑

nn

ytty

nn

ytt

ttn

yttynb

ttt

tt

Page 58: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

58

2

1110

+−=−= nbytbyb

Page 59: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

59

Wariancja resztowa

Niech e y yi i i= − $ , (gdzie tbbyi 10ˆ += ) to reszty modelu, wtedy

21

2

2

−=∑

=

n

es

n

ii

e

czyli 21

11

01

2

2

−−=

∑∑∑===

n

tybybys

n

tt

n

tt

n

tt

e

2ee ss = oznacza średnie (standardowe)

odchylenie od trendu liniowego.

Page 60: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

60

Dopasowanie modelu do danych empirycznych oceniamy też współczynnikiem determinacji

( )( )

( )2

22

1

22

210

2

2

2

22

)(1

)(

)ˆ(

ryny

ytntyb

yny

yntybyb

yy

e

yy

yyR

t

t

t

ti

i

i

i

i

=−

−=

−+=

=−

−=−−

=

∑∑

∑∑∑

∑∑

∑∑

Page 61: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

61

Prognoza dla modelu trendu

Niech τt – okres prognozy.

Prognoza punktowa *τy to przewidywana wartość

cechy Y w okresie τt .

ττ tbby 10* +=

Page 62: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

62

Standardowy błąd prognozy punktowej

( )( )

2

11

2

1

2

1

2

1

2

2 21

11

−++=

−++=

∑∑

∑∑

∑==

==

=

n

t

n

t

n

t

n

ten

t

e

ttn

ttntts

tt

tt

nss

τττ

τ

Page 63: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

63

Wzór ten można uprościć korzystając z własności (*).

nn

tn

tn

s

nnnnn

nntnt

nnn

ss

e

e

−+

+++=

=+−++

+−+++

+=

2

2

222

2

121

12)12(2

1

4

)1(

6

)12)(1(2

)1(2

6)12)(1(

1

ττ

ττ

τ

Page 64: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

64

Zatem należy traktować wartość prognozy jako

ττ sy ±*

Jakość prognozy punktowej możemy ocenić względnym błędem prognozy punktowej

%100*

⋅=τ

τδy

spunkt

Page 65: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

65

Przykład Y – wielkość sprzedaży (tys. szt.). Dane z kolejnych półroczy 2003-2008: 105, 115, 118, 129, 128, 130, 139, 141, 146, 156, 160, 164. Wyznaczyć prognozę na pierwsze półrocze 2010 roku i ocenić jej dokładność.

Page 66: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

66

Page 67: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

67

t yt tyt 2ty

1 105 2 115 3 118 4 129 5 128 6 130 7 139 8 141 9 146

10 156 11 160 12 164

Page 68: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

68

t yt tyt 2ty

1 105 105 11025 2 115 230 13225 3 118 354 13924 4 129 516 16641 5 128 640 16384 6 130 780 16900 7 139 973 19321 8 141 1128 19881 9 146 1314 21316

10 156 1560 24336 11 160 1760 25600 12 164 1968 26896 78 1631 11328 225449

Page 69: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

69

tśr 6,5 yśr 135,9167 b1 5,08042 b0 102,8939 Se^2 7,799184 Se 2,792702 tt 15

yt* 179,1002

St 3,662272

dpkt 2,04%

Page 70: KORELACJA - Statystykastatystyka.rezolwenta.eu.org/Materialy/so-w-7-8-9-2012.pdf · 2012. 3. 21. · Je śli 0 0 3

70