Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11...
Transcript of Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11...
![Page 1: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/1.jpg)
Analiza współzależności dwóch cech II
![Page 2: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/2.jpg)
Dopasowanie funkcji regresji do danych empirycznych
Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych.
Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej:
ei = yi − yi .
![Page 3: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/3.jpg)
Dopasowanie funkcji regresji do danych empirycznych
Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy.
W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych:
• Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego):
Se =
N∑i=1
(yi − yi)2
N − 2=
N∑i=1
e2i
N − 2.
![Page 4: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/4.jpg)
Średni błąd szacunkuOkreśla on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).
![Page 5: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/5.jpg)
Współczynnik determinacji
• Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej
R2 = 1 −
N∑i=1
(yi − yi)2
N∑i=1
(yi − y)2.
R2 = (rxy)2 .
![Page 6: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/6.jpg)
Przykład
Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.
Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h)
1 1 10
2 2 11
3 3 12
4 4 14
5 5 15
6 5 15
7 6 16
8 7 18
9 8 19
10 9 20
y = 8,5 + 1,3 ⋅ x .
![Page 7: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/7.jpg)
PrzykładStaż pracy (w latach)
Wydajność pracy (w szt./h)
1 10 9,8 0,2 0,042 11 11,1 -0,1 0,013 12 12,4 -0,4 0,164 14 13,7 0,3 0,095 15 15 0,0 0,005 15 15 0,0 0,006 16 16,3 -0,3 0,097 18 17,6 0,4 0,168 19 18,9 0,1 0,019 20 20,2 -0,2 0,04
Razem — — 0,60
xi yi
yi = 8,5 + 1,3 ⋅ xi ei = yi − yi e2i = (yi − yi)2
N = 10, Se =
N∑i=1
e2i
N − 2=
0,610 − 2
= 0,27.
![Page 8: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/8.jpg)
Przykład
Se =
N∑i=1
e2i
N − 2=
0,610 − 2
= 0,27.
Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.
![Page 9: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/9.jpg)
Przykład
1 10 9,8 0,2 0,04 252 11 11,1 -0,1 0,01 163 12 12,4 -0,4 0,16 94 14 13,7 0,3 0,09 15 15 15 0,0 0,00 05 15 15 0,0 0,00 06 16 16,3 -0,3 0,09 17 18 17,6 0,4 0,16 98 19 18,9 0,1 0,01 169 20 20,2 -0,2 0,04 25
Razem 150 — — 0,60 102
xi yi yi = 8,5 + 1,3 ⋅ xi e2i = (yi − yi)2
N = 10, y =15010
= 15, R2 = 1 −
N∑i=1
(yi − yi)2
N∑i=1
(yi − y)2= 1 −
0,6102
= 0,9941.
ei = yi − yi (yi − y)2
![Page 10: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/10.jpg)
PrzykładR2 = 0,9941.
Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%.
Wyd
ajno
ść p
racy
7
10
13
16
19
22
Staż pracy0 1 2 3 4 5 6 7 8 9
y = 1,3x + 8,5R² = 0,9941
![Page 11: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/11.jpg)
Wykorzystanie funkcji regresjiWłaściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco „na wyrost”.
![Page 12: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/12.jpg)
PrzykładNa podstawie oszacowanej funkcji regresji z poprzedniego przykładu:
y = 8,5 + 1,3 ⋅ x
przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim.Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem
xP = 12
Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.
![Page 13: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/13.jpg)
PrzykładOtrzymujemy:
y = 8,5 + 1,3 ⋅ xP = 8,5 + 1,3 ⋅ 12 = 24,1 szt./h .
Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.
![Page 14: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/14.jpg)
Współczynnik korelacji rang Spearmana
Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30).
Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang — rangowaniem.
![Page 15: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/15.jpg)
RangowaniePoszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np.
Nr jednostki Wariant cechy Ranga1 podstawowe 12 zawodowe 23 średnie 4
Średnia z 3, 4, 54 średnie 45 średnie 46 wyższe 6,5 Średnia z 6, 77 wyższe 6,5
![Page 16: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/16.jpg)
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana wyznacza się na podstawie następującego wzoru
gdzie di oznaczają różnice między rangami odpowiadających sobie wartości xi i yi tzn. rangami cech X i Y dla poszczególnych jednostek badania.
rs = 1 −6
N∑i=1
d2i
N(N2 − 1),
![Page 17: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/17.jpg)
Współczynnik korelacji rang Spearmana
Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei — im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y.
Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.
![Page 18: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/18.jpg)
Przykład IZa pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.
Kraj Liczba ludności (w tys.)
Emisja zanieczyszczeń powietrza CO2(w mln ton)
Austra 8 105 79,5Belgia 10 416 123,5Dania 5 401 50,5Finlandia 5 226 56,7Francja 60 044 415,7Grecja 11 015 110,5Hiszpania 43 768 368,3Irlandia 4 024 47,7Luksemburg 454 12,1Holandia 16 275 175,9Niemcy 82 561 876,8Portugalia 10 524 68,7Szwecja 8 991 51,5Wielka Brytania 59 561 555,6Włochy 57 537 488Polska 38 180 317,7
![Page 19: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/19.jpg)
Przykład IRangowanie ze względu na pierwszą cechę - Liczbę ludności.
Kraj Liczba ludności (w tys.)
Ranga
Luksemburg 454 1Irlandia 4 024 2Finlandia 5 226 3Dania 5 401 4Austra 8 105 5Szwecja 8 991 6Belgia 10 416 7Portugalia 10 524 8Grecja 11 015 9Holandia 16 275 10Polska 38 180 11Hiszpania 43 768 12Włochy 57 537 13Wielka Brytania 59 561 14Francja 60 044 15Niemcy 82 561 16
![Page 20: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/20.jpg)
Przykład IRangowanie ze względu na drugą cechę - Emisję zanieczyszczeń.
Kraj Emisja zanieczyszczeń powietrza CO2(w mln ton)
Ranga
Luksemburg 12,1 1Irlandia 47,7 2Dania 50,5 3Szwecja 51,5 4Finlandia 56,7 5Portugalia 68,7 6Austra 79,5 7Grecja 110,5 8Belgia 123,5 9Holandia 175,9 10Polska 317,7 11Hiszpania 368,3 12Francja 415,7 13Włochy 488 14Wielka Brytania 555,6 15Niemcy 876,8 16
![Page 21: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/21.jpg)
Przykład IObliczenie różnic między rangami
Kraj
Liczba ludności (w tys.)
Emisja zanieczyszczeń powietrza CO2(w mln ton)
Rangi X Rangi Y Różnice rang Kwadraty różnic rang
Luksemburg 454 12,1 1 1 0 0Irlandia 4 024 47,7 2 2 0 0Finlandia 5 226 56,7 3 5 -2 4Dania 5 401 50,5 4 3 1 1Austra 8 105 79,5 5 7 -2 4Szwecja 8 991 51,5 6 4 2 4Belgia 10 416 123,5 7 9 -2 4Portugalia 10 524 68,7 8 6 2 4Grecja 11 015 110,5 9 8 1 1Holandia 16 275 175,9 10 10 0 0Polska 38 180 317,7 11 11 0 0Hiszpania 43 768 368,3 12 12 0 0Włochy 57 537 488 13 14 -1 1Wielka Brytania 59 561 555,6 14 15 -1 1Francja 60 044 415,7 15 13 2 4Niemcy 82 561 876,8 16 16 0 0Razem — — — — — 28
xi yi di d2i
![Page 22: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/22.jpg)
Przykład I
xi yi di d2i
Przystępujemy do obliczenia współczynnika korelacji rang Spearmana.
N = 16,N
∑i=1
d2i = 28,
rs = 1 −6 ⋅
N∑i=1
d2i
N(N2 − 1)= 1 −
6 ⋅ 2816 ⋅ (162 − 1)
= 1 − 0,041 = 0,959.
![Page 23: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/23.jpg)
Przykład I
xi
Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku.
Emis
ja C
O2
(w m
ln to
n)
7
185,6
364,2
542,8
721,4
900
Liczba ludności (w tys.)0 20000 40000 60000 80000
![Page 24: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/24.jpg)
Przykład IIZa pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka
UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego
Katarzyna Beksa 5 biegły
Przemysław Bełkot 4 dobry
Paweł Dentka 3 dobry
Michalina Drzwi-Okno 3 przeciętny
Franciszek Głąb 2 przeciętny
Jacek Kolosalny 1 słaby
Leokadia Masełko 4 biegły
Rafał Nieuważny 4 biegły
Józef Piszpan 1 przeciętny
Zyglinda Żyłka 2 przeciętny
![Page 25: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/25.jpg)
Przykład IIRangowanie dla cechy pierwszej — czas poświęcony nauce.
Nr UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego Rangi X
1 Jacek Kolosalny 1 słaby 1,5
2 Józef Piszpan 1 przeciętny 1,5
3 Franciszek Głąb 2 przeciętny 3,5
4 Zyglinda Żyłka 2 przeciętny 3,5
5 Paweł Dentka 3 dobry 5,5
6 Michalina Drzwi-Okno 3 przeciętny 5,5
7 Przemysław Bełkot 4 dobry 8
8 Leokadia Masełko 4 biegły 8
9 Rafał Nieuważny 4 biegły 8
10 Katarzyna Beksa 5 biegły 10
![Page 26: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/26.jpg)
Przykład IIRangowanie dla cechy drugiej — poziom znajomości języka.
Nr UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego Rangi X Rangi Y
1 Jacek Kolosalny 1 słaby 1,5 1
2 Józef Piszpan 1 przeciętny 1,5 3,5
3 Franciszek Głąb 2 przeciętny 3,5 3,5
4 Zyglinda Żyłka 2 przeciętny 3,5 3,5
5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5
6 Paweł Dentka 3 dobry 5,5 6,5
7 Przemysław Bełkot 4 dobry 8 6,5
8 Leokadia Masełko 4 biegły 8 9
9 Rafał Nieuważny 4 biegły 8 9
10 Katarzyna Beksa 5 biegły 10 9
![Page 27: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/27.jpg)
Przykład IIObliczanie różnic rang i ich kwadratów:
Nr UczeńCzas poświęcony dziennie na naukę
(w godz.)
Poziom znajomości języka obcego Rangi X Rangi Y
1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25
2 Józef Piszpan 1 przeciętny 1,5 3,5 -2 4
3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0
4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0
5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 2 4
6 Paweł Dentka 3 dobry 5,5 6,5 -1 17 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25
8 Leokadia Masełko 4 biegły 8 9 -1 19 Rafał Nieuważny 4 biegły 8 9 -1 1
10 Katarzyna Beksa 5 biegły 10 9 1 1
Razem — — — — — 14,5
di d2i
rs = 1 −6 ⋅
N∑i=1
d2i
N(N2 − 1)= 1 −
6 ⋅ 14,510 ⋅ (102 − 1)
= 1 − 0,09 = 0,91.
![Page 28: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/28.jpg)
Przykład IIWartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie.
Rang
i dla
cec
hy Y
0
2
4
6
8
10
Rangi dla cechy X1 2 3 4 5 6 7 8 9 10
![Page 29: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/29.jpg)
Miary korelacji dla danych pogrupowanych w tablicy
Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.
![Page 30: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/30.jpg)
Schemat tablicy korelacyjnejWarianty zmiennej
niezależnej
Warianty zmiennej zależnej
…
…
…
. . . . .
. . . . .
. . . . .
…
…
xi
x1
x2
xl
y1 y2 yk
yj
n11
n21
n12 n1k
n2kn22
nl1 nl2 nlk
n∙j =l
∑i=1
nij n∙1 n∙2 n∙k
ni∙ =k
∑j=1
nij
n1∙
n2∙
nl∙
N
N - ogólna liczba jednostek,ni∙ - liczebności brzegowe cechy X,n∙j - liczebności brzegowe cechy Y .
nij - liczebności warunkowe odpowiadające:i-temu wariantowi cechy Xj-temu wariantowi cechy Y
![Page 31: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/31.jpg)
Miary korelacji dla danych pogrupowanych w tablicy
Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego xi):
⋮
![Page 32: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/32.jpg)
Miary korelacji dla danych pogrupowanych w tablicy
i z k rozkładów cechy X (dla każdego yi):
⋯
![Page 33: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/33.jpg)
Miary korelacji dla danych pogrupowanych w tablicy
oraz z dwóch rozkładów brzegowych: cechy X i cechy Y:
![Page 34: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/34.jpg)
Miary korelacji dla danych pogrupowanych w tablicy
Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X.
y(x1) | pod warunkiem, że X = x1
y(x2) | pod warunkiem, że X = x2
y(xl) | pod warunkiem, że X = xl
średnie grupowe:
⋮
![Page 35: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/35.jpg)
Miary korelacji dla danych pogrupowanych w tablicy
Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna.
Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.
![Page 36: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/36.jpg)
Analiza wykresu rozrzutu punktów empirycznych
Cen
a di
amen
tu (w
dol
arac
h)
-1000
1000
3000
5000
7000
9000
11000
13000
15000
17000
19000
Waga diamentu (w caratach)0,1 0,4 0,7 1 1,3 1,6
![Page 37: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/37.jpg)
Analiza liczebności w tablicy korelacyjnej
Jeżeli w każdym polu tablicy są jednakowe liczebności nij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.
![Page 38: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/38.jpg)
Analiza liczebności w tablicy korelacyjnej
Im mniej pasażerów zabieramy tym szybciej jedziemy?
Liczba pasazerów
Prędkość samochodu
45 — 55 55 — 65 65 — 75 75 — 85 85 — 95
0 0 1 1 1 01 1 3 3 0 12 1 2 3 1 03 2 3 0 0 04 0 2 0 0 0
xi
yj
![Page 39: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/39.jpg)
Miary korelacji dla pogrupowanych danych
Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary:
• Stosunek korelacji, eyx,
• Współczynnik C-Pearsona, C,
• Współczynnik Q-Yule’a, Q.
![Page 40: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/40.jpg)
Stosunek korelacjiOparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y.
eyx =Sy(x)
Sy,
y - średnia ogólna cechy Y,
Sy - odchylenie standardowe cechy Y,
Sy(x) - odchylenie standardowe średnich grupowych: y(x1), …, y(xl) .
![Page 41: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/41.jpg)
Stosunek korelacjiZ powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna.
y =1N
k
∑j=1
yjn∙j =1N
l
∑i=1
k
∑j=1
yjnij, Sy =1N
k
∑j=1
(yj − y)2n∙j ,
y(xi) =1ni∙
k
∑j=1
yjnij, Sy(x) =1N
l
∑i=1
(y(xi) − y)2ni∙ .
![Page 42: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/42.jpg)
Stosunek korelacjiStosunek korelacji zawiera się w przedziale od 0 do 1:
0 ⩽ eyx ⩽ 1.
Przy braku korelacji
eyx = 0.
Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.
![Page 43: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/43.jpg)
Własności stosunku korelacji
• Stosunek korelacji nie jest miarą symetryczną, tzn. exy nie jest równe eyx, nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki.
• Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to
|rxy | ⩽ eyx,
A równość występuje tylko w przypadku zależności liniowej.
![Page 44: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/44.jpg)
Własności stosunku korelacji
• Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np.
Miejsce zamieszkania
X
Ocena z matematyki na maturze YOgółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
Ogółem 33 50 17 100
![Page 45: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/45.jpg)
Przykład I — Obie cechy mierzalne
Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem.
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność, YOgółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
Ogółem 22 58 20 100
![Page 46: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/46.jpg)
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność, YOgółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
22 58 20 100
31 33 35 —
682 1914 700 3296
y =1N
k
∑j=1
∘yjn∙j =3296100
= 32,96 %
n∙j∘yj
n∙j∘yj
![Page 47: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/47.jpg)
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Procentowy udział wydatków na żywność, YOgółem
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19
1200 — 1600 3 55 2 60
1600 — 2000 19 2 — 21
22 58 20 100
31 33 35 —
682 1914 700 3296
3,8416 0,0016 4,1616 —
84,52 0,09 83,23 167,84
n∙j∘yj
n∙j∘yj
( ∘yj − y)2
n∙j(∘yj − y)2
![Page 48: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/48.jpg)
Przykład I — Obie cechy mierzalne
Sy =1N
k
∑j=1
( ∘yj − y)2n∙j =167,84
100= 1,3
![Page 49: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/49.jpg)
Przykład I — Obie cechy mierzalne
Miesięczne dochody w zł
X
Proc. udz. wyd. na ż., Y
30 — 32 32 — 34 34 — 36
800 — 1200 — 1 18 19 663 34,89 71,1209
1200 — 1600 3 55 2 60 1978 32,97 0,0027
1600 — 2000 19 2 — 21 655 31,19 65,7555
Ogółem 22 58 20 100 3296 — 136,8791
ni∙
3
∑j=1
nij∘yj y(xi) (y(xi) − y)2 ⋅ ni∙
Sy(x) =1N
l
∑i=1
(y(xi) − y)2ni∙ =136,88
100= 1,17
![Page 50: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/50.jpg)
Przykład I — Obie cechy mierzalne
Sy(x) = 1,17,
eyx =Sy(x)
Sy=
1,171,3
= 0,9.
Sy = 1,3,
Podstawiając odpowiednie wartości:
otrzymujemy, że stosunek korelacji jest równy
Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność — prawo Engela.
![Page 51: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/51.jpg)
Przykład I — Obie cechy mierzalne
Śred
nie
grup
owe
cech
y Y
30
31
32
33
34
35
Środki klas dla cechy X1000 1160 1320 1480 1640 1800
![Page 52: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/52.jpg)
Przykład II — Cecha X niemierzalna
W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze.
Miejsce zamieszkania
X
Ocena z matematyki na maturze YOgółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44
Duże miasto 3 6 14 23
Ogółem 33 50 17 100
![Page 53: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/53.jpg)
Przykład II — Cecha X niemierzalna
Miejsce zamieszkania
X
Ocena z matematyki na maturze YOgółem
3 4 5
Wieś 25 6 2 33
Małe miasto 5 38 1 44Duże miasto 3 6 14 23
33 50 17 100
99 200 85 384
0,7056 0,0256 1,3456 —23,2848 1,28 22,8752 47,44
n∙j
n∙jyj
(yj − y)2
n∙j(yj − y)2
y =1N
k
∑j=1
yjn∙j =384100
= 3,84 Sy =1N
k
∑j=1
(yj − y)2n∙j =47,44100
= 0,69
![Page 54: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/54.jpg)
Przykład II — Cecha X niemierzalna
Miejsce zamieszkania
X
Ocena z matematyki na maturze Y
3 4 5
Wieś 25 6 2 33 109 3,30 9,52
Małe miasto 5 38 1 44 172 3,91 0,21
Duże miasto 3 6 14 23 103 4,48 9,37
Ogółem 33 50 17 100 384 — 19,09
ni∙
3
∑j=1
nijyj y(xi) (y(xi) − y)2 ⋅ ni∙
Sy(x) =1N
l
∑i=1
(y(xi) − y)2ni∙ =19,09100
= 0,44
![Page 55: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/55.jpg)
Przykład II — Cecha X niemierzalna
Sy(x) = 0,44,
eyx =Sy(x)
Sy=
0,440,69
= 0,64.
Sy = 0,69,
Podstawiając odpowiednie wartości:
otrzymujemy, że stosunek korelacji jest równy
Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.
![Page 56: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/56.jpg)
Tablica kontyngencjiW przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna.
Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona:
C =χ2
χ2 + N,
gdzie χ2 to wartość statystyki χ2 (chi-kwadrat).
![Page 57: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/57.jpg)
Tablica kontyngencjiWartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru
χ2 =l
∑i=1
k
∑j=1
(nij − nij)2
nij,
nij - liczebności warunkowe (empiryczne),gdzie
gdyby cechy były niezależne:nij - liczebności teoretyczne, czyli takie, które wystąpiłyby,
nij =ni∙ ⋅ n∙j
N.
![Page 58: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/58.jpg)
Współczynnik C-PearsonaWspółczynnik C-Pearsona
C =χ2
χ2 + N
oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 — silną współzależność cech.
![Page 59: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/59.jpg)
Skorygowany współczynnikC-Pearsona
Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona:
Cskor = C ⋅C*
C* − 1,
gdzieC* = min(l, k),
l - liczba wierszy tablicy kontyngencji,k - liczba kolumn tablicy kontyngencji.
![Page 60: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/60.jpg)
PrzykładW pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki:
WynikiX
Metoda nauczania, YRazem
A B C
Pozytywne 30 80 50 160
Negatywne 10 60 20 90
Razem 40 140 70 250
Ustalimy siłę zależności między tymi cechami niemierzalnymi.
![Page 61: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/61.jpg)
PrzykładWyniki
X
Metoda nauczania, YRazem
A B C
Pozytywne
Negatywne
Razem
n11 = 30
n21 = 10
n∙1 = 40
n12 = 80
n22 = 60
n∙2 = 140
n13 = 50
n23 = 20
n∙3 = 70 N = 250
n1∙ = 160
n2∙ = 90
Liczebności teoretyczne:
n11 =n1∙ ⋅ n∙1
N=
160 ⋅ 40250
= 25,6 n12 =n1∙ ⋅ n∙2
N=
160 ⋅ 140250
= 89,6 n13 =n1∙ ⋅ n∙3
N=
160 ⋅ 70250
= 44,8
n21 =n2∙ ⋅ n∙1
N=
90 ⋅ 40250
= 14,4 n22 =n2∙ ⋅ n∙2
N=
90 ⋅ 140250
= 50,4 n23 =n2∙ ⋅ n∙3
N=
90 ⋅ 70250
= 25,3
![Page 62: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/62.jpg)
Przykład
30 25,6 4,4 19,36 0,76
80 89,6 -9,6 92,16 1,03
50 44,8 5,2 27,04 0,60
10 14,4 -4,4 19,36 1,34
60 50,4 9,6 92,16 1,83
20 25,3 -5,3 28,09 1,11
Razem — — — 6,67
nij nij nij − nij (nij − nij)2 (nij − nij)2
nij
χ2 =(nij − nij)2
nij= 6,67 C =
χ2
χ2 + N=
6,676,67 + 250
= 0,16
![Page 63: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/63.jpg)
PrzykładC =
χ2
χ2 + N=
6,676,67 + 250
= 0,16
Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.
![Page 64: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/64.jpg)
Współczynnik współzależności Q-Yule’a
Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych:
Q =ad − bcad + bc
.
Warianty cechyniemierzalnej X
Warianty cechy niemierzalnej Y
y1 y2
x1 a b
x2 c d
![Page 65: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/65.jpg)
Współczynnik współzależności Q-Yule’a
Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.
![Page 66: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/66.jpg)
PrzykładUważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki
EgzaminPłeć
RazemMężczyzna Kobieta
Zdany 70 125 195
Niezdany 20 85 105
Razem 90 210 300
![Page 67: Analiza współzależności dwóch cech IImath.uni.lodz.pl/~skalskg/MiSwF/12wyklad11.pdfGrecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania](https://reader033.fdocument.pub/reader033/viewer/2022050521/5fa50f1fe069c35ec9620c18/html5/thumbnails/67.jpg)
PrzykładEgzamin
PłećRazem
Mężczyzna Kobieta
Zdany 70 125 195
Niezdany 20 85 105
Razem 90 210 300
Q =ad − bcad + bc
=70 ⋅ 85 − 125 ⋅ 2070 ⋅ 85 + 125 ⋅ 20
= 0,41.
Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.