„Analiza wielowymiarowa sytuacji ekonomicznej Polski oraz krajów Azji i Europy Wschodniej”
-
Upload
arabela-eddery -
Category
Documents
-
view
43 -
download
0
description
Transcript of „Analiza wielowymiarowa sytuacji ekonomicznej Polski oraz krajów Azji i Europy Wschodniej”
„Analiza wielowymiarowa sytuacji ekonomicznej Polski oraz krajów Azji
i Europy Wschodniej”
Anna ŻemojtelLeszek Boguszewski
Koło Naukowe Metod IlościowychKatedra Statystyki
Wydział ZarządzaniaUniwersytet Gdański
Praca napisana pod opieką naukową dr hab. Andrzeja Balickiego, prof. UG oraz dr Kamili Migdał Najman i dr Krzysztofa Najman.
Cele badań
• pogrupowanie państw w jednorodne podzbiory ze względu na kondycję ekonomiczną,
• wskazanie państwa o najlepszej i najgorszej kondycji ekonomicznej,
• przedstawienie statystycznych metod analizy wielowymiarowej służących obiektywnej ocenie kondycji ekonomicznej.
Wybór cech diagnostycznych X1 - Import- cif (ceny bieżące) na 1 mieszkańca w $ USA,
X2 - Eksport- fob (ceny bieżące) na 1 mieszkańca w $ USA,X3 - Wydatki w % PKB,X4 - Rezerwy dewizowe w mln $ USA,X5 - Długi zagraniczne na 1 mieszkańca w $ USA, kraje powyżej 10
mld $ USA,X6 - Zagraniczne inwestycje bezpośrednie w kraju w mln $ USA, X7 - Krajowe inwestycje bezpośrednie za granicą w mln $ USA, X8 - PKB na 1 mieszkańca w $ USA,X9 - Procent bezrobotnych mających wykształcenie wyższe,X10 - Pracujący w pośrednictwie finansowym i innych usługach (w
tys.) /ogół pracujących.
Analiza Głównych Składowych
• wskazanie istotnych zależności, jakie zachodzą między zmiennymi opisującymi zjawiska wielowymiarowe,
• redukcja wymiaru przestrzeni cech,
• podział cech na podgrupy (główne składowe),
• interpretacja relacji między składowymi.
Etapy Analizy Głównych Składowych
• standaryzacja danych macierzy obserwacji,
• utworzenie macierzy korelacji,
• wyznaczenie wektorów wartości własnych,
• wyznaczenie ładunków składowych,
• obliczenie współczynników korelacji j-tej zmiennej z l-tą składową główną.
ZmienneWartość własna
% ogółuwyjaśnionej
wariancji
Skumulowana wartość
własna
Skumulowany % ogółu
wyjaśnionej wariancji
X1 3,9925 39,9249 3,9925 39,9249
X2 1,8687 18,6873 5,8612 58,6121
X3 1,2818 12,8177 7,1430 71,4299
X4 1,0970 10,9701 8,2400 82,3999
X5 0,8568 8,5680 9,0968 90,9679
X6 0,3882 3,8816 9,4850 94,8495
X7 0,2707 2,7072 9,7557 97,5567
X8 0,2031 2,0311 9,9588 99,5878
X9 0,0375 0,3748 9,9963 99,9625
X10 0,0038 0,0375 10,0000 100,0000
Tablica 1. Wartości własne.
Źródło: Opracowanie własne- Statistica 6.0
Pozostawione główne składowe łącznie wyjaśniają
ponad 82 % całkowitej zmienności porównywanych cech,
co prezentuje poniższa tablica.
Pozostawiono 4 główne składowe, gdyż celem tej analizy jest
wyjaśnienie jak największej części zmienności przez jak najmniejszą
liczbę składowych. Ilustracją istotności głównych składowych jest
wykres osypiska.
Etapy Analizy Głównych Składowych
Wykres 1. Wykres osypiska
Źródło: Opracowanie własne - Statistica 6.0.
Wartości własne macierzy korelacj
Tylko zmienne aktywne
39,92%
18,69%
12,82% 10,97%
8,57%
3,88% 2,71% 2,03%
,37% ,04%
-1 0 1 2 3 4 5 6 7 8 9 10 11 12
Numer wart. własnej
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
Wa
rto
ść w
łasn
a
• wyznaczenie ładunków składowych,
• obliczenie współczynników korelacji j-tej zmiennej z l-tą składową główną.
Powyższe działania przedstawione są w tablicy.
Kolejne etapy Analizy Głównych Składowych:
Tablica 2. Wyniki analizy głównych składowych po dokonaniu normalizacji.
ZMIENNE
ŁADUNKI SKŁADOWE
KORELACJE MIĘDZY ZMIENNYMI A SKŁADOWYMIw1 w2 w3 w4
X1 0,4830 -0,0649 0,0383 -0,0229 0,9652 -0,0887 0,0434 -0,0240
X2 0,4779 0,0516 0,0444 0,1749 0,9549 0,0706 0,0503 0,1832
X3 0,2179 -0,1314 -0,4276 -0,4725 0,4354 -0,1796 -0,4841 -0,4949
X4 0,1085 0,6348 -0,0809 0,0683 0,2167 0,8677 -0,0916 0,0716
X5 0,0467 -0,1821 -0,4051 0,7768 0,0932 -0,2489 -0,4587 0,8136
X6 0,1963 -0,4344 0,1990 -0,2251 0,3922 -0,5938 0,2253 -0,2358
X7 0,4054 -0,1985 0,2152 0,2351 0,8100 -0,2713 0,2436 0,2463
X8 0,3230 0,5283 -0,1344 -0,0987 0,6453 0,7221 -0,1521 -0,1034
X9 0,0802 0,1481 0,7193 0,1075 0,1603 0,2024 0,8144 0,1126
X10 0,4040 -0,1035 -0,1472 -0,1017 0,8073 -0,1415 -0,1667 -0,1065
Źródło: Obliczenia własne.
Analiza skupień
Celem analizy skupień jest organizowanie
obserwowanych danych w sensowne grupy poprzez
analizę podobieństw w obszarach poddanych badaniu.
Analiza skupień c.d.
Kryteria postępowania:
• Elementy wewnątrz grup powinny być maksymalnie podobne,
• Elementy różnych grup powinny być maksymalnie zróżnicowane.
Metody Grupowania
Najczęściej stosuje się dwie metody:
• Hierarchiczne - sekwencyjne łączenie obiektów w jednorodne grupy,
• Podziałowe (k-średnich) - podział obiektów na, z góry określoną, ilość skupisk .
Ilustracją wyników grupowania hierarchicznego jest
diagram drzewka połączeń,
tzw. dendrogram.
Metody Grupowania
Dendrogram
Źródło: Opracowanie własne - Statistica 6.0.
Diagram drzewa
Metoda WardaKwadratowa odl. euklidesowa
0 20 40 60 80 100 120
Odległość wiąz.
Japonia
Republika Korei
Malezja
Izrael
Estonia
Turcja
Polska
Łotwa
Litwa
Rosja
Pakistan
Indonezja
Tajlandia
Chiny
Indie
Białoruś
Powstałe podgrupy:
1. Malezja i Republika Korei,
2. Estonia i Izrael,
3. Litwa, Łotwa, Turcja, oraz Polska,
4. Indonezja, Pakistan, Rosja, Białoruś, Indie, Chiny oraz Tajlandia,
5. Japonia (outlier).
W wyniku grupowania metodą k-średnich na pięć podgrup otrzymano
identyczne, w porównaniu z metodą hierarchiczną, skupiska.
Ciekawych informacji na temat wartości zmiennych w podgrupach
dostarcza wykres średnich.
Wykres Średnich
Metoda k-średnich
Źródło: Opracowanie własne - Statistica 6.0
Wykres średnich każdego skupienia
1 2 3 4 5 6 7 8 9 10
Zmienne
-3
-2
-1
0
1
2
3
4
5
JaponiaEstonia i Izrael
Malezja i Republika Korei
Litwa, Łotwa, Turcja i Polska
Indonezja, Pakistan, Rosja, Białoruś, Indie, Chiny i Tajlandia,
Porządkowanie liniowe
Celem porządkowania liniowego jest
zhierarchizowanie państw ze względu na poziom
rozpatrywanych cech oraz odnalezienie obiektu
pierwszego i ostatniego.
Pozycja Kraj Miara rozwoju
1 Japonia 0.5231
2 Izrael 0.5133
3 Estonia 0.4306
4 Malezja 0.3878
5 Republika Korei 0.3512
6 Łotwa 0.3357
7 Polska 0.3232
8 Litwa 0.3125
9 Turcja 0.2525
10 Chiny 0.2434
11 Tajlandia 0.2028
12 Rosja 0.1897
13 Pakistan 0.1711
14 Indonezja 0.1576
15 Białoruś 0.1469
16 Indie 0.1290
Porządkowanie liniowe
Metoda wzorca
rozwoju
Tablica 3. Wyniki porządkowania liniowego.