MULTIVARIJATNA ANALIZA.doc
-
Upload
azdajasnebivljiva -
Category
Documents
-
view
97 -
download
0
description
Transcript of MULTIVARIJATNA ANALIZA.doc
NAPOMENE (od Tanje Jevremov):
-na pitanja koja se tiču matematičko-statističkih osnova različitih tehnika, preporučljivo je obuhvatiti sledeće stvari: od
čega se polazi, šta se ekstrahuje, koji rezultati su bitni?
-kod pitanja koja se odnose na namenu i cilj različitih tehnika dobro je dati primer
1. Multivarijatna analiza: istorijski uvod
Prva multivarijatna tehnika bila je faktorska analiza. Nastala je početkom XX veka usled potrebe
da se odgovori na neka pitanja vezana za jedan psihološki konstrukt – inteligenciju:
1) Da li je inteligencija jedna generalna ili više specifičnih sposobnosti?
2) Da li je inteligencija jednodimenzionalni ili višedimenzionalni konstrukt?
3) Kako protumačiti strukturu inteligencije?
4) Kako objasniti interkorelacije testova inteligencije?
Izum faktorske analize se često pripisuje Čarlsu Spirmanu, koji:
- se smatra za pionira istraživanja zasnovanih na korelacijama
- je autor formula za rang korelaciju i korekciju za atenuaciju (kojom se koeficijent korelacije
oslobađa negativnog efekta greške merenja)
- je začetnik teorije inteligencije i autor termina G-faktor (koji čine opšte + specifične sposobnosti)
Na njega je snažno uticao rad Frensisa Goltona, a bio je u sukobu sa Karlom Pirsonom. Zajedno sa
Goltonom, Ajzenkom i Darvinom, smatra se pripadnikom tzv. „londonske škole“. Ipak, termin faktorska
analiza prvi je upotrebio Luis Terston.
Uopšte gledano, veliki je doprinos psihologa stvaranju i razvoju multivarijatne analize. Takvo
stanje stvari nije uopšte slučajno jer su psihički fenomeni složeni, skriveni i zahtevaju složene postupke
analize, koji uključuju posredno merenje i zaključivanje.
2. Geometrija vektorskog prostora
Manifestne varijable (testove) je moguće predstaviti kao vektore tj. kao orijentisane duži koje
imaju usmerenje i određenu dužinu. Interkorelacije među tim varijablama se mogu predstaviti kao
KOSINUSNI UGLOVI, i to zato što kosinusna funkcija:
1) ima iste vrednosti kada je ugao 0o i 1800 tj. na 0o r= 1,00, a na 180o r= - 1,00
2) a ima i nultu vrednost (r= 0,00) kada je ugao 90o tj. kada su varijable, odnosno vektori ortogonalni
jedan na drugi
Konfiguracija vektora odražava dva svojstva matrice interkorelacija:
1) smer povezanosti, na koji ukazuje ugao između vektora (ugao ukazuje i na jačinu povezanosti)
2) dužina vektora, koja odražava komunalitet tj. količinu zajedničke varijanse
Osim manifestnih varijabli (testova), u vektorskom prostoru je moguće predstaviti i faktore,
odnosno latentne varijable koje leže u osnovi manifestnih. Faktor se predstavlja kao linearna kombinacija
dva ili više vektora varijabli, a pozicionira se tako da odražava svojstva vektora iz kojih je izveden.
Svaki faktor je određen dvojako:
1) ortogonalnim projekcijama (koje uslovno predstavljaju jednostavne korelacije faktora sa varijablama)
2) paralelnim projekcijama (koje uslovno predstavljaju parcijalne korelacije faktora sa varijablama)
Projekcijama se, dakle, iskazuje odnos manifestnog i latentnog tj. odnos testa i faktora.
Iz svega rečenog se može zaključiti da vektorski prostor nije jednodimenzionalan (duž ili prava),
dvodimenzionalan (ravan), niti trodimenzonalan (realan prostor), već je matematički hiperprostor koji
poseduje sva svojstva prethodno navedenih, ali ga je geometrijski nemoguće predstaviti.
1
Međutim, vektorski prostor se može predstaviti brojčano, u terminima MATRIČNE ALGEBRE, koja
predstavlja matematičku osnovu multivarijatne analize. Osnovni pojam matrične algebre jeste matrica,
koja se definiše kao skup brojeva smeštenih u i redova i j kolona. Ona je, dakle, ispunjena skalarima koji
odražavaju svojstva vektora. Dimenzionalnost matrice tj. njena veličina određena je brojem redova i
kolona. Elementi matrice su vektori predstavljeni skupom brojeva raspoređenih u redu ili koloni. Red u
matrici je vektor koji opisuje ispitanika, a kolona je vektor koji opisuje varijablu (tj. vektor reda - rezultati
ispitanika na varijabli, vektor kolone – odgovor ispitanika na varijablama).
Vektorski prostor je, dakle, matrica tj. skup svih vektora određenog reda u polju brojeva. Ti
brojevi su elementi tj. koordinate vektora (što bi značilo da su vektori u stvari n-dimezioni brojevi, a jedan
broj je u stvari vektor dužine 1). Multivarijatna analiza je skup postupaka koji se u celini odvija unutar
spomenutog prostora, ne nužno definisanog samo jednom matricom.
Vrste matrica: a)pravougle
b)kvadratne
b1) specijalne: 1)simetrične, trougle 2)dijagonalne (vandijagonalni elementi=0) 3)matrica identiteta
(dijagonalna, 1 i 0)
3. Faktorska analiza: namena i upotreba
Faktorska analiza je metod multivarijatne analize koji se upotrebljava kada želimo da opišemo
međusobne zavisnosti većeg broja varijabli korišćenjem manjeg broja osnovnih, latentnih varijabli koje su
poznate kao faktori.
Ona ima dvojaku ulogu u analizi višedimenzionalnih podataka:
1) Možemo je koristiti u deskriptivne svrhe, i tada kažemo da ostvarujemo eksplorativni cilj faktorske
analize. Kada nemamo na umu neku određenu teorijsku hipotezu, faktorsku analizu koristimo kako bi
identifikovali zajedničku strukturu koja je proizvela dobijeni skup koreliranih manifestnih varijabli. Prostije
rečeno, utvrđujemo broj i prirodu latentnih dimenzija koje se nalaze u osnovi R-matrice.
2) Druga primena faktorske analize tiče se onih istraživanja u kojima polazimo od apriorne teorijske
informacije o zajedničkoj strukturi. Tada faktorsku analizu koristimo u svrhu proveravanja osnovanosti
hipoteze o broju i prirodi latentnih dimenzija i pokušavamo da ostvarimo konfirmativni cilj faktorske
analize.
Još jedan cilj faktorske analize, koji je zapravo obuhvaćen prethodnim, jeste njen matematički cilj
koji podrazumeva da R-matricu treba reprodukovati pomoću što manjeg broja varijabli tj. faktora.
Redukciju treba izvršiti tako da gubitak informacije bude minimalan.
Metoda faktorske analize razvijena je prvenstveno zarad proučavanja inteligencije, ali je našla
primenu i u drugim područijima psihologije i drugim naukama poput pedagogije, sociologije, ekonomije,
socijalnog rada itd. U tom smislu, faktorska analiza se može prihvatiti kao opšta naučna metoda, jer
zadovoljava dva cilja nauke: 1.utvrđivanje povezanosti pojava i njihovog uzroka i
2.kondenzaciju podataka.
4. Faktorska analiza: matematičko-statističke osnove
Faktorska analiza je metod multivarijatne analize koji se upotrebljava kada želimo da opišemo
međusobne zavisnosti većeg broja varijabli korišćenjem manjeg broja osnovnih, latentnih varijabli koje su
poznate kao faktori.
Pošto se i varijable i faktori mogu predstaviti vektorima, kažemo da faktor predstavlja linearnu
kombinaciju, odosno transformaciju dva ili više vektora varijabli. Linearana transformacija je ponderisana
kombinacija rezultata dobijena tako što se svaki od rezultata najpre pomnoži sa konstantom, a proizvodi
2
se zatim saberu (Xi = W0 + W1X1 + W2X2 + ..).
Faktor je u vektorskom prostoru određen dvojako:
1)ortogonalnim projekcijama (koje uslovno predstavljaju jednostavne korelacije faktora sa varijablama) i
2)paralelnim projekcijama (koje uslovno predstavljaju parcijalne korelacije faktora sa varijablama).
U svrhe predstavljanja faktora, alternativa vektorskom prostoru može biti brojčano prikazivanje u
terminima matrične algebre, koja čini matematičku osnovu multivarijatne analize.
Matematički cilj faktorske analize je reprodukcija R-matrice, od koje se na samom početku
postupka polazi, pomoću što manjeg broja varijabli tj. faktora. Redukciju treba izvršiti tako da gubitak
informacije bude minimalan.
Cilj faktorske analize takođe je i utvrđivanje prirode faktora (npr. kod testova inteligencije nas
zanima da li su dva izolovana faktora : 1.verbalni i numerički ili 2.kristalizovani i fluidni). Nema potrebe
gledati na varijable kada se određuje koliko faktora se zadržava u analizi. Interpretirati tj. utvrditi prirodu
faktora moguće je samo na osnovu varijabli, u čijoj se osnovi on nalazi. Iz tog razloga važan nam je položaj
referentnih osa tj. faktora.
Njihov položaj, nakon ekstrakcije, se utvrđuje rotacijom, iterativnim postupkom koji za cilj ima da
se faktor dovede u optimalan položaj u prostoru varijabli, kako bi se postigla jednostavna struktura.
Jednostavna struktura je jedan od kriterijuma koji se koriste u faktorskoj analizi u cilju lakše interpretacije.
Konkretna upotreba faktorske analize svodi se, dakle, na postupak koji obuhvata sledeće korake:
1) prikupljanje podataka (čiji bi krajnji proizvod trebala da bude R-matrica tj. matrica podataka)
2) odluka o vrsti primenjene metode
3) iterativna ekstrakcija faktora
4) određivanje broja i rotacija faktora (u cilju postizanja jednostavne strukture)
5) interpretacija matrice zasićenja i imenovanje faktora
5. Faktorska analiza: postupci za ekstrakciju faktora
Danas istraživači faktorsku analizu izvode uz pomoć odgovarajućih statističkih paketa poput
STATISTICA-e i SPSS-a. Sam program se izvršava iterativno. Istraživač bira odgovarajuće opcije i u
kritičnim trenucima odlučuje u kom pravcu obrada treba da se kreće. To čini arbitrarno, ali u skladu sa
ciljevima analize. Dakle, ne sasvim liberalno.
Izbor metoda ekstrakcije faktora svodi se na odluku o tome da li će se analizirati ukupna ili samo
zajednička varijansa varijabli. Ili, drugačije rečeno, kako odrediti vrednost u velikoj dijagonali matrice tj.
komunalitete. Ili, geometrijski rečeno, da li dužine vektora izjednačiti ili, ako ne, kako ih definisati (da li im
skratiti varijansu ili ne),
U faktorskoj analizi postoje dva najčešće primenjivana metoda ekstrakcije faktora: metod (ili
analiza) glavnih komponenti i faktorska analiza u užem smislu.
1.METOD GLAVNIH KOMPONENTI
Kod ovog metoda težište interesovanja je na varijablama. Koristi se kada nam je primarni cilj
redukcija dimenzionalnosti R-matrice tj. skupa podataka (npr. ITEM analiza), uz istovremeno zadržavanje
maksimalno mogućeg varijabiliteta. Faktori tj. glavne komponente izolovane ovom metodom, dakle,
zadržavaju skoro svu informaciju sadržanu u prvobitnom skupu podataka. Ovim ne samo da je zadovoljen
cilj redukcije varijabli u analizi, već je učinjen i korak ka razumevanju strukture proučavanog fenomena.
Metod glavnih komponenti predstavlja i istraživačko sredstvo pomoću koga se generišu hipoteze o
proučavanom fenomenu.
U ovoj vrsti analize, shodno rečenom, nemamo na umu neku određenu teorijsku hipotezu, već
faktorsku analizu koristimo da bismo identifikovali zajedničku strukturu koja je generisala dobijeni skup
3
korelisanih manifestnih varijabli. To što metod glavnih komponenti izučava ukupnu varijansu skupa
podataka je sa jedne strane prednost, ali sa druge i mana, pošto je time u analizu uključena i varijansa
greške. Zbog toga što je uključena celokupna varijansa, vrednosti u velikoj dijagonali R matrice iznose
1.00. Ovaj metod se koncentriše na dijagonalne elemente matrice tj. na varijansu.
2.FAKTORSKA ANALIZA U UŽEM SMISLU
Uključuje veći broj metoda ekstrakcije faktora (zajedničkih faktora, najveće verodostojnosti). Kod
ovih metoda težište interesovanja je na faktorima. Kao i metoda glavnih komponenti služi za redukciju
originalnog skupa podataka, ali to nije njen primarni cilj. Ona se primenjuje prvenstveno onda kada je
potrebno testirati teorijske hipoteze o broju i prirodi faktora koji su latentno prisutni u skupu manifestnih
varijabli. Nasuprot metodu glavnih komponenti, faktorska analiza u užem smislu polazi od zajedničke
varijanse manifestnih varijabli tj. komunaliteta. Zajednički deo varijacija varijable je onaj koji ona deli sa
ostalim varijablama. Faktorska analiza u užem smislu zaobilazi specifičan deo varijanse, a samim tim i
varijansu greške. Stoga su vrednosti u velikoj dijagonali R-matrice različite od 1.00. Ovaj metod se
koncentriše na vandijagonalne elemente tj. na kovarijanse.
6. Faktorska analiza: kriterijumi za utvrđivanje broja faktora
Ukoliko smo prilikom određivanja broja faktora pogrešili izabravši premali broj faktora, značajni
faktori će biti izostavljeni iz analize. U suprotnom slučaju, ako izaberemo preveliki broj faktora neki od
manje bitnih, specifičnih faktora biće pomešan sa zajedničkim faktorima. Iz ovog razloga se određivanju
broja zajedničkih faktora mora prići sa puno pažnje, jer taj izbor u velikoj meri utiče na kvalitet zaključaka
faktorske analize.
Postoji veći broj kriterijuma za određivanje broja faktora: Guttman-Keiserov kriterijum jediničnog
korena, Cattelov Scree test, asimptotski statistički postupci za testiranje broja zajedničkih faktora, Plum-
Brandy kriterijum itd. Preporučuje se da se prilikom donošenja odluke o broju faktora koristi više od jednog
kriterijuma. Dva najpoznatija i najčešće korišćena kriterijuma su dva prvopomenuta: Guttman-Keiserov i
Cattelov.
1.GUTTMAN-KEISEROV KRITERIJUM JEDINIČNOG (karakterističnog) KORENA
On glasi: „Broj λ (lambda; karakterističnih korenova) koji je veći od 1 odgovara verovatnom broju
faktora“. Tačnije, zadržavaju se oni faktori koji doprinose objašnjenju varijanse barem koliko i jedna
varijabla. Dobre osobine ovog kriterijuma dolaze do izražaja kada je broj varijabli između 20 i 50. Ako je
broj varijabli veći od 50, tada ovaj kriterijum izdvaja preveliki broj zajedničkih faktora, a ako je broj varijabli
manji od 20 tada je kriterijum isuviše konzervativan jer izdvaja premali broj zajedničkih faktora. Iako
postoji generalni konsenzus da je bolje ekstrahovati veći nego manji broj faktora, ne postoji psihometrijsko
opravdanje za zadržavanje svih faktora sa karakterističnim korenom većim od 1.
2.KRITERIJUM TAČKE PRELOMA (ILI LAKTA) NA CATTELOVOM SCREE TESTU
Mada svi faktori sadrže u izvesnom stepenu specifičnu varijansu, ona dominira kod poslednje
ekstrahovanih faktora. Na osnovu Scree testa određujemo optimalan broj faktora koje treba izdvojiti pre
nego što specifična varijansa počne da dominira nad zajedničkom. Na ovom grafičkom prikazu kriterijum
za određivanje broja faktora predstavlja tačka u kojoj karakteristični korenovi formiraju silazni trend, tzv.
tačka preloma. U odnosu na Guttman-Keiserov kriterijum jediničnog korena, Scree test najčešće izdvaja
veći broj faktora.
7. Rotacija u faktorskoj analizi: pravougle rotacije
Položaj referentnih osa tj. faktora se nakon ekstrakcije utvrđuje rotacijom, iterativnim postupkom
koji za cilj ima da se faktor dovede u optimalni položaj u prostoru varijabli , kako bi se postigla jednostvna
4
struktura. Jednostavnu strukturu je definisao Terston i ona predstavlja jedan od kriterijuma koji se koriste u
faktorskoj analizi u cilju lakše interpretacije rezultata. Kod jednostavne strukture pokušavamo da
postignemo mali broj visokih vrednosti faktorskih opterećanja i veliki broj niskih faktorskih opterećenja tj.
mali broj manifestnih varijabli treba da ima visoke i srednje visoke korelacije sa faktorom, a sve ostale
niske ili nulte korelacije sa istim tim faktorom. Najbolje je da svaka varijabla ima samo jednu visoku
korelaciju sa jednim faktorom, a da su sve ostale korelacije te varijable sa drugim faktorima niske ili nulte.
U pravougle rotacije spadaju: Keiserov varimax, quartimax, equimax itd. Pravougle tj. ortogonalne
rotacije ne menjaju odnos faktorskih osa, one su i dalje ortogonalne. One se po tome razlikuju od kosouglih
rotacija kod kojih tog ograničenja nema (faktorske ose se rotiraju nezavisno jedna od druge). U
ortogonalnim rotacijama se zadržava nezavisnost sirovih faktora tj. korelacije između faktora su nulte. To
znači da nam skor na jednom faktoru ništa ne govori o skoru na drugom.
U ortogonalnim rotacijama međusobni odnosi faktora su unapred definisani, što može predstavljati
smetnju u postizanju jednostavne strukture. Kada je prvi faktor postavljen u optimalni položaj, položaji svih
drugih faktora su takođe već određeni jer oni moraju da budu u ortogonalnom odnosu sa prvim. Prema
tome, traženje najpovoljnijeg rešenja tj. položaja za sve faktore nije jednostavno i zahteva određene
kompromise.
Dobra stvar kod ortogonalnih faktora je to što su oni jednostavniji za interpretaciju od kosouglih,
pošto se ortogonalna rotacija odvija na samo jednoj matrici – matrici strukture.
8. Rotacija u faktorskoj analizi: kosougle rotacije
Položaj referentnih osa tj. faktora se nakon rotacije utvrđuje rotacijom, iterativnim postupkom koji
ima za cilj da se faktor dovede u optimalan položaj u prostoru varijabli, kako bi se postigla jednostavna
struktura. Jednostavnu strukturu je definisao Terston i ona predstavlja jedan od kriterijuma koji se koriste u
faktorskoj analizi u cilju lakše interpretacije rezultata. Kod jednostavne strukture pokušavamo da
postignemo mali broj visokih vrednosti faktorskih opterećanja i veliki broj niskih faktorskih opterećenja tj.
mali broj manifestnih varijabli treba da ima visoke i srednje visoke korelacije sa faktorom, a sve ostale
niske ili nulte korelacije sa istim tim faktorom. Najbolje je da svaka varijabla ima samo jednu visoku
korelaciju sa jednim faktorom, a da su sve ostale korelacije te varijable sa drugim faktorima niske ili nulte.
U kosougle rotacije spadaju: promax, oblimin, quartimin. Kosougle rotacije dopuštaju da rotirani
faktori zaklapaju ugao različit od 90o, odnosno da faktori između sebe koreliraju. Zasnovane su na
različitim kriterijumima. Njihovom se upotrebom dobijaju faktorska rešenja koja zadovoljavaju kriterijum
jednostavne strukture, a da pri tome faktori nisu suviše korelirani između sebe. Kod kosouglih rotacija
postoji više mogućih rešenja i one potpunije mogu da zadovolje kriterijum jednostavne strukture zbog
fleksibilnosti u određivanju položaja pojedinih faktora.
Analitički postupci kosih rotacija omogućavaju da se pri interpretaciji faktora koriste tri matrice:
1) matrica strukture/zasićenja – sadrži jednostavne korelacije manifestnih varijabli sa faktorima
2) matrica sklopa/paterna - sadrži parcijalne korelacije manifestnih varijabli sa faktorima
3) matrica interkorelacija faktora (koja omogućava hijerarhijsku faktorsku analizu)
Postupci kosih rotacija, dakle, vernije predstavljaju stanje u latentnom prostoru jer ne ukazuju samo
na odnose varijabli i faktora, već i na međusobne odnose faktora. Samim tim što omogućavaju da faktori
koreliraju ne isključuju ni mogućnost ortogonalnog odnosa faktora ukoliko je to najbolje rešenje.
Kosougle rotacije se generalno preferiraju u odnosu na ortogonalne. Najvažniji razlog za takvo stanje
je činjenica da su psihološke pojave gotovo uvek međusobno povezane, i zbog toga je logičnije primeniti
kosougle nego ortogonalne rotacije. U situacijama kada istraživač ne može unapred pretpostaviti relacije
između ispitivanih konstrukata nema razloga da podrazumeva njihov ortogonalan odnos, zbog toga što
5
kosougle rotacije uvek odražavaju relacije između faktora pa će, kao što je rečeno, pokazati i da faktori
međusobno ne koreliraju.
9. Faktorska analiza: interpretacija faktora
Pre no što se pristupi interpretaciji faktora potrebno je utvrditi koji se elementi matrice faktorskih
opterećenja mogu smatrati statistički značajnim. Za to nam na raspolaganju stoji nekoliko iskustvenih
kriterijuma.
Najvažniji je kriterijum proistekao iz iskustva velikog broja istraživača u primeni faktorske analize.
Oni sugerišu da se svi koeficijenti faktorskih opterećenja (parcijalne korelacije) čija je apsolutna vrednost
veća od 0,30 mogu smatrati statistički značajno različitim od 0. Ovaj kriterijum se pokazao prihvatljivijim u
odnosu na druge kod uzoraka veličine 50 i više elemenata. Ipak ovaj, a ni drugi kriterijumi ne uzimaju u
obzir broj promenljivih u analizi, kao ni redosled faktora čija oterećenja preispitujemo sa stanovišta
značajnosti. Sugeriše se da se sa povećanjem broja promenljivih u analizi snižava nivo značajnosti. S
druge strane, kod kasnije izdvojenih faktora bi trebalo postepeno povećavati nivo značajnosti pri testiranju
opterećenja vezanih za taj faktor.
Faktor možemo smatrati intepretabilnim ako smo utvrdili da postoje najmanje tri varijable značajno
zasićene njime (ako je faktor zasićen samo jednom varijablom nazivamo ga SINGLE faktorom, a ako je
zasićen sa dve DUAL faktorom).
Sama interpretacija se obavlja na osnovu:
1) matrice faktorske strukture (koja sadrži jednostavne korelacije varijabli sa faktorima; tumačenje na
osnovu nje se vrši uvažavajući i druge podatke, a posebno karakteristične korenove tj. procene varijanse
objašnjene faktorom
2) a u kosim rotacijama vrši se dopunsko tumačenje na osnovu još dve matrice:
- matrice sklopa/paterna (koja sadrži parcijalne korelacije varijabli sa
faktorima; one ukazuju na doprinos pojedinačnih varijabli faktorima i mogu ukazati na kolinearnost
varijabli) - matrice interkorelacija faktora
Možemo smatrati da je dobra faktorska solucija ona koja omogućava interpretaciju i zadovoljava
kriterijum jednostavne strukture. Posao interpretacije završavamo pridruživanjem imena tj. nominacijom
faktora. Ovo nije nužan korak, ali je visoko poželjan. Ovaj postupak je u većoj meri zasnovan na
poznavanju fenomena koji se istražuje, kao i subjektivnoj proceni istraživača. Uostalom, u svakoj se fazi
primene faktorske analize vrši subjektivna procena u kom pravcu dalje usmeriti analizu, pa ni faza davanja
imena nije izuzetak.
10. Hijerarhijska faktorska analiza
Kosougle rotacije omogućavaju izvođenje hijerarhijske faktorske analize uvođenjem matrice
interkorelacija faktora prvog reda. Cilj hijerarjiske faktorske analize je utvrđivanje faktora na različitim
nivoima opštosti.
Faktori utvrđeni na osnovu matrice interkorelacija manifestnih varijabli nazivaju se faktorima prvog
reda. Ako se matrica njihovih interkorelacija faktorizuje dobiće se faktori drugog reda itd. Što je red faktora
viši, to je broj faktora manji i faktori su opštiji.
U hijerarhijskoj faktorskoj analizi može se poći od matrice interkorelacija faktora ili od matrice
sirovih podataka, odnosno matrice faktorskih skorova. Matrica faktorskih skorova sadrži standardizovane
rezultate ispitanika na faktorima, koji se dobijaju tako što se sirovi skorovi pomnože sa ponderom tj.
težinom faktora koja je prethodno utvrđena. Ova matrica je sumativna, što znači da nam omogućava da
rangiramo ispitanike. Prikladna je i za analize druge vrste:
6
- u regresionoj analizi (kao opservacije objašnjavajućih promenljivih)
- u klaster analizi
- u kanoničkoj korelacionoj analizi
- u diskriminacionoj analizi
11. Uslovi za primenu faktorske analize: teorijski model i izbor varijabli
Jedan od uslova za primenu faktorske analize je postojanje teorijske podloge za odabir varijabli koje
će ući u analizu. Ako se formira skup varijabli za koji ne postoji teorijsko opravdanje, kao rezultat ćemo
dobiti nepostojeći konstrukt jer se, bez obzira na to da li je teorijski model postojao ili nije, uvek nešto
mora izolovati. Ukoliko koristimo loš teorijski model, ili ga nemamo, ne možemo dobiti dobre faktore. U
tom slučaju bi došlo do izdvajanja faktora koji u stvarnosti ne postoje, tzv. artefakti. Naučni radnici koji se
bave faktorskom analizom štete nauci kontaminirajući naučni prostor superprodukcijom faktorskih rešenja
za koja ne postoji nikakvo opravdanje.
Uslovi za primenu faktorske analize obuhvataju i uslove za izračunavanje Pirsonovog produkt-
moment koeficijenta korelacije: barem intervalni nivo merenja varijabli, njihova normalna distribucija,
linearan odnos između varijabli i homoskedasticitet.
Što se tiče izbora varijabli, one treba da budu približno jednakog nivoa opštosti (razlika između
ukupnih skorova i odgovora na pojedina pitanja u uptniku) i opsega kako bi bile interpretabilne.
Faktorsku analizu nije opravdano sprovoditi na podacima prikupljenim na testovima brzine, jer bi
faktori koji bi se izolovali predstavljali faktore redosleda, a ne sadržaja (testovi brzine uključuje relativno
velik broj lakih ajtema koje je potrebno rešiti u toku vrlo ograničenog vremena).
12. Uslovi za primenu faktorske analize: broj ispitanika i eksperimentalna nezavisnost
podataka
Veoma važan uslov za sprovođenje faktorske analize jeste dovoljan broj ispitanika. Ukoliko se ovaj
uslov ne ispuni rezultati će biti nestabilni i neinterpretabilni. Međutim, veličina uzorka u faktorskoj analizi
se često pominje kao problem, i različiti autori nude različita rešenja. Konzervativniji smatraju da bi odnos
između broja subjekata i broja varijabli trebalo da bude 10:1 (Nunally). S druge strane, liberalniji autori
(Guilford) taj odnos spuštaju čak do 2:1. Možda je tu najrealnije „pravilo Tuckera“, po kome bi odnos
između broja ispitanika i broja varijabli trebalo da bude 5:1.
Neki drugi autori sugerišu da nije potrebno više od 100 ispitanika za postupak faktorske analize,
dok ima i onih koji smatraju da uzorak treba da broji od 500 do 1000 ispitanika. Noviji pristup u faktorskoj
analizi kaže da je, kada su komunaliteti visoki (veći od 0,6) i faktori dobro definisani (sa dovoljno visokih
zasićenja), uzorak od 100 ispitanika sasvim dovoljan.
Eksperimentalna tj. linearna nezavisnost podataka je takođe uslov za primenu fakorske analize.
Ako ovaj uslov nije ispunjen javiće se multikolinearnost i artefakti. Ako u matrici interkorelacija imamo
jednu varijablu koja je umnožak prethodne dve u pitanju je direktna linearna zavisnost tj,
multikolinearnost. Ona povećava verovatnoću da će broj faktora koje smo izolovali biti manji nego što bi to
realno trebao biti i da će biti izolova neki nepostojeći (prividni) faktori – artefakti.
13. Kanonička korelaciona analiza(KKA): namena i upotreba
KKA je kombinacija faktorske analize (u njoj se vrši redukcija) i regresione analize (u njoj
utvrđujemo povezanost dva skupa varijabli, što nam omogućava da vrednost varijabli iz jednog skupa
predvidimo na osnovu varijabli drugog skupa).
KKA je multivarijatni statistički postupak koji se bavi utvrđivanjem strukture i jačine povezanosti
dva skupa varijabli (zavisnih-kriterijuma i nezavisnih-prediktora). Cilj faktorske analize jeste formiranje
7
linearne kombinacije unutar skupa zavisnih i posebno unutar skupa nezavisnih varijabli, ali tako da između
te dve linearne kombinacije postoji maksimalna moguća korelacija, koju nazivamo KANONIČKOM
KORELACIJOM. Na osnovu tih linearnih kombinacija (koje su poznate i kao kanonički faktori ili varijable)
stičemo uvid u povezanost dva skupa promenljivih.
Pored pomenutog, glavnog cilja KKA, može nas interesovati izvođenje dodatnog para linearnih
kombinacija koji će maksimizirati preostalu korelaciju, uz uslov nekoreliranosti sa prethodno izdvojenim
parom kanoničkih faktora. Ovaj proces izdvajanja kanoničkih faktora može se nastaviti i dalje.
14. Kanonička korelaciona analiza(KKA): matematičko-statističke osnove
KKA polazi od supermatrice koja se sastoji od 4 matrice interkorelacija: dve matrice interkorelacija
varijabli u svakom od dva skupa i dve matrice interkorelacija između varijabli oba skupa. Poslednje dve
matrice sadrže jednake koeficijente.
Iz oba skupa varijabli se najpre izoluju kanonički faktori, i to prema dva kriterijuma: 1.što varijabla
više korelira sa varijablama iz drugog skupa to će više doprinosti objašnjenju faktora i 2.varijable koje
imaju najmanju moguću korelaciju sa ostalim varijablama iz svog skupa će više doprinositi objašnjenju
faktora. Možemo izolovati onoliko faktora koliko ima varijabli u manjem skupu varijabli. Kanonički faktori
su, dakle, optimalno ponderisani kompoziti i oni su, kao u faktorskoj analizi, linearne kombinacije varijabli.
Između dva zajedno izolovana kanonička faktora, iz jednog i drugog skupa varijabli postoji maksimalna
moguća korelacija koju postižemo ponderisanjem manifestnih varijabli u okviru kanoničkih faktora. U
skladu sa svime ranije rečenim, veće pondere dodeljujemo najboljim prediktorima tj. onim varijablama
koje su u visokoj korelaciji sa varijablama iz drugog, kriterijumskog skupa, a u niskoj korelaciji sa
varijablama iz svog skupa. Svaki kanonički faktor je ortogonalan na sve ostale, osim na onaj sa kojim je u
najvećoj mogućoj korelaciji.
Maksimalna moguća povezanost između dva skupa varijabli tj. između faktora izolovanih iz tih
skupova, naziva se kanonička korelacija. Koeficijent kanoničke korelacije je pokazatelj najviše moguće
povezanosti između dva skupa varijabli, a ne pokazatelj realne veze. Kanonička korelacija između prva dva
izolovana faktora je uvek viša od prosečne korelacije između dva skupa varijabli. Ona je uvek najviša, pa je
između sledeća dva izolovana faktora niža itd. KKA, dakle, služi za opisivanje onoga što je zajedničko
dvema skupovima varijabli, a zatim onoga što je preostalo, ali je nezavisno od prethodnog.
15. Interpretacija rezultata kanoničke korelacione analize: značajnost i struktura relacija
Za testiranje značajnosti koeficijenta kanoničke korelacije upotrebljava se Bartletov χ2 test.
Koeficijent kanoničke korelacije se može pokazati statistički značajnim, ali istovremeno mora biti ispunjen i
uslov da se utvrđena veza dva skupa varijabli može smisleno interpretirati. Samo uslov statističke
značajnosti koeficijenta nije dovoljan da bismo dalje analizirali tu vezu. Pored rezultata testiranja
značajnosti u procesu donošenja odluke oslanjamo se i na veličinu tog koeficijenta i mere redundantnosti.
Granična vrednost koeficijenta kanoničke korelacije uglavnom je uslovljena specifičnom prirodom
razmatranog problema. S obzirom na to da je kanonička korelacija najviša moguća korelacija između dva
skupa varijabli, može se desiti da pogrešno utvrdimo značajnost veze između skupova, čak i kada
kanonički faktori ne izdvajaju značajan deo varijanse iz njihovih skupova. Zato se preporučuje korišćenje
mera redundantnosti koje ukazuju na deo varijanse zavisnih promenljivih objašnjen nezavisnim
promenljivima iz drugog skupa.
Ukoliko smo kombinacijom navedenih kriterijuma doneli odluku o broju parova kanoničkih faktora
koje zadržavamo u analizi, pristupamo interpretaciji dobijenih rezultata. U fazi interpretacije rezultata
oslanjamo se, u najvećoj meri, na matricu strukture kanoničkih faktora i matricu kanoničkih opterećenja.
8
Na osnovu njih se interpretira struktura relacija. U matrici strukture se nalaze jednostavne korelacije
varijabli sa faktorima. Predznak i veličina ovog koeficijenta ukazuju na doprinos originalnih varijabli
njihovim kanoničkim fakorima. Ali ovi koeficijenti mogu biti vrlo nestabilni zbog problema
multikolinearnosti. Matrice opterećenja su analogne matricama sklopa u faktorskoj analizi, i sadrže
parcijalne korelacije varijabli sa faktorima. Na osnovu njih se takođe može utvrditi relativan doprinos svake
varijable njenom kanoničkom faktoru, a pomoću njih se detektuje i multikolinearnost varijabli. Naime, ako
je kanoničko opterećenje varijable blizu nule, a jednostavna korelacija te varijable sa faktorom prilično
visoka, ta varijabla ima visoku korelaciju sa nekom drugom varijablom u skupu tj. suviše su slične.
16. Interpretacija rezultata kanoničke korelacione analize: analiza redundantnosti
Ukoliko dobijemo relativno visok koeficijent kanoničke korelacije, a da je istovremeno proporcija
objašnjene varijanse svakog od dva skupa varijabli mala, nije preporučljivo previše se uzdati u dobijene
rezultate.
Redundansa je proporcija varijanse originalnih promenljivih objašnjena kanoničkim faktorom
drugog skupa. Koeficijent redundantnosti uzima u obzir kako visinu koeficijenta kanoničke korelacije, tako i
proporciju varijanse skupa varijabli objašnjenu njihovim kanoničkim faktorom. Ako je koeficijent kanoničke
korelacije visok, a proporcija varijanse objašnjene faktorom mala, koeficijent redundantnosti će biti nizak.
Ukoliko je koeficijent kanoničke korelacije vrlo visok, a koeficijent redundantnosti nizak, to znači da je
koeficijent kanoničke korelacije precenjen, što je uslovljeno samom prirodom kanoniče korelacione analize.
Koeficijent redundantnosti, dakle, služi za kontrolu pouzdanosti rezultata. U multivarijatnoj analizi
ovaj se pristup čak izdvojio u kanoničku analizu poznatu kao analiza redundantnosti, zasnovanu na
maksimiziranju koeficijenta redundantnosti.
17. Uslovi za primenu kanoničke korelacione analize
Pre svega, podrazumeva se da bi varijable koje se nalaze u kanoničkoj korelacionoj analizi trebale
biti bar intervalnog nivoa merenja i trebale bi da se normalno raspodeljuju.
Ostali bitni uslovi za primenu kanoničke korelacione analize su:
1) Dovoljno velik broj ispitanika – najmanje 10, a poželjno je 40 do 60 ispitanika po jednoj
varijabli; kanonička korelaciona analiza zahteva veći broj nego faktorska analiza zbog toga što bi se sa
manjim brojem ispitanika dobili koeficijenti kanoničke korelacije koji bi bili nerealno visoki.
2) Odsustvo ekstremnih rezultata (tj. outlier-a) – može da se desi da postoji vrlo visoka korelacija
između ekstremnih rezultata na pojedinim varijablama koje nisu dobri predstavnici skupova kojima
pripadaju, te će to opet uticati na vrednost koeficijenta kanoničke korelacije tako što će ga povisiti više
nego što je to realno.
3) Odsustvo multikolinearnosti – neophodno je zadovoljiti ovaj uslov jer ako varijable jednog skupa
međusobno visoko koreliraju onda imaju niske parcijalne doprinose, usled čega su faktori lošije definisani.
18. Diskriminativna analiza: namena i upotreba
Metod multivarijatne analize koji se bavi razdvajanjem različitih grupa i alokacijom opservacija u
unapred definisane grupe naziva se diskriminativna analiza. Ona, dakle, ima dva osnovna cilja. Prvi, da
utvrdi postoji li statistički značajna razlika između dve ili više grupa, a zatim da da odredi koja od varijabli
daje koliki doprinos razlikovanju tj. da ispita strukturu razlika. Drugi cilj analize je klasifikacija tj.
alokacija entiteta (opservacija) u prostoru diskriminanti. U konkretnim istraživanjima ova dva cilja se često
međusobno preklapaju pa se dešava da sredstva analize koja koristimo za razdvajanje grupa služe i za
klasifikaciju opservacija u te iste, unapred definisane grupe. Metode diskriminacione analize koje se
9
odnose na prvi cilj – razdvajanje između grupa, često se nazivaju deskriptivnom diskriminacionom
analizom, dok se metode primerene drugom cilju, alokaciji opservacija nazivaju metodama klasifikacije.
Diskriminativna analiza se u konkretnim situacijama upotrebljava kada je potrebno da se definišu
karakteristike grupa ispitanika u manifestnom ili latentnom prostoru, kao i kada je potrebno na osnovu
nezavisnih (mernih) varijabli odrediti pripadnost ispitanika nekoj grupi ispitanika.
19. Diskrimiminativna analiza: matematičko-statističke osnove
Diskriminativna analiza je vrsta faktorske analize u kojoj se faktori formiraju ne na osnovu
povezanosti, u ovom slučaju, nezavisnih varijabli, već na osnovu njihove diskriminabilnosti.
U njoj se polazi od skupa mernih, nezavisnih varijabli i jedne zavisne kategorijalne varijable, koja se u
analizi rastavlja na artificijelne binarne dummy varijable kojih ima za jedan manje od broja kategorija
zavisne varijable. Na taj način dobijena su dva seta varijabli, na koje je moguće primeniti kanoničku
korelacionu analizu.
Sa tehničke strane osnovni cilj diskriminacione analize jeste formiranje linearnih kombinacija
nezavisnih varijabli kojima će se diskriminacija između unapred definisanih grupa tako izvršiti da greška
pogrešne klasifikacije opservacija bude minimalna tj. da se maksimizira relativan odnos varijansi između i
unutar grupa. Te linearne kombinacije nezavisnih varijabli se nazivaju diskriminativnim funkcijama i njih
može biti koliko je dummy varijabli manje 1. Po pravilu je uvek prva izolovana diskriminativna funkcija
najbolja. Sledeća mora biti ortogonalna na prvu.
Nakon što smo izolovali diskriminativne funkcije, na osnovu Bartletovog χ2 testa i Vilksove lambde,
vrši se odabir značajnih funkcija. Zatim se utvrđuju projekcije (tj. korelacije) manifestnih varijabli na
značajne funkcije. Linearnom kombinacijom nezavisnih varijabli za svakog ispitanika određujemo
diskriminacioni skor (koji se zatim transformiše u aposteriornu verovatnoću da ispitanik ili objekat potiče iz
jedne od grupa). Aritmetičke sredine diskriminacionih skorova za grupe nazivamo centroidima grupa.
Njihovim poređenjem možemo utvrditi koliko su grupe među sobom udaljene.
Postoje dve metode diskriminacione analize:
1)Linearna diskriminativna analiza u kojoj je cilj formiranje linearne kombinacije nezavisnih varijabli koje
omogućuju što bolju diskriminaciju grupa. Primenjuje se kada imamo dve grupe, a koristi se retko. Umesto
nje može se raditi i multipla regresiona analiza koja joj je analogna jer daje slične rezultate.
2)Kanonička/višegrupna diskriminativna analiza, u kojoj nas zanima opšta diskriminacija, između više od
dve grupe (po analogiji između t-testa i ANOVA-e). Logika je u tome da se izoluju diskriminacione funkcije
kao opšte diskriminante. Pošto ispitujemo globalne razlike, zanima nas koja linearna kombinacija daje
najbolju opštu diskriminaciju među grupama. Prva diskriminativna funkcija se ekstrahuje da objasni najveći
deo varijanse. Druga treba da objašnjava ostatak varijanse, tako da bude ortogonalna na prvu. Minimalno
se izdvaja 3 diskriminativne funkcije čija se značajnost utvrđuje χ2 testom. Redovno se dešava da nisu sve
statistički značajne.
20. Interpretacija rezultata diskriminativne analize: značajnost i struktura razlika između
grupa
Nakon ocene kanoničkih diskriminacionih funkcija postavlja se pitanje da li u daljoj analizi zadržati
sve funkcije ili je analizu razdvajanja grupa moguće obaviti sa njihovim manjim brojem. Držeći se principa
ekonomičnosti, po kome bi trebalo relativno uspešno objasniti glavni izvor varijacija između grupa
relativno malim brojem funkcija, najčešće se izoluju svega dve ili tri funkcije.
U cilju interpretacije dobijenih rezultata preporučuje se korišćenje grafičkog prikaza centroida grupa
u dvodimenzionalnom diskriminacionom prostoru koji generišu parovi diskriminacionih funkcija, a u kome
10
se nalaze i diskriminacioni skorovi. Na osnovu ovih grafičkih prikaza može se izvesti samo sumarno
objašnjenje razlike između centroida, s obzirom na diskriminativne funkcije. Da bi se dalo detaljnije
objašnjenje potrebno je interpretirati same kanoničke diskriminacione funkcije tj. njihovu strukturu.
Diskriminacione funkcije se opisuju i interpretiraju uz pomoć dve matrice:
1) Matrica standardizovanih (b) koeficijenata - sadrži parcijalne korelacije varijabli sa
funkcijama
- saopštava o uniknom doprinosu svake varijable diskriminaciji
- što je veći b koeficijent to je veća diskriminativnost varijabli (nepoznato između kojih varijabli), a veličina
relativnog doprinosa razdvajanju između grupa se sagledava na osnovu apsolutne vrednosti
diskriminacionih koeficijenata; pri tome, predznak koeficijenta ukazuje na smer uticaja
- ako imamo mali b koeficijent moguće je da je ta varijabla nevažna za diskriminacionu funkciju ili je njen
uticaj umanjen zbog problema multikolinearnosti
2) Matrica faktorske strukture - sadrži jednostavne korelacije
- saopštava o konfiguraciji varijabli u funkcijama (tj. pokazuje sadržaj diskriminativnih funkcija)
- ima prednost nad matricom standardizovanih koeficijenata samo ako je broj ispitanika 20 puta veći od
broja varijabli
- mogu se pokazati nestabilnim kao i diskriminacioni (b) koeficijenti, pa se zahtevaju veći uzorci kako bi se
obezbedila njihova stabilnost
Generalno govoreći, kada je cilj analize utvrđivanje doprinosa manifestnih varijabli bolje je koristiti
diskriminacione koeficijente, a kada je cilj interpretirati funkcije bolje je koristiti koeficijente korelacije.
21. Interpretacija rezultata diskriminativne analize: a priori i a posteriori klasifikacija
Čak i pre nego što se pristupi diskriminativnoj analizi, ispitanici su apriorno raspoređeni u određene
grupe. A priori klasifikacija je ona koja je kao takva data u prirodi (npr. pol, starost, obrazovanje, mesto u
firmi, pozicija u sportskom timu...). A posteriori klasifikacija je ona koja se u diskriminativnoj analizi vrši na
osnovu Mahalanobisovih distanci, koje predstavljaju udaljenost pojedinih ispitanika od centroida grupa.
Ispitanik se svrstava u onu grupu čijem je centroidu najbliži, bez obzira na to kojoj grupi apriorno pripada.
U diskriminativnoj analizi bi trebalo formirati diskriminacione funkcije koje će u najvećoj mogućoj
meri moći da odvajaju grupe. U idealnoj situaciji, te funkcije bi smeštale svakog ispitanika u grupu u kojoj
se inače („u prirodnom stanju“) nalazi. Ali u praksi je to redak slučaj. Uspešnost a posteriori klasifikacije se
procenjuje na osnovu matrice konfuzije tj. grešaka. U njoj se može videti u kojoj se meri predviđene
pripadnosti razlikuju od stvarnih, pri čemu se u dijagonali nalaze uspešno klasifikovani slučajevi. Oni
ukazuju na stepen efikasnosti modela.
22. Formiranje klasifikacionog modela i predviđanje grupne pripadnosti na osnovu
diskriminativne analize
Jedan od ciljeva diskriminacione analize je da omogući alokaciju tj. klasifikaciju opservacija
(entiteta, ispitanika) u unapred definisane grupe. Za to nam je potreban klasifikacioni model. Model se
forimra u situaciji kada su poznate i zavisne varijable (grupna pripadnost) i nezavisne varijable (rezultati
na intervalnim varijablama). Na osnovu rezultata na setu intervalnih varijabli formiraju se diskriminacione
funkcije koje u najboljoj mogućoj meri razlikuju grupe ispitanika. Nakon toga, na osnovu tih funkcija vršimo
post hoc predviđanje na postojećim podacima tj. članove već postojećih grupa svrstavamo u grupe čijem
su centroidi njihovi rezultati najbliži. Tada možemo videti u kojoj se meri predviđena pripadnost razlikuje
od stvarne tj. koliko je klasifikacioni model uspešan. U matrici konfuzije se procenjuje uspešnost
11
klasifikacije. U njenoj se dijagonali nalaze uspešno klasifikovani slučajevi.
Kada smo formirali klasifikacioni model, možemo vršiti i a priori predviđanje. Tada nam je dovoljno i
da imamo rezultate na nezavisnim varijablama, na osnovu kojih predviđamo zavisnu varijablu tj.
pripadnost grupi. Za to se koriste klasifikacione funkcije, kojih u analizi može biti koliko i varijabli. One se
izračunavaju, i za za svakog novog ispitanika se dobija klasifikacioni skor. Na osnovu njega se ispitanik
klasifikuje u jednu od već formiranih grupa.
23. Uslovi za primenu diskriminacione analize
Uslovi za primenu linerane diskriminacione analize (slučaj sa dve grupe) su isti kao i kod
multivarijatne regresione analize, te su izvori opasnosti koji te uslove mogu ugroziti takođe isti. Ti uslovi su
sledeći:
1) Dovoljno velik broj ispitanika tj. opservacija (najmanje 10 po nezavisnoj varijabli; a poželjno je 40-50
po varijabli)
2) Odabir odgovarajuće nezavisne varijable na osnovu koje se može izvršiti valjana diskriminacija i
klasifikacija.
3) Odsustvo multikolinearnosti, jer suviše visoko korelirane nezavisne varijable imaju niske parcijalne
doprinose diskriminativnim funkcijama.
4) Linearan odnos između varijabli
Uslovi za primenu kanoničke višegrupne diskriminacione analize uključuju pomenute uslove, uz
dodatak:
1) zahteva za normalnom distribucijom nezavisnih varijabli (diskriminaciona analiza je poprilično
robusna na povredu ovog uslova)
2) i zahteva za heterogenošću varijansi i kovarijansi po grupama (pri čemu treba imati u vidu da je
multivarijatni BoxM test jako osetljiv, te ga ne treba sasvim striktno poštovati)
3) (Nekolinearnost M-ova i varijansi)
4) (Potpuna neredundantnost varijabli)
24. Klaster analiza: namena i upotreba
Klaster analiza (taksonomska ili analiza grupisanja) je multivarijatni statistički postupak koji se
koristi za grupisanje objekata, tako da su oni unutar grupe sličniji među sobom, a između grupa različitiji.
Osnovni zadatak klaster analize je, dakle, alokacija skupa objekata u što je moguće manje, maksimalno
homogenih, međusobno isključivih grupa tako da su entiteti unutar grupe slični među sobom, a u različitim
grupama različiti.
Analiza grupisanja se bavi prirodnim grupama. S obzirom da ne postoji opšte prihvaćena definicija
grupe, koristimo skater dijagram da bi objasnili šta podrazumevamo pod izrazom „prirodno grupisanje“ tj.
„prirodne grupe“. Prirodne grupe su one koje opisujemo, posmatrajući skater dijagram, kao oblasti u
dvodimenzionalnom prostoru sa velikom gustinom tačaka koje su razdvojene od drugih oblasti koje imaju
malu gustinu tačaka. Alternativna definicija prirodnih grupa se zasniva na kriterijumu bliskosti, prema
kome se smatra da objekti u grupi treba da su bliži jedni drugima nego objektima u drugoj grupi. Postupci
identifikovanja grupa koji se zasnivaju na kriterijumu bliskosti imaće poteškoća ukoliko grupe nisu sferične.
Klaster analiza je namenjena:
1) Istraživanju podataka – često ne znamo kako je skup objekata struktuiran, pa klaster analizom
otkrivamo nepoznatu strukturu.
2) Redukciji podataka – formiranje manjeg broja grupa i deskripcija uzorka s obzirom na njih.
3) Generisanju hipoteza – analiza grupisanja podataka nepoznate strukture rezultira u grupama čiji nam
12
broj i sastav može pomoći da definišemo hipotezu o strukturi podataka. Tako broj grupa sugerisan
prvobitnom analizom može biti hipoteza koja bi se testirala novim skupom podataka
4) Predviđanju – grupe dobijene u klaster analizi možemo koristiti u kasnijim istraživanjima u svrhe
predviđanja.
25. Klaster analiza: odnos sa drugim multivarijatnim tehnikama (faktorskom i
diskriminativnom analizom)
Grupisanje objekata u multivarijatnom prostoru u manji broj grupa, ukazuje na sličnost klater
analize i faktorske analize jer se obe zbog tog cilja mogu tretirati kao metode za redukciju podataka. Ali, za
razliku od faktorske analize, u klaster analizi se redukcija podataka vrši s obzirom na entitete, a ne s
obzirom na varijable. Treba pomenuti da se i u klaster analizi može vršiti grupisanje varijabli, kao i u
faktorskoj analizi, ali to se radi samo u nekim izuzetnim prilikama jer ova tehnika nije tome namenjena.
Takođe, klaster analiza radi i sa varijablama nominalanog nivoa merenja, dok je za faktorsku analizu
potreban barem intervalni nivo merenja.
Osnovni zadatak klaster analize jeste alokacija entiteta iz skupa objekata u grupe, tako da su
varijacije između grupa znatno veće od varijacija unutar grupa. Ovaj zadatak je sličan zadatku koji se
postavlja pred diskriminacionu analizu, kada se ona koristi kao sredstvo za klasifikaciju objekata. Međutim,
dok su u diskriminacionoj analizi grupe unapred poznate, kod klaster analize je sastav, pa čak i broj grupa
nepoznat. Tu samo pretpostavljamo da objekti pripadaju jednoj od „prirodnih“ grupa ili jednostavno želimo
da izvršimo grupisanje podataka u izvestan manji broj grupa.
26. Klaster analiza: matematičko statističke osnove
Osnovni zadatak klaster analize je razvrstavanje skupa objekata u što je moguće manje,
maksimalno homogenih, međusobno isključivih grupa na osnovu nekog merila bliskosti u multivarijatnom
prostoru, i to tako da bliskost unutar grupa bude što veća, a između grupa što manja. Mera bliskosti
najčešće iskazuje međusobne razlike između dva objekta, kada nam je zadatak grupisanje objekata. Tada
mera bliskosti meri međusobno rastojanje tj. kažemo da za grupisanje objekata koristimo mere odstojanja
među objektima. Ako nam je u klaster analizi zadatak grupisanje varijabli, što je mnogo ređi slučaj, mera
bliskosti meri sličnost između varijabli, pa kažemo da za grupisanje varijabli koristimo mere sličnosti među
njima. Kada mere sličnosti koristimo prilikom grupisanja objekata, tada se na osnovu međusobne veze
mere odstojanja i sličnosti, ova poslednja preračuna u prvu.
Na početku klaster analize imamo onoliko grupa koliko imamo objekata tj. svaki objekat
predstavlja grupu za sebe. Zatim, počinje grupisanje tako što objekti (ispitanici), koji imaju najsličniji sklop
rezultata u određenom skupu varijabli, formiraju parove. Postepeno se broj grupa smanjuje, da bi na kraju
svi objekti bili smešteni u jednu grupu. Kriterijum za formiranje novih grupa podrazumeva da
uključivanjem novih objekata u grupu treba da dođe do minimalnog povećanja unutargrupne varijanse. Na
kraju klasterovanja grupe treba da budu isključujuće (svaki ispitanik mora biti uključen u samo jednu
grupu) i iscrpljujuće (svi ispitanici moraju biti u jednoj od grupa).
Najvažniji problem u vezi sa tehnikama/algoritmima klasterovanja jeste utvrđivanje
osnove/mere/kriterijuma grupisanja. Ove tehnika mogu biti zasnovane na:
1) matrici distanci (što je najbolje rešenje, ali ovde postoji problem sa nominalnim varijablama kod kojih
ne možemo govoriti o distancama)
2) matrici sličnosti (uglavnom sadrže koeficijente korelacije koji se odnose na povezanost dva profila)
U zavisnosti od toga za koju se matricu odlučimo dobićemo drugačije rezultate.
13
27. Mere bliskosti entiteta u klaster analizi: mere distanci
Mere bliskosti između objekata (npr. ispitanika) ili varijabli predstavljaju polaznu osnovu klaster
analize. Kada nam je zadatak grupisanje objekata, što je najčešći slučaj u klaster analizi, mera bliskosti
izražava razlike između dva objekta. U tom slučaju, mera bliskosti određuje stepen međusobnog
rastojanja, pa je nazivamo merom distance. Mere distance su načini transformisanja svih skorova jednog
ispitanika na svim varijablama, u jedan jedinstven skor. U mere distanci se ubrajaju: Euklidska, Manhattan
i Mahalanobisova distanca.
Najpoznatija od mera distanci je Euklidska distanca. Ona je jednostavna geometrijska distanca u
multidimenzionalnom prostoru. Predstavlja sumirane razlike između rezultata na varijablama različitih
ispitanika. Euklidska distaca se računa iz sirovih, a ne standardizovanih skorova. Njena najveća mana je u
tome što nije kompatibilna sa transformacijama podataka tj. menja se ako se zameni skala podataka na
osnovu koje su izračunate distance. Osim prostih Euklidskih postoje i kvadrirane Euklidske distance koje su
praktične zbog toga što distance između objekata prikazuju većim, što olakšava diferencijaciju među
njima.
Manhattan distanca je nalik kvadriranim Euklidskim distancama, ali ona umesto da razlike kvadrira
uzima u obzir njihovu apsolutnu vrednost time zanemarujući njihov predznak. Ona, dakle, predstavlja
aritmetički sredinu razlika rezultata ispitanika na varijablama izraženu u apsolutnim vrednostima. Najčešće
daje vrlo slične rezultate onima dobijenim primenom Euklidkske distance. Manhattan odstojanje je manje
osetljivo na prisustvo nestandardnih opservacija (outlier-a), zato što se razlika između rezultata ne
kvadrira.
U upotrebi je i Mahalanobisova distanca koja vodi računa o kovarijacionoj strukturi podataka, pa se
zbog toga i naziva multivarijacionom merom distance. Ona eliminiše efekat koreliranosti promenljivih, pa
se, ukoliko je u analizi upravo ovaj efekat bitan za razlikovanje objekata, Mahalanobisova distanca često
zamenjuje Euklidskom distancom.
28. Mere bliskosti entiteta u klaster analizi: mere sličnosti profila
Tehnike klasterovanja koje se zasnivaju na merama sličnosti profila koriste se matricama sličnosti.
One su uglavnom matrice korelacija. Ovakve mere sličnosti zasnovane na korelacijama se u poslednje
vreme dosta često koriste, i to kada nam je bitnija sličnost strukture profila nego distanca između njih.
Prilikom poređenja sličnosti profila zanemaruje se predznak koeficijenta korelacije. Ova mera sličnosti
(zasnovana na r koeficijentu) se može u velikoj meri razlikovati od Euklidske distance.
Pored mere distance između dva profila, kao sumarnog pokazatelja razlike između njih, za analizu
sličnosti i razlika među njima koristimo grafik profila. Njega je moguće dati ako su varijable istovrsne ili je
prethodno izvršena njihova standardizacija. Pri poređenju dva profila možemo gledati njihove NIVOE,
stepen VARIJABILITETA i njihov OBLIK. (Kvadriranu Euklidsku distancu možemo razložiti na tri komponente
od kojih svaka ukazuje na doprinos ukupnom odstojanju: međusobne razlike u nivou, variajbilitetu i
oblicima profila)
29. Klaster analiza: hijerarhijsko grupisanje
Kada se odabere prikladna mera sličnosti ili razlike između objekata, vrši se izbor metode
grupisanja. Jedan skup metoda grupisanja su hijerarhijske metode koje se mogu podeliti na dve grupe
prema tome da li su zasnovane na iterativnom spajanju ili deljenju grupa i objekata.
1) Prva grupa hijerarhijskih metoda polazi od individualnih objekata, koji na početku predstavljaju
klastere, i koji se prema određenom kriterijumu udružuju u grupe (npr. kod pojedinačnog povezivanja – u
14
svakoj iteraciji se spajaju dva klastera sa najmanjom distancom). U narednim koracima formiraju se nove
grupe udruživanjem ranije formiranih grupa ili individualnih objekata. Pri tome, jedanput udružene grupe
ostaju zajedno tj. u kasnijim iteracijama nema mogućnosti prelaska iz jedne u drugu grupu. Udruživanje se
završava jednim klasterom koji sadrži sve objekte. Ove metode grupisanja nazivaju se HIJERARHIJSKE
METODE UDRUŽIVANJA ili metode koje se zasnivaju na BOTTOM-UP algoritmima.
2) Druga grupa metoda se naziva HIJERARHIJSKIM METODAMA DEOBE ili metodama zasnovanim na
TOP-DOWN algoritmima. One prelaze isti put, ali se kreću u suprotnom smeru, polazeći od jedne grupe
koja sadrži sve objekte. Prema određenom kriterijumu izdvajaju se objekti ili grupe dok se ne formira
onoliko grupa koliko ima objekata.
Bez obzira na metodu hijerarhijskog grupisanja rezultati koje na kraju postupka dobijamo informišu
nas o: sastavu grupa, homogenosti grupa i, dopunski, o redosledu udruživanja.
Bottom-up algoritam se češće koristi nego Top-down. Metode hijerarhijskog udruživanja, zasnovane
na ovom algoritmu, razlikuju se prema tome kako određuju međusobnu bliskost grupa tj. distancu među
klasterima. Tako postoje različite podvrste metoda hijerarhijskog udruživanja. Poznate su kao metode
povezivanja, a najčešće primenjivane među njima su:
1) pojedinačno povezivanje – poznato i kao „metod najbližeg suseda“; uvek se vrši između dva
entiteta/grupe koje se nalaze na najmanjoj distanci
2) prosečno povezivanje – distanca se ovde određuje prema prosečnom odstojanju svih objekata koji
pripadaju dvema grupama; to znači da se ovde povezivanje onda vrši među centroidima grupa
3) potpuno povezivanje – poznato i kao „metod najdaljeg suseda“; uvek se vrši između dva entiteta koji
se nalaze na najvećoj distanci
Potpuno povezivanje proizvodi kompaktne klastere kružnog oblika, a pojedinačno izdužene klastere.
(Treba probati različite metode, videti koja od njih proizvodi najznačajnije rešenje, te njega prihvatiti. Ne
postoji postupak za testiranje značajnosti)
Proces udruživanja možemo predstaviti u formi obrnutog drveta poznatog kao DENDOGRAM. Ovaj
grafički prikaz poseduje i skalu koja pokazuje kako greška raste u procesu udruživanja. Na osnovu
dendograma možemo zaključivati o broju grupa koje treba zadržati, i to prema sledećim kriterijumima:
1) porast greške
2) saglasnost sa postojećim ili očekivanim rešenjem
3) saglasnost dela sa celinom
30. Klaster analiza: K-means grupisanje
K-means grupisanje je najpopularniji nehijerarhijski metod grupisanja. Za razliku od hijerarhijskih,
ove metode dopuštaju mogućnost premeštanja objekata iz jedne u drugu grupu, ukoliko to doprinosi
optimalnosti rešenja. Kod K-means grupisanja broj grupa je unapred definisan. Nakon određivanja
broja grupa potrebno je slučajno odrediti inicijalnu poziciju centroida za svaku od grupa. Potom se odredi
distanca između svakog objekta i svake grupe (njenog inicijalnog centroida). Svi objekti se dodeljuju
klasterima u skladu sa kriterijumima (lociraju se u grupe koje su im najbliže). Nakon pridruživanja objekta
nekoj novoj grupi, ponovo se izračunava centroid grupe iz koje je objekat premešten i klastera kome je
objekat pridružen. Ponovo, za svaki objekat, izračunavamo njegovo odstojanje od centroida grupa i vršimo
preraspodelu objekata između grupa sve dok rešenje ne konvergira (tj. postane stabilno). Obično se
pretpostavlja da tokom preraspodele nije došlo do promene.
Dakle, K-means grupisanje se svodi na problem optimizacije tj. minimiziranja sume kvadrata
distanci unutar klastera (analogno „principu najmanjih kvadrata“ u regresionoj analizi koji glasi:
„Najpoštenija je ona regresijska linija koja ima najmanju sumu kvadrata odstupanja pojedinih rezultata od
15
tog pravca.“).
Najveći problem u K-means grupisanju predstavlja pitanje: Kako odrediti broj klastera? Ne postoji
sasvim jasan odgovor na ovo pitanje i jednostavno rešenje ove ozbiljne slabosti ovog metoda grupisanja.
Ipak, postoje dva moguća pristupa u rešavanju ovog problema:
1) pređenje kvaliteta različitih rešenja dobijenih variranjem broja klastera (najčešće primenjivano, a
možda i najbolje rešenje; problem-preterana arbitrarnost)
2) modeli zasnovani na verovatnoćama (problem-teško je naći nepristrasno rešenje)
31. Multidimenzionalno skaliranje: namena i upotreba
Multidimenzionalno skaliranje je prvenstveno tehnika za vizuelizaciju podataka. Njen primarni cilj je
raspoređivanje entiteta u multidimenzionalnom prostoru i otkrivanje latentnih dimenzija koje se nalaze u
osnovi opaženih sličnosti i razlika između entiteta. MDS pruža dodatne informacije za interpretaciju
rezultata klaster analize. Uz pomoć njega se klasteri reprodukuju u multidimenzionalnom prostoru, gde
pokušavamo da pribavimo informacije o tome po čemu su oni slični, a po čemu se razlikuju. Dakle, kao što
je rečeno, u MDS se utvrđuje latentna struktura entiteta (ne varijabli). MDS radi sa distancama i njegova je
prednost u tome što dopušta rad sa svim matricama distanci i sličnosti.
Multidimenzionalno skaliranje se primenjuje npr. u istraživanjima koja se bave time kako opažamo
druge osobe. Tu se analiziraju sličnosti između različitih deskriptora osobina kako bi se otkrila skrivena
(latentna) višedimenzionalnost opažanja osobina kod drugih ljudi.
32. Multidimenzionalno skaliranje: matematičko-statističke osnove
MDS se smatra alternativom faktorskoj analizi. Kod njega se, kao i u faktorskoj analizi otkrivaju
latentne dimenzije, ali ove dimenzije nisu zasnovane na interkorelacijama varijabli, nego na distancama
između entiteta.
MDS je, takođe, i tehnika sa liberalnijim zahtevima u odnosu na faktorsku analizu. Može da
analizira varijable svih nivoa merenja, ne obraćajući pažnju na zahtev za normalnošću distribucije. Osim
toga, u faktorskoj analizi, sličnosti između objekata (tj. varijabli) su izražene isključivo u matricama
interkorelacija, dok je sa MDS moguće analizirati bilo kakve matrice sličnosti i razlika, uključujući i matrice
interkorelacija.
Što se tiče razlika u dobijenim rezultatima, faktorska analiza naginje ka tome da izoluje više faktora
(dimenzija) nego MDS. Zbog toga, MDS često daje jednostavnija i interpretabilnija rešenja.
Kao što smo rekli, polazna matrica u MDS je najčešće matrica distanci. Da bi distance predstavili
manjim brojem dimenzija u multidimenzionalnom prostoru, one se transformišu. Svaka transformacija
podrazumeva grešku. Logično, što je manje izolovanih dimenzija greška će biti veća, a što ih je više greška
je manja, ali je interpretacija teža. Najšire korišćena mera greške u MDS je STRESS. Stress predstavlja
razliku između opaženih i reprodukovanih distanci tj. razliku između distanci iz matrice distanci i
transformisanih distanci tj., najjednostavnije rečeno, razliku između distanci pre i posle transformacije.
Za MDS ne postoji poseban test značajnosti. Stress se najčešće koristi kao pokazatelj broja
dimenzija koje će ući u interpretaciju. Grafički kriterijum za određivanje broja dimenzija jeste Scree Plot,
koji na x-osi ima broj dimenzija, a na y-osi vrednost stresa. Na kraju, najprostije rečeno, kriterijum za
određivanje broja dimenzija jeste dobra vizuelizacija i interpretabilnost rezultata.
31. Multidimenzionalno skaliranje: interpretacija rezultata
Interpretacija dimenzija obično predstavlja poslednji korak u analizi. Ona je u potpunosti arbitrarna
i subjektivna.
16
Preduslov za interpretaciju u MDS je grafičko predstavljanje entiteta, najčešće dvodimenzionalnim
skater dijagramima. Trodimenzionalna rešenja su takođe u upotrebi, ali je njihova interpretacija teža i
komplikovaija. Entiteti se u prostoru raspoređuju na osnovu distanci, a osobine entiteta koji čine grupu
omogućavaju interpretaciju dimenzija. Osim traženja značajnih dimenzija, zanimljivo je uočiti i klastere
tačaka ili posebne sklopove i konfiguracije. U interpretaciji koristimo i meru greške, poznatu kao Stress,
prvenstveno kao pokazatelj broja dimenzija.
17