MULTIVARIJATNA ANALIZA.doc

NAPOMENE (od Tanje Jevremov):

-na pitanja koja se tiču matematičko-statističkih osnova različitih tehnika, preporučljivo je obuhvatiti sledeće stvari: od

čega se polazi, šta se ekstrahuje, koji rezultati su bitni?

-kod pitanja koja se odnose na namenu i cilj različitih tehnika dobro je dati primer

1. Multivarijatna analiza: istorijski uvod

Prva multivarijatna tehnika bila je faktorska analiza. Nastala je početkom XX veka usled potrebe

da se odgovori na neka pitanja vezana za jedan psihološki konstrukt – inteligenciju:

1) Da li je inteligencija jedna generalna ili više specifičnih sposobnosti?

2) Da li je inteligencija jednodimenzionalni ili višedimenzionalni konstrukt?

3) Kako protumačiti strukturu inteligencije?

4) Kako objasniti interkorelacije testova inteligencije?

Izum faktorske analize se često pripisuje Čarlsu Spirmanu, koji:

- se smatra za pionira istraživanja zasnovanih na korelacijama

- je autor formula za rang korelaciju i korekciju za atenuaciju (kojom se koeficijent korelacije

oslobađa negativnog efekta greške merenja)

- je začetnik teorije inteligencije i autor termina G-faktor (koji čine opšte + specifične sposobnosti)

Na njega je snažno uticao rad Frensisa Goltona, a bio je u sukobu sa Karlom Pirsonom. Zajedno sa

Goltonom, Ajzenkom i Darvinom, smatra se pripadnikom tzv. „londonske škole“. Ipak, termin faktorska

analiza prvi je upotrebio Luis Terston.

Uopšte gledano, veliki je doprinos psihologa stvaranju i razvoju multivarijatne analize. Takvo

stanje stvari nije uopšte slučajno jer su psihički fenomeni složeni, skriveni i zahtevaju složene postupke

analize, koji uključuju posredno merenje i zaključivanje.

2. Geometrija vektorskog prostora

Manifestne varijable (testove) je moguće predstaviti kao vektore tj. kao orijentisane duži koje

imaju usmerenje i određenu dužinu. Interkorelacije među tim varijablama se mogu predstaviti kao

KOSINUSNI UGLOVI, i to zato što kosinusna funkcija:

1) ima iste vrednosti kada je ugao 0o i 1800 tj. na 0o r= 1,00, a na 180o r= - 1,00

2) a ima i nultu vrednost (r= 0,00) kada je ugao 90o tj. kada su varijable, odnosno vektori ortogonalni

jedan na drugi

Konfiguracija vektora odražava dva svojstva matrice interkorelacija:

1) smer povezanosti, na koji ukazuje ugao između vektora (ugao ukazuje i na jačinu povezanosti)

2) dužina vektora, koja odražava komunalitet tj. količinu zajedničke varijanse

Osim manifestnih varijabli (testova), u vektorskom prostoru je moguće predstaviti i faktore,

odnosno latentne varijable koje leže u osnovi manifestnih. Faktor se predstavlja kao linearna kombinacija

dva ili više vektora varijabli, a pozicionira se tako da odražava svojstva vektora iz kojih je izveden.

Svaki faktor je određen dvojako:

1) ortogonalnim projekcijama (koje uslovno predstavljaju jednostavne korelacije faktora sa varijablama)

2) paralelnim projekcijama (koje uslovno predstavljaju parcijalne korelacije faktora sa varijablama)

Projekcijama se, dakle, iskazuje odnos manifestnog i latentnog tj. odnos testa i faktora.

Iz svega rečenog se može zaključiti da vektorski prostor nije jednodimenzionalan (duž ili prava),

dvodimenzionalan (ravan), niti trodimenzonalan (realan prostor), već je matematički hiperprostor koji

poseduje sva svojstva prethodno navedenih, ali ga je geometrijski nemoguće predstaviti.

1

Međutim, vektorski prostor se može predstaviti brojčano, u terminima MATRIČNE ALGEBRE, koja

predstavlja matematičku osnovu multivarijatne analize. Osnovni pojam matrične algebre jeste matrica,

koja se definiše kao skup brojeva smeštenih u i redova i j kolona. Ona je, dakle, ispunjena skalarima koji

odražavaju svojstva vektora. Dimenzionalnost matrice tj. njena veličina određena je brojem redova i

kolona. Elementi matrice su vektori predstavljeni skupom brojeva raspoređenih u redu ili koloni. Red u

matrici je vektor koji opisuje ispitanika, a kolona je vektor koji opisuje varijablu (tj. vektor reda - rezultati

ispitanika na varijabli, vektor kolone – odgovor ispitanika na varijablama).

Vektorski prostor je, dakle, matrica tj. skup svih vektora određenog reda u polju brojeva. Ti

brojevi su elementi tj. koordinate vektora (što bi značilo da su vektori u stvari n-dimezioni brojevi, a jedan

broj je u stvari vektor dužine 1). Multivarijatna analiza je skup postupaka koji se u celini odvija unutar

spomenutog prostora, ne nužno definisanog samo jednom matricom.

Vrste matrica: a)pravougle

b)kvadratne

b1) specijalne: 1)simetrične, trougle 2)dijagonalne (vandijagonalni elementi=0) 3)matrica identiteta

(dijagonalna, 1 i 0)

3. Faktorska analiza: namena i upotreba

Faktorska analiza je metod multivarijatne analize koji se upotrebljava kada želimo da opišemo

međusobne zavisnosti većeg broja varijabli korišćenjem manjeg broja osnovnih, latentnih varijabli koje su

poznate kao faktori.

Ona ima dvojaku ulogu u analizi višedimenzionalnih podataka:

1) Možemo je koristiti u deskriptivne svrhe, i tada kažemo da ostvarujemo eksplorativni cilj faktorske

analize. Kada nemamo na umu neku određenu teorijsku hipotezu, faktorsku analizu koristimo kako bi

identifikovali zajedničku strukturu koja je proizvela dobijeni skup koreliranih manifestnih varijabli. Prostije

rečeno, utvrđujemo broj i prirodu latentnih dimenzija koje se nalaze u osnovi R-matrice.

2) Druga primena faktorske analize tiče se onih istraživanja u kojima polazimo od apriorne teorijske

informacije o zajedničkoj strukturi. Tada faktorsku analizu koristimo u svrhu proveravanja osnovanosti

hipoteze o broju i prirodi latentnih dimenzija i pokušavamo da ostvarimo konfirmativni cilj faktorske

analize.

Još jedan cilj faktorske analize, koji je zapravo obuhvaćen prethodnim, jeste njen matematički cilj

koji podrazumeva da R-matricu treba reprodukovati pomoću što manjeg broja varijabli tj. faktora.

Redukciju treba izvršiti tako da gubitak informacije bude minimalan.

Metoda faktorske analize razvijena je prvenstveno zarad proučavanja inteligencije, ali je našla

primenu i u drugim područijima psihologije i drugim naukama poput pedagogije, sociologije, ekonomije,

socijalnog rada itd. U tom smislu, faktorska analiza se može prihvatiti kao opšta naučna metoda, jer

zadovoljava dva cilja nauke: 1.utvrđivanje povezanosti pojava i njihovog uzroka i

2.kondenzaciju podataka.

4. Faktorska analiza: matematičko-statističke osnove

Faktorska analiza je metod multivarijatne analize koji se upotrebljava kada želimo da opišemo

međusobne zavisnosti većeg broja varijabli korišćenjem manjeg broja osnovnih, latentnih varijabli koje su

poznate kao faktori.

Pošto se i varijable i faktori mogu predstaviti vektorima, kažemo da faktor predstavlja linearnu

kombinaciju, odosno transformaciju dva ili više vektora varijabli. Linearana transformacija je ponderisana

kombinacija rezultata dobijena tako što se svaki od rezultata najpre pomnoži sa konstantom, a proizvodi

2

se zatim saberu (Xi = W0 + W1X1 + W2X2 + ..).

Faktor je u vektorskom prostoru određen dvojako:

1)ortogonalnim projekcijama (koje uslovno predstavljaju jednostavne korelacije faktora sa varijablama) i

2)paralelnim projekcijama (koje uslovno predstavljaju parcijalne korelacije faktora sa varijablama).

U svrhe predstavljanja faktora, alternativa vektorskom prostoru može biti brojčano prikazivanje u

terminima matrične algebre, koja čini matematičku osnovu multivarijatne analize.

Matematički cilj faktorske analize je reprodukcija R-matrice, od koje se na samom početku

postupka polazi, pomoću što manjeg broja varijabli tj. faktora. Redukciju treba izvršiti tako da gubitak

informacije bude minimalan.

Cilj faktorske analize takođe je i utvrđivanje prirode faktora (npr. kod testova inteligencije nas

zanima da li su dva izolovana faktora : 1.verbalni i numerički ili 2.kristalizovani i fluidni). Nema potrebe

gledati na varijable kada se određuje koliko faktora se zadržava u analizi. Interpretirati tj. utvrditi prirodu

faktora moguće je samo na osnovu varijabli, u čijoj se osnovi on nalazi. Iz tog razloga važan nam je položaj

referentnih osa tj. faktora.

Njihov položaj, nakon ekstrakcije, se utvrđuje rotacijom, iterativnim postupkom koji za cilj ima da

se faktor dovede u optimalan položaj u prostoru varijabli, kako bi se postigla jednostavna struktura.

Jednostavna struktura je jedan od kriterijuma koji se koriste u faktorskoj analizi u cilju lakše interpretacije.

Konkretna upotreba faktorske analize svodi se, dakle, na postupak koji obuhvata sledeće korake:

1) prikupljanje podataka (čiji bi krajnji proizvod trebala da bude R-matrica tj. matrica podataka)

2) odluka o vrsti primenjene metode

3) iterativna ekstrakcija faktora

4) određivanje broja i rotacija faktora (u cilju postizanja jednostavne strukture)

5) interpretacija matrice zasićenja i imenovanje faktora

5. Faktorska analiza: postupci za ekstrakciju faktora

Danas istraživači faktorsku analizu izvode uz pomoć odgovarajućih statističkih paketa poput

STATISTICA-e i SPSS-a. Sam program se izvršava iterativno. Istraživač bira odgovarajuće opcije i u

kritičnim trenucima odlučuje u kom pravcu obrada treba da se kreće. To čini arbitrarno, ali u skladu sa

ciljevima analize. Dakle, ne sasvim liberalno.

Izbor metoda ekstrakcije faktora svodi se na odluku o tome da li će se analizirati ukupna ili samo

zajednička varijansa varijabli. Ili, drugačije rečeno, kako odrediti vrednost u velikoj dijagonali matrice tj.

komunalitete. Ili, geometrijski rečeno, da li dužine vektora izjednačiti ili, ako ne, kako ih definisati (da li im

skratiti varijansu ili ne),

U faktorskoj analizi postoje dva najčešće primenjivana metoda ekstrakcije faktora: metod (ili

analiza) glavnih komponenti i faktorska analiza u užem smislu.

1.METOD GLAVNIH KOMPONENTI

Kod ovog metoda težište interesovanja je na varijablama. Koristi se kada nam je primarni cilj

redukcija dimenzionalnosti R-matrice tj. skupa podataka (npr. ITEM analiza), uz istovremeno zadržavanje

maksimalno mogućeg varijabiliteta. Faktori tj. glavne komponente izolovane ovom metodom, dakle,

zadržavaju skoro svu informaciju sadržanu u prvobitnom skupu podataka. Ovim ne samo da je zadovoljen

cilj redukcije varijabli u analizi, već je učinjen i korak ka razumevanju strukture proučavanog fenomena.

Metod glavnih komponenti predstavlja i istraživačko sredstvo pomoću koga se generišu hipoteze o

proučavanom fenomenu.

U ovoj vrsti analize, shodno rečenom, nemamo na umu neku određenu teorijsku hipotezu, već

faktorsku analizu koristimo da bismo identifikovali zajedničku strukturu koja je generisala dobijeni skup

3

korelisanih manifestnih varijabli. To što metod glavnih komponenti izučava ukupnu varijansu skupa

podataka je sa jedne strane prednost, ali sa druge i mana, pošto je time u analizu uključena i varijansa

greške. Zbog toga što je uključena celokupna varijansa, vrednosti u velikoj dijagonali R matrice iznose

1.00. Ovaj metod se koncentriše na dijagonalne elemente matrice tj. na varijansu.

2.FAKTORSKA ANALIZA U UŽEM SMISLU

Uključuje veći broj metoda ekstrakcije faktora (zajedničkih faktora, najveće verodostojnosti). Kod

ovih metoda težište interesovanja je na faktorima. Kao i metoda glavnih komponenti služi za redukciju

originalnog skupa podataka, ali to nije njen primarni cilj. Ona se primenjuje prvenstveno onda kada je

potrebno testirati teorijske hipoteze o broju i prirodi faktora koji su latentno prisutni u skupu manifestnih

varijabli. Nasuprot metodu glavnih komponenti, faktorska analiza u užem smislu polazi od zajedničke

varijanse manifestnih varijabli tj. komunaliteta. Zajednički deo varijacija varijable je onaj koji ona deli sa

ostalim varijablama. Faktorska analiza u užem smislu zaobilazi specifičan deo varijanse, a samim tim i

varijansu greške. Stoga su vrednosti u velikoj dijagonali R-matrice različite od 1.00. Ovaj metod se

koncentriše na vandijagonalne elemente tj. na kovarijanse.

6. Faktorska analiza: kriterijumi za utvrđivanje broja faktora

Ukoliko smo prilikom određivanja broja faktora pogrešili izabravši premali broj faktora, značajni

faktori će biti izostavljeni iz analize. U suprotnom slučaju, ako izaberemo preveliki broj faktora neki od

manje bitnih, specifičnih faktora biće pomešan sa zajedničkim faktorima. Iz ovog razloga se određivanju

broja zajedničkih faktora mora prići sa puno pažnje, jer taj izbor u velikoj meri utiče na kvalitet zaključaka

faktorske analize.

Postoji veći broj kriterijuma za određivanje broja faktora: Guttman-Keiserov kriterijum jediničnog

korena, Cattelov Scree test, asimptotski statistički postupci za testiranje broja zajedničkih faktora, Plum-

Brandy kriterijum itd. Preporučuje se da se prilikom donošenja odluke o broju faktora koristi više od jednog

kriterijuma. Dva najpoznatija i najčešće korišćena kriterijuma su dva prvopomenuta: Guttman-Keiserov i

Cattelov.

1.GUTTMAN-KEISEROV KRITERIJUM JEDINIČNOG (karakterističnog) KORENA

On glasi: „Broj λ (lambda; karakterističnih korenova) koji je veći od 1 odgovara verovatnom broju

faktora“. Tačnije, zadržavaju se oni faktori koji doprinose objašnjenju varijanse barem koliko i jedna

varijabla. Dobre osobine ovog kriterijuma dolaze do izražaja kada je broj varijabli između 20 i 50. Ako je

broj varijabli veći od 50, tada ovaj kriterijum izdvaja preveliki broj zajedničkih faktora, a ako je broj varijabli

manji od 20 tada je kriterijum isuviše konzervativan jer izdvaja premali broj zajedničkih faktora. Iako

postoji generalni konsenzus da je bolje ekstrahovati veći nego manji broj faktora, ne postoji psihometrijsko

opravdanje za zadržavanje svih faktora sa karakterističnim korenom većim od 1.

2.KRITERIJUM TAČKE PRELOMA (ILI LAKTA) NA CATTELOVOM SCREE TESTU

Mada svi faktori sadrže u izvesnom stepenu specifičnu varijansu, ona dominira kod poslednje

ekstrahovanih faktora. Na osnovu Scree testa određujemo optimalan broj faktora koje treba izdvojiti pre

nego što specifična varijansa počne da dominira nad zajedničkom. Na ovom grafičkom prikazu kriterijum

za određivanje broja faktora predstavlja tačka u kojoj karakteristični korenovi formiraju silazni trend, tzv.

tačka preloma. U odnosu na Guttman-Keiserov kriterijum jediničnog korena, Scree test najčešće izdvaja

veći broj faktora.

7. Rotacija u faktorskoj analizi: pravougle rotacije

Položaj referentnih osa tj. faktora se nakon ekstrakcije utvrđuje rotacijom, iterativnim postupkom

koji za cilj ima da se faktor dovede u optimalni položaj u prostoru varijabli , kako bi se postigla jednostvna

4

struktura. Jednostavnu strukturu je definisao Terston i ona predstavlja jedan od kriterijuma koji se koriste u

faktorskoj analizi u cilju lakše interpretacije rezultata. Kod jednostavne strukture pokušavamo da

postignemo mali broj visokih vrednosti faktorskih opterećanja i veliki broj niskih faktorskih opterećenja tj.

mali broj manifestnih varijabli treba da ima visoke i srednje visoke korelacije sa faktorom, a sve ostale

niske ili nulte korelacije sa istim tim faktorom. Najbolje je da svaka varijabla ima samo jednu visoku

korelaciju sa jednim faktorom, a da su sve ostale korelacije te varijable sa drugim faktorima niske ili nulte.

U pravougle rotacije spadaju: Keiserov varimax, quartimax, equimax itd. Pravougle tj. ortogonalne

rotacije ne menjaju odnos faktorskih osa, one su i dalje ortogonalne. One se po tome razlikuju od kosouglih

rotacija kod kojih tog ograničenja nema (faktorske ose se rotiraju nezavisno jedna od druge). U

ortogonalnim rotacijama se zadržava nezavisnost sirovih faktora tj. korelacije između faktora su nulte. To

znači da nam skor na jednom faktoru ništa ne govori o skoru na drugom.

U ortogonalnim rotacijama međusobni odnosi faktora su unapred definisani, što može predstavljati

smetnju u postizanju jednostavne strukture. Kada je prvi faktor postavljen u optimalni položaj, položaji svih

drugih faktora su takođe već određeni jer oni moraju da budu u ortogonalnom odnosu sa prvim. Prema

tome, traženje najpovoljnijeg rešenja tj. položaja za sve faktore nije jednostavno i zahteva određene

kompromise.

Dobra stvar kod ortogonalnih faktora je to što su oni jednostavniji za interpretaciju od kosouglih,

pošto se ortogonalna rotacija odvija na samo jednoj matrici – matrici strukture.

8. Rotacija u faktorskoj analizi: kosougle rotacije

Položaj referentnih osa tj. faktora se nakon rotacije utvrđuje rotacijom, iterativnim postupkom koji

ima za cilj da se faktor dovede u optimalan položaj u prostoru varijabli, kako bi se postigla jednostavna

struktura. Jednostavnu strukturu je definisao Terston i ona predstavlja jedan od kriterijuma koji se koriste u

faktorskoj analizi u cilju lakše interpretacije rezultata. Kod jednostavne strukture pokušavamo da

postignemo mali broj visokih vrednosti faktorskih opterećanja i veliki broj niskih faktorskih opterećenja tj.

mali broj manifestnih varijabli treba da ima visoke i srednje visoke korelacije sa faktorom, a sve ostale

niske ili nulte korelacije sa istim tim faktorom. Najbolje je da svaka varijabla ima samo jednu visoku

korelaciju sa jednim faktorom, a da su sve ostale korelacije te varijable sa drugim faktorima niske ili nulte.

U kosougle rotacije spadaju: promax, oblimin, quartimin. Kosougle rotacije dopuštaju da rotirani

faktori zaklapaju ugao različit od 90o, odnosno da faktori između sebe koreliraju. Zasnovane su na

različitim kriterijumima. Njihovom se upotrebom dobijaju faktorska rešenja koja zadovoljavaju kriterijum

jednostavne strukture, a da pri tome faktori nisu suviše korelirani između sebe. Kod kosouglih rotacija

postoji više mogućih rešenja i one potpunije mogu da zadovolje kriterijum jednostavne strukture zbog

fleksibilnosti u određivanju položaja pojedinih faktora.

Analitički postupci kosih rotacija omogućavaju da se pri interpretaciji faktora koriste tri matrice:

1) matrica strukture/zasićenja – sadrži jednostavne korelacije manifestnih varijabli sa faktorima

2) matrica sklopa/paterna - sadrži parcijalne korelacije manifestnih varijabli sa faktorima

3) matrica interkorelacija faktora (koja omogućava hijerarhijsku faktorsku analizu)

Postupci kosih rotacija, dakle, vernije predstavljaju stanje u latentnom prostoru jer ne ukazuju samo

na odnose varijabli i faktora, već i na međusobne odnose faktora. Samim tim što omogućavaju da faktori

koreliraju ne isključuju ni mogućnost ortogonalnog odnosa faktora ukoliko je to najbolje rešenje.

Kosougle rotacije se generalno preferiraju u odnosu na ortogonalne. Najvažniji razlog za takvo stanje

je činjenica da su psihološke pojave gotovo uvek međusobno povezane, i zbog toga je logičnije primeniti

kosougle nego ortogonalne rotacije. U situacijama kada istraživač ne može unapred pretpostaviti relacije

između ispitivanih konstrukata nema razloga da podrazumeva njihov ortogonalan odnos, zbog toga što

5

kosougle rotacije uvek odražavaju relacije između faktora pa će, kao što je rečeno, pokazati i da faktori

međusobno ne koreliraju.

9. Faktorska analiza: interpretacija faktora

Pre no što se pristupi interpretaciji faktora potrebno je utvrditi koji se elementi matrice faktorskih

opterećenja mogu smatrati statistički značajnim. Za to nam na raspolaganju stoji nekoliko iskustvenih

kriterijuma.

Najvažniji je kriterijum proistekao iz iskustva velikog broja istraživača u primeni faktorske analize.

Oni sugerišu da se svi koeficijenti faktorskih opterećenja (parcijalne korelacije) čija je apsolutna vrednost

veća od 0,30 mogu smatrati statistički značajno različitim od 0. Ovaj kriterijum se pokazao prihvatljivijim u

odnosu na druge kod uzoraka veličine 50 i više elemenata. Ipak ovaj, a ni drugi kriterijumi ne uzimaju u

obzir broj promenljivih u analizi, kao ni redosled faktora čija oterećenja preispitujemo sa stanovišta

značajnosti. Sugeriše se da se sa povećanjem broja promenljivih u analizi snižava nivo značajnosti. S

druge strane, kod kasnije izdvojenih faktora bi trebalo postepeno povećavati nivo značajnosti pri testiranju

opterećenja vezanih za taj faktor.

Faktor možemo smatrati intepretabilnim ako smo utvrdili da postoje najmanje tri varijable značajno

zasićene njime (ako je faktor zasićen samo jednom varijablom nazivamo ga SINGLE faktorom, a ako je

zasićen sa dve DUAL faktorom).

Sama interpretacija se obavlja na osnovu:

1) matrice faktorske strukture (koja sadrži jednostavne korelacije varijabli sa faktorima; tumačenje na

osnovu nje se vrši uvažavajući i druge podatke, a posebno karakteristične korenove tj. procene varijanse

objašnjene faktorom

2) a u kosim rotacijama vrši se dopunsko tumačenje na osnovu još dve matrice:

- matrice sklopa/paterna (koja sadrži parcijalne korelacije varijabli sa

faktorima; one ukazuju na doprinos pojedinačnih varijabli faktorima i mogu ukazati na kolinearnost

varijabli) - matrice interkorelacija faktora

Možemo smatrati da je dobra faktorska solucija ona koja omogućava interpretaciju i zadovoljava

kriterijum jednostavne strukture. Posao interpretacije završavamo pridruživanjem imena tj. nominacijom

faktora. Ovo nije nužan korak, ali je visoko poželjan. Ovaj postupak je u većoj meri zasnovan na

poznavanju fenomena koji se istražuje, kao i subjektivnoj proceni istraživača. Uostalom, u svakoj se fazi

primene faktorske analize vrši subjektivna procena u kom pravcu dalje usmeriti analizu, pa ni faza davanja

imena nije izuzetak.

10. Hijerarhijska faktorska analiza

Kosougle rotacije omogućavaju izvođenje hijerarhijske faktorske analize uvođenjem matrice

interkorelacija faktora prvog reda. Cilj hijerarjiske faktorske analize je utvrđivanje faktora na različitim

nivoima opštosti.

Faktori utvrđeni na osnovu matrice interkorelacija manifestnih varijabli nazivaju se faktorima prvog

reda. Ako se matrica njihovih interkorelacija faktorizuje dobiće se faktori drugog reda itd. Što je red faktora

viši, to je broj faktora manji i faktori su opštiji.

U hijerarhijskoj faktorskoj analizi može se poći od matrice interkorelacija faktora ili od matrice

sirovih podataka, odnosno matrice faktorskih skorova. Matrica faktorskih skorova sadrži standardizovane

rezultate ispitanika na faktorima, koji se dobijaju tako što se sirovi skorovi pomnože sa ponderom tj.

težinom faktora koja je prethodno utvrđena. Ova matrica je sumativna, što znači da nam omogućava da

rangiramo ispitanike. Prikladna je i za analize druge vrste:

6

- u regresionoj analizi (kao opservacije objašnjavajućih promenljivih)

- u klaster analizi

- u kanoničkoj korelacionoj analizi

- u diskriminacionoj analizi

11. Uslovi za primenu faktorske analize: teorijski model i izbor varijabli

Jedan od uslova za primenu faktorske analize je postojanje teorijske podloge za odabir varijabli koje

će ući u analizu. Ako se formira skup varijabli za koji ne postoji teorijsko opravdanje, kao rezultat ćemo

dobiti nepostojeći konstrukt jer se, bez obzira na to da li je teorijski model postojao ili nije, uvek nešto

mora izolovati. Ukoliko koristimo loš teorijski model, ili ga nemamo, ne možemo dobiti dobre faktore. U

tom slučaju bi došlo do izdvajanja faktora koji u stvarnosti ne postoje, tzv. artefakti. Naučni radnici koji se

bave faktorskom analizom štete nauci kontaminirajući naučni prostor superprodukcijom faktorskih rešenja

za koja ne postoji nikakvo opravdanje.

Uslovi za primenu faktorske analize obuhvataju i uslove za izračunavanje Pirsonovog produkt-

moment koeficijenta korelacije: barem intervalni nivo merenja varijabli, njihova normalna distribucija,

linearan odnos između varijabli i homoskedasticitet.

Što se tiče izbora varijabli, one treba da budu približno jednakog nivoa opštosti (razlika između

ukupnih skorova i odgovora na pojedina pitanja u uptniku) i opsega kako bi bile interpretabilne.

Faktorsku analizu nije opravdano sprovoditi na podacima prikupljenim na testovima brzine, jer bi

faktori koji bi se izolovali predstavljali faktore redosleda, a ne sadržaja (testovi brzine uključuje relativno

velik broj lakih ajtema koje je potrebno rešiti u toku vrlo ograničenog vremena).

12. Uslovi za primenu faktorske analize: broj ispitanika i eksperimentalna nezavisnost

podataka

Veoma važan uslov za sprovođenje faktorske analize jeste dovoljan broj ispitanika. Ukoliko se ovaj

uslov ne ispuni rezultati će biti nestabilni i neinterpretabilni. Međutim, veličina uzorka u faktorskoj analizi

se često pominje kao problem, i različiti autori nude različita rešenja. Konzervativniji smatraju da bi odnos

između broja subjekata i broja varijabli trebalo da bude 10:1 (Nunally). S druge strane, liberalniji autori

(Guilford) taj odnos spuštaju čak do 2:1. Možda je tu najrealnije „pravilo Tuckera“, po kome bi odnos

između broja ispitanika i broja varijabli trebalo da bude 5:1.

Neki drugi autori sugerišu da nije potrebno više od 100 ispitanika za postupak faktorske analize,

dok ima i onih koji smatraju da uzorak treba da broji od 500 do 1000 ispitanika. Noviji pristup u faktorskoj

analizi kaže da je, kada su komunaliteti visoki (veći od 0,6) i faktori dobro definisani (sa dovoljno visokih

zasićenja), uzorak od 100 ispitanika sasvim dovoljan.

Eksperimentalna tj. linearna nezavisnost podataka je takođe uslov za primenu fakorske analize.

Ako ovaj uslov nije ispunjen javiće se multikolinearnost i artefakti. Ako u matrici interkorelacija imamo

jednu varijablu koja je umnožak prethodne dve u pitanju je direktna linearna zavisnost tj,

multikolinearnost. Ona povećava verovatnoću da će broj faktora koje smo izolovali biti manji nego što bi to

realno trebao biti i da će biti izolova neki nepostojeći (prividni) faktori – artefakti.

13. Kanonička korelaciona analiza(KKA): namena i upotreba

KKA je kombinacija faktorske analize (u njoj se vrši redukcija) i regresione analize (u njoj

utvrđujemo povezanost dva skupa varijabli, što nam omogućava da vrednost varijabli iz jednog skupa

predvidimo na osnovu varijabli drugog skupa).

KKA je multivarijatni statistički postupak koji se bavi utvrđivanjem strukture i jačine povezanosti

dva skupa varijabli (zavisnih-kriterijuma i nezavisnih-prediktora). Cilj faktorske analize jeste formiranje

7

linearne kombinacije unutar skupa zavisnih i posebno unutar skupa nezavisnih varijabli, ali tako da između

te dve linearne kombinacije postoji maksimalna moguća korelacija, koju nazivamo KANONIČKOM

KORELACIJOM. Na osnovu tih linearnih kombinacija (koje su poznate i kao kanonički faktori ili varijable)

stičemo uvid u povezanost dva skupa promenljivih.

Pored pomenutog, glavnog cilja KKA, može nas interesovati izvođenje dodatnog para linearnih

kombinacija koji će maksimizirati preostalu korelaciju, uz uslov nekoreliranosti sa prethodno izdvojenim

parom kanoničkih faktora. Ovaj proces izdvajanja kanoničkih faktora može se nastaviti i dalje.

14. Kanonička korelaciona analiza(KKA): matematičko-statističke osnove

KKA polazi od supermatrice koja se sastoji od 4 matrice interkorelacija: dve matrice interkorelacija

varijabli u svakom od dva skupa i dve matrice interkorelacija između varijabli oba skupa. Poslednje dve

matrice sadrže jednake koeficijente.

Iz oba skupa varijabli se najpre izoluju kanonički faktori, i to prema dva kriterijuma: 1.što varijabla

više korelira sa varijablama iz drugog skupa to će više doprinosti objašnjenju faktora i 2.varijable koje

imaju najmanju moguću korelaciju sa ostalim varijablama iz svog skupa će više doprinositi objašnjenju

faktora. Možemo izolovati onoliko faktora koliko ima varijabli u manjem skupu varijabli. Kanonički faktori

su, dakle, optimalno ponderisani kompoziti i oni su, kao u faktorskoj analizi, linearne kombinacije varijabli.

Između dva zajedno izolovana kanonička faktora, iz jednog i drugog skupa varijabli postoji maksimalna

moguća korelacija koju postižemo ponderisanjem manifestnih varijabli u okviru kanoničkih faktora. U

skladu sa svime ranije rečenim, veće pondere dodeljujemo najboljim prediktorima tj. onim varijablama

koje su u visokoj korelaciji sa varijablama iz drugog, kriterijumskog skupa, a u niskoj korelaciji sa

varijablama iz svog skupa. Svaki kanonički faktor je ortogonalan na sve ostale, osim na onaj sa kojim je u

najvećoj mogućoj korelaciji.

Maksimalna moguća povezanost između dva skupa varijabli tj. između faktora izolovanih iz tih

skupova, naziva se kanonička korelacija. Koeficijent kanoničke korelacije je pokazatelj najviše moguće

povezanosti između dva skupa varijabli, a ne pokazatelj realne veze. Kanonička korelacija između prva dva

izolovana faktora je uvek viša od prosečne korelacije između dva skupa varijabli. Ona je uvek najviša, pa je

između sledeća dva izolovana faktora niža itd. KKA, dakle, služi za opisivanje onoga što je zajedničko

dvema skupovima varijabli, a zatim onoga što je preostalo, ali je nezavisno od prethodnog.

15. Interpretacija rezultata kanoničke korelacione analize: značajnost i struktura relacija

Za testiranje značajnosti koeficijenta kanoničke korelacije upotrebljava se Bartletov χ2 test.

Koeficijent kanoničke korelacije se može pokazati statistički značajnim, ali istovremeno mora biti ispunjen i

uslov da se utvrđena veza dva skupa varijabli može smisleno interpretirati. Samo uslov statističke

značajnosti koeficijenta nije dovoljan da bismo dalje analizirali tu vezu. Pored rezultata testiranja

značajnosti u procesu donošenja odluke oslanjamo se i na veličinu tog koeficijenta i mere redundantnosti.

Granična vrednost koeficijenta kanoničke korelacije uglavnom je uslovljena specifičnom prirodom

razmatranog problema. S obzirom na to da je kanonička korelacija najviša moguća korelacija između dva

skupa varijabli, može se desiti da pogrešno utvrdimo značajnost veze između skupova, čak i kada

kanonički faktori ne izdvajaju značajan deo varijanse iz njihovih skupova. Zato se preporučuje korišćenje

mera redundantnosti koje ukazuju na deo varijanse zavisnih promenljivih objašnjen nezavisnim

promenljivima iz drugog skupa.

Ukoliko smo kombinacijom navedenih kriterijuma doneli odluku o broju parova kanoničkih faktora

koje zadržavamo u analizi, pristupamo interpretaciji dobijenih rezultata. U fazi interpretacije rezultata

oslanjamo se, u najvećoj meri, na matricu strukture kanoničkih faktora i matricu kanoničkih opterećenja.

8

Na osnovu njih se interpretira struktura relacija. U matrici strukture se nalaze jednostavne korelacije

varijabli sa faktorima. Predznak i veličina ovog koeficijenta ukazuju na doprinos originalnih varijabli

njihovim kanoničkim fakorima. Ali ovi koeficijenti mogu biti vrlo nestabilni zbog problema

multikolinearnosti. Matrice opterećenja su analogne matricama sklopa u faktorskoj analizi, i sadrže

parcijalne korelacije varijabli sa faktorima. Na osnovu njih se takođe može utvrditi relativan doprinos svake

varijable njenom kanoničkom faktoru, a pomoću njih se detektuje i multikolinearnost varijabli. Naime, ako

je kanoničko opterećenje varijable blizu nule, a jednostavna korelacija te varijable sa faktorom prilično

visoka, ta varijabla ima visoku korelaciju sa nekom drugom varijablom u skupu tj. suviše su slične.

16. Interpretacija rezultata kanoničke korelacione analize: analiza redundantnosti

Ukoliko dobijemo relativno visok koeficijent kanoničke korelacije, a da je istovremeno proporcija

objašnjene varijanse svakog od dva skupa varijabli mala, nije preporučljivo previše se uzdati u dobijene

rezultate.

Redundansa je proporcija varijanse originalnih promenljivih objašnjena kanoničkim faktorom

drugog skupa. Koeficijent redundantnosti uzima u obzir kako visinu koeficijenta kanoničke korelacije, tako i

proporciju varijanse skupa varijabli objašnjenu njihovim kanoničkim faktorom. Ako je koeficijent kanoničke

korelacije visok, a proporcija varijanse objašnjene faktorom mala, koeficijent redundantnosti će biti nizak.

Ukoliko je koeficijent kanoničke korelacije vrlo visok, a koeficijent redundantnosti nizak, to znači da je

koeficijent kanoničke korelacije precenjen, što je uslovljeno samom prirodom kanoniče korelacione analize.

Koeficijent redundantnosti, dakle, služi za kontrolu pouzdanosti rezultata. U multivarijatnoj analizi

ovaj se pristup čak izdvojio u kanoničku analizu poznatu kao analiza redundantnosti, zasnovanu na

maksimiziranju koeficijenta redundantnosti.

17. Uslovi za primenu kanoničke korelacione analize

Pre svega, podrazumeva se da bi varijable koje se nalaze u kanoničkoj korelacionoj analizi trebale

biti bar intervalnog nivoa merenja i trebale bi da se normalno raspodeljuju.

Ostali bitni uslovi za primenu kanoničke korelacione analize su:

1) Dovoljno velik broj ispitanika – najmanje 10, a poželjno je 40 do 60 ispitanika po jednoj

varijabli; kanonička korelaciona analiza zahteva veći broj nego faktorska analiza zbog toga što bi se sa

manjim brojem ispitanika dobili koeficijenti kanoničke korelacije koji bi bili nerealno visoki.

2) Odsustvo ekstremnih rezultata (tj. outlier-a) – može da se desi da postoji vrlo visoka korelacija

između ekstremnih rezultata na pojedinim varijablama koje nisu dobri predstavnici skupova kojima

pripadaju, te će to opet uticati na vrednost koeficijenta kanoničke korelacije tako što će ga povisiti više

nego što je to realno.

3) Odsustvo multikolinearnosti – neophodno je zadovoljiti ovaj uslov jer ako varijable jednog skupa

međusobno visoko koreliraju onda imaju niske parcijalne doprinose, usled čega su faktori lošije definisani.

18. Diskriminativna analiza: namena i upotreba

Metod multivarijatne analize koji se bavi razdvajanjem različitih grupa i alokacijom opservacija u

unapred definisane grupe naziva se diskriminativna analiza. Ona, dakle, ima dva osnovna cilja. Prvi, da

utvrdi postoji li statistički značajna razlika između dve ili više grupa, a zatim da da odredi koja od varijabli

daje koliki doprinos razlikovanju tj. da ispita strukturu razlika. Drugi cilj analize je klasifikacija tj.

alokacija entiteta (opservacija) u prostoru diskriminanti. U konkretnim istraživanjima ova dva cilja se često

međusobno preklapaju pa se dešava da sredstva analize koja koristimo za razdvajanje grupa služe i za

klasifikaciju opservacija u te iste, unapred definisane grupe. Metode diskriminacione analize koje se

9

odnose na prvi cilj – razdvajanje između grupa, često se nazivaju deskriptivnom diskriminacionom

analizom, dok se metode primerene drugom cilju, alokaciji opservacija nazivaju metodama klasifikacije.

Diskriminativna analiza se u konkretnim situacijama upotrebljava kada je potrebno da se definišu

karakteristike grupa ispitanika u manifestnom ili latentnom prostoru, kao i kada je potrebno na osnovu

nezavisnih (mernih) varijabli odrediti pripadnost ispitanika nekoj grupi ispitanika.

19. Diskrimiminativna analiza: matematičko-statističke osnove

Diskriminativna analiza je vrsta faktorske analize u kojoj se faktori formiraju ne na osnovu

povezanosti, u ovom slučaju, nezavisnih varijabli, već na osnovu njihove diskriminabilnosti.

U njoj se polazi od skupa mernih, nezavisnih varijabli i jedne zavisne kategorijalne varijable, koja se u

analizi rastavlja na artificijelne binarne dummy varijable kojih ima za jedan manje od broja kategorija

zavisne varijable. Na taj način dobijena su dva seta varijabli, na koje je moguće primeniti kanoničku

korelacionu analizu.

Sa tehničke strane osnovni cilj diskriminacione analize jeste formiranje linearnih kombinacija

nezavisnih varijabli kojima će se diskriminacija između unapred definisanih grupa tako izvršiti da greška

pogrešne klasifikacije opservacija bude minimalna tj. da se maksimizira relativan odnos varijansi između i

unutar grupa. Te linearne kombinacije nezavisnih varijabli se nazivaju diskriminativnim funkcijama i njih

može biti koliko je dummy varijabli manje 1. Po pravilu je uvek prva izolovana diskriminativna funkcija

najbolja. Sledeća mora biti ortogonalna na prvu.

Nakon što smo izolovali diskriminativne funkcije, na osnovu Bartletovog χ2 testa i Vilksove lambde,

vrši se odabir značajnih funkcija. Zatim se utvrđuju projekcije (tj. korelacije) manifestnih varijabli na

značajne funkcije. Linearnom kombinacijom nezavisnih varijabli za svakog ispitanika određujemo

diskriminacioni skor (koji se zatim transformiše u aposteriornu verovatnoću da ispitanik ili objekat potiče iz

jedne od grupa). Aritmetičke sredine diskriminacionih skorova za grupe nazivamo centroidima grupa.

Njihovim poređenjem možemo utvrditi koliko su grupe među sobom udaljene.

Postoje dve metode diskriminacione analize:

1)Linearna diskriminativna analiza u kojoj je cilj formiranje linearne kombinacije nezavisnih varijabli koje

omogućuju što bolju diskriminaciju grupa. Primenjuje se kada imamo dve grupe, a koristi se retko. Umesto

nje može se raditi i multipla regresiona analiza koja joj je analogna jer daje slične rezultate.

2)Kanonička/višegrupna diskriminativna analiza, u kojoj nas zanima opšta diskriminacija, između više od

dve grupe (po analogiji između t-testa i ANOVA-e). Logika je u tome da se izoluju diskriminacione funkcije

kao opšte diskriminante. Pošto ispitujemo globalne razlike, zanima nas koja linearna kombinacija daje

najbolju opštu diskriminaciju među grupama. Prva diskriminativna funkcija se ekstrahuje da objasni najveći

deo varijanse. Druga treba da objašnjava ostatak varijanse, tako da bude ortogonalna na prvu. Minimalno

se izdvaja 3 diskriminativne funkcije čija se značajnost utvrđuje χ2 testom. Redovno se dešava da nisu sve

statistički značajne.

20. Interpretacija rezultata diskriminativne analize: značajnost i struktura razlika između

grupa

Nakon ocene kanoničkih diskriminacionih funkcija postavlja se pitanje da li u daljoj analizi zadržati

sve funkcije ili je analizu razdvajanja grupa moguće obaviti sa njihovim manjim brojem. Držeći se principa

ekonomičnosti, po kome bi trebalo relativno uspešno objasniti glavni izvor varijacija između grupa

relativno malim brojem funkcija, najčešće se izoluju svega dve ili tri funkcije.

U cilju interpretacije dobijenih rezultata preporučuje se korišćenje grafičkog prikaza centroida grupa

u dvodimenzionalnom diskriminacionom prostoru koji generišu parovi diskriminacionih funkcija, a u kome

10

se nalaze i diskriminacioni skorovi. Na osnovu ovih grafičkih prikaza može se izvesti samo sumarno

objašnjenje razlike između centroida, s obzirom na diskriminativne funkcije. Da bi se dalo detaljnije

objašnjenje potrebno je interpretirati same kanoničke diskriminacione funkcije tj. njihovu strukturu.

Diskriminacione funkcije se opisuju i interpretiraju uz pomoć dve matrice:

1) Matrica standardizovanih (b) koeficijenata - sadrži parcijalne korelacije varijabli sa

funkcijama

- saopštava o uniknom doprinosu svake varijable diskriminaciji

- što je veći b koeficijent to je veća diskriminativnost varijabli (nepoznato između kojih varijabli), a veličina

relativnog doprinosa razdvajanju između grupa se sagledava na osnovu apsolutne vrednosti

diskriminacionih koeficijenata; pri tome, predznak koeficijenta ukazuje na smer uticaja

- ako imamo mali b koeficijent moguće je da je ta varijabla nevažna za diskriminacionu funkciju ili je njen

uticaj umanjen zbog problema multikolinearnosti

2) Matrica faktorske strukture - sadrži jednostavne korelacije

- saopštava o konfiguraciji varijabli u funkcijama (tj. pokazuje sadržaj diskriminativnih funkcija)

- ima prednost nad matricom standardizovanih koeficijenata samo ako je broj ispitanika 20 puta veći od

broja varijabli

- mogu se pokazati nestabilnim kao i diskriminacioni (b) koeficijenti, pa se zahtevaju veći uzorci kako bi se

obezbedila njihova stabilnost

Generalno govoreći, kada je cilj analize utvrđivanje doprinosa manifestnih varijabli bolje je koristiti

diskriminacione koeficijente, a kada je cilj interpretirati funkcije bolje je koristiti koeficijente korelacije.

21. Interpretacija rezultata diskriminativne analize: a priori i a posteriori klasifikacija

Čak i pre nego što se pristupi diskriminativnoj analizi, ispitanici su apriorno raspoređeni u određene

grupe. A priori klasifikacija je ona koja je kao takva data u prirodi (npr. pol, starost, obrazovanje, mesto u

firmi, pozicija u sportskom timu...). A posteriori klasifikacija je ona koja se u diskriminativnoj analizi vrši na

osnovu Mahalanobisovih distanci, koje predstavljaju udaljenost pojedinih ispitanika od centroida grupa.

Ispitanik se svrstava u onu grupu čijem je centroidu najbliži, bez obzira na to kojoj grupi apriorno pripada.

U diskriminativnoj analizi bi trebalo formirati diskriminacione funkcije koje će u najvećoj mogućoj

meri moći da odvajaju grupe. U idealnoj situaciji, te funkcije bi smeštale svakog ispitanika u grupu u kojoj

se inače („u prirodnom stanju“) nalazi. Ali u praksi je to redak slučaj. Uspešnost a posteriori klasifikacije se

procenjuje na osnovu matrice konfuzije tj. grešaka. U njoj se može videti u kojoj se meri predviđene

pripadnosti razlikuju od stvarnih, pri čemu se u dijagonali nalaze uspešno klasifikovani slučajevi. Oni

ukazuju na stepen efikasnosti modela.

22. Formiranje klasifikacionog modela i predviđanje grupne pripadnosti na osnovu

diskriminativne analize

Jedan od ciljeva diskriminacione analize je da omogući alokaciju tj. klasifikaciju opservacija

(entiteta, ispitanika) u unapred definisane grupe. Za to nam je potreban klasifikacioni model. Model se

forimra u situaciji kada su poznate i zavisne varijable (grupna pripadnost) i nezavisne varijable (rezultati

na intervalnim varijablama). Na osnovu rezultata na setu intervalnih varijabli formiraju se diskriminacione

funkcije koje u najboljoj mogućoj meri razlikuju grupe ispitanika. Nakon toga, na osnovu tih funkcija vršimo

post hoc predviđanje na postojećim podacima tj. članove već postojećih grupa svrstavamo u grupe čijem

su centroidi njihovi rezultati najbliži. Tada možemo videti u kojoj se meri predviđena pripadnost razlikuje

od stvarne tj. koliko je klasifikacioni model uspešan. U matrici konfuzije se procenjuje uspešnost

11

klasifikacije. U njenoj se dijagonali nalaze uspešno klasifikovani slučajevi.

Kada smo formirali klasifikacioni model, možemo vršiti i a priori predviđanje. Tada nam je dovoljno i

da imamo rezultate na nezavisnim varijablama, na osnovu kojih predviđamo zavisnu varijablu tj.

pripadnost grupi. Za to se koriste klasifikacione funkcije, kojih u analizi može biti koliko i varijabli. One se

izračunavaju, i za za svakog novog ispitanika se dobija klasifikacioni skor. Na osnovu njega se ispitanik

klasifikuje u jednu od već formiranih grupa.

23. Uslovi za primenu diskriminacione analize

Uslovi za primenu linerane diskriminacione analize (slučaj sa dve grupe) su isti kao i kod

multivarijatne regresione analize, te su izvori opasnosti koji te uslove mogu ugroziti takođe isti. Ti uslovi su

sledeći:

1) Dovoljno velik broj ispitanika tj. opservacija (najmanje 10 po nezavisnoj varijabli; a poželjno je 40-50

po varijabli)

2) Odabir odgovarajuće nezavisne varijable na osnovu koje se može izvršiti valjana diskriminacija i

klasifikacija.

3) Odsustvo multikolinearnosti, jer suviše visoko korelirane nezavisne varijable imaju niske parcijalne

doprinose diskriminativnim funkcijama.

4) Linearan odnos između varijabli

Uslovi za primenu kanoničke višegrupne diskriminacione analize uključuju pomenute uslove, uz

dodatak:

1) zahteva za normalnom distribucijom nezavisnih varijabli (diskriminaciona analiza je poprilično

robusna na povredu ovog uslova)

2) i zahteva za heterogenošću varijansi i kovarijansi po grupama (pri čemu treba imati u vidu da je

multivarijatni BoxM test jako osetljiv, te ga ne treba sasvim striktno poštovati)

3) (Nekolinearnost M-ova i varijansi)

4) (Potpuna neredundantnost varijabli)

24. Klaster analiza: namena i upotreba

Klaster analiza (taksonomska ili analiza grupisanja) je multivarijatni statistički postupak koji se

koristi za grupisanje objekata, tako da su oni unutar grupe sličniji među sobom, a između grupa različitiji.

Osnovni zadatak klaster analize je, dakle, alokacija skupa objekata u što je moguće manje, maksimalno

homogenih, međusobno isključivih grupa tako da su entiteti unutar grupe slični među sobom, a u različitim

grupama različiti.

Analiza grupisanja se bavi prirodnim grupama. S obzirom da ne postoji opšte prihvaćena definicija

grupe, koristimo skater dijagram da bi objasnili šta podrazumevamo pod izrazom „prirodno grupisanje“ tj.

„prirodne grupe“. Prirodne grupe su one koje opisujemo, posmatrajući skater dijagram, kao oblasti u

dvodimenzionalnom prostoru sa velikom gustinom tačaka koje su razdvojene od drugih oblasti koje imaju

malu gustinu tačaka. Alternativna definicija prirodnih grupa se zasniva na kriterijumu bliskosti, prema

kome se smatra da objekti u grupi treba da su bliži jedni drugima nego objektima u drugoj grupi. Postupci

identifikovanja grupa koji se zasnivaju na kriterijumu bliskosti imaće poteškoća ukoliko grupe nisu sferične.

Klaster analiza je namenjena:

1) Istraživanju podataka – često ne znamo kako je skup objekata struktuiran, pa klaster analizom

otkrivamo nepoznatu strukturu.

2) Redukciji podataka – formiranje manjeg broja grupa i deskripcija uzorka s obzirom na njih.

3) Generisanju hipoteza – analiza grupisanja podataka nepoznate strukture rezultira u grupama čiji nam

12

broj i sastav može pomoći da definišemo hipotezu o strukturi podataka. Tako broj grupa sugerisan

prvobitnom analizom može biti hipoteza koja bi se testirala novim skupom podataka

4) Predviđanju – grupe dobijene u klaster analizi možemo koristiti u kasnijim istraživanjima u svrhe

predviđanja.

25. Klaster analiza: odnos sa drugim multivarijatnim tehnikama (faktorskom i

diskriminativnom analizom)

Grupisanje objekata u multivarijatnom prostoru u manji broj grupa, ukazuje na sličnost klater

analize i faktorske analize jer se obe zbog tog cilja mogu tretirati kao metode za redukciju podataka. Ali, za

razliku od faktorske analize, u klaster analizi se redukcija podataka vrši s obzirom na entitete, a ne s

obzirom na varijable. Treba pomenuti da se i u klaster analizi može vršiti grupisanje varijabli, kao i u

faktorskoj analizi, ali to se radi samo u nekim izuzetnim prilikama jer ova tehnika nije tome namenjena.

Takođe, klaster analiza radi i sa varijablama nominalanog nivoa merenja, dok je za faktorsku analizu

potreban barem intervalni nivo merenja.

Osnovni zadatak klaster analize jeste alokacija entiteta iz skupa objekata u grupe, tako da su

varijacije između grupa znatno veće od varijacija unutar grupa. Ovaj zadatak je sličan zadatku koji se

postavlja pred diskriminacionu analizu, kada se ona koristi kao sredstvo za klasifikaciju objekata. Međutim,

dok su u diskriminacionoj analizi grupe unapred poznate, kod klaster analize je sastav, pa čak i broj grupa

nepoznat. Tu samo pretpostavljamo da objekti pripadaju jednoj od „prirodnih“ grupa ili jednostavno želimo

da izvršimo grupisanje podataka u izvestan manji broj grupa.

26. Klaster analiza: matematičko statističke osnove

Osnovni zadatak klaster analize je razvrstavanje skupa objekata u što je moguće manje,

maksimalno homogenih, međusobno isključivih grupa na osnovu nekog merila bliskosti u multivarijatnom

prostoru, i to tako da bliskost unutar grupa bude što veća, a između grupa što manja. Mera bliskosti

najčešće iskazuje međusobne razlike između dva objekta, kada nam je zadatak grupisanje objekata. Tada

mera bliskosti meri međusobno rastojanje tj. kažemo da za grupisanje objekata koristimo mere odstojanja

među objektima. Ako nam je u klaster analizi zadatak grupisanje varijabli, što je mnogo ređi slučaj, mera

bliskosti meri sličnost između varijabli, pa kažemo da za grupisanje varijabli koristimo mere sličnosti među

njima. Kada mere sličnosti koristimo prilikom grupisanja objekata, tada se na osnovu međusobne veze

mere odstojanja i sličnosti, ova poslednja preračuna u prvu.

Na početku klaster analize imamo onoliko grupa koliko imamo objekata tj. svaki objekat

predstavlja grupu za sebe. Zatim, počinje grupisanje tako što objekti (ispitanici), koji imaju najsličniji sklop

rezultata u određenom skupu varijabli, formiraju parove. Postepeno se broj grupa smanjuje, da bi na kraju

svi objekti bili smešteni u jednu grupu. Kriterijum za formiranje novih grupa podrazumeva da

uključivanjem novih objekata u grupu treba da dođe do minimalnog povećanja unutargrupne varijanse. Na

kraju klasterovanja grupe treba da budu isključujuće (svaki ispitanik mora biti uključen u samo jednu

grupu) i iscrpljujuće (svi ispitanici moraju biti u jednoj od grupa).

Najvažniji problem u vezi sa tehnikama/algoritmima klasterovanja jeste utvrđivanje

osnove/mere/kriterijuma grupisanja. Ove tehnika mogu biti zasnovane na:

1) matrici distanci (što je najbolje rešenje, ali ovde postoji problem sa nominalnim varijablama kod kojih

ne možemo govoriti o distancama)

2) matrici sličnosti (uglavnom sadrže koeficijente korelacije koji se odnose na povezanost dva profila)

U zavisnosti od toga za koju se matricu odlučimo dobićemo drugačije rezultate.

13

27. Mere bliskosti entiteta u klaster analizi: mere distanci

Mere bliskosti između objekata (npr. ispitanika) ili varijabli predstavljaju polaznu osnovu klaster

analize. Kada nam je zadatak grupisanje objekata, što je najčešći slučaj u klaster analizi, mera bliskosti

izražava razlike između dva objekta. U tom slučaju, mera bliskosti određuje stepen međusobnog

rastojanja, pa je nazivamo merom distance. Mere distance su načini transformisanja svih skorova jednog

ispitanika na svim varijablama, u jedan jedinstven skor. U mere distanci se ubrajaju: Euklidska, Manhattan

i Mahalanobisova distanca.

Najpoznatija od mera distanci je Euklidska distanca. Ona je jednostavna geometrijska distanca u

multidimenzionalnom prostoru. Predstavlja sumirane razlike između rezultata na varijablama različitih

ispitanika. Euklidska distaca se računa iz sirovih, a ne standardizovanih skorova. Njena najveća mana je u

tome što nije kompatibilna sa transformacijama podataka tj. menja se ako se zameni skala podataka na

osnovu koje su izračunate distance. Osim prostih Euklidskih postoje i kvadrirane Euklidske distance koje su

praktične zbog toga što distance između objekata prikazuju većim, što olakšava diferencijaciju među

njima.

Manhattan distanca je nalik kvadriranim Euklidskim distancama, ali ona umesto da razlike kvadrira

uzima u obzir njihovu apsolutnu vrednost time zanemarujući njihov predznak. Ona, dakle, predstavlja

aritmetički sredinu razlika rezultata ispitanika na varijablama izraženu u apsolutnim vrednostima. Najčešće

daje vrlo slične rezultate onima dobijenim primenom Euklidkske distance. Manhattan odstojanje je manje

osetljivo na prisustvo nestandardnih opservacija (outlier-a), zato što se razlika između rezultata ne

kvadrira.

U upotrebi je i Mahalanobisova distanca koja vodi računa o kovarijacionoj strukturi podataka, pa se

zbog toga i naziva multivarijacionom merom distance. Ona eliminiše efekat koreliranosti promenljivih, pa

se, ukoliko je u analizi upravo ovaj efekat bitan za razlikovanje objekata, Mahalanobisova distanca često

zamenjuje Euklidskom distancom.

28. Mere bliskosti entiteta u klaster analizi: mere sličnosti profila

Tehnike klasterovanja koje se zasnivaju na merama sličnosti profila koriste se matricama sličnosti.

One su uglavnom matrice korelacija. Ovakve mere sličnosti zasnovane na korelacijama se u poslednje

vreme dosta često koriste, i to kada nam je bitnija sličnost strukture profila nego distanca između njih.

Prilikom poređenja sličnosti profila zanemaruje se predznak koeficijenta korelacije. Ova mera sličnosti

(zasnovana na r koeficijentu) se može u velikoj meri razlikovati od Euklidske distance.

Pored mere distance između dva profila, kao sumarnog pokazatelja razlike između njih, za analizu

sličnosti i razlika među njima koristimo grafik profila. Njega je moguće dati ako su varijable istovrsne ili je

prethodno izvršena njihova standardizacija. Pri poređenju dva profila možemo gledati njihove NIVOE,

stepen VARIJABILITETA i njihov OBLIK. (Kvadriranu Euklidsku distancu možemo razložiti na tri komponente

od kojih svaka ukazuje na doprinos ukupnom odstojanju: međusobne razlike u nivou, variajbilitetu i

oblicima profila)

29. Klaster analiza: hijerarhijsko grupisanje

Kada se odabere prikladna mera sličnosti ili razlike između objekata, vrši se izbor metode

grupisanja. Jedan skup metoda grupisanja su hijerarhijske metode koje se mogu podeliti na dve grupe

prema tome da li su zasnovane na iterativnom spajanju ili deljenju grupa i objekata.

1) Prva grupa hijerarhijskih metoda polazi od individualnih objekata, koji na početku predstavljaju

klastere, i koji se prema određenom kriterijumu udružuju u grupe (npr. kod pojedinačnog povezivanja – u

14

svakoj iteraciji se spajaju dva klastera sa najmanjom distancom). U narednim koracima formiraju se nove

grupe udruživanjem ranije formiranih grupa ili individualnih objekata. Pri tome, jedanput udružene grupe

ostaju zajedno tj. u kasnijim iteracijama nema mogućnosti prelaska iz jedne u drugu grupu. Udruživanje se

završava jednim klasterom koji sadrži sve objekte. Ove metode grupisanja nazivaju se HIJERARHIJSKE

METODE UDRUŽIVANJA ili metode koje se zasnivaju na BOTTOM-UP algoritmima.

2) Druga grupa metoda se naziva HIJERARHIJSKIM METODAMA DEOBE ili metodama zasnovanim na

TOP-DOWN algoritmima. One prelaze isti put, ali se kreću u suprotnom smeru, polazeći od jedne grupe

koja sadrži sve objekte. Prema određenom kriterijumu izdvajaju se objekti ili grupe dok se ne formira

onoliko grupa koliko ima objekata.

Bez obzira na metodu hijerarhijskog grupisanja rezultati koje na kraju postupka dobijamo informišu

nas o: sastavu grupa, homogenosti grupa i, dopunski, o redosledu udruživanja.

Bottom-up algoritam se češće koristi nego Top-down. Metode hijerarhijskog udruživanja, zasnovane

na ovom algoritmu, razlikuju se prema tome kako određuju međusobnu bliskost grupa tj. distancu među

klasterima. Tako postoje različite podvrste metoda hijerarhijskog udruživanja. Poznate su kao metode

povezivanja, a najčešće primenjivane među njima su:

1) pojedinačno povezivanje – poznato i kao „metod najbližeg suseda“; uvek se vrši između dva

entiteta/grupe koje se nalaze na najmanjoj distanci

2) prosečno povezivanje – distanca se ovde određuje prema prosečnom odstojanju svih objekata koji

pripadaju dvema grupama; to znači da se ovde povezivanje onda vrši među centroidima grupa

3) potpuno povezivanje – poznato i kao „metod najdaljeg suseda“; uvek se vrši između dva entiteta koji

se nalaze na najvećoj distanci

Potpuno povezivanje proizvodi kompaktne klastere kružnog oblika, a pojedinačno izdužene klastere.

(Treba probati različite metode, videti koja od njih proizvodi najznačajnije rešenje, te njega prihvatiti. Ne

postoji postupak za testiranje značajnosti)

Proces udruživanja možemo predstaviti u formi obrnutog drveta poznatog kao DENDOGRAM. Ovaj

grafički prikaz poseduje i skalu koja pokazuje kako greška raste u procesu udruživanja. Na osnovu

dendograma možemo zaključivati o broju grupa koje treba zadržati, i to prema sledećim kriterijumima:

1) porast greške

2) saglasnost sa postojećim ili očekivanim rešenjem

3) saglasnost dela sa celinom

30. Klaster analiza: K-means grupisanje

K-means grupisanje je najpopularniji nehijerarhijski metod grupisanja. Za razliku od hijerarhijskih,

ove metode dopuštaju mogućnost premeštanja objekata iz jedne u drugu grupu, ukoliko to doprinosi

optimalnosti rešenja. Kod K-means grupisanja broj grupa je unapred definisan. Nakon određivanja

broja grupa potrebno je slučajno odrediti inicijalnu poziciju centroida za svaku od grupa. Potom se odredi

distanca između svakog objekta i svake grupe (njenog inicijalnog centroida). Svi objekti se dodeljuju

klasterima u skladu sa kriterijumima (lociraju se u grupe koje su im najbliže). Nakon pridruživanja objekta

nekoj novoj grupi, ponovo se izračunava centroid grupe iz koje je objekat premešten i klastera kome je

objekat pridružen. Ponovo, za svaki objekat, izračunavamo njegovo odstojanje od centroida grupa i vršimo

preraspodelu objekata između grupa sve dok rešenje ne konvergira (tj. postane stabilno). Obično se

pretpostavlja da tokom preraspodele nije došlo do promene.

Dakle, K-means grupisanje se svodi na problem optimizacije tj. minimiziranja sume kvadrata

distanci unutar klastera (analogno „principu najmanjih kvadrata“ u regresionoj analizi koji glasi:

„Najpoštenija je ona regresijska linija koja ima najmanju sumu kvadrata odstupanja pojedinih rezultata od

15

tog pravca.“).

Najveći problem u K-means grupisanju predstavlja pitanje: Kako odrediti broj klastera? Ne postoji

sasvim jasan odgovor na ovo pitanje i jednostavno rešenje ove ozbiljne slabosti ovog metoda grupisanja.

Ipak, postoje dva moguća pristupa u rešavanju ovog problema:

1) pređenje kvaliteta različitih rešenja dobijenih variranjem broja klastera (najčešće primenjivano, a

možda i najbolje rešenje; problem-preterana arbitrarnost)

2) modeli zasnovani na verovatnoćama (problem-teško je naći nepristrasno rešenje)

31. Multidimenzionalno skaliranje: namena i upotreba

Multidimenzionalno skaliranje je prvenstveno tehnika za vizuelizaciju podataka. Njen primarni cilj je

raspoređivanje entiteta u multidimenzionalnom prostoru i otkrivanje latentnih dimenzija koje se nalaze u

osnovi opaženih sličnosti i razlika između entiteta. MDS pruža dodatne informacije za interpretaciju

rezultata klaster analize. Uz pomoć njega se klasteri reprodukuju u multidimenzionalnom prostoru, gde

pokušavamo da pribavimo informacije o tome po čemu su oni slični, a po čemu se razlikuju. Dakle, kao što

je rečeno, u MDS se utvrđuje latentna struktura entiteta (ne varijabli). MDS radi sa distancama i njegova je

prednost u tome što dopušta rad sa svim matricama distanci i sličnosti.

Multidimenzionalno skaliranje se primenjuje npr. u istraživanjima koja se bave time kako opažamo

druge osobe. Tu se analiziraju sličnosti između različitih deskriptora osobina kako bi se otkrila skrivena

(latentna) višedimenzionalnost opažanja osobina kod drugih ljudi.

32. Multidimenzionalno skaliranje: matematičko-statističke osnove

MDS se smatra alternativom faktorskoj analizi. Kod njega se, kao i u faktorskoj analizi otkrivaju

latentne dimenzije, ali ove dimenzije nisu zasnovane na interkorelacijama varijabli, nego na distancama

između entiteta.

MDS je, takođe, i tehnika sa liberalnijim zahtevima u odnosu na faktorsku analizu. Može da

analizira varijable svih nivoa merenja, ne obraćajući pažnju na zahtev za normalnošću distribucije. Osim

toga, u faktorskoj analizi, sličnosti između objekata (tj. varijabli) su izražene isključivo u matricama

interkorelacija, dok je sa MDS moguće analizirati bilo kakve matrice sličnosti i razlika, uključujući i matrice

interkorelacija.

Što se tiče razlika u dobijenim rezultatima, faktorska analiza naginje ka tome da izoluje više faktora

(dimenzija) nego MDS. Zbog toga, MDS često daje jednostavnija i interpretabilnija rešenja.

Kao što smo rekli, polazna matrica u MDS je najčešće matrica distanci. Da bi distance predstavili

manjim brojem dimenzija u multidimenzionalnom prostoru, one se transformišu. Svaka transformacija

podrazumeva grešku. Logično, što je manje izolovanih dimenzija greška će biti veća, a što ih je više greška

je manja, ali je interpretacija teža. Najšire korišćena mera greške u MDS je STRESS. Stress predstavlja

razliku između opaženih i reprodukovanih distanci tj. razliku između distanci iz matrice distanci i

transformisanih distanci tj., najjednostavnije rečeno, razliku između distanci pre i posle transformacije.

Za MDS ne postoji poseban test značajnosti. Stress se najčešće koristi kao pokazatelj broja

dimenzija koje će ući u interpretaciju. Grafički kriterijum za određivanje broja dimenzija jeste Scree Plot,

koji na x-osi ima broj dimenzija, a na y-osi vrednost stresa. Na kraju, najprostije rečeno, kriterijum za

određivanje broja dimenzija jeste dobra vizuelizacija i interpretabilnost rezultata.

31. Multidimenzionalno skaliranje: interpretacija rezultata

Interpretacija dimenzija obično predstavlja poslednji korak u analizi. Ona je u potpunosti arbitrarna

i subjektivna.

16

Preduslov za interpretaciju u MDS je grafičko predstavljanje entiteta, najčešće dvodimenzionalnim

skater dijagramima. Trodimenzionalna rešenja su takođe u upotrebi, ali je njihova interpretacija teža i

komplikovaija. Entiteti se u prostoru raspoređuju na osnovu distanci, a osobine entiteta koji čine grupu

omogućavaju interpretaciju dimenzija. Osim traženja značajnih dimenzija, zanimljivo je uočiti i klastere

tačaka ili posebne sklopove i konfiguracije. U interpretaciji koristimo i meru greške, poznatu kao Stress,

prvenstveno kao pokazatelj broja dimenzija.

17

MULTIVARIJATNA ANALIZA.doc

Documents

Transcript of MULTIVARIJATNA ANALIZA.doc