Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20...
Transcript of Christina Gustafsson Tilastollinen tietojenkäsittely ...lipas.uwasa.fi/~chg/SPSS versio 20...
Christina Gustafsson
Tilastollinen tietojenkäsittely STAT2100
IBM SPSS Statistics 20 for Windows Osa 3
Kevät 2013
SISÄLLYSLUETTELO 9. REGRESSIOSTA .................................................................................................. 2 10. EPÄPARAMETRISIA TESTEJÄ ........................................................................ 7
10.1. Kahden riippumattoman otoksen vertailu ................................................ 7 10.2. Usean riippumattoman otoksen vertailu ................................................... 8 10.3. Muita epäparametrisia testejä ................................................................ 10
11. AINEISTON TIIVISTAMINEN ........................................................................ 11 11.1. Keskiarvomuuttuja ................................................................................ 11 11.2. Eksploratiivisestä faktorianalyysistä ...................................................... 13
2 9. REGRESSIOSTA Regressioanalyysiä käytetään pääasiassa silloin, kun yhden muuttujan (selitettävä eli riippuva muuttuja eli vastemuuttuja) vaihtelua halutaan selittää yhden tai useamman muuttujan (selittävä(t) muuttuja(t), selittäjä(t)) vaihtelun avulla. Regressioanalyysityyppejä on useita. Analyze-valikon Regression-valinnan proseduurilla Linear (kuvio 68) voidaan muodostaa lineaarinen regressiomalli. Selitettävä määrällinen muuttuja valitaan kohtaan Dependent (esimerkissä Ansiotyönmäärä…) ja selittävät (yleensä määrällisiä) muuttujat kohtaan Independents (esimerkissä Ikä ja Osallistuminen…). Jos selittäjä on laadullinen, on se esitettävä dummy–muuttujien avulla. Dummy-muuttuja on apumuuttuja, jonka arvot ovat luvut 0 ja 1. Lineaarisessa regressiossa oletuksena on, että selitettävän ja selittäjien välinen riippuvuus on lineaarista. Jos selittäjiä on useita, ne eivät saisi korreloida keskenään (ainakaan voimakkaasti). Lisäksi selitettävän muuttujan jakauman pitäisi olla normaalijakauma jokaisella selittävän muuttujan arvolla siten, että varianssi on vakio. Näitä jälkimmäisiä oletuksia tutkitaan kuitenkin jäännösten eli residuaalien avulla vasta sen jälkeen, kun malli on muodostettu: jäännösten jakauman tulisi olla sellainen normaalijakauma, jonka keskiarvo on 0 ja lisäksi jäännösten varianssin tulisi olla vakio (jolloin jäännökset ovat homoskedastiset) Kohdassa Method voidaan valita, miten usean selittäjän mallissa selittäjät valitaan, mm. Enter kaikki Independents-listan muuttujat pakotetaan samaan malliin Forward etenevä regressio, jolloin muodostuu useita malleja: ensin yhden selittäjän malli, sitten kahden selittäjän malli jne. Stepwise askeltava regressio, jolloin muodostuu useita malleja: ensin yhden selittäjän malli, sen jälkeen malliin lisätään uusi muuttuja, mutta mallista voidaan myös poistaa siinä ollut muuttuja jne. Remove ensin muodostuu malli, jossa on mukana kaikki selittäjät, sitten muodostuu malli, jossa kaikki selittäjät on pudotettu pois Backward muodostuu useita malleja: ensin malli, jossa on mukana kaikki selittäjät, sen jälkeen pudotetaan selittäjiä yksi kerrallaan mallista pois. Selection Variable -kohdassa voidaan valita tutkittava osajoukko. Statistics-lisävalinnan avulla valitaan mallista tulostettavat tunnusluvut. Regressiokertoimien (Regression Coeffiecients) estimaatit saadaan valinnalla Estimates, luottamusvälit valinnalla Confidence Intervals ja kovarianssimatriisi valinnalla Covariance Matrix. Model Fit -valinnalla muodostuu mm. selitysaste ja ANOVA-taulukko. R squared change -valinnalla saadaan mallin selitysasteen muutos, kun malliin lisätään tai mallista poistetaan muuttujia. Descriptives-valinnalla saadaan kuvailevia tunnuslukuja ja korrelaatiomatriisi. Part and partial correlations -valinnalla saadaan mm. osittaiskorrelaatiot. Collinearity diagnostics -valinnalla saadaan usean selittäjän regressionallin multikollineaarisuustarkastelut. Jäännösten (Residuals) autokorreloituneisuutta voidaan selvittää Durbin-Watson –testillä ja yksittäisten tilastoyksiköiden residuaaleja voidaan tutkia valinnalla Casewise Diagnostics. Plots-lisävalinnalla voidaan muodostaa pisteparvikuvioita (Scatter) mm. seuraaville arvoille: DEPENDNT selitettävän muuttujan arvot *ZPRED standardoidut ennustearvot *ZRESID standardoidut jäännökset eli residuaalit *DRESID muunnetut residuaalit, jotka esittävät jäännöksiä silloin, kun ko. tilastoyksikköä ei ole otettu mukaan regressiokertoimien estimointiin
3 *ADJPRED ennustearvot, jotka muodostuvat, kun ko. tilastoyksikköä ei ole otettu mukaan regressiokertoimien estimointiin *SRESID studentisoidut residuaalit Standardized Residual Plots -valinnoilla voidaan muodostaa residuaaleista frekvenssihistogrammi (Histogram) tai kuvio, jolla voidaan tutkia residuaalien normaalisuutta (Normal probability plot).
Kuvio 68. Linear Regression –määrittelyikkunoita Save-lisävalinnalla voidaan havaintoaineistoon lisätä muuttujiksi erilaisia versioita mallin ennustearvoista (Predicted), residuaaleista (Residuals) ja etäisyystunnusluvut (Distances). Influence
4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät mm. yksittäisten tilastoyksiköiden vaikutusta regressiokertoimiin. Prediction Intervals -valinnoilla voidaan muodostaa ennustearvojen keskiarvolle (Mean) tai yksittäisille havainnoille (Individuals) luottamusväli (Confidence Interval). Kuviossa 69 on lineaarisen regression perustuloksia. Selitettävä muuttuja (Dependent Variable) on Ansiotyön määrä viikossa tunteina ja selittävät muuttujat ovat Osallistuminen opetukseen ja Ikä. Model Summary -taulukosta nähdään mallin selitysaste (R Square), joka on 0.288, joten muodostuneella mallilla voidaan selittää Ansiotyön määrän vaihtelusta n. 29 %. ANOVA-taulukon F- testin hypoteesit ovat H0: populaatiossa mallin selitysaste on 0 eli mallin kaikki regressiokertoimet i ovat nollia H1: populaatiossa mallin selitysaste on suurempi kuin 0 eli mallissa ainakin yksi regressiokerroin on nollasta eroava F-testin arvo on 13.736 ja sen havaittu merkitsevyystaso (Sig.) on nyt 0.000, joten ainakin jompikumpi selittävistä muuttujista selittää Ansiotyön määrän vaihtelua. Coefficients-taulukossa näkyvät regressiokertoimet (Unstardardized Coefficients B), joten estimoitu malli on nyt ö ää ä = 0.102 + 0.953 Ikä – 0.468 Osallistuminen opetukseen. Malli tulkintaa: jos Ikä kasvaa yhdellä vuodella, kasvaa Ansiotyön määrä keskimäärin 0.953 tuntia/vko, kun Osallistuminen opetukseen –muuttujan arvo ei muutu. Jos Osallistuminen opetukseen kasvaa yhden tunnin/vko, pienenee Ansiotyön määrä keskimäärin 0.468 tuntia/vko, kun Ikä-muuttujan arvo ei muutu. Stanrdardoidut regressiokertoimet (Stardardized Coefficients Beta) ovat käyttökelpoisia selittäjien keskinäiseen vertailuun erityisesti silloin, kun selittäjillä on erilaiset mittayksiköt. Koska Ikä-muuttujalla on itseisarvoltaan suurempi stardardoitu regressiokerroin (0.458) kuin Osallistuminen opetukseen -muuttujalla (-0.229), on Ikä-muuttuja merkittävämpi selittäjä Ansiotyön määrälle. Coefficients-taulukossa näkyvät myös regressiokertoimien merkitsevyystestit (t) ja niiden havaitut merkitsevyystasot (Sig.). Ko. testeissä hypoteesit ovat H0: populaatiossa selittäjän xi regressiokerroin i = 0 H1: populaatiossa ko. muuttujan regressiokerroin i 0 Vakion (Constant) havaittu merkitsevyystaso on 0.988, joten vakio voidaan tulkita nollaksi. Ikä ja Osallistuminen opetukseen –muuttujien p-arvot ovat vastaavasti 0.000 ja 0.029, joten Ikä on tilastollisesti erittäin merkitsevä selittäjä ja Osallistuminen opetukseen tilastollisesti melkein merkitsevä selittäjä tässä lineaarisessa regressiomallissa. Kuviossa 70 on jäännösten histogrammikuvio sekä pisteparvikuvio standardoiduista ennusteista ja jäännöksistä. Ensimmäisen kuvion perusteella jäännösten jakauma vaikuttaa lähes normaalijakaumalta, jonka keskiarvo on nolla. Toisen kuvion perusteella jäännösten varianssi on lähes samanlainen eri ennustearvoilla, joten jäännökset ovat homoskedastiset. Näiden kuvioiden perusteella lineaarisen regression jäännöksiin liittyvät oletukset näyttävät siis toteutuvan.
5
ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 2022,118 2 1011,059 13,736 ,000a
Residual 5005,065 68 73,604 Total 7027,183 70
a. Predictors: (Constant), Osallistuminen opetukseen (tuntia viikossa), Ikä vuosina
b. Dependent Variable: Ansiotyön määrä viikossa tunteina
Coefficientsa
Model
Unstandardized Coefficients
Standardized
Coefficients
t Sig. B Std. Error Beta
1 (Constant) ,102 6,614 ,015 ,988
Ikä vuosina ,953 ,215 ,458 4,438 ,000
Osallistuminen opetukseen
(tuntia viikossa)
-,468 ,210 -,229 -2,225 ,029
a. Dependent Variable: Ansiotyön määrä viikossa tunteina Kuvio 69. Linear Regression -proseduurin perustulostusta
Kuvio 70. Linear Regression -proseduurin kuvioita
Model Summary
,536a ,288 ,267 8,58Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Osallistuminen opetukseen(tuntia viikossa), Ikä vuosina
a.
6 Lineaarisen regression lisäksi regressioproseduurina on mm. Curve Estimation. Curve Estimation -proseduurilla voidaan yhden selittäjän lineaarisen regressionmallin lisäksi/sijasta muodostaa epälineaarisia yhden selittäjän regressiomalleja. Mallissa on aina yksi määrällinen selitettävä muuttuja ja yksi määrällinen selittävä muuttuja tai selittävänä muuttujana on aika (= havainnon järjestysnumero). Malliksi voidaan valita esim. toisen asteen polynomimalli (Quadratic), kolmannen asteen polynomimalli (Qubic) ja eksponentiaalinen malli (Exponential). Tämän proseduurin tulokset esitetään oletusarvoisesti sellaisena pisteparvikuviona, jonka päälle piirtyy valitun mallin estimoitu. Lisäksi saadaan tulostukseen taulukkoesitys mallin selitysasteesta ja mallin regressiokertoimista.
7
10. EPÄPARAMETRISIA TESTEJÄ Luvussa 8 käsitellyt keskiarvotestit ovat tyypillisiä parametrisia testejä, joissa tehdään oletuksia muuttujien jakaumien muodosta (esim. että tarkasteltavan muuttujan jakauma on normaalijakauma) ja muuttujien mitta-asteikoista (esim. että tarkasteltava muuttuja on määrällinen). Epäparametriselle (eli parametrittomalle) testille on tyypillistä se, että edellä esitetyn tapaisia oletuksia kevennetään, joten epäparametristen testien käyttömahdollisuudet ovat laajemmat kuin parametristen testien Epäparametriset testit ovat kuitenkin testivoimakkuuksiltaan huonompia kuin parametriset testit, joten parametristä testiä kannattaa käyttää, jos sen oletukset ovat voimassa. Aiemmin käsitellyistä testeistä ristiintaulukosta muodostettu
2-riippumattomuustesti on epäparametrinen testi.
Analyze-valikon kohdassa Nonparametric Tests on kokoelma ns. epäparametrisiä testejä. Valinnan Legacy Dialogs avulla päästään tekemään näitä testejä niin, että testitulosten yhteydessä saadaan tarvittaessa myös esille tilastollisten tunnuslukujen arvoja. Jos käytetään suoraan valintoja One Sample, Indepedent Samples tai Related Samples, voi testejä tehdä puolittain ohjatusti/automaattisesti, mutta tällöin saadaan esille vain testien tulokset: hyväksytäänkö vai hylätäänkö testin nollahypoteesi.
10.1. Kahden riippumattoman otoksen vertailu 2 Independent-Samples -proseduurilla voidaan vertailla kahden ryhmän eroa sellaisen muuttujan suhteen, joka on vähintään järjestysasteikon mittausta. Määrittelyikkunassa (kuvio 71) ruutuun Test Variable List valitaan testattavat muuttujat (esimerkissä Ikä …) ja kohtaan Grouping Variable se muuttuja, jonka perusteella vertailtavat kaksi ryhmää muodostuvat (esimerkissä tdk). Define Groups -valinnalla määritetään ryhmittelevän muuttujan arvoista ne kaksi arvoa, joiden perusteella ryhmät muodostuvat.
Kuvio 71. 2 Independent-Samples -proseduurin päämäärittelyikkuna
Testiksi voidaan valita (Test Type): Mann-Whitney U, joka on ns. epäparametrinen versio kahden riippumattoman otoksen
keskiarvotestistä. Testillä tutkitaan, onko kahden otosta samasta populaatiosta erityisesti sijainnin suhteen. Testiä voi käyttää korvaamaan kahden riippumattoman otoksen keskiarvotesti silloin,
8
kun keskiarvotestin normaalijakaumaoletus ei toteudu tai jos otoskoot ovat pieniä. Testin hypoteesit ovat
H0: populaatioissa ko. muuttujan jakaumasijainnit ovat samanlaiset H1: populaatioissa ko. muuttujan jakaumasijainnit ovat erilaiset Moses extreme reactions, jolla voidaan testata, onko koemuuttujan ja kontrollimuuttujan arvojen
vaihteluvälit samat. Kolmogorov-Smirnov Z, jolla voidaan tutkia, onko kaksi otosta (ryhmää) samasta populaatiosta. Testi
reagoi millaiseen eroon tahansa. Wald-Wolfowitz runs, jolla voidaan tutkia, onko kaksi otosta samasta populaatiosta Testi reagoi millaiseen eroon tahansa. Kuviossa 72 on em. proseduurin tulostusta silloin, kun testityypiksi on valittu Mann-Whitney U. Tulostuksesta Ranks-taulukosta nähdään mm. että humanistisen tiedekunnan opiskelijoiden otoskoko on 219 ja keskimääräinen ikäsijaluku on 162.36 sekä yhteiskuntatieteellisen tiedekunnan opiskelijoiden otoskoko on 103 ja keskimääräinen ikäsijaluku on 159.67. Test Statistics -taulukossa on esitetty Mann-Whitney U-testin arvo 11090 ja sen havaittu merkitsevyystaso 0.807. Eri tiedekuntien opiskelijoiden ikäjakaumien sijainneilla ei siis ole tilastollisesti merkitsevää eroa.
Ranks
Tiedekunta N Mean Rank Sum of Ranks
Ikä vuosina humanistinen 219 162,36 35557,00
yhteiskuntatieteellinen 103 159,67 16446,00
Total 322
Test Statisticsa
Ikä vuosina
Mann-Whitney U 11090,000
Wilcoxon W 16446,000
Z -,245
Asymp. Sig. (2-tailed) ,807
a. Grouping Variable: Tiedekunta
Kuvio 72. 2 Independent-Samples -proseduurin tulostusta 10.2. Usean riippumattoman otoksen vertailu K Independent –Samples -proseduurilla voidaan vertailla kolmen tai useamman ryhmän eroja sellaisen muuttujan suhteen, joka on vähintään järjestysasteikon mittausta. Määrittelyikkunassa (kuvio 73) ruutuun Test Variable List valitaan testattavat muuttujat (esimerkissä Opintojen …) ja kohtaan Grouping Variable se muuttuja, jonka perusteella vertailtavat kaksi ryhmää muodostuvat (esimerkissä paaaine). Define Range -valinnalla määritetään ryhmittelevän muuttujan arvoista ne arvot, joiden perusteella ryhmät muodostuvat.
9
Kuvio 73. K Independent-Samples -proseduurin päämäärittelyikkuna
Testiksi voidaan valita (Test Type): Kruskal-Wallis H, joka on epäparametrinen versio yksisuuntaisesta varianssianalyysistä. Testillä
voidaan tutkia, ovatko otokset peräisin samasta populaatiosta erityisesti sijainnin suhteen. Testi on yleistys Mann-Whitneyn U-testistä. Testiä voi käyttää yksisuuntainen varianssianalyysi silloin, kun varianssianalyysin normaalijakaumaoletus ei toteudu tai jos otoskoot ovat pieniä. Testin hypoteesit ovat
H0: populaatioissa ko. muuttujan jakaumasijainnit ovat samanlaiset H1: populaatioissa ko. muuttujan jakaumasijainnit ovat erilaiset Median, joka on mediaanitesti, joka perustuu ristiintaulukkoon, jossa jokaisesta otoksesta esitetään mediaania suurempien havaintoarvojen frekvenssi sekä niiden havaintojen määrä, jotka ovat pienempiä tai yhtäsuuria kuin mediaani. Testi on voimakkuudeltaan heikompi kuin Kruskal- Wallisin H-testi. Testin hypoteesit ovat H0: populaatioissa ko. muuttujan mediaanit ovat yhtä suuret H1: populaatioissa ko. muuttujan mediaanit eivät ole yhtä suuret Kuviossa 74 on em. proseduurin tulostusta silloin, kun testityypiksi on valittu Kruskal-Wallis H. Tulostuksesta Ranks-taulukosta nähdään mm. että eri pääaineiden opiskelijoiden otoskoot (14, 33, 66, 48 ja 54) sekä opintojen edistymisen keskimääräiset sijaluvut (129.71, 115.77 jne). Keskimääräisten sijalukujen perusteella ruotsin opiskelijat näyttävät edistyvän opinnoissaan muita hitaammin (pienin sijalukukeskiarvo). Test Statistics -taulukossa on esitetty Kruskl-Wallisin H-testin arvo on 8.680 sen havaittu merkitsevyystaso 0.070. Eri pääaineopiskelijoiden edistymisjakaumien sijainneilla ei siis ole tilastollisesti merkitsevää eroa.
Ranks
10
Pääaine N Mean Rank
Opintojen edistyminen
englanti 14 129,71 nykysuomi 33 115,77 ruotsi 66 94,57 saksa 48 106,35 viestintätieteet 54 115,50 Total 215
Test Statisticsa,b
Opintojen edistyminen
Chi-Square 8,680
df 4
Asymp. Sig. ,070
a. Kruskal Wallis Test
b. Grouping Variable: Pääaine
Kuvio 74. K Independent-Samples -proseduurin tulostusta
10.3. Muita epäparametrisia testejä Proseduurilla Chi-Square Test voidaan tehdä
2-yhteensopivuustesti, jolla vertaillaan Test Variable
List -kohtaan valitun muuttujan luokkien havaittuja frekvenssejä haluttuihin teoreettisiin frekvensseihin. Expected Range -kohdassa valitaan muodostuvien luokkien määrä: Get from data-vaihtoehdolla luokkia muodostuu niin paljon kuin muuttujalla on erilaisia arvoja, ja Use specified range -valinnalla Lower- ja Upper-kokonaislukujen suljettuun väliin jäävät arvot muodostavat luokat. Luokkien frekvenssejä vertaillaan teoreettisiin frekvensseihin, jotka muodostetaan valinnan Expected Values avulla: All categories equal -vaihtoehdolla luokkien teoreettiset frekvenssit asetetaan yhtäsuuriksi (tasajakaumavertailu), kun taas Values-kohdassa voidaan ilmoittaa luokkien teoreettiset frekvenssit tai prosentuaaliset osuudet yksitellen luokkia vastaavassa järjestyksessä. Proseduurilla Runs voidaan testata, onko muuttujan kahden arvon esiintymisjärjestys satunnainen. Cut Point -kohdassa valintaan tunnusluku (Mean, Median, Mode) tai luku (Custom), jonka perusteella muuttujan arvot jaetaan kahteen luokkaan. Ensimmäiseen luokkaan kuuluvat valittua lukua pienemmät havaintoarvot ja toiseen luokkaan valittua lukua suuremmat tai yhtäsuuret havaintoarvot. 2 Related Samples-proseduurilla voidaan vertailla kahden riippuvan muuttujan jakaumia. Testiksi voidaan valita (Test Type): Wilcoxon, jolla voidaan tutkia, onko kahdella riippuvalla muuttujalla sama jakauma. Muuttujien jakaumien muodosta ei tehdä mitään alkuoletuksia. Sign, jolla voidaan tutkia, onko kahdella riippuvalla muuttujalla sama jakauma. McNemar, jolla voidaan tutkia kahta riippuvaa dikotomista muuttujaa. Sopii erityisesti silloin, kun tarkastellaan ennen-jälkeen-kokeiden muutossuuntia. K Related Samples-proseduurilla voidaan vertailla kahden tai useamman riippuvan muuttujan jakaumia. Testiksi voidaan valita (Test Type): Friedman, jolla testataan nollahypoteesia: k riippuvaa muuttujaa ovat samasta populaatiosta. Kendall’s W, jolla testataan nollahypoteesia: k otosta on samasta populaatiosta. Testi sopii erityisesti silloin, kun halutaan mitata arvostelijoiden tai tuomareiden samankaltaisuutta annettujen sijalukujen tai -pisteiden suhteen. Cochran’s Q, jolla testataan nollahypoteesia: k:lla riippuvalla dikotomisella muuttujalla on jakauman keskikohta sama. Testi on McNemarin testin yleistys.
11 11. AINEISTON TIIVISTAMINEN Erityisesti kyselytutkimuksissa on muuttujien lukumäärä niin suuri, että yksittäisen muuttujien käsittely on vaivalloista ja aikaa vievää. Samaan asiaan liittyvien muuttujien sisältämää informaatiota voidaan tiivistää yhdeksi muuttujaksi, jota voidaan analysoida tilastomenetelmillä.
11.1. Keskiarvomuuttuja Keskiarvomuuttujalla (joskus käytetään myös nimitystä summamuuttuja) tarkoitetaan sellaista muuttujaa, jonka arvot saadaan laskemalla kahden tai useamman vähintään järjestysasteikollisen muuttujan keskiarvo. Tällaista keskiarvomuuttujaa käytetään paljon kyselytutkimuksissa, jossa tietty kysymysjoukko liittyy samaan asiaan. Keskiarvomuuttujan laatiminen kannattaa aloittaa niin, että käy läpi samaan asiaan liittyvät kysymykset/väitteet ja tarkistaa, että väitteet ovat samansuuntaisia. Jos näin ei ole, täytyy esimerkiksi kielteisesti esitettyjen väitteiden vastaukset muuntaa myönteisiksi. Esim. väite: ”Tilastotiede on hauskaa” on myönteinen, mutta väite ”Tilastotiede on turhaa” on kielteinen. Jos muuttujien arvokoodeina on ollut esim. alun perin 1 = täysin eri mieltä, … 5 = täysin samaa mieltä, vaihdetaan kielteisten väittämien muuttuja-arvot (käyttäen esim. Transform-valikon Recode into Different Variables -proseduuria) niin, että luvun 1 tilalle laitetaan 5, luvun 2 paikalle 4, luku 3 säilyy ennallaan, luvun 4 tilalle 2 ja luvun 5 tilalle 1 ja samalla vaihdetaan myös väitteen nimi (esim. ”Tilastotiede EI ole turhaa”). Seuraavaksi tarkistetaan, ovatko ko. muuttujat yhteismitallisia esim. Cronbachin –tunnusluvun avulla. Cronbachin :n arvo riippuu muuttujien korrelaatioista ja lukumäärästä Mitä suurempi on (maksimiarvo 1), sitä enemmän muuttujat ovat yhteismitallisia. Cronbachin saadaan laskettua Analyze-valikon Scale-valinnan proseduurilla Reliablity Analysis. Ko. proseduurin päämärittelyikkunassa (kuvio 75) valitaan mahdollisesti yhdistettävät muuttujat kohtaan Items (esimerkissä k4501, k4502, jne). Model-valinta Alpha tuottaa tulokseksi Cronbachin -tunnusluvun. Statistics-lisävalinnalla Scale if item deleted saadaan tuloksiin Cronbachin -tunnusluvun arvo silloinkin, kun joku tietty valittu muuttuja jätettäisiin yhdistämisestä pois.
Kuvio 75. Reliability Analysis -proseduurin määrittelyikkunoita
12 Kuviossa 76 on em. proseduurin tuloksia. Reliability Statistics –taulukosta Cronbachin :n arvo 0.888, joten valittujen kuuden muuttujan yhteismitallisuus on hyvä. Item-Total Statistics –taulukon viimeisessä sarakkeessa olevat Cronbachin :n arvot ovat lukua 0.888 pienempiä, joten minkään muuttujan poistaminen ei parantaisi jäljelle jäävien 5 muuttujan yhteismitallisuutta.
Reliability Statistics
Cronbach's
Alpha
N of Items
,888 6
Item-Total Statistics
Scale Mean if
Item Deleted
Scale Variance
if Item Deleted
Corrected Item-
Total
Correlation
Cronbach's
Alpha if Item
Deleted [k4501] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Moottoriajoneuvo varastetaan
10,01 7,978 ,720 ,865
[k4502] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Moottoriajoneuvoa vahingoitetaan
9,90 7,948 ,735 ,863
[k4503] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Kotiin murtaudutaan
10,10 8,505 ,602 ,884
[k4504] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Polkupyörä varastetaan
9,68 8,267 ,606 ,884
[k4505] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Muuta henkilökohtaista omaisuutta varastetaan
10,00 7,768 ,777 ,856
[k4506] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Henkilökohtaista omaisuutta vahingoitetaan
10,00 7,756 ,784 ,855
Kuvio 76. Reliability Analysis -proseduurin tulostusta
Nyt on siis vahvat perusteet laskea ko. muuttujista keskiarvomuuttuja, jonka arvot kuvaavat sitä, kuinka huolissaan vastaajat ovat mahdollisuudesta joutua omaisuusrikoksen uhriksi. Keskiarvomuuttuja muodostetaan käyttäen esim. Transform-valikon Compute Variable –proseduuria niin, että Target Variable –ruutuun tulee keskiarvomuuttujan nimi (esim. huoli_omaisuusrikoksista) ja Numeric Expression -ruutuun kaavaksi (k4501 + k4502 + k4503 + k4504 + k4505 + k4506)/6. Näin saadun keskiarvomuuttujan pieni arvo tarkoittaa, että vastaaja ei ole huolestunut ja suuri arvo, että
13 vastaaja on huolestunut, koska alkuperäisilläkin muuttujilla pieni arvo tarkoitti sitä, ettei ole huolestunut ja suuri arvo sitä, että on huolestunut. Keskiarvomuuttujaa voidaan analysoida kuten muitakin määrällisiä muuttujia (yksittäisten muuttujien sijasta), kun esim. vertaillaan, ovatko miehet ja naiset yhtä huolissaan siitä, että joutuvat jonkinlaisen omaisuusrikoksen uhriksi.
11.2. Eksploratiivisestä faktorianalyysistä Faktorianalyysistä voidaan erottaa kaksi lähestymistapaa, joista eksploratiivinen faktorianalyysi pyrkii löytämään muuttujajoukosta faktoreita (eli latentteja muuttujia), jotka pystyvät selittämään havaittujen muuttujien vaihtelua ilman, että ennalta on vahvoja odotuksia löydettävien määrästä tai tulkinnasta, kun taas konfirmatorisessa faktorianalyysissä on jo ennalta olemassa käsitys aineiston faktorirakenteesta ja analyysin tehtävänä on joko vahvistaa tai kumota tämä käsitys. Eksploratiivinen faktorianalyysi on siis aineistolähtöinen tutkimusmenetelmä. Analyysin tuloksena voidaan löytää yksi tai useampia faktoreita, joita käytetään hyväksi tulosten tulkinnassa. Analyze-valikon Dimension Reduction -valinnan proseduurilla Factor (kuvio 77) voidaan muodostaa faktorimalli. Faktoroitavat muuttujat valitaan kohtaan Variables (esimerkissä k1601, k1602, jne). Faktoroitavien muuttujien tulisi korreloida keskenään (muttei liikaa), muuttujien tulisi olla määrällisiä (”hyvä” järjestysasteikkokin käy, nyt kyseessä Likertin asteikko: kaikilla valituilla muuttujilla muuttuja-arvokoodit 1 = erittäin tyytymätön,…, 5 = erittäin tyytyväinen), muuttujien olisi hyvä olla yhteismitallisia sekä normaalijakautuneita. Selection Variable -kohdassa voidaan valita tutkittava osajoukko, jos sen muodostaminen perustuu vain yhteen aineiston muuttujaan. Descriptives-lisävalinnan avulla valitaan tulostukseen tunnuslukuja ja testejä. Statistics–kohdan Univariate descriptives –valinnalla saadaan muuttujien keskiarvot ja –hajonnat sekä Initial solution -valinnalla saadaan kommunaliteetit ja ominaisarvot. Correlation Matrix -kohdan Coefficients-valinnalla saadaan korrelaatiomatriisi, valinnalla Reproduced saadaan faktoriratkaisun perusteella estimoidut korrelaatiot, valinnalla Significance levels korrelaatioiden merkitsevyystestauksen p-arvot ja esim. KMO and Bartlett’s test of Sphericity –valinnalla saadaan Kaiser-Meyer-Olkin -indeksin sekä Bartlettin testin tulokset. Extraction-lisävalinnalla voidaan valita faktorilatausten estimointimenetelmä (Method): Principal components valinnalla tehdään pääkomponenttianalyysi (joka ei ole sama asia kuin faktorianalyysi), useimmiten käytetään joko Principal axis factoring (pääakseli-) tai Maximum Likelihood –menetelmää. Display-kohdassa valitaan tulostetaanko rotatoimaton faktorilatausmatriisi (Unrotated factor solution) ja Scree Plot kuvio. Faktoreiden määrä voi perustua joko faktoreiden ominaisarvoon (Based on Eigenvalue, oletusrajana 1) tai itse valittuun lukumäärään (Fixed number of factors). Rotation-lisävalinnalla valitaan rotatointimenetelmä (Method). Jos halutaan suorakulmainen rotaatio (korreloimattomat faktorit), valitaan Varimax (tai Quartimax). Jos halutaan vinorotaatio, valitaan esim. Direct Oblimin. Display-kohdassa valitaan tulostetaanko rotatoitu faktorilatausmatriisi (Rotated solution) ja faktoreista muuttujien latausten pisteparvet (Loading plots). Scores-lisävalinnalla voidaan laskea faktoripistemäärät ja tallettaa ne havaintoaineistoon Save as variables –valinnalla. Options-lisävalinnalla voidaan mm. estää itseisarvoltaan pienten latausten esittäminen latausmatriisissa valinnalla Suppress small coefficients (usein rajana käytetään lukua 0.3)
14
Kuvio 77. Factor-proseduurin määrittelyikkunoita
15
Kuviossa 78 on faktorianalyysituloksia. Correlation Matrix –taulukko on korrelaatiomatriisi. Muutamien muuttujien välillä on korrelaatiota, joten on luultavaa, että muuttujien korrelaatioiden taustalla on faktoreita. KMO and Bartlett’s Test –taulukon Kaiser-Meyer-Olkin (=KMO) –indeksin arvo on ”kohtalainen” 0.789 (pitäisi olla ehdottomasti yli 0.5), joten sen perusteella voidaan todeta muuttujajoukon olevan sen verran homogeenisen, että faktorointi on järkevää. Bartlett’s Test –testin p-arvo 0.000, joka osoittaa, että korrelaatiomatriisi ei ole yksikkömatriisi, joten senkin perusteella faktorointi on järkevää.
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,789
Bartlett's Test of Sphericity Approx. Chi-Square 1012,773
df 78
Sig. ,000
Kuvio 78. Factor-proseduurin tulostusta: korrelaatioita, testituloksia ja kommunaliteetteja
16 Kuviossa 78 on esillä osa faktoroitujen muuttujien kommunaliteeteista (Communalities). Alkuperäinen kommunaliteetti muuttujalle k1601 on 0.224, eli kaikki faktorit selittävät vain 22.4 % ko. muuttujan vaihtelusta. Faktoroinnin jälkeen (kun mukana on 4 faktoria, tämä tulos myöhemmin) ko. muuttujan kommunaliteetti on 0.269. Jos muuttujan kommunaliteetti on hyvin alhainen (esim. pienempi kuin 0.2), voidaan harkita sen pudottamista analyysistä pois. Analyysiä on nyt kuitenkin jatkettu niin, että kaikki alun perin mukana olleet muuttujat pidetään analyysissä mukana.
Kuvio 79. Factor-proseduurin tulostusta: ominaisarvot ja Scree Plot
Kuviossa 79 on esillä faktoreiden ominaisarvot (Eigenvalues) ja Scree Plot –kuvio, joiden avulla päätellään faktoreiden määrää. Ominaisarvot kuvaavat, kuinka hyvin faktorit pystyvät selittämään
17 analysoitavien muuttujien vaihtelua. Jatkoanalyysiin otetaan (oletusarvoisesti) mukaan ne faktorit, joiden ominaisarvo on suurempi kuin 1. Nämä 4 faktoria selittävät lähes 50 % analysoitavien muuttujien yhteisvaihtelusta. Faktoreiden määrää voi harkita Cattelin scree plot –kuvion avulla: sovitetaan silmämääräisesti suora pienten ominaisarvojen faktoreille (itse piirretty kuvion päälle jälkikäteen) ja katsotaan montako alkupään faktoria jää suoran yläpuolelle (nyt myös 4). Seuraavaksi tulostuu Factor Matrix, joka on rotatoimaton faktorimatriisi. Se koostuu faktorilatauksista. Rotatointi kuitenkin tekee faktorirakenteesta yleensä selvemmän, joten kannattaa tulkita rotatoitua faktorimatriisia (Rotated Factor Matrix), joka on esitetty kuviossa 80. Faktorilataus on muuttujan ja faktorin välinen korrelaatio. Ensimmäisellä faktorilla erityisen vahvat lataukset ovat muuttujilla k1610, k1611 ja k1613, joten ko. faktori kuvannee tyytyväisyyttä palveluihin. Toisella faktorilla latautuvat vahvasti muuttujat k1607 ja k1608, joten faktori kuvaa tyytyväisyyttä ympäristöön. Kolmannella faktorilla vahvat lataukset osuvat muuttujiin k1603-k1605, joten faktori kuvaa tyytyväisyyttä liikennejärjestelyihin. Viimeisellä faktorilla isoimmat lataukset ovat muuttujilla k1601 ja k1602, joten faktori kuvannee tyytyväisyyttä asuntoon. Tämän faktorianalyysin tuloksena saatiin 13 muuttujan sisältämä tieto tiivistettyä 4 faktoriin.
Rotated Factor Matrixa
Factor
1 2 3 4 [k1601] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asunnon koko ja varusteet
,472
[k1602] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asumisen kustannukset
,762
[k1603] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Työmatkakustannukset
,466
[k1604] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Liikenneyhteydet
,345 ,658
[k1605] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Liikenneturvallisuus
,412 ,581
[k1606] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Puistojen ja viheralueiden laatu
,484
[k1607] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Rauhallisuus ja yleinen järjestys alueella
,826
[k1608] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Melutaso ja ilmanlaatu
,704
[k1609] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen katujen ja teiden hoito
,429
[k1610] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Kaupallisten palvelujen sijainti
,824
[k16011] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Kaupungin/ kunnan palvelujen sijainti
,673
[k16012] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen arvostus
,390 ,360
[k16013] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen palvelutason kokonaisuus
,794
Extraction Method: Principal Axis Factoring.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 7 iterations. Kuvio 80. Factor-proseduurin tulostusta: rotatoitu faktorimatriisi Jos faktoripistemäärät muodostetaan Scores-lisävalinnalla, tulevat ne aineistoikkunaan (kuvio 81) esille uusina muuttujina (nyt siis 4 faktoria eli 4 uutta muuttujaa: FAC1_1 – FAC4_1). Esimerkiksi vastaaja
18 numero 7 on tyytymättömämpi asuinalueensa palveluihin kuin vastaaja numero 2, koska vastaajan numero 7 faktoripistemäärä -2.17189 on selvästi pienempi kuin vastaajan numero 2 faktoripistemäärä 0.37096. Faktoripistemääriä voi käyttää tilastoanalyyseissä määrällisten muuttujien tapaan, esim. voitaisiin tutkia, ovatko nais- ja miesvastaajat keskimäärin yhtä tyytyväisiä asuinalueensa palveluihin.
Kuvio 81. Factor-proseduurin muodostamat faktorit aineistoikkunassa