Statisztikai Segédanyag Műhelymunkához
-
Upload
szabados-sandor -
Category
Documents
-
view
126 -
download
23
description
Transcript of Statisztikai Segédanyag Műhelymunkához
KÁROLI GÁSPÁR REGORMÁTUS EGYETEM, PSZICHOLÓGIAI INTÉZET
STATISZTIKAI SEGÉDANYAG
Műhelymunkákhoz, szakdolgozatokhoz
Takács Szabolcs
2011 verzió: 0.9
SEGÉDANYAG MŰHELYMUNKÁHOZ
2
Tartalomjegyzék Bevezető .............................................................................................................................................. 3
A minta bemutatása ............................................................................................................................ 4
DISZKRÉT VÁLTOZÓK ESETE – Gyakorisági elemzés a NEM-változóra ............................................ 5
FOLYTONOS VÁLTOZÓK ESETE – a KOR-változó bemutatása ........................................................ 10
KÖZÉPÉRTÉKEK VIZSGÁLATÁRA VONATKOZÓ HIPOTÉZISEK ............................................................. 20
Egy változó nagyságszintjének tesztelése ..................................................................................... 22
Egy változó nagyságszintjének tesztelése 2 csoportban ............................................................... 28
Egy változó nagyságszintjét szeretnénk tesztelni legalább 3 csoportban ..................................... 37
Két összetartozó mintát tesztelünk ............................................................................................... 49
Két összetartozó minta tesztelése– ROPstat programcsomagban................................................ 50
Legalább 3 összetartozó mintát tesztelünk ................................................................................... 52
Két csoportosító változó egyidejű hatásának tesztelése ............................................................... 56
Csoportok és változók egyidejű hatásának tesztelése .................................................................. 63
Kvantitatív változók közötti kapcsolatvizsgálat ................................................................................. 67
Diszkrét változók közötti kapcsolatvizsgálat ..................................................................................... 76
MELLÉKLET: Adatrögzítés (Treit Noémi) ............................................................................................ 83
Adatrögzítés ROPstatban............................................................................................................... 83
Övezetesítés ROPstatban .............................................................................................................. 87
Adatrögzítés SPSS-ben ................................................................................................................... 88
Meglévő ROPstat adatfájl átvitele SPSS-be ................................................................................... 90
Övezetesítés SPSS-ben .................................................................................................................. 92
Megjegyzések az adatrögzítéshez ................................................................................................. 94
Melléklet – Összefoglaló táblázat ...................................................................................................... 95
Külön köszönet illeti meg Fenyőné Piró Krisztinát, amiért többszörösen átnézte a dolgozatot, kijavítva
benne értelmezési és egyéb hibákat, továbbá Treit Noémit, amiért az adatrögzítési mellékletet
elkészítette.
SEGÉDANYAG MŰHELYMUNKÁHOZ
3
Bevezető
A műhelymunkák egyik részét képezheti a saját kutatásokon alapuló statisztikai vizsgálatok leírása.
Ezen leírás tartalmazhat következtetéseket, eredményeket bemutató ábrákat táblázatos vagy színes
ábrák formájában. A következtetéseket hipotéziseken keresztül tudjuk a statisztika eszköztárával
vizsgálni, melyeknél elengedhetetlen, hogy a szakmai (nem statisztikai) hipotéziseket olyan formában
tudjuk megfogalmazni, hogy az utána statisztikai eszköztárral vizsgálható legyen, illetve a vizsgálati
eredményeinket is releváns módon tudjuk bemutatni.
A hipotéziseken túlmenően természetesen a mintát magát, illetve a mérőeszközt is fontos
bemutatnunk – ezen részekhez azonban nem rendelünk hipotéziseket, itt „csak” leírjuk a minta
jellemzőit (arányok, középértékek, szóródási mutatók).
Jelen leírás célja, hogy egy vagy két, mindenki által megszerezhető adatfájlon (CPI, Szondi – a ROPstat
beépített adatai) végigvegyük egy átlagos műhelymunka során fellépő statisztikai eljárásokat. A
hipotéziseket mind a műhelymunkák, mind pedig a statisztika nyelvezetével megfogalmazzuk,
továbbá a lehetséges vizsgálati eszközöket is sorra vesszük. Továbbá megfogalmazzuk a lehetséges
következtetéseket is – a statisztikai hivatkozásokkal, szükséges mutatókkal egyetemben.
A leírás során két rendező elvet veszünk figyelembe: a műhelymunkák során használt sorrendet
(minta bemutatása, statisztikai vizsgálatok, következtetések), illetve a statisztikai rendező elvet – mit
vizsgálunk.
A vizsgálatok lépéseit minden esetben a programokból vett képernyő-képekkel fogom bemutatni,
aránylag kevés megjegyzéssel a lépéseknél – de magyarázattal az outputok elemeihez. Továbbá
kiemeljük az összetettebb outputok esetén, hogy mely részek közlése fontos egy műhelymunkában,
illetve mely részek kellenek a döntéshozatalnál.
A műhelymunka során nem feltétlenül kell ragaszkodni 1-1 program használatához – alapvetően azt
kell alkalmazni, melynek outputja a leginkább megfelel, legkönnyebben interpretálható és
értelmezhető a számunkra – illetve amelyikben a legkényelmesebb módon tudunk dolgozni és
eredményei általánosan elfogadottnak minősülnek.
E leírás során alapvetőnek tekintjük, hogy a két, elemzésre használt program (ROPstat és SPSS)
ismert, a változók struktúrája, leírása nem jelent gondot – címkézés, hosszú és rövid nevek,
kódutasítások. Az elemzési részekre koncentrálunk, az adatrögzítési feladatot megoldottnak
tekintjük.
SEGÉDANYAG MŰHELYMUNKÁHOZ
4
A minta bemutatása
A minta bemutatása során általában kétfajta döntési helyzetünk adódik: a változó, melyet be kell
mutatnunk, diszkrét vagy folytonos (illetve kvalitatív vagy kvantitatív) – ennek megfelelően kell
statisztikai mutatókat választanunk. Vannak természetesen olyan változók is, ahol mindkét eszköz
bevethető, ilyenkor választási szempontként azt tartsuk be, hogy a későbbiekben az adott változóra
vonatkozó hipotéziseket milyen eszközzel fogjuk vizsgálni.
PÉLDA
A CPI adatfájllal dolgozunk. Ebben az adatfájlban több, a minta leírásához fontos változó is szerepel.
Ezek közül a NEM-változó egyértelműen diszkrét, így ennek bemutatására gyakorisági táblázat vagy
diagram (esetleg mindkettő) bevethető.
A KOR-változó egy alapvetően folytonos változó, így ebben az esetben átlagot, szórást és egyéb
mutatókat lehet a minta ismertetéseként felhozni (ferdeség és csúcsosság, minimum és maximum,
illetve standardizált minimum és maximum értéket stb.)
Azon változókra, ahol mindkét eljárás bevethető, jó példa az iskolai érdemjegyek bemutatása: van
értelme annak, hogy leírjuk, hogy egy dolgozatnál hány darab jeles, jó stb. érdemjegy született.
Azonban az osztályátlagnak szintén van jelentése, a szóródási mutatók segíthetnek feltárni a diákok
közötti különbségeket – vagy épp annak ellenkezőjét, alacsony szórás esetén. Így pl. osztályzatoknál
nem feltétlenül a változó alapján döntünk.
Általánosságban – és e harmadik esetben mindenképpen – az lehet a legjobb irányelv, ha a később
alkalmazandó hipotézisvizsgálati eljárásokat vesszük figyelembe:
1) Ha egy osztály átlagát szeretnénk vizsgálni, összehasonlítani egy várt eredménnyel vagy
egy másik osztály eredményével, akkor a minta – a változó – bemutatásánál erre
koncentráljunk, és számítsuk ki a szükséges paramétereket.
2) Amennyiben a változó eloszlását szeretnénk tesztelni (egyenletes-e a jegyek eloszlása),
vagy kíváncsiak vagyunk, hogy több-e az elégtelen és elégséges osztályzatok száma, mint a
jó és jeles osztályzatoké, akkor a gyakoriságokat érdemes bemutatni.
3) Harmadik lehetőség, hogy ha nem tudjuk egyértelműen eldönteni (előfordulhat), vagy
mindkét elemzés előjön a dolgozatban, akkor érdemes mindkét leíró statisztikai módszert
előszednünk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
5
DISZKRÉT VÁLTOZÓK ESETE – Gyakorisági elemzés a NEM-változóra
Vegyük tehát az első esetet, illetve a harmadik esetnek azt a részét, amikor a változónknak a
gyakorisági eloszlását szeretnénk bemutatni, pl. arra vonatkozó hipotéziseink miatt.
A vizsgálat lépései – ROPstat-ban
A ROPstat programcsomagban minden leíró statisztikát az Alapok (egymintás elemzések)
menüpontban találhatunk meg.
Az első két menüpont a kvantitatív változók esetén alkalmazandó, míg a gyakoriság, hisztogram
menüpont alkalmazható mind kvantitatív, mind kvalitatív változókra (de kvalitatív változókra csak ez).
SEGÉDANYAG MŰHELYMUNKÁHOZ
6
Ha minden beállításunk megfelelő volt, akkor az alábbi output az eredmény:
|| A ROPstat olyan statisztikai programcsomag, amely a standard egyváltozós módszerek teljes repertoárja || mellett gazdag választékát nyújtja a robusztus technikáknak és az ordinális skálájú változókkal végezhető || elemzéseknek. A ROPstat megkülönböztetett figyelmet szentel a mintázatfeltáró eljárásoknak is. || A ROPstat szerzői: || - Prof. Dr. Vargha András, Károli Gáspár Református Egyetem Pszichológiai Intézete, Budapest || - Bánsági Péter matematikus mérnök, Budajenő || Konzultáns: Prof. Dr. Lars R. Bergman, Stockholm University, Department of Psychology Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Gyakoriság, hisztogram A beolvasott összes eset száma: 94 VÁLTOZÓ: Gender (Gender of subjects) Érték Gyak % Kum% 1 16 17,0 17,0 |======== 2 78 83,0 100,0 |============================================ Össz.: 94
Értelmezésre ebben az esetben nem sok szükség van. A továbbiakban az output elején található,
programot bemutató sávot nem fogom másolni. Az outputok elején látható mindig az input fájl neve
(ezt is szisztematikusan ki fogom hagyni).
A következő sor mindig az alkalmazott eljárás, majd esetszám. Végül a számunkra most érdekes
eredmények: a NEM-változónak két kódja van (1: férfi, 2: nő), gyakoriságok (16 férfi és 78 nő van a
mintában), mely százalékos megoszlásban 17-83%. A kumulált százalékok a folytonos változók esetén
játszanak inkább szerepet, hiszen ennek jelentése, hogy hányan tartózkodnak az adott értéknél nem
nagyobb sávban (pl. hány legfeljebb 35 éves van a mintában.
A vizsgálat lépései – SPSS-ben
Miután a ROPstat és az SPSS outputja érdemben nem különbözhetnek egymástól, ezért csak az
elemzés lépéseit mutatom be, illetve az output különböző részeit magyarázom el – a műhelymunka-
megfogalmazás nem fog változni.
Az SPSS-ben minden elemzés az Analyze menüpontban található. A leíró statisztikákat
értelemszerűen a leíró statisztikák (Descriptive Statistics) kell keresni, azon belül a diszkrét változókra
vonatkozó gyakorisági elemzés a Frequencies… almenüben kapott helyet.
SEGÉDANYAG MŰHELYMUNKÁHOZ
7
A gyakoriságokon túl az alábbi lehetőségeink vannak – tartva a fenti struktúrát a táblázatos leírásban
is.
Percentilisek. Alapvetően folytonos változóknál fontos mutatók, melyek jelentése: a populációban várhatóan mely érték alatt / felett helyezkedik el a populáció adott százaléka. A kvartilisek esetén 25%-ot keresünk, megadhatóak olyan kérések, hogy pl. 10 egyenlő részre hogyan vághatná el a populációt (dekádok), illetve a percentilisek esetén akármely érték megadható (például 20-30-50-80 beállítással). Műhelymunkában ritkán használt, leíró statisztikáknál sem túl gyakori.
Középértékek. Alapvető jelentőségű mutatók – mindenfajta változóra használhatjuk, azonban ha a fenti felsorolás harmadik esete áll fenn, azaz olyan változóval dolgozunk, mint pl. az osztályzatok, akkor itt spórolhatunk egy kis időt magunknak. Mert ezeket a statisztikákat egy másik menüpontban is elérhetjük, az output lényegében megegyezik – azonban akkor egy elemzési részt időben megtakaríthatunk. Kikérhető (sorrendben) az átlag, medián és módusz (az összeg lényegében nem használatos). Műhelymunkákban gyakori, lényegében mindenfajta változó bemutatásánál alkalmaznunk kell valamilyen középérték meghatározást.
Leíró statisztikai mutatók. Az első oszlopban a szóródási mutatók kaptak helyet, sorrendben: szórás, variancia (szórásnégyzet) és a terjedelem (maximum és minimum különbsége). A második oszlopban a minimum és a maximum, illetve az átlag standard hibája, míg az utolsó oszlopban az alaki mutatók találhatóak – sorrendben a ferdeség (skewness) és a csúcsosság (kurtosis). Műhelymunkában szintén gyakori az alkalmazásuk, de ez is folytonos változókra vonatkozik általában, így szintén nem e menüpontból érdemes elérni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
8
Az output itt kicsit másként néz ki, mint a ROPstat programcsomagban. Rögtön táblázatos formában
kapunk mindent – mely szerencsés, ha nem kerül megszerkesztésre. Ezért is élek majd a fejezet
végén egy általános javaslattal az outputokat illetően.
Tartalmát tekintve egyetlen többlet található. A valid százalékok jelentéséhez tudnunk kell, hogy
vannak olyan helyzetek, amikor bizonyos kérdésekre a megkérdezettek nem tudnak vagy nem
akarnak válaszolni. A valid százalék azt mutatja meg, hogy a válaszadók között milyen a százalékos
megoszlása a különböző kategóriáknak – míg a százalék a teljes mintát figyelembe veszi.
Minden egyéb megegyezik a ROPstat adataival. Az első táblázatban láthatjuk, hogy hány fős a minta,
illetve a Missing értékeknél látnánk, ha valaki nem válaszolt volna a fenti kérdésre.
A második táblázatban először a címkék (férfi-nő), majd sorban a gyakoriság, százalék, valid százalék
és kumulatív százalék értékek szerepelnek.
Statistics
Gender of subjects94
0
Valid
Missing
N
Gender of subjects
16 17,0 17,0 17,0
78 83,0 83,0 100,0
94 100,0 100,0
Male
Female
Total
ValidFrequency Percent Valid Percent
CumulativePercent
SEGÉDANYAG MŰHELYMUNKÁHOZ
9
Műhelymunkabeli megfogalmazás
A műhelymunkákban tehát a diszkrét változók elemzésére alapvetően a gyakorisági elemzéseket
használhatjuk – azonban nem mindegy, hogy ezeket hogyan fogalmazzuk meg. Ábraszerkesztést
szándékosan nem mutatok be, hiszen erre vonatkozóan sok lehetőségünk van – érdemes lehet
kísérletezni. Általánosan az oszlop- vagy sávdiagram típus kereshető, vagy a kördiagramok. Az SPSS
grafikai lehetőségei mellett az EXCEL is bevethető, illetve bármely más program, amiben
kényelmesen tudunk ábrákat szerkeszteni.
Megfogalmazás
A felmérés során 94 válaszoló adatait sikerült megszerezni. A mintában 16 férfi és 78 nő volt. Az
adatokat táblázatos formában is összefoglalom:
NEM Gyakoriság Százalékos megoszlás
Férfi 16 17% Nő 78 83% ÖSSZESEN 94 100%
Egy műhelymunkában tehát nem kell túlmisztifikálni a minta bemutatását, hiszen a lényegi részek
majd a hipotéziseink lesznek – így az egyszerű, átlátható megfogalmazásokra kell törekedni. Röviden,
pontosan definiáljunk mindent – mutassuk be a mintánkat, de ne ez legyen a fő statisztikai
mozgatórugója a dolgozatunknak.
JAVASLAT
Bátran használjunk saját formátumot, nyugodtan szerkesszük át az a programok által adott
outputokat saját magunk számára könnyen értelmezhető, átlátható formába. AZ EREDETI
OUTPUTOKAT MINDIG ŐRIZZÜK MEG, akár csatolmányként, mellékletként a dolgozathoz is lehet
fűzni – ez mindig a helyzettől függ, hogy milyen formában kell ezeket tárolni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
10
FOLYTONOS VÁLTOZÓK ESETE – a KOR-változó bemutatása
Folytonos változó lehet pl. a kor, testmagasság, testsúly – ezek bemutatására általában a leíró
statisztikák közül a változó paramétereinek értékeit alkalmazzuk. Ilyenek az átlag, medián, szórás,
variancia, ferdeség – és itt alkalmazhatunk gyakorisági diagramot vagy hisztogramot, melyről például
előzetes képet kaphatunk a változónk normalitását illetően.
Folytonos változók esetén itt szokás megtenni az első hipotéziseket is, nevezetesen: azokat a
hipotéziseket, melyek a vizsgált változó normalitását hivatottak eldönteni. Erre vonatkozóan mind az
SPSS-ben, mind a ROPstat-ban több teszt is van – ezt egy külön fejezetben fogjuk tárgyalni.
A vizsgálat lépései – ROPstat-ban
Két lépésben fogjuk végrehajtani az elemzést, ugyanis mind az alap, mind a részletes
mintastatisztikákra szükségünk lehet egy műhelymunka során – és mindkettő leíró statisztikának
minősül. Ráadásul a részletes mintastatisztikák automatikusan tartalmaznak egy normalitás-vizsgálati
eljárást is, így megint csak időt takarítunk meg magunknak, ha azt használjuk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
11
Amennyiben mindkét elemzést lefuttatjuk, ezt a két outputot nyerjük:
Alapstatisztikák Jelölés: - Var. eh. = Variációs együttható = Relatív szórás = szórás/átlag - X_min = Talált legkisebb érték - X_max = Talált legnagyobb érték - z_min = Standardizált legkisebb érték = (X_min - átlag)/szórás - z_max = Standardizált legnagyobb érték = (X_max - átlag)/szórás A beolvasott összes eset száma: 94 Index Változó Esetek Átlag Szórás Var. eh. X_min X_max z_min z_max 3. Age 94 22,59 5,808 0,257 18 41 -0,79 3,17 ________________________________________________________ Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Részletes leíró statisztikák A beolvasott összes eset száma: 94 Index Változó Esetek Medián Átlag St.hiba 95%-os konf.int. Ferdeség Csúcsosság 3. Age 94 20 22,59 0,599 21,39 23,78 1,316*** 0,708 Jelölés a normalitás tesztelésénél a Ferdeség és a Csúcsosság segítségével: *: p < 0,05 **: p < 0,01 ***: p < 0,001
Az alapstatisztikák esetén tehát átlagot, szórást, variációs együtthatót (szórás / átlag, azaz mekkora a
szórás az átlaghoz képest), a változó minimális és maximális értékét, illetve a minimum és a
maximum standardizált értékét nyerjük (ez utóbbi kettő azt mutatja meg, hogy a legnagyobb és
legkisebb érték hány szórásnyira helyezkedik el az átlagtól). Esetünkben jól látható, hogy míg a
minimum még 1 szórásnyira sincsen, addig a maximum több mint 3 szórásnyira van. Tehát az
SEGÉDANYAG MŰHELYMUNKÁHOZ
12
eloszlásunk közel sem tűnik szimmetrikusnak – az előző gyakorisági elemzéssel kérhetünk
hisztogramot is – a következőkben ennek módját ismertetem.
A részletes leíró statisztikákban az átlag mellett a medián is megjelenik, illetve az átlag standard
hibája és a segítségével számított, átlaghoz tartozó 95%-os konfidencia-intervallum (ebben az
intervallumban található a populációbeli átlag 95%-os valószínűséggel). A ferdeség és a csúcsosság
melletti ***-ok jelzik, ha a változó szignifikánsan eltér a normálistól. Esetünkben is leolvasható a
ferdeség melletti ***-ból, hogy az eloszlás lényegesen ferdébb annál, mint amit egy normális
eloszlásnál még tolerálni tudunk, tehát a Kor-változó ebben a mintában nagy valószínűséggel nem
normális eloszlású.
Gyakoriság, hisztogram A beolvasott összes eset száma: 94 VÁLTOZÓ: Age (Age of subjects in years) Oszt.köz. Gyak % Kum% 19,15 57 60,6 60,6 |============================================ 21,45 6 6,4 67,0 |==== 23,75 2 2,1 69,1 |= 26,05 8 8,5 77,7 |===== 28,35 6 6,4 84,0 |==== 30,65 5 5,3 89,4 |=== 32,95 3 3,2 92,6 |= 35,25 4 4,3 96,8 |== 37,55 2 2,1 98,9 |= 39,85 1 1,1 100,0 | Össz.: 94
Jól látható, hogy az eloszlásunk valóban igen ferde a normális eloszlás görbéjéhez képest – az alsó
régiók igen-igen túlreprezentáltak a felsőbb korkategóriák rovására. A program saját maga készít
kategóriákat, melyekbe a kor alapján elhelyezi a vizsgálati alanyokat.
SEGÉDANYAG MŰHELYMUNKÁHOZ
13
A vizsgálat lépései – SPSS-ben
Az SPSS-ben a fenti adatok közül néhányat nem fogunk tudni megjeleníteni, illetve néhány számítás
kell hozzá, hogy a ROPstat-tal azonos információkat kiolvashassuk ebből a programból is.
Az SPSS-ben csak egy menüpontot használunk, azon belül tudunk elérni minden lehetséges értéket –
azonban figyeljünk oda, hogy itt az adattartalom el fog térni a ROPstat adattartalmához képest!
SEGÉDANYAG MŰHELYMUNKÁHOZ
14
A megfelelő beállítások alkalmazása után az alábbi outputot kapjuk:
Általános eljárásként elmondható, hogy egy paraméter 95%-os konfidencia-intervallumát az alábbi
eljárással kaphatjuk meg:
Az intervallum alsó határa: paraméter – 2x(standard hiba)
Az intervallum felső határa: paraméter + 2x(standard hiba)
PÉLDA:
A ferdeség és csúcsosság esetén:
A ferdeség 95%-os konfidencia-intervallumának alsó határa: 1,3 – 2 x 0,25 = 0,8
A ferdeség 95%-os konfidencia-intervallumának felső határa: 1,3 + 2 x 0,25 = 1,8
A csúcsosság 95%-os konfidencia-intervallumának alsó határa: 0,7 – 2 x 0,5 = -0,3
A csúcsosság 95%-os konfidencia-intervallumának felső határa: 0,7 + 2 x 0,5 = 1,7
Így megállapíthatjuk, hogy a ferdeség esetén a 0 nincsen benne a 95%-os konfidencia-
intervallumban, míg a csúcsosság esetén igen – tehát az eloszlás szignifikánsan ferdébb, mint a
normális eloszlás, azonban a csúcsossága nem különbözik tőle szignifikánsan. Ezzel együtt azonban
megállapítható, hogy a KOR-változó eloszlása szignifikánsan nem normális.
A többi paraméter már kiolvasható a táblázatból.
Fontos azonban észrevenni, hogy a Variance (variancia, szórásnégyzet) oszlopot megelőző paraméter
kiírása nem történt meg. Az Std. felirat az Std. deviation (szórás) paramétert takarja.
Descriptive Statistics
94 18 41 22,59 ,599 5,808 33,729 1,316 ,249 ,708 ,493
94
Age of subjects in years
Valid N (listwise)
Statistic Statistic Statistic Statistic Std. Error Statistic Statistic Statistic Std. Error Statistic Std. Error
N Minimum Maximum Mean Std.Deviation
Variance Skewness Kurtosis
SEGÉDANYAG MŰHELYMUNKÁHOZ
15
Normalitás-vizsgálat – mindkét programban
A normalitásra tehát már megfogalmazhattunk egy megállapítást a ferdeség alapján, hiszen a
programok azt mutatták, hogy a KOR-változó eloszlása szignifikánsan különbözik a normális
eloszlástól.
A két programban azonban van lehetőségünk arra, hogy külön, bármely változóra normalitás-
vizsgálatot kérjünk. Erre vonatkozóan 3 módszerünk lesz:
1) A ferdeség és csúcsosság alapján egy paraméteres teszt, mely esetén azt teszteljük, hogy a
vizsgált változónk említett két paramétere szignifikánsan különbözik-e a normális eloszlás 0-0
ferdeség-csúcsosság értékétől. Ezt úgy tesszük meg, hogy:
a. A ROPstat program automatikusan kiszámítja helyettünk a konfidencia-intervallumot
és megjelöli számunkra, ha valamely érték szignifikáns eltérést mutat a hipotetikus 0
értéktől.
b. Az SPSS-ben a ferdeség és csúcsosság mellé egy-egy standard hibát számít a
program, melyek nagyjából 2-szeresét hozzáadva és kivonva a számított
paraméterből meghatározhatjuk a ferdeség és csúcsosság konfidencia-intervallumait.
Ezek után, ha ezek az intervallumok tartalmazzák a 0-t, akkor nincsen szignifikáns
eltérés – ha nem tartalmazzák, akkor a változó eloszlása szignifikánsan eltér a
normális eloszlástól.
2) A folytonos változók illeszkedés-vizsgálatának egyik legrégibb, általános módszere a
Kolmogorov, vagy Kolmogorov–Szmirnov-eljárás. Az SPSS-ben ezt az eljárást használjuk
általában normalitás tesztelésére. A ROPstat bizonyos esetszám alatt ezt, bizonyos esetszám
felett a 3. pontban ismertetett eljárást választja.
3) A harmadik lehetőség a diszkrét változókra használható khi-négyzet statisztika, mely azonban
használható folytonos eloszlások esetén is – ilyen helyzetben diszkretizálunk, csoportokat
hozunk létre. Ezt a ROPstat megteszi helyettünk (az SPSS nem, így ezt nem is használjuk),
tehát itt is csak az eredményt kell értelmeznünk. Fontos megjegyezni, hogy ehhez a
statisztikához (is) nagyobb elemszám szükséges, tehát kisebb mintánál nem ezt fogjuk találni
a ROPstat esetén sem.
A ferdeség és csúcsosság segítségével végzett elemzést már megnéztük. A khi-négyzet statisztikát
csak a ROPstat programban fogjuk elérni (az SPSS-ben ennek alkalmazása egyéb technikákat is
igényel).
Normalitás-vizsgálat ROPstat-ban
SEGÉDANYAG MŰHELYMUNKÁHOZ
16
E fenti beállításokkal az alábbi output születik:
Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Normalitásvizsgálat (a normális eloszlás nullhipotézisének tesztelése) A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 VÁLTOZÓ: Domin (Dominance) Érvényes értékek száma: 82 Kolmogorov-féle normalitásvizsgálat: Dmax = 0,089, D* = 0,808 (p = 0,5318)
Látható, hogy a Kolmogorov-féle vizsgálatot hajtotta végre a program (a HELP-ben ezt meg is
nézhetjük, hogy a khi-négyzet statisztikához legalább 100 fős mintára van szükség).
A dominancia-változó ezek alapján, p = 0,5318-as érték mellett, nem különbözik szignifikánsan a
normálistól.
SEGÉDANYAG MŰHELYMUNKÁHOZ
17
Normalitás-vizsgálat SPSS-ben
Az SPSS-ben tehát csak Kolmogorov-féle megoldást fogunk választani, mely az alábbi menüpontban
található:
Amennyiben jól helyeztünk el mindent, úgy az alábbi outputot kapjuk:
SEGÉDANYAG MŰHELYMUNKÁHOZ
18
Megfigyelhető, hogy a paraméterek ugyanazok: a Z-statisztika értéke (mely a ROPstatban D*-ként
szerepelt) 0,808, a hozzá tartozó Asymp. Sig (mely a ROPstatban „p”) 0,532.
Így megállapítható, hogy a ROPstattal azonos eredmény született, a dominancia-változó az SPSS
számításai alapján sem különbözik szignifikáns módon a normálistól.
Fontos kiemelni, hogy szándékosan nem a KOR-változóval végeztem el ezt a vizsgálatot, mert onnan
már a részletes statisztikáknál kaptunk információt. Ez a vizsgálat általában azoknál a változóknál
érdekes, melyekre később hipotéziseket készülünk építeni (a KOR-változó nem feltétlenül ilyen). A
felvett kérdőívek skálái, összesített eredményei szoktak olyan szerepet betölteni, hogy esetükben
fontos lehet a normalitás ellenőrzése.
One-Sample Kolmogorov-Smirnov Test
82
11,84
3,779
,089
,089
-,060
,808
,532
N
Mean
Std. Deviation
Normal Parameters a,b
Absolute
Positive
Negative
Most ExtremeDifferences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
Dominance
Test distribution is Normal.a.
Calculated from data.b.
SEGÉDANYAG MŰHELYMUNKÁHOZ
19
Műhelymunkabeli megfogalmazás
Ebben az esetben több mindent kell összefoglalnunk néhány mondatban, több eredményünket kell
tömör formában ismertetnünk. Ismertetnünk kell ugyanis a számunkra fontos paramétereket, illetve
a normalitásról is ejthetünk itt pár szót.
A KOR-változó ismertetése
A mintába kerültek átlagéletkora 22,6 év volt, szórása 5,8 év. A minta eloszlása ferde: a fiatalabbak
lényegesen nagyobb arányban reprezentáltak, mint a fiatalok, ezt támasztja alá a standardizált
minimum és maximum érték (-0,79 és 3,17), továbbá az eloszlás ferdesége is (1,316) – azaz a
maximális érték lényegesen távolabb van az átlagtól, mint a minimális érték.
A normalitás kérdése:
A DOMINANCIA-változó normalitására vonatkozó megfogalmazás – ROPstat használata esetén
A dominancia-változó normalitását Kolmogorov-teszttel ellenőriztük (D* = 0,808, p = 0,5318), és azt
mondhatjuk, hogy a dominancia-változó eloszlása nem különbözik szignifikánsan a normálistól.
A DOMINANCIA-változó normalitására vonatkozó megfogalmazás – SPSS használata esetén
A dominancia-változó normalitását Kolmogorov-teszttel ellenőriztük (z = 0,808, Asymp. Sig = 0,532),
és azt mondhatjuk, hogy a dominancia-változó eloszlása nem különbözik szignifikánsan a normálistól.
Amennyiben SPSS programot használunk, úgy a folytonos változók előzetes bemutatására a
Kolmogorov-teszttel időt takaríthatunk meg, hiszen az általánosan használt paraméterek szerepelnek
a statisztika outputján. Így az SPSS használata esetén a dominancia-változó bemutatása a következő
megfogalmazásban is történhet:
A dominancia-változót 82 vizsgálati személy esetén tudtuk meghatározni: a minta átlaga 11,84 lett,
szórása 3,78. A változó normalitását Kolmogorov-teszttel ellenőriztük (z = 0,808, Asymp. Sig = 0,532),
és azt mondhatjuk, hogy az eloszlása 95%-os szinten normálisnak tekinthető.
Megjegyzések
E fenti adatokat is össze lehet foglalni (amennyiben több változó is vizsgálatra kerül) táblázatos
formában, nem kell mindegyik változóra e fenti, szöveges megfogalmazást alkalmazni. A lényeg, hogy
a megfelelő hivatkozási értékek (statisztikai érték, szignifikancia) feltüntetésre kerüljenek.
Fontos tehát kiemelni: MINDEN OLYAN ESETBEN, ahol STATISZTIKAI ÁLLÍTÁS történik, az alkalmazott
statisztikai eljárásban számított STATISZTIKAI ÉRTÉK, ha van SZABADSÁGI FOKA és SZIGNIFIKANCIA
SZINTJE, KÖTELEZŐEN FELTÜNTETENDŐ ÉRTÉK!
SEGÉDANYAG MŰHELYMUNKÁHOZ
20
KÖZÉPÉRTÉKEK VIZSGÁLATÁRA VONATKOZÓ HIPOTÉZISEK
A középértékeket több módon is vizsgálhatjuk, illetve több felvetésünk, elgondolásunk vezethet
olyan statisztikai vizsgálathoz, melyek megoldásához egyes változók középértékeit kell vagy
önmagukban vizsgálni, vagy egymással összehasonlítani (akár csoportokat, akár ugyanazon változót
különböző mérési időpontokban).
Fontos kiemelni, hogy ebbe a sorba fognak tartozni azon esetek is, amikor hangulatában a
középértékek vizsgálatára hasonlít az eljárás, azonban „nagyságszinteket” hasonlítunk majd össze.
A vizsgálati helyzetekre néhány példát tekintünk át annak érdekében, hogy megkönnyítsük a saját
munkánkban található hipotézis elhelyezését. Ezeken a példákon keresztül fogjuk bemutatni a
felhasználható módszereket.
1) Egy változó elméleti középértékét szeretnénk tesztelni: igaz-e, hogy a vizsgált populációban
az IQ-változó átlaga 100?
2) Két független mintát szeretnénk összehasonlítani: igaz-e, hogy a férfiak feminitás-értéke
alacsonyabb, mint a nőké?
3) Kettőnél több független mintát szeretnénk összehasonlítani: igaz-e, hogy ha az IQ-változó
alapján 3 kategóriát hozunk létre, akkor az IQ emelkedésével nem jár együtt a feminitás-
érték növekedése?
4) Két, azonos skálán mért változó összehasonlítása: igaz-e, hogy a Szondi-tesztben a homo1 és
homo2 kép kedveltsége azonos?
→ A könnyebb alkalmazás okán ezt az elemzést kizárólag ROPstatban fogjuk majd
bemutatni – általánosságban, ezt elég egyszerű SPSS-ben is végrehajtani, viszont a
következő pont miatt hagyatkozunk inkább a ROPstatra.
5) Legalább 3 azonos skálán mért változó összehasonlítása: egy adott változót vizsgálunk
legalább 3 különböző időpontban, vagy legalább 3, azonos helyzetet, tulajdonságot mérő (és
így összefüggő) változót szeretnénk összehasonlítani: igaz-e, hogy a Szondi-tesztben a több
szadista kép megítélése azonos?
→ Ennél az alkalmazásnál egyértelműen kényelmesebb a ROPstat használata, mint az
SPSS-é, így az összefüggő mintás elemzéseknél e programot javasoljuk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
21
6) Két csoportosító változó egyidejű hatásának vizsgálata: igaz-e, hogy a dominancia értéke
másként viselkedik a férfiak és a nők között, amennyiben az IQ nagyságszintjét is figyelembe
vesszük?
7) Csoportok és változók egyidejű összehasonlítása: igaz-e, hogy a Szondi-teszt szadist 1-2-3-4-
5-6 képeinek kedveltsége más férfiak és nők között?
Ezt a 7 kérdést fogjuk most mind SPSS-ben, mint ROPstatban megvizsgálni. Lesznek olyan helyzetek,
ahol CSAK az egyik programmal fogunk dolgozni.
Már most jegyezzük meg, hogy statisztikai hipotézisként minden esetben egyenlőséget, illetve
függetlenséget tudunk csak tesztelni, tehát a statisztikai programok ilyen jellegű kérdések
megfogalmazását tudják könnyebben eldönthetővé tenni számunkra.
Továbbá az utolsó esetben ez a hatás ÖSSZETETT, tehát egyszerre, egy időben több hipotézist is
vizsgálnunk kell!
SEGÉDANYAG MŰHELYMUNKÁHOZ
22
Egy változó nagyságszintjének tesztelése
Mostantól minden esetben megfogalmazzuk – a példáknál is látott – szakmai jellegű hipotéziseket,
illetve felírjuk azt is, hogy mindez a statisztikai megfogalmazásban hogyan fest. Így könnyű ugyanis
lefordítani a magunk számára a programok outputját, továbbá megkönnyítjük magunk számára a
statisztikai eredmények szakmai nyelvre történő lefordítását.
• Igaz-e, hogy a vizsgált populációban az IQ-változó átlaga 100?
A fenti megfogalmazás szakmai hipotézisként is felfogható – bár szakmai hipotézisnek megfelelne pl.
az is, hogy „Igaz-e, hogy a vizsgált populáció átlaga nagyobb / kisebb, mint 100?”.
A statisztikai hipotézis azonban – a korábbi megjegyzés miatt – mindenképpen ez lesz:
„Igaz-e, hogy a vizsgált populációban az IQ-változó átlaga 100?”, hiszen statisztikailag mindig
egyenlőséget tudunk tesztelni.
A fenti feladat esetén lép előtérbe az, hogy a vizsgált változónkra alkalmazható statisztikai módszerek
milyen feltételekkel alkalmazhatók. Tekintsük át a módszereket a feltételeikkel együtt – hogy
megfelelő módszert tudjunk választani e kérdés eldöntésére:
Hagyományos esetben a fenti kérdés eldöntésére t-próbát alkalmazunk, melynek használatához
szükséges a változó normalitása (nagy minták esetén ettől eltekinthetünk).
Amennyiben a normalitás sérül, úgy két lehetőségünk van:
a) Robusztus t-próbát használunk (Johnson és Gayen), melyek a változó ferdeség és / vagy
csúcsosság paraméterével kontrollálják a t-próba statisztikáját, elérve így, hogy az átlagra
egy robusztus (adott szignifikancia-szintet tartó) eljárást nyerjünk.
b) Nem az átlagot teszteljük, hanem a mediánt. Ennek feltétele a változó szimmetrikussága
(tehát, ha a ferdeség szignifikánsan eltér 0-tól, akkor ez továbbra sem járható út), így
amikor ez sérül, az előjelpróba alkalmazható, melynek egyetlen feltétele a változó
ordinális skálázása (nyilván egy nominális változó esetén sok értelme nincsen
középértékét tesztelni).
Ezen próbák közül az SPSS alapvetően az első verzióra alkalmas (ez persze nyilván túlzás, de azt
fogjuk csak megnézni), míg a ROPstat egy menüpontban az összes verziót kiszámítja számunkra, így
ezen hipotézisek eldöntésére alapvetően a ROPstat programcsomagot javasoljuk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
23
Egy változó nagyságszintjének tesztelése – ROPstat programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
24
Amennyiben mindenben helyesen jártunk el, az alábbi outputot kapjuk:
A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 VÁLTOZÓ: IQ (IQ of subjects) Érvényes értékek száma: 94 Átlag: 133,70 Szórás: 13,85 Medián: 135 Minimum: 90 Maximum: 160 Hipotetikus érték: 100 A normalitás tesztelése a Ferdeség és a Csúcsosság segítségével: Ferdeség: -0,572 (p = 0,024)* Csúcsosság (g4 = a4 - 3): 0,421 (p = 0,405) A H0: Az elméleti átlag = 100 nullhipotézis vizsgálata: - Egymintás t-próba: t(93) = 23,588 (p = 0,0000)*** A H0: Az elméleti medián = 100 nullhipotézis vizsgálata: - Wilcoxon-próba: R- = 5,5, R+ = 4459,5, z = 8,403 (p = 0,0000)*** A H0: P(X < 100) = P(X > 100) nullhipotézis vizsgálata: - Előjelpróba: #(X < 100) = 2 (2,1%), #(X > 100) = 92 (97,9%), z = 9,180 (p = 0,0000)***
Az output struktúrája: először az eljárást olvashatjuk le, majd a teljes esetszámot. Utána egy
jelölésrendszer következik, hogy a különböző statisztikák melletti * vagy + jel milyen szignifikancia-
szintet jelöl (mekkora az elkövethető elsőfajú statisztikai hiba valószínűsége).
A jelölések után a változó leíró statisztikai jellemzői következnek táblázatos formában, illetve annak
alján a tesztelendő hipotetikus értéket is kiírja a program, hiszen elviekben egyszerre több változót is
vizsgálhatnánk, más és más hipotetikus értékekkel.
A leíró statisztikák után a normalitás tesztelése következik, ahol jól láthatóan a ferdeség sérülése
némi bizonytalanságot okozhat, hogy a t-próba alkalmazása megfelelő-e a 100-as átlag tesztelésére
(ezt majd feloldjuk).
Ezek után 3 tesztelés következik: az első a hagyományos, egymintás t-próba, ahol a t(93) = 23,588 (p
= 0,0000)*** jelenti azt, hogy a t-statisztika 93-as szabadsági fokon számított értéke 23,588, melyhez
tartozó elsőfajú hiba valószínűsége igen csekély (0,0000), az átlag egyébként 133,7.
SEGÉDANYAG MŰHELYMUNKÁHOZ
25
A másik teszt a Wilcoxon-statisztika, melyben a mediánt teszteljük, illetve azt, hogy a változó
mediánja lehet-e 100 – itt a z = 8,403, illetve p = 0,0000 mutatja azt, hogy a medián is igen távol van
hipotetikus 100-as értéktől (medián = 135).
Az utolsó próba az előjelpróba, melynek során azt vizsgáljuk, hogy 100-as érték alatt, illetve 100-as
érték felett azonos valószínűséggel kapunk-e értéket? Az ehhez tartozó z-érték 9,18, p-érték pedig
0,0000, azaz itt is világos, hogy 100 alatt és felett nem ugyanolyan valószínűséggel tartózkodunk, sőt.
Azt is leolvashatjuk, hogy 100 alatt kisebb valószínűséggel (2,1%) vagyunk, mint felette (97,9%).
Az átlag tesztelésekor akkor lett volna indokolt a robusztus, átlagtesztelő eljárások bevetése, ha az
elemszám 500 alatti (ez most teljesül, hiszen 94 fős a minta), és a t-érték nem túl nagy (abszolút
értéke nem haladja meg a 10-et). Azonban most olyan nagy volt a t-érték, hogy a két robusztus teszt
sem hozott volna érdemileg több információt számunkra, mint a t-próba (olyan nagy a különbség a
hipotetikus és a számított érték között, hogy a tévedés valószínűsége elenyészően kicsi).
SEGÉDANYAG MŰHELYMUNKÁHOZ
26
Egy változó nagyságszintjének tesztelése – SPSS programcsomagban
Az SPSS-ben tehát hagyományos egymintás t-próbát használhatunk, ahol nem lesz beépített
normalitás-tesztelés, tehát itt mindenképpen meg kell előznie az előző fejezet végén használt
normalitás-vizsgálatnak egy ilyen típusú elemzést!
Amennyiben megfelelően jártunk el, az alábbi outputot nyerjük:
Az első táblázatban itt is a leíró statisztikákat láthatjuk, míg utána magát a t-próbát. A táblázat
oszlopai sorrendben tartalmazzák a ROPstattal megegyező információtartalmú adatokat. Először a
One-Sample Statistics
94 133,70 13,852 1,429IQ of subjectsN Mean Std. Deviation
Std. ErrorMean
One-Sample Test
23,588 93 ,000 33,702 30,86 36,54IQ of subjectst df Sig. (2-tailed)
MeanDifference Lower Upper
95% ConfidenceInterval of the
Difference
Test Value = 100
SEGÉDANYAG MŰHELYMUNKÁHOZ
27
vizsgált változó nevét (felső sorban a tesztelendő értékkel), míg utána a t-értéket, szabadsági fokot
(df) és a szignifikancia-szintet. Ezen kívül az átlag különbségét, illetve az átlag 95%-os konfidencia-
intervallumát.
Megjegyezzük, hogy ebből az intervallumból származó értékek azok, melyektől nem különbözik
szignifikánsan a számított átlag, azaz: ha innen származna a hipotetikus érték, akkor nem
tapasztalnánk szignifikáns különbséget.
Műhelymunkabeli megfogalmazás
Az „IQ-változó átlaga = 100” hipotézis tesztelése
A mintába került 94 fő adatai alapján azt állíthatjuk, hogy a vizsgált populáció 133,7-es IQ-átlaga
szignifikánsan magasabb, mint 100 (t = 23,588, szabadsági fok = 93, p = 0,0000). Bár a változó
eloszlása ferde, az eltérés akkora, hogy nincsen szükség semmifajta robusztus tesztelésre.
Fontos megjegyezni, hogy ha kellenének a robusztus tesztek, akkor ott a fenti magyarázatban leírt
statisztikák kellenek a hivatkozásba, illetve a leírásba. Több változó esetén az eredményeket
összefoglaló táblázatban is be lehet mutatni, és a nyers szövegben már csak a különbségeket, illetve
egyezéseket szükséges kiemelni.
A dolgozatokban tehát a változó ELOSZLÁSA dönti el, hogy az egymintás tesztek közül melyiket
választjuk. A hivatkozásoknak minden esetben tartalmaznia kell a használt változó statisztikai
jellemzőit. Ezek:
1) T-próba, illetve annak robusztus változatai (Johnson és Gayen) esetén a t-érték, szabadsági
fok és a p-érték.
2) Wilcoxon-próba esetén mindenképpen szerepeljen, hogy ekkor már a mediánt teszteljük
(ferde eloszlásnál nem alkalmazható), hivatkozni a z- és a p-értékre kell.
3) Előjelpróba esetén (csak az ordinalitás kell hozzá, azaz ferde eloszlások esetén is használható)
szintén a z- és p-érték kell.
SEGÉDANYAG MŰHELYMUNKÁHOZ
28
Egy változó nagyságszintjének tesztelése 2 csoportban
Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor két csoport (akár kontroll- és vizsgálati
csoportok összehasonlítása, akár két független csoport, mint férfiak-nők) kerül összehasonlításra
valamely vizsgált változó mentén. A kérdésfelvetés szakmailag többek között az alábbi módon
fogalmazható meg:
• Igaz-e, hogy a férfiak feminitás-értéke alacsonyabb, mint a nőké?
Világos az előző fejezet alapján, hogy e fenti kérdés szakmai hipotézis – statisztikailag nem ezt fogjuk
vizsgálni, tesztelni, hanem:
• Igaz-e, hogy a férfiak és nők feminitás-értékének mértéke megegyezik?
Vegyük észre, hogy – az előző fejezetben már hangsúlyt kapott módon – itt e hipotézist már
szándékosan nem is az átlagon keresztül fogalmazzuk meg, bár megtehetnénk. A hagyományos
eljárás (kétmintás t-próba) alkalmazásához két feltételt kell teljesítenünk: a vizsgált változónknak
(jelen esetben a feminitásnak) normális eloszlásúnak kell lennie, továbbá a két csoportban e mért
változó szórása nem különbözhet egymástól.
A két feltétel közül a normalitás (ahogy már az egymintás esetben is) nagyobb minták esetén nem
számít szigorú feltételnek (nagyobb mintának mondjuk 100 főt vehetünk), azonban a szórások
egyezése (ez az úgynevezett szóráshomogenitás) igen fontos kitétele a hagyományos eljárás
alkalmazásának.
Amennyiben ez sérül, úgy robusztus alternatívát kell nézni az átlag tesztelésére (tehát ekkor a
normalitás még fennáll) – ez lesz a Welch-féle d-próba.
Amennyiben kisebb mintánk van, vagy úgy érezzük, hogy az átlag nem megfelelő mutató a
számunkra, mert pl. két ellentétesen ferde eloszlásról van szó, úgy az úgynevezett Mann–Whitney-
statisztikát, illetve egyéb, robusztus rangstatisztikai módszereket lehet bevetni – ám ekkor már
sztochasztikus egyenlőséget tesztelünk.
A ROPstatban ezeket a problémákat végigvesszük, az SPSS-ben a hagyományos kétmintás t-próbát, a
Welch-féle d-próbát és a Mann-Whitney-statisztikát fogjuk megnézni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
29
Egy változó nagyságszintjének tesztelése 2 csoportban – a ROPstat programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
30
Amennyiben ezt a beállítást használjuk, úgy az átlagokat teszteljük, és az alábbi outputot nyerjük:
A beolvasott összes eset száma: 94 Csoportosító változó: Gender (Gender of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Index Gender Esetek Átlag Szórás Min. Max. Ferdeség Csúcsosság 1 Male 12 12,08 2,678 8 16 0,268 -1,241 2 Female 70 14,00 1,963 10 18 0,154 -0,465 Ha a Ferdeség vagy a Csúcsosság szignifikáns, az a normalitás sérülését jelzi. Elméleti szórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(1,0; 12,9) = 2,604 (p = 0,1308) - Levene-próba (Welch-féle): F(1; 14,6) = 3,409 (p = 0,0852)+ Elméleti átlagok egyenlőségének tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Kétmintás t-próba: t(80) = -2,954 (p = 0,0041)** Hatásvariancia = 37,6321, Hibavariancia = 4,3115 Korrelációs hányados (nemlineáris korrelációs együttható): eta = 0,314 Megmagyarázott variancia-arány: eta-négyzet = 0,098 Cohen-féle delta hatásmérték: d = -0,923 Robusztus eljárás, amelynél nem szükséges a szóráshomogenitás: - Welch-féle d-próba: d(13,1) = -2,372 (p = 0,0337)* 95%-os konfidencia-intervallum a két elméleti átlag m1-m2 különbségére - a kétmintás t-próba alapján: C(0,95) = (-3,210, -0,623) - a Welch-féle d-próba alapján: C(0,95) = (0,028; 0,599)
Az output szerkezete a következő: először az esetszám és a csoportosító változó van feltüntetve,
majd a már megismert, szignifikanciákat jelölő * és + jelek.
Ezek után a vizsgálathoz szükséges alapstatisztikák következnek – az átlagokat teszteljük, a szórások
egyezése az egyik feltétel (ezért kellenek a szórások), illetve a normalitás a másik (ferdeség és
csúcsosság). Amennyiben a ferdeség és csúcsosság szignifikánsan eltér valamely csoportban a 0-tól,
úgy ott + vagy * jel lesz látható – most ezzel nincsen gondunk.
Az első teszt a szórások egyezésének tesztelése Levene- vagy O’Brien-próbával, melyek a
szóráshomogenitásnak robusztus tesztjei. Hivatkozni az F-értékekre, a zárójelekben lévő szabadsági
fokokra és a p értékekre kell – itt egyik esetben sem látunk *-ot, tehát nincsen szignifikáns különbég
a szórások között.
Így – miután mindkét feltétel teljesül – használhatjuk az első blokkban lévő hagyományos eljárást, a
kétmintás t-próba lesz számunkra az érdekes. Azt láthatjuk, hogy a t-érték megfelelően eltér 0-tól, a
p-érték alapján ez az eltérés szignifikáns, tehát a két átlag között szignifikáns különbség van. Jelen
esetben a hatásvariancia és egyéb paraméterek nem számítanak – a későbbiekben, a korrelációs
együtthatók vizsgálatakor erre ki fogunk térni.
Amennyiben a szóráshomogenitás tesztelésekor gond lenne, úgy a következő blokkot kéne nézni, a
Welch-féle d-próbát (hivatkozás: t-értékre, szabadsági fokra és p-értékre). Ez is azt mutatja, hogy
szignifikáns eltérés van a két átlag között.
A konfidencia-intervallum a különbségre nem fontos számunkra.
SEGÉDANYAG MŰHELYMUNKÁHOZ
31
Amennyiben a nagyságszinti viszonyok érdekelnek minket – tehát nem az átlagot szeretnénk
tesztelni, az alábbi módon járhatunk el:
Így az output nyilván megváltozik:
A beolvasott összes eset száma: 94 Csoportosító változó: Gender (Gender of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Rang- Rang- Index Gender Esetek átlag szórás Min. Max. 1 Male 12 26,79 26,98 8 16 2 Female 70 44,02 22,19 10 18 Elméleti rangszórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(1,0; 12,8) = 1,306 (p = 0,2741) - Levene-próba (Welch-féle): F(1; 15,1) = 1,588 (p = 0,2267) Sztochasztikus egyenlőség tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Mann-Whitney-próba (normális közelítés): Z = -2,339 (p = 0,019)* Szóráshomogenitást nem igénylő robusztus közelítő eljárások: - Fligner-Policello-próba Welch-féle szabadságfokkal: FPW(11,0) = -2,169 (p = 0,0528)+ - Brunner-Munzel-próba: BM(12,1) = -2,108 (p = 0,0566)+ Pont- és intervallumbecslés a valószínűségi fölény A mutatójára: A12 = 0,290 [ P(Csop1 > Csop2) = 0,243, P(Csop1 < Csop2) = 0,663 ] C(0,95) = (0,073; 0,507)
SEGÉDANYAG MŰHELYMUNKÁHOZ
32
Ebben az esetben úgy lehet a hipotézist felfogni, hogy ha találomra választanánk egy férfit és egy nőt,
akkor melyiknek lenne a feminitás-skálán mért értéke várhatóan a nagyobb. Ezt kívánjuk tesztelni.
Ehhez először ugyanúgy a létszámon és a csoportosító változón, majd a jelöléseken kell végigmenni.
Ezek után következnek a leíró statisztikák. Azonban, miután itt sztochasztikus egyenlőséget
tesztelünk, ezért ezek rangsorolásos eljárások, ahol a rangszámok átlagai és szórásai kerülnek górcső
alá.
A „hagyományos” rangsorolásos eljáráshoz nem kell a normalitás (éppen azért szoktuk ezt az esetet
vizsgálni, mert a normalitás sérül az eredeti változónknál), viszont a rangsorok szórásának
egyenlősége itt is feltétel lesz. Ezt ugyanúgy teszteljük, mint a rendes esetben – tehát, ha itt *-ot jelez
valamely próba (Levene, O’Brien), akkor a robusztus alternatívát kell figyelnünk.
Ezek után jön a hagyományos, Mann-Whitney-féle eljárás (hivatkozni a Z-értékre és a p-értékre kell).
Itt azt láthatjuk, hogy szignifikáns eltérés van a rangátlagok között.
Amennyiben a szóráshomogenitás sérül, úgy a FPW-próba (a hozzá tartozó statisztikával és p-
értékkel), vagy a BM-próba (szintén a hozzá tartozó statisztikával és p-értékkel) lesz az irányadó.
Ezen kívül az előző blokkban megismert előjelpróba általánosítása is szerepet kaphat, az úgynevezett
valószínűségi fölény mutatója, melynek segítségével értelmezhetőek, magyarázhatóak,
interpretálhatóak az előző eredmények: mennyi annak a várható valószínűsége, hogy az első vagy a
második csoport „nyer”, azaz hogy valamely csoport nagyobb értéket ér el.
Minden tesztünk azt mutatja, hogy a férfiak alacsonyabb feminitás-értékekkel rendelkeznek, mint a
nők.
SEGÉDANYAG MŰHELYMUNKÁHOZ
33
Egy változó nagyságszintjének tesztelése 2 csoportban – az SPSS programcsomagban
Az SPSS-ben tehát csak a kétmintás t-próbával, illetve a Mann–Whitney-próbával fogunk
megismerkedni, a többi rangstatisztikai módszert nem fogjuk alkalmazni. Továbbá a
szóráshomogenitást is csak a Levene-próbával fogjuk tesztelni, a normalitás-tesztelésről pedig
feltételezzük, hogy előtte elvégeztük, ahogy azt az első fejezetben megismertük.
Amennyiben mindent jól csináltunk, úgy a kétmintás t-próba outputját nyerjük:
Group Statistics
12 12,08 2,678 ,773
70 14,00 1,963 ,235
Gender of subjectsMale
Female
FemininityN Mean Std. Deviation
Std. ErrorMean
SEGÉDANYAG MŰHELYMUNKÁHOZ
34
Az első táblázatban a leíró statisztikák láthatóak csoportonként.
A második táblázatnak két sora van: hogy a két sor közül melyiket használjuk, az első két érdemi
oszlopban található Levene-próba fogja eldönteni. Az első sor ugyanis a hagyományos kétmintás t-
próba statisztikáit tartalmazza, míg a második sor a Welch-féle d-próba eredményeit. Tehát, ha a
Levene-próba második oszlopában látható Sig.-érték 0,05 alá kerül (most felette van), akkor az azt
jelenti, hogy a két szórás szignifikánsan eltér egymástól, tehát nem használható a t-próba (azaz ekkor
kell a második sort választani).
Most a Sig.-érték 0,05 feletti, tehát az első sorból kiolvassuk a t-értéket (-2,954), szabadsági fokot
(80) és Sig.-értéket (0,004). Ezek alapján elmondható, hogy a férfiak átlaga szignifikánsan
alacsonyabb, mint a nők átlaga (az átlagokat az első táblázatban láthatjuk).
Amennyiben mégis szükségessé válik a rangstatisztikák használata, úgy a következő módon járhatunk
el:
Independent Samples Test
3,648 ,060 -2,954 80 ,004 -1,917 ,649 -3,208 -,626
-2,372 13,102 ,034 -1,917 ,808 -3,661 -,172
Equal variancesassumed
Equal variancesnot assumed
FemininityF Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
SEGÉDANYAG MŰHELYMUNKÁHOZ
35
Amennyiben minden beállításunk helyes, az alábbi outputhoz juthatunk:
Az első táblázatban a rangstatisztikai értékeket láthatjuk, majd a második táblázatban a Mann–
Whitney-statisztika megfelelő értékeit nézhetjük meg (megegyeznek a ROPstat eredményeivel).
Ranks
12 26,79 321,50
70 44,02 3081,50
82
Gender of subjectsMale
Female
Total
FemininityN Mean Rank Sum of Ranks
Test Statistics a
243,500
321,500
-2,339
,019
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
Femininity
Grouping Variable: Gender of subjectsa.
SEGÉDANYAG MŰHELYMUNKÁHOZ
36
Műhelymunkabeli megfogalmazás
A feminitás-változó nemenkénti összehasonlítása – átlag alapján
A feminitás-változó eloszlása nem különbözik szignifikánsan a normálistól (ferdeség és csúcsosság
alapján), illetve a két nem esetén számított tapasztalati szórások alapján a két csoport szórása sem
tekinthető szignifikánsan különbözőnek (Levene-próba: F(1; 14,6) = 3,409 (p = 0,0852)).
Ennek következtében a hagyományos kétmintás t-próba feltételei fennállnak, így (t(80) = -2,954
(p = 0,0041)) mellett állíthatjuk, hogy a férfiak feminitás-skálán várható átlaga szignifikánsan
alacsonyabb, mint a nők feminitás-skálán várható átlaga.
Ha a normalitás sérül, úgy a robusztus tesztek kellenek, majd azokból is azokat kell kiválasztani,
melyeket a szórások egyenlőségének tesztelése mutat. Ezeket az elágazásokat egyénileg kell
végignézni – a fenti levezetések alapján.
A dolgozatokban tehát a változó ELOSZLÁSA dönti el, hogy a kétmintás tesztek közül az átlagokat
vagy a rangsorokat szeretnénk tesztelni (átlagok egyenlősége vagy sztochasztikus egyenlőség lesz a
kérdés). Ezek után a megfelelő tesztek közül a szóráshomogenitás fennállása vagy elvetése alapján
kell kiválasztani a megfelelőt. Hivatkozásként az alábbiakat tudjuk megfogalmazni szabályként:
1) A Levene- / O’Brien-próbáknál az F(szabadsági fok1; szabadsági fok2)-érték és p-érték.
2) T-próba, illetve annak robusztus változata (Welch-d) esetén a t-érték, szabadsági fok és a p-
érték.
3) Mann–Whitney-próba esetén mindenképpen szerepeljen, hogy ekkor már sztochasztikus
egyenlőséget tesztelünk, a hivatkozásban z-érték és p-érték kell.
4) Az FPW és BM esetén a megfelelő értékek szabadsági fokokkal és p-értékek kellenek.
A több lehetséges elágazás miatt nagyon körültekintőnek kell lenni ezeknél a teszteknél. Vegyük
észre azt is, hogy ilyenkor nem biztos, hogy minden eredményt össze tudunk egy táblázatba foglalni,
tehát általában szöveges értékeléseket adunk – és az esetleges táblázatokat mellékletbe fogjuk
összefoglalni, amennyiben szükséges.
SEGÉDANYAG MŰHELYMUNKÁHOZ
37
Egy változó nagyságszintjét szeretnénk tesztelni legalább 3 csoportban
Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor legalább 3 csoport kerül összehasonlításra
valamely vizsgált változó mentén. (Hasonló az előző fejezethez, csak több csoporttal). A
kérdésfelvetés szakmailag többek között az alábbi módon fogalmazható meg:
• Igaz-e, hogy ha az IQ-változó alapján 3 kategóriát hozunk létre, akkor az IQ emelkedésével
együtt jár a feminitás-érték növekedése?
Ismét olyan hipotézist fogalmaztunk meg, mely nem egészen a statisztikai hipotézis – hiszen nem
egyenlőség, hanem eltérés szerepel benne. A statisztikai hipotézis, melyet vizsgálni tudunk:
• Igaz-e, hogy ha az IQ-változó alapján 3 kategóriát hozunk létre, akkor az IQ emelkedése nem
befolyásolja a feminitás várható értékét?
Ezt már tudjuk kezelni statisztikailag. Matematikailag az előző blokk általánosítása történik
hagyományos esetben. Sztochasztikus homogenitás / egyenlőség esetén nem triviális az
általánosítás, így itt némi többlet végiggondolásra lesz szükségünk. A hagyományos eljárásban
továbbra is feltétel lesz a normalitás és a szóráshomogenitás (a hagyományos eljárás itt a
varianciaanalízis, vagy VA vagy ANOVA).
A normalitás sérülése esetén alkalmazott rangstatisztikai eljárások során használt sztochasztikus
homogenitás azonban egy érdekes sajátosságot hordoz a hagyományos módszerrel szemben: ha a
hagyományos módszerben az átlagokat összehasonlítjuk, akkor igaz lesz az alábbi:
- Ha A csoport átlaga nagyobb, mint B csoport átlaga, mely nagyobb, mint C csoport átlaga,
akkor ebből következik, hogy A csoport átlaga nagyobb, mint C csoport átlaga. Ilyen esetben
tehát a PÁRONKÉNTI eltérések egyértelmű sorrendet határoznak meg. A páronkénti
eredmények egyértelmű rangsort is definiálnak a csoportok között.
Azonban sztochasztikus homogenitás esetén ez bonyolultabb. Eddig is úgy próbáltuk meg kezelni a
sztochasztikus fölényt, hogy ha egyik vagy másik csoportból kivennénk 1-1 egyedet, és
versenyeztetnénk, akkor valamely csapat szisztematikusan legyőzné-e a másik csapatot. Azonban
ebben az esetben a legkönnyebb a sportból vett „körbeverés” esetét felidézni: A mindig megveri B-t,
B mindig megveri C-t, de C mindig megveri A-t. Tehát, bár PÁRONKÉNT mindig van domináns csoport,
összességében mégsem mondhatunk senkit dominánsnak. Ez lesz a rangstatisztikák egyik
érdekessége ebben az esetben: itt akkor mondunk majd valakit sztochasztikusan dominánsnak, ha
MINDENKIT meg tud verni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
38
Egy változó nagyságszintjének tesztelése legalább 3 csoportban – ROPstat
programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
39
Ha minden beállítás megegyezik a fentivel, ezt az outputot nyerjük:
Független minták egyszempontos összehasonlítása A beolvasott összes eset száma: 94 Csoportosító változó: IQ (IQ of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Index IQ Esetek Átlag Szórás Min. Max. Ferdeség Csúcsosság 1 low 22 13,59 2,282 10 18 0,188 -0,897 2 middle 36 13,61 2,032 8 17 -0,689+ 0,416 3 high 24 14,00 2,341 10 18 0,155 -0,556 Ha a Ferdeség vagy a Csúcsosság szignifikáns, az a normalitás sérülését jelzi. Elméleti szórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(2,0; 48,2) = 0,384 (p = 0,6830) - Levene-próba (Welch-féle): F(2; 47,5) = 0,642 (p = 0,5306) Elméleti átlagok egyenlőségének tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Varianciaanalízis: F(2; 79) = 0,278 (p = 0,7579) Hatásvariancia = 1,3375, Hibavariancia = 4,8085 Korrelációs hányados (nemlineáris korrelációs együttható): eta = 0,084 Megmagyarázott variancia-arány: eta-négyzet = 0,007 Robusztus eljárások, amelyeknél nem szükséges a szóráshomogenitás: - Robusztus Welch-féle varianciaanalízis: W(2; 45,6) = 0,253 (p = 0,7777) - James-próba: U = 0,513 (p > 0,10) - Brown-Forsythe-próba: BF(2; 67) = 0,267 (p = 0,7661)
Az (ANO)VA-elemzésnél a normalitás vizsgálata a ferdeség és csúcsosság paraméterek segítségével
történik – látható, hogy egyik csoportban sem sérül a normalitás. Szintén ebben a táblázatban
láthatók az átlagok, szórások, esetszámok.
A próba másik feltétele a szórások egyezése. Ennek megszokott próbáit láthatjuk a következő
blokkban, ahonnan leolvashatjuk, hogy a csoportok szórásai szignifikánsan nem különböznek
egymástól.
Az átlagok összehasonlítása megtörténik, a páros összehasonlításokat viszont azért nem látjuk, mert
a kapott eredmények alapján nincsenek szignifikáns eltérések a csoportok között. Ezt az első sorban
lévő varianciaanalízis-értékből tudjuk kiolvasni – a hozzá tartozó p-érték elég magas, tehát a
feminitás nem mutat eltérést a különböző IQ-kategóriákban.
Amennyiben nem teljesülne a szóráshomogenitás feltétele, úgy a következő blokkban tudnánk a
megfelelő varianciaanalízis-statisztikákat kiolvasni, innen általában a Brown–Forsythe-próbát szokás
használni. A robusztus tesztek szintén azt mutatják, hogy nincsenek szignifikáns eltérések.
SEGÉDANYAG MŰHELYMUNKÁHOZ
40
Amennyiben sérül a normalitás, úgy a következő eljárást kell alkalmazni:
Ekkor az alábbi outputot kapjuk:
Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Független minták egyszempontos összehasonlítása A beolvasott összes eset száma: 94 Csoportosító változó: IQ (IQ of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Rang- Rang- Sztochasztikus dominancia Index IQ Esetek átlag szórás Súlyozott Nem súlyozott 1 low 22 39,52 25,54 0,476 0,476 2 middle 36 41,28 22,00 0,497 0,498 3 high 24 43,65 24,83 0,526 0,526 Megjegyzés: Minden csoport esetében a sztochasztikus dominancia annak a valószínűségét jelzi, hogy egy random megfigyelés ebből a csoportból (Xj) nagyobb lesz, mint egy random megfigyelés az egész mintából (X), plusz az egyenlőség valószínűségének a fele: SZTDj = P(Xj > X) + 0,5P(Xj = X) A sztochasztikus homogenitás definíciója: SZTD1 = SZTD2 = SZTD3 = ... = 0,50 Elméleti rangszórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(2,0; 46,1) = 0,866 (p = 0,4275) - Levene-próba (Welch-féle): F(2; 47,9) = 1,058 (p = 0,3550) Sztochasztikus homogenitás tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Kruskal-Wallis-próba: H(2) = 0,357 (p = 0,8366) Szóráshomogenitást nem igénylő robusztus közelítő eljárás: - Korrigált rang Welch-próba: rW3(2; 45,4) = 0,155 (p = 0,8568) KULLE-féle aszimptotikusan egzakt próbák - Populációk azonos súlyozása: Khi2(1,93) = 0,351 (p = 0,8257) F(1,93; 79,0) = 0,182 (p = 0,8261) - Mintaelemszámokkal arányos súlyozás: Khi2(1,92) = 0,354 (p = 0,8228) F(1,92; 79,0) = 0,184 (p = 0,8232)
SEGÉDANYAG MŰHELYMUNKÁHOZ
41
Ebben az esetben a rangátlagokkal kell elsősorban dolgozni – ezeket fogjuk összehasonlítani. Ennek is
feltétele a szóráshomogenitás – de itt a rangsorok szórásainak egyenlősége szükséges. Ennek is a
szokásos tesztjei láthatóak az első blokkban, melyekből megállapítható, hogy a rangszórások nem
különböznek szignifikánsan egymástól.
A sztochasztikus homogenitás hagyományos, szóráshomogenitási feltétel megléte melletti tesztje a
Kruskal–Wallis-próba, mely azt mutatja, hogy nincsen sztochasztikusan domináns csoport.
Amennyiben nem állna fent a szóráshomogenitás, úgy a korrigált Welch-próbát kellene figyelnünk
(most ezt sem jelez eltérést).
Megállapíthatjuk tehát, hogy bármely eljárást nézzük is – átlagok, rangsorok – nem állapítható meg
eltérés a feminitás értékeiben az IQ által övezetekre bontott populációban.
SEGÉDANYAG MŰHELYMUNKÁHOZ
42
Egy változó nagyságszintjének tesztelése legalább 3 csoportban – SPSS programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
43
SEGÉDANYAG MŰHELYMUNKÁHOZ
44
Amennyiben mindent jól állítottunk be, az alábbi outputot nyerjük:
Descriptives
Femininity
22 13,59 2,282 ,486 12,58 14,60 10 18
36 13,61 2,032 ,339 12,92 14,30 8 17
24 14,00 2,341 ,478 13,01 14,99 10 18
82 13,72 2,173 ,240 13,24 14,20 8 18
low
middle
high
Total
N Mean Std. Deviation Std. Error Lower Bound Upper Bound
95% Confidence Interval forMean
Minimum Maximum
Test of Homogeneity of Variances
Femininity
,609 2 79 ,547
LeveneStatistic df1 df2 Sig.
ANOVA
Femininity
2,675 2 1,338 ,278 ,758
379,874 79 4,809
382,549 81
Between Groups
Within Groups
Total
Sum ofSquares df Mean Square F Sig.
Robust Tests of Equality of Means
Femininity
,267 2 66,808 ,766Brown-ForsytheStatistica df1 df2 Sig.
Asymptotically F distributed.a.
SEGÉDANYAG MŰHELYMUNKÁHOZ
45
A táblázatok hasonló információkat tartalmaznak, mint a ROPstat esetén. Először itt is a leíró
statisztikákkal találkozhatunk. A következő output itt is a szóráshomogenitás – bár az SPSS csak a
Levene-tesztet használja.
Az ANOVA-táblázat a hagyományos varianciaanalízis táblája, melyben az F-érték és a Sig.-érték számít
– itt is megfigyelhetjük, amit már a ROPstatnál, hogy nem jelez szignifikáns eltéréseket. A
hagyományos után a robusztus, szóráshomogenitást nem igénylő Brown–Forsythe-tesztet láthatjuk
(ez sem jelez eltérést, bár ezt most úgyis figyelmen kívül hagyjuk).
Az első és legnagyobb eltérés a ROPstat és az SPSS között ebben az eljárásban, hogy az SPSS
mindenképpen kiszámolja és kiírja a páros összehasonlítások táblázatait – függetlenül attól, hogy
vannak-e szignifikáns eltérések vagy sem.
Ezek közül az első táblázatban páronként (egy-egy sorban egy-egy páros összehasonlítása látható) írja
ki az eredményeket, ahol az átlagok közötti különbségek, annak standard hibája, illetve az eltérés 0
voltának tesztelési eredménye látható (Sig.-érték). Amennyiben a Sig.-érték 0,05 alá csökken, akkor
van a két csoport között szignifikáns eltérés.
A Tukey-féle teszt a szóráshomogenitás megléte mellett értelmezhető, míg a Games–Howell-
statisztika robusztus a szóráshomogenitás feltételére nézve.
A másik, hasonló tartalommal bíró táblázat az átlagokat csoportosítva jeleníti meg, tehát tömörebb,
vizuálisabb formában örökíti meg az eredményeket számunkra.
Multiple Comparisons
Dependent Variable: Femininity
-,020 ,593 ,999 -1,44 1,40
-,409 ,647 ,803 -1,96 1,14
,020 ,593 ,999 -1,40 1,44
-,389 ,578 ,780 -1,77 ,99
,409 ,647 ,803 -1,14 1,96
,389 ,578 ,780 -,99 1,77
-,020 ,593 ,999 -1,46 1,42
-,409 ,682 ,821 -2,06 1,24
,020 ,593 ,999 -1,42 1,46
-,389 ,586 ,785 -1,81 1,03
,409 ,682 ,821 -1,24 2,06
,389 ,586 ,785 -1,03 1,81
(J) Kódolt IQ:Készült az IQ változóövezetei alapjánmiddle
high
low
high
low
middle
middle
high
low
high
low
middle
(I) Kódolt IQ: Készült az IQváltozó övezetei alapjánlow
middle
high
low
middle
high
Tukey HSD
Games-Howell
MeanDifference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
Femininity
22 13,59
36 13,61
24 14,00
,779
22 13,59
36 13,61
24 14,00
Kódolt IQ: Készült az IQváltozó övezetei alapjánlow
middle
high
Sig.
low
middle
high
Tukey HSDa,b
Tukey Ba,b
N 1
Subsetfor alpha
= .05
Means for groups in homogeneous subsets are displayed.
Uses Harmonic Mean Sample Size = 26,110.a.
The group sizes are unequal. The harmonic mean of thegroup sizes is used. Type I error levels are notguaranteed.
b.
SEGÉDANYAG MŰHELYMUNKÁHOZ
46
Amennyiben nem teljesül a normalitás, úgy rangstatisztikai eljárást tudunk alkalmazni, azonban ez
nem lesz annyira részletes, mint a ROPstat hasonló rutinja (így azt javasoljuk, hogy amennyiben
rangstatisztikai eljárásra van szükségünk, használjuk a ROPstatot).
SEGÉDANYAG MŰHELYMUNKÁHOZ
47
Amennyiben mindent beállítottunk, az alábbi outputot nyerjük:
A rangstatisztikai eljárás az SPSS-ben lényegesen rövidebb, itt csak a Kruskal–Wallis-teszt látható,
illetve az értelmezéshez, interpretációhoz szükséges rangstatisztikai leíró statisztikák. Ez alapján, a
benne lévő khi-négyzet statisztika és a hozzá tartozó Asymp. Sig-érték alapján elmondható, hogy,
hasonlóan a ROPstat eredményéhez, itt sem láthatunk semmifajta szignifikáns eltérést a rangátlagok
között, nincsen szignifikánsan domináns csoport.
Ranks
22 39,52
36 41,28
24 43,65
82
Kódolt IQ: Készült az IQváltozó övezetei alapjánlow
middle
high
Total
FemininityN Mean Rank
Test Statistics a,b
,357
2
,837
Chi-Square
df
Asymp. Sig.
Femininity
Kruskal Wallis Testa.
Grouping Variable: Kódolt IQ: Készültaz IQ változó övezetei alapján
b.
SEGÉDANYAG MŰHELYMUNKÁHOZ
48
Műhelymunkabeli megfogalmazás
E kérdések változatos módokon interpretálhatók egy műhelymunkában, hiszen elég összetett
eljárásról van szó – annak ellenére, hogy maga a hipotézis egyszerű, nagyon sok részeljárás van,
melyekről mindenképpen kell írni, hogy valid legyen a vizsgálatunk.
A feminitás-változó IQ-övezetek szerinti összehasonlítása
Az IQ-változót 3 övezetre bontottuk (alacsony, közepes és magas), majd e 3 övezetben vizsgáltuk a
feminitás-változó nagyságszintjét. Bár a csoportonként kiszámított ferdeségi és csúcsossági mutatók
egyike sem mutatott szignifikáns eltérést a normális eloszlás megfelelő paramétereitől,
rangstatisztikai eszközökkel is megvizsgáltuk a kérdést.
Azt tapasztaltuk, hogy mind a hagyományos eljáráshoz szükséges szóráshomogenitás fennáll (Levene-
próba: F(2; 47,5) = 0,642 (p = 0,5306)), mind a rangstatisztikákhoz szükséges rangsorok szórásának
homogenitása teljesül (Welch-féle Levene-próba: F(2; 47,9) = 1,058 (p = 0,3550)). Így az átlagoknak
és rangátlagoknak a hagyományos eljárásait alkalmazhattuk.
Az átlagok hagyományos eljárással sem (F(2; 79) = 0,278 (p = 0,7579)), illetve Kruskal–Wallis-féle
rang-ANOVA eljárással sem (H(2) = 0,357 (p = 0,8366)) különböznek egymástól szignifikánsan.
Megállapíthatjuk tehát, hogy az IQ növekedő csoportjaiban a feminitás átlaga szignifikánsan nem
különbözik egymástól
Fontos észrevenni és megemlíteni, hogy ha páros összehasonlításokat teszünk, akkor azt táblázatos
formában vagy akár oszlopdiagramos formában is érdemes lehet ábrázolni (az átlagokat feltüntetve),
vagy pontdiagrammal, összekötve az átlagokat, stb. Ezen a ponton már nagyon nagyfokú
szabadságunk van, hiszen az eredmények értelmezése, interpretációja változatos lehet. Figyeljünk
azonban oda, hogy a szükséges hivatkozások minden esetben pontosan jelenjenek meg a
dolgozatban.
1) A Levene- / O’Brien-próbáknál az F(szabadsági fok1; szabadsági fok2)-érték és a p-érték.
2) ANOVA, illetve annak robusztus változata (Brown–Forsythe) esetén az F-érték, szabadsági
fokok és a p-érték.
3) Kruskal–Wallis-próba esetén mindenképpen szerepeljen, hogy ekkor már sztochasztikus
homogenitást tesztelünk (vagy hogy rangsorokon elemzünk), hivatkozásban H-érték és p-
érték kell.
4) A páros összehasonlításoknál érdemes lehet táblázatos formában bemutatni az adatokat,
akár az eredeti SPSS vagy ROPstat outputtal. Hivatkozni a megfelelő t-értékekre kell, illetve
Sig.- vagy p-értékre.
Ne felejtsük el, hogy a ROPstat csak abban az esetben vizsgálja a páros összehasonlításokat, ha a
varianciaanalízisben szignifikáns különbséget talál – egyéb esetben ezt az elemét az outputnak nem
fogjuk látni. Nyilván, ha nincsenek különbségek, akkor a páros összehasonlítások bemutatása sem
lehet kötelező.
SEGÉDANYAG MŰHELYMUNKÁHOZ
49
Két összetartozó mintát tesztelünk
Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor összetartozó mintákkal dolgozunk (pl.
ugyanazon csoport két különböző időpontban mért adatai. Szintén ilyen eset, ha adott mintán,
azonos skálán mért változókat vizsgálunk, illetve pl. férj és feleség értékei azonos változón mérve).
Egy lehetséges szakmai hipotézis lehet a következő:
• Igaz-e, hogy a Szondi-tesztben a homo1 és homo2 kép kedveltsége azonos?
Vegyük észre, hogy ez a megfogalmazás statisztikai hipotézis is egyben, hiszen egyenlőséget
feltételezünk – így ez a szakmai hipotézis egyben a statisztikai hipotézisünk is.
A kétmintás esetet azonban aránylag könnyen el tudjuk intézni, amennyiben tudunk
különbségváltozót definiálni. Két változó esetén ugyanis e fenti hipotézis – bár megállja a helyét
statisztikailag is – átfogalmazható a következő formába:
• Igaz-e, hogy a Szondi-tesztben a homo1 és homo2 kép kedveltségének különbsége várhatóan
0?
Világos, hogy ha minden mért esetben képezzük a két képre adott érték különbségét, akkor e fenti
hipotézis az előzőekben már ismertetett, egy változó középértékére vonatkozó hipotézis vizsgálatával
elvégezhető (és a különbségváltozó képzésének jogossága miatt fontos, hogy azonos skálán legyenek
mérve).
SEGÉDANYAG MŰHELYMUNKÁHOZ
50
Két összetartozó minta tesztelése– ROPstat programcsomagban
Amennyiben mindent jól állítottunk be, úgy egy már (tartalmában) ismerős outputot kapunk:
Összetartozó minták egyszempontos összehasonlítása FÜGGÓ VÁLTOZÓK: homo1 homo2 A beolvasott összes eset száma: 277 Érvényes (komplett) esetek száma: 277 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 Elméleti átlagok egyenlőségének tesztelése: - Egymintás t-próba: t(276) = 1,911 (p = 0,0570)+ - Johnson-próba: J(276) = 1,912 (p = 0,0569)+ - Gayen-próba szignifikanciája: p = 0,0570+ A "Nincs X-ről Y-ra változás" hipotézis vizsgálata: - Wilcoxon-próba: R+ = 11045,0, R- = 8065,0, z = 1,929 (p = 0,0538)+ "A két változó sztochasztikusan ugyanakkora" hipotézis vizsgálata: - Előjelpróba: #(X < Y) = 108, #(X > Y) = 87, z = 1,432 (p = 0,1521) Index Változó Átlag Szórás Rangátlag X: homo1 1,809 1,232 1,46 Y: homo2 1,993 1,116 1,54 Y - X: 0,184 1,603 Ferdeség- és csúcsosságérték és normalitásvizsgálat Az Y - X változó mintabeli ferdesége = 0,010 (p = 0,946) Az Y - X változó mintabeli csúcsossága (g4 = a4 - 3) = -0,312 (p = 0,289) 95%-os konfidencia-intervallum az Y-X különbség elméleti átlagára C(0,95) = (-0,005; 0,373) Pontbecslés a valószínűségi fölény A(Y, X) mutatójára: A(Y, X)^ = 0,538 ( (X < Y)% = 39,0 (Y = X)% = 29,6 (X > Y)% = 31,4 ) 95%-os konfidencia-intervallum A(Y, X)-re: C(0,95) = (0,489; 0,587)
SEGÉDANYAG MŰHELYMUNKÁHOZ
51
Mint azt már említettük, ebben az esetben lényegében a különbségváltozó 0 voltát teszteljük, így
elemeiben az egymintás t-próba elemeit kell viszontlátnunk – és ebben az esetben NEM KELL külön
az ordinális esetet futtatni, mert AUTOMATIKUSAN szerepel az outputon a Wilcoxon-próba és az
előjelpróba.
Mégegyszer vegyük végig tehát az egymintás t-próbának és robusztus változatainak eseteit: mind a t-
próba, mind annak robusztus próbája (Johnson, Gayen) azt mutatja, hogy az eltérés a két változó
között tendencia-szintű, tehát nincsen szignifikáns eltérés a homo1 és homo2 kép kedveltsége
között.
A Wilcoxon-próba z-értéke és p-értéke szintén hasonlót mutat: tendencia-szintű eltérést tapasztal,
azonban ennél több nem mondható el.
Az előjelpróba hasonló eredményre vezet, bár itt már tendencia-szintű különbséget sem tudunk
kimutatni.
A próba feltételeinek ellenőrzése az output közepén kapott helyett: a különbségváltozó
normalitásának tesztelése ferdeség és csúcsosság alapján azt mutatja, hogy a különbségváltozó ezen
277 fős minta alapján nem különbözik szignifikánsan a normálistól.
Így megállapíthatjuk, hogy a hagyományos egymintás t-próba eredménye (melynek az itteni
megnevezése összetartozó mintás t-próba) teljesen megfelel számunkra, bár a többi eredmény is
értelmezhető. Mindenesetre megállapítható, hogy a homo1 és homo2 kép kedveltsége szignifikánsan
nem tér el egymástól.
Műhelymunkabeli megfogalmazás
Ebben az esetben azonosan hivatkozunk az egymintás t-próba eseteihez, azonban a megfogalmazás
más lesz.
Homo1 és homo2 kép kedveltségének összehasonlítása
A két képet egyaránt értékelő 277 esetet figyelembe véve megállapítható összetartozó mintás t-
próbával, hogy a két kép kedveltsége szignifikánsan nem különbözik egymástól (t(276) = 1,911, p =
0,057), bár tendencia-szintű eltérés megállapítható, a leíró statisztikák alapján a második kép
magasabb pontszámokat mutatott.
A próba feltételét ellenőriztük, a különbségváltozó normalitása a számított ferdeség- és csúcsosság-
paraméterek alapján feltételezhető, így a robusztus eljárásokra nem volt szükség.
SEGÉDANYAG MŰHELYMUNKÁHOZ
52
Legalább 3 összetartozó mintát tesztelünk
Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor összetartozó mintákkal dolgozunk (pl.
ugyanazon csoport legalább 3 különböző időpontban mért adatai, vagy összefüggő változók azonos
csoportban mérve). Egy lehetséges szakmai hipotézis lehet a következő:
• Igaz-e, hogy a Szondi-tesztben a több szadista kép megítélése azonos?
Ismét olyan megfogalmazásunk van, mely statisztikai hipotézis is egyben, hiszen ismét egyenlőséget
tesztelhetünk.
Ebben az esetben is feltétel a normalitás, azonban a szóráshomogenitás-feltétele ennek az esetnek
lényegesen bonyolultabb, mint a független eseté. Ez az úgynevezett szfericitási feltétel elég bonyolult
számításokkal végezhető csak el – viszonylag ritkán is teljesül – így érdemes rögtön robusztus
eljárásokat is figyelembe venni. Ennek következtében érdemes ezen eljárásokat automatikusan a
robusztus tesztekkel ellenőrizni.
Ráadásul az intervallum-skálatípus beállítása itt is automatikusan tartalmazza az outputban a
rangstatisztikai eljárásokat.
SEGÉDANYAG MŰHELYMUNKÁHOZ
53
Kettőnél több összetartozó minta nagyságszintjének tesztelése – ROPstat
programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
54
Amennyiben ezeket a beállításokat használjuk, a következő outputot nyerjük:
Összetartozó minták egyszempontos összehasonlítása FÜGGÓ VÁLTOZÓK: sadist1 sadist2 sadist3 sadist4 sadist5 sadist6 A beolvasott összes eset száma: 277 Érvényes (komplett) esetek száma: 277 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 Elméleti átlagok egyenlőségének tesztelése: - Varianciaanalízis (VA): F(5,1380) = 96,412 (p = 0,0000)*** (Hatásvariancia = 113,3921, Hibavariancia = 1,1761) - Robusztus VA szabadságfok-korrekcióval Geisser-Greenhouse (epszilon = 0,927): F(4,6; 1278,8) = 96,412 (p = 0,0000)*** Huynh-Feldt (epszilon = 0,944): F(4,7; 1303,3) = 96,412 (p = 0,0000)*** Sztochasztikus homogenitás tesztelése: - Friedman-próba: G(5) = 352,332 (p = 0,0000)*** - Rangszámokon végzett VA: rF(5,1380) = 94,594 (p = 0,0000)*** - Robusztus rang-VA szabadságfok-korrekcióval Geisser-Greenhouse (epszilon = 0,955): rF(4,8; 1318,4) = 94,594 (p = 0,0000)*** Huynh-Feldt (epszilon = 0,974): rF(4,9; 1344,5) = 94,594 (p = 0,0000)*** Rang- Sztochasztikus Index Változó Átlag Szórás átlag dominancia 1. sadist1 1,282 1,080 2,88 0,376*** 2. sadist2 1,451 1,320 3,05 0,411*** 3. sadist3 2,437 1,100 4,47 0,694*** 4. sadist4 2,690 1,244 4,74 0,748*** 5. sadist5 1,329 1,020 2,92 0,383*** 6. sadist6 1,296 1,014 2,94 0,388*** Megjegyzés: Minden változó esetében a sztochasztikus dominancia annak a valószínűségét jelzi, hogy ennek a változónak egy véletlen értéke (Xj) nagyobb lesz, mint egy random megfigyelés bármely változótól (X), plusz az egyenlőség valószínűségének a fele: SZTDj = P(Xj > X) + 0,5P(Xj = X) A sztochasztikus homogenitás definíciója: SZTD1 = SZTD2 = SZTD3 = ... = 0,5 Egy SZTDj érték szignifikanciája azt jelenti, hogy a Hj: SZTDj = 0,5 hipotézis elvethető. Átlagok Tukey-féle páronkénti összehasonlítása (k = 6, df = 1380): T12= 2,60 T13= 17,73** T14= 21,61** T15= 0,72 T16= 0,22 T23= 15,13** T24= 19,00** T25= 1,88 T26= 2,38 T34= 3,88+ T35= 17,01** T36= 17,51** T45= 20,89** T46= 21,39** T56= 0,50 Rangátlagok Tukey-féle páronkénti összehasonlítása (k = 6, df = 1380): T12= 1,96 T13= 17,95** T14= 20,96** T15= 0,41 T16= 0,65 T23= 15,99** T24= 19,01** T25= 1,55 T26= 1,30 T34= 3,01 T35= 17,54** T36= 17,29** T45= 20,55** T46= 20,31** T56= 0,24
Jól látható, hogy mind a varianciaanalízis, mind annak robusztus változatai, mind a rangstatisztikán
alapuló sztochasztikus dominancia tesztelések azt mutatják, hogy e kérdések között vannak
különbségek, vannak kiemelkedő képek, melyek kedveltsége valamilyen módon eltér a többiétől.
Az eljárásunk feltételeinek ellenőrzése bonyolult, így inkább a robusztus változatokat figyeljük:
miután a számított statisztika melletti p-érték mindenhol 0,0000, ezért bizton állíthatjuk, hogy e
képek kedveltsége nem egyenlő.
SEGÉDANYAG MŰHELYMUNKÁHOZ
55
A páros összehasonlítások között (Tukey, alsó két blokk) megfigyelhetjük, hogy pl. az első két kép
között (T12) nem látunk szignifikáns különbséget, azonban ha azokat az eseteket figyeljük, ahol a 3-as
vagy 4-es kód szerepel, akkor jól látható, hogy ez a két kép csak egymástól nem különbözik, minden
más képtől eltérést mutat.
Ennek kapcsán megállapítható, hogy – miután a többi kép között eltéréseket, *-al jelzett
különbségeket nem vehetünk észre – az 1-2-5-6. képek kedveltsége között nincsen eltérés, míg a 3-4.
képek ezeknél szignifikánsan magasabb értékeken szerepelnek, ráadásul a 3-4. képek között sem
találhatunk szignifikáns különbséget.
Műhelymunkabeli megfogalmazás
Az összetartozó mintás ANOVA esetén is kiemelhető a teljes különbség tesztelése, illetve az
egyenkénti, páros különbségek összehasonlítása. Azonban fontos megemlíteni, hogy itt a feltételeket
nem tudjuk ellenőrizni, ezért érdemes rögtön a robusztus tesztekre hivatkozni, a feltételek
ellenőrzésének okait is megemlítve.
A sadist képek kedveltségének összehasonlítása
A 6 képet egyszerre vizsgálva az eljáráshoz fontos normalitási és szfericitási feltételek ellenőrzésének
nehézsége miatt rögtön robusztus és rangstatisztikai eljárásokat fogunk figyelembe venni.
Mind a hagyományos, mind a normalitást feltételező, de robusztus eljárás azt mutatja, hogy
(F(5,1380) = 96,412 (p = 0,0000)***) szignifikáns eltérés van (robusztus, Huynh–Feldt (epszilon =
0,974): rF(4,9; 1344,5) = 94,594 (p = 0,0000)***).
Mindezt megerősítik a rangstatisztikai eljárások, melyek sztochasztikus dominanciát mutatnak:
Friedman, G(5) = 352,332, p=0,0000*, illetve Huynh–Feldt (epszilon = 0,974): rF(4,9; 1344,5) =
94,594 (p = 0,0000)***.
Ezek után páros összehasonlításokat végeztünk, ahol a Tukey-féle összehasonlítások alapján
elmondható, hogy az 1-2-5-6. képek egymástól nem térnek el. Szintén nem térnek el szignifikánsan a
3-4. képek egymástól, azonban az első csoportba sorolt képek szignifikánsan alacsonyabb értékeket
kaptak, mint a 3-4. képek.
A páros összehasonlítások adott esetben táblázatos formában is megjeleníthetők vagy valamilyen
diagramon ábrázolhatók. Ennek megvalósítására több program is alkalmas, érdemes lehet vele
kísérletezni – de ez már nem tartozik szigorúan a matematikai statisztikai problémák közé.
SEGÉDANYAG MŰHELYMUNKÁHOZ
56
Két csoportosító változó egyidejű hatásának tesztelése
Ebben az esetben azt vizsgálhatjuk, ha két csoportosító változó (nem, korcsoportok, lakóhelytípusok
stb) figyelembevételével szeretnénk az adott változót megvizsgálni. Jelen esetben azt a módot
követjük, hogy szeretnénk az IQ alapján övezetekre bontott populációnkban a nemeket megfigyelni a
dominancia-változó mentén.
• Igaz-e, hogy a dominancia értéke másként viselkedik a férfiak és a nők között, amennyiben az
IQ nagyságszintjét is figyelembe vesszük?
Ennek statisztikai megfogalmazása változatos, ugyanis egyszerre több dolgot is állítunk, egyszerre
több dolgot is vizsgálunk. A legegyszerűbb talán azt megvizsgálni statisztikailag, ha ezt nem
egyenlőséggel vagy függetlenséggel vizsgáljuk, hanem – kicsit kötve már a következő fejezet
látásmódjához, egyfajta modellként szemléljük a változók kapcsolatát.
• Mit mondhatunk a dominancia-változó várható nagyságszintjéről, amennyiben a
populációnkat nem- és intelligenciahányados-nagyság szerint szeretnénk csoportokba
osztani?
Ez a szemlélet egyfajta modellt eredményez: milyen viszonyok írhatóak fel e 3 változó között.
Természetesen ez magába foglalja, hogy nemenként, IQ-övezetenként is szemléljük a dominancia-
változó nagyságszintjét, de egyben, egymás hatásait is figyelve szeretnénk értékelni a
nagyságszinteket.
Ezt a feladatot könnyebb a ROPstat programban kiértékelni. A modell adta hipotézisek vizsgálatának
feltételei a vizsgált változó normalitása, továbbá a már szinte megszokott szóráshomogenitás –
azonban ez utóbbi vizsgálata és ellenőrzése nem annyira bonyolult, mint az összetartozó esetben.
Amennyiben a normalitás sérül, úgy itt is érdemes a rangstatisztikai megfelelőket előszedni és
futtatni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
57
SEGÉDANYAG MŰHELYMUNKÁHOZ
58
Ha minden beállításunk ilyen, úgy a következő eredményt nyerjük:
Független minták kétszempontos összehasonlítása A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 1. csoportosító változó: Gender (Gender of subjects) 2. csoportosító változó: IQ (IQ of subjects) Mintaelemszámok táblázata Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 8 3 5 16 2 Female 19 37 22 78 ÖSSZESEN 27 40 27 94 FÜGGŐ VÁLTOZÓ: Domin (Dominance) Érvényes esetek száma: 82 Érvénytelen esetek száma: 12 AZ ÉRVÉNYES ESETEK KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZATA Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 7 2 3 12 2 Female 15 34 21 70 ÖSSZESEN 22 36 24 82 MINTAÁTLAGOK TÁBLÁZATA (Domin) 'IQ' szerinti csoportok Index Gender low middle high ÁTLAG 1 Male 12,29 10,00 12,00 11,43 2 Female 10,13 12,12 12,62 11,62 ÁTLAG: 11,21 11,06 12,31 MINTASZÓRÁSOK TÁBLÁZATA (Domin) 'IQ' szerinti csoportok Index Gender low middle high 1 Male 4,608 4,243 4,583 2 Female 3,399 3,557 4,018 Varianciaanalízis összefoglaló táblázata (súlyozatlan átlagok módszere) Szóródás oka f Szórásnégyzet F p-érték Gender 1 0,305 0,021 0,8844 IQ 2 4,979 0,347 0,7077 Gende x IQ 2 14,631 1,020 0,3653 Hibatag 76 14,337 Szóráshomogenitás tesztelése -- Levene-próba: F(5; 76,0) = 0,332 (p = 0,8923) Cellastatisztikák Index: (1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) n: 7 2 3 15 34 21 Átlag: 12,29 10,00 12,00 10,13 12,12 12,62 Szórás: 4,608 4,243 4,583 3,399 3,557 4,018 ROBUSZTUS kétszempontos varianciaanalízis (Domin) - Welch-próba a Gender csoporthatás tesztelésére: F(1; 4,1) = 0,016 (p = 0,9044) - Welch-próba az IQ csoporthatás tesztelésére: F(2; 3,3) = 0,210 (p = 0,6755) - Johansen-próba a Gender x IQ interakció tesztelésére: Khi2(2) = 1,426 (p = 0,4901)
Az output elején láthatjuk a csoportok kategóriáit, illetve a különböző kategória-metszetekben
számított szórásokat, átlagokat. Lényegében ezeket az átlagokat teszteljük, hogy egyenlők-e
(főhatások), illetve azt, hogy ha nem egyenlők, akkor a főhatások egymástól függetlenül hatnak-e
vagy sem (interakció).
SEGÉDANYAG MŰHELYMUNKÁHOZ
59
Először tehát az output közepén található Levene-tesztet érdemes előszedni, hiszen ez dönti el, hogy
majd a robusztus vagy a hagyományos eljárások közül kell választanunk. Az ott lévő F-érték és hozzá
tartozó p-érték azt mutatja, hogy a szóráshomogenitás teljesül, tehát maradhatunk a hagyományos
eljárásoknál.
A szóráshomogenitás-teszt feletti blokk mutatja, hogy a különböző főhatások, illetve a közöttük lévő
interakció szignifikáns-e.
Minden sor elején láthatjuk, hogy főhatás (egy változó) vagy interakció (két főhatás keresztezése)
kerül tesztelésre. A mellette látható érték a szabadsági fok, majd a megfelelő variancia (ezt
analizáljuk, variancia = szórásnégyzet). Ezek után az F-érték és a hozzá tartozó p-érték.
Ezekből megállapítható, hogy egyik főhatás sem szignifikáns, továbbá az interakció sem kimutatható.
(Megjegyezzük, hogy az interakció annyit jelent, hogy a két szempont nem egymástól függetlenül fejti
ki hatását – azaz a hatásuk nem egyszerűen összeadódik, hanem valamilyen gyengítés vagy erősítés
történik a két változó valamely kombinációjában – az eredeti főhatás hatásokhoz képest).
Amennyiben a normalitás sérül, úgy rangstatisztikai eljárást is bevethetünk:
SEGÉDANYAG MŰHELYMUNKÁHOZ
60
Ha minden beállítás helyes, a következő outputot kapjuk:
Független minták kétszempontos sztochasztikus összehasonlítása A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 1. csoportosító változó: Gender (Gender of subjects) 2. csoportosító változó: IQ (IQ of subjects) Mintaelemszámok táblázata Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 8 3 5 16 2 Female 19 37 22 78 ÖSSZESEN 27 40 27 94 FÜGGŐ VÁLTOZÓ: Domin (Dominance) Érvényes esetek száma: 82 Érvénytelen esetek száma: 12 Átlagos mintaelemszám: n_átlag = 13,7 AZ ÉRVÉNYES ESETEK KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZATA Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 7 2 3 12 2 Female 15 34 21 70 ÖSSZESEN 22 36 24 82 A legkisebb mintaelemszám kisebb, mint 3. Statisztikai elemzés nem végezhető. A legkisebb mintaelemszám kisebb, mint 3. Statisztikai elemzés nem végezhető.
Vegyük észre, hogy a program ezt nem tudja számunkra megoldani. Ezért újradefiniáljuk a
csoportokat. A nem-változót nyilván lehetetlen átkódolni, azonban az IQ esetén a 3 csoport helyett
csak kettőt fogunk engedni: lesz egy 120 alatti és egy 120 feletti csoport, így reménykedhetünk
benne, hogy eredményes lesz a vizsgálat.
SEGÉDANYAG MŰHELYMUNKÁHOZ
61
Az új beállításokkal az alábbi outputot nyertük:
Független minták kétszempontos sztochasztikus összehasonlítása A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 1. csoportosító változó: Gender (Gender of subjects) 2. csoportosító változó: IQ (IQ of subjects) Mintaelemszámok táblázata Gender 'IQ' szerinti csoportok Index csoport 0-120 121-200 ÖSSZESEN 1 Male 5 11 16 2 Female 14 64 78 ÖSSZESEN 19 75 94 FÜGGŐ VÁLTOZÓ: Domin (Dominance) Érvényes esetek száma: 82 Érvénytelen esetek száma: 12 Átlagos mintaelemszám: n_átlag = 20,5 AZ ÉRVÉNYES ESETEK KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZATA Gender 'IQ' szerinti csoportok Index csoport 0-120 121-200 ÖSSZESEN 1 Male 4 8 12 2 Female 10 60 70 ÖSSZESEN 14 68 82 SZTOCHASZTIKUS DOMINANCIA ÉRTÉKEK TÁBLÁZATA (Domin) 'IQ' szerinti csoportok Gender 0-120 121-200 ÁTLAG Male 0,595 0,444 0,519 Female 0,341 0,528 0,434 ÁTLAG: 0,468 0,486 Sztochasztikus homogenitás (SZTH) elemzés (mintaelemszámokkal arányos populációsúlyok) Kétszempontos rang-VA ÖSSZEFOGLALÓ TÁBLÁZATA (Domin) Hatás Nullhipotézis f1 f2 F p-érték Gender Egyszempontos SZTH (A) 1,0 78 0,715 0,4004 IQ Egyszempontos SZTH (B) 1,0 78 0,031 0,8609 Gend. x IQ Nincs sztoch. interakció 1,0 78 2,908 0,0921+
Jól láthatóan az előző esettel majdnem megegyező eredményt kaptunk – a rangstatisztika mutat egy
tendencia-szintű interakciót, azonban szignifikáns eredményeket itt sem tudunk kimutatni.
Ilyen esetekben a válaszok némiképpen egyszerűsödnek, ráadásul minden módszer ugyanazt az
eredményt hozta. Fontos azonban megjegyezni, hogy ehhez az elemzéshez, miután nem tartalmazza,
érdemes a normalitás-vizsgálatot legalább előtte elvégezni a dominancia-változóra.
SEGÉDANYAG MŰHELYMUNKÁHOZ
62
Műhelymunkabeli megfogalmazás
A kétszempontos (ANO)VA-elemzés esetén a feltételek ellenőrzése – ellentétben az összefüggő
esettel – megtörténik, tehát meg kell emlékezni róla a dolgozatainkban is. A normalitás-vizsgálatot
érdemes előtte lefuttatni – bár mi ezt most nagyvonalúan elhanyagoltuk, mert előzetesen már
bemutattuk.
A dominancia vizsgálata nemenként és az IQ különböző kategóriái mentén
A dominancia-változót mind férfiak és nők, mind pedig az IQ három (rangstatisztikákkal kettő)
kategóriájában számítottuk, értékeltük.
Az egymáshoz való viszonyuk alapján kijelenthető, hogy sem a rangstatisztikák, sem a hagyományos
eljárások nem mutattak szignifikáns eltéréseket (a legkisebb p-értéket a rangstatisztika interakciója
esetén tapasztaltuk, p>0,09).
Ez alapján kijelenthető tehát, hogy sem a nem szerinti megkülönböztetés, sem az IQ eltérései
nincsenek hatással a dominancia-skálán várható értékre.
Természetesen akkor, ha valakinek a dolgozatában ez a fő csapásvonal, akkor a különböző átlagok,
szórások, minden egyéb statisztika külön-külön kiemelhető és tárgyalható, magyarázva, hogy miért is
nincsenek nem vagy intelligencia alapján meghatározható különbségek a dominancia-változó várható
értékében.
Ezeket egyénileg érdemes interpretálni, azokra az esetekre, helyzetekre koncentrálva, melyek
számunkra fontosak.
SEGÉDANYAG MŰHELYMUNKÁHOZ
63
Csoportok és változók egyidejű hatásának tesztelése
E fejezetben olyan eseteket vizsgálunk, amikor azonos skálán mért változókat (pl. a Szondi-teszt
azonos jelenséget mérő képeit) különböző, egymástól független csoportokban szeretnénk
összehasonlítani. Ilyen kérdés például:
• Igaz-e, hogy a Szondi-teszt sadist1-2-3-4-5-6. képeinek kedveltsége másként viselkedik férfiak
és nők között?
Ennek statisztikai vizsgálata ismételten az előző fejezetben megtapasztalt modellhez vezet: ugyanis
ez is egy összetett helyzet, több lehetséges hipotézist is vizsgálunk egyben.
A modell:
• Mit mondhatunk a Szondi-teszt szadista képeinek kedveltségéről férfiakat és nőket vizsgálva?
Ahogy az előző esetben is, most is csak ROPstat programot használunk, mert ahogy már korábban
megjegyeztük: ezen vizsgálatok az SPSS programcsomagban lényegesen nagyobb eljárás
részfeladataként vannak definiálva – míg a ROPstat beépítve tartalmazza a rangsorolásos eljárásokat
is, megkönnyítve így a robusztus tesztelést.
Ez az eset az úgynevezett vegyes varianciaanalízis, hiszen egyik oldalról csoportokat hasonlítunk
össze, másik oldalról pedig több, egymással összefüggő változót. Mint azt az összefüggő esetén
tapasztaltuk, ennek az esetnek a feltételrendszer-ellenőrzése bonyolult, tehát ebből következően itt
sem várhatjuk el, hogy a szóráshomogenitási (szfericitási) feltétel ellenőrzése megtörténik. Így
érdemes minden esetben a robusztus teszteléssel összevetni a hagyományos eljárás eredményeit.
Továbbá a ROPstat nem tartalmaz olyan eljárást, ahol vegyes VA lenne futtatható rangsorokon, tehát
ezt az esetet sem fogjuk vizsgálni. Így ez a metódus csak nagyobb mintákon alkalmazható (hogy a
normalitás sérülését kivédjük), ráadásul ott is úgy, hogy érdemes a robusztus eljárásokat mindig
megnéznünk a hagyományos eljárás mellé, hiszen nem látjuk a másik feltétel tesztelését sem.
Fontos kiemelnünk, hogy ilyenkor egyszerre több mindent vizsgálunk: a csoportok / változók
(fő)hatásait és az egymásra gyakorolt hatásukat egyaránt teszteljük, tehát egyetlen kérdéssel nem
írható le ennek az eljárásnak a hipotézis-rendszere!
SEGÉDANYAG MŰHELYMUNKÁHOZ
64
SEGÉDANYAG MŰHELYMUNKÁHOZ
65
Ha minden beállításunk helyes, úgy a következő outputot nyerjük:
Kétszempontos vegyes varianciaanalízis FÜGGÓ VÁLTOZÓK: sadist1 sadist2 sadist3 sadist4 sadist5 sadist6 A beolvasott összes eset száma: 277 Érvényes (komplett) esetek száma: 277 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 MINTAÁTLAGOK táblázata Gender Függő változók (Ismétléses szempont) csoport n sadist1 sadist2 sadist3 sadist4 sadist5 male 135 1,274 1,681 2,452 2,637 1,326 female 142 1,289 1,232 2,423 2,739 1,331 ÁTLAG: 1,282 1,451 2,437 2,690 1,329 Gender Függő változók (Ismétléses szempont) csoport n sadist6 ÁTLAG male 135 1,333 1,784 female 142 1,261 1,712 ÁTLAG: 1,296 MINTASZÓRÁSOK táblázata Gender Függő változók (Ismétléses szempont) csoport n sadist1 sadist2 sadist3 sadist4 sadist5 sadist6 male 135 1,109 1,423 1,170 1,273 1,028 1,072 female 142 1,056 1,177 1,034 1,219 1,016 0,958 VARIANCIAANALÍZIS összefoglaló táblázata (Az összetartozó mintás szempont elemzését a súlyozatlan átlagok módszerével végezzük) Szóródás oka f Szórásnégyzet F p-érték Gender 1 2,123 1,146 0,2854 Hibatag-1 275 1,854 ----------------- Ismétlés 5 112,995 96,500 0,0000*** Gende x Ismét 5 2,600 2,221 0,0500* Hibatag-2 1375 1,171 ROBUSZTUS kétszempontos varianciaanalízis - Welch-próba a Gender csoporthatás tesztelésére: F(1; 269,7) = 1,140 (p = 0,2865) Robusztus tesztelések szabadságfok korrekcióval (Geisser-Greenhouse-féle epszilon = 0,931, Huynh-Feldt-féle epszilon = 0,948) - Ismétléses faktor (Ismétléses szempont) Geisser-Greenhouse-féle tesztelése: F(4,7; 1279,5) = 96,500 (p = 0,0000)*** - Ismétléses faktor (Ismétléses szempont) Huynh-Feldt-féle tesztelése: F(4,7; 1304,1) = 96,500 (p = 0,0000)*** Gender x Ismétlés interakció tesztelése: - Geisser-Greenhouse-próba: F(4,65; 1279,45) = 2,221 (p = 0,0547)+ - Huynh-Feldt-próba: F(4,74; 1304,08) = 2,221 (p = 0,0534)+ Ismétléses szempont: szintátlagok Tukey-féle páronkénti összehasonlítása (k = 6, f = 1304): T12= 2,61 T13= 17,77** T14= 21,65** T15= 0,72 T16= 0,22 T23= 15,16** T24= 19,05** T25= 1,89 T26= 2,39 T34= 3,89+ T35= 17,05** T36= 17,55** T45= 20,93** T46= 21,43** T56= 0,50
A tapasztalatok nagyon hasonlítanak arra, amit az összetartozó elemzésekből már megtudtunk. Az
ismétléses faktor (minden esetben ki van emelve, hogy melyik az ismétléses faktor) szignifikáns
különbséget mutat (erről tudunk is már, hiszen vizsgáltuk, hogy a sadist képek pontszámai eltérőek, a
3-4. kép magasabb pontszámokat kap, mint a többi 4).
SEGÉDANYAG MŰHELYMUNKÁHOZ
66
Továbbá itt is „csak” tendencia-szintű interakciókat tapasztalunk, azaz nincsen szignifikáns interakció,
tehát nem mondhatjuk, hogy a nemek másként vélekednének ezekről a képekről, illetve nem
mondhatjuk, hogy a férfiak esetén szignifikánsan eltérő lenne a képek sorrendje (kapott pontszámok
alapján rangsorolva), mint a nőknél.
Műhelymunkabeli megfogalmazás
Jelen esetben, megfogalmazásban szinte másolhatnánk az összetartozó eset adatait erre az esetre is,
hiszen nemenként semmifajta különbséget nem tapasztalunk (illetve szignifikáns különbséget nem
érzékeltünk, ráadásul interakció sem volt).
Sadist képek kedveltségének mértéke a két nem esetén
Az összetartozó mintás (ANO)VA-elemzésből már tudjuk, hogy mind a rang-VA, mind a hagyományos
eljárás azt mutatta, hogy a képek közül a 3-4. képek másként viselkednek.
A vegyes (ANO)VA-elemzés azt mutatta, hogy nincsen nemenként eltérő hatás egyik kép esetén sem,
továbbá nincsen kimutatható szignifikáns interakció sem (p>0,05), azaz elmondható, hogy e fenti, 3-
4. képek eltérő viselkedése nemenként külön-külön vizsgálva a populációt, szintén felfedezhető.
Általánosságban is érvényes: a vegyes, illetve a többszempontos elemzések során részesetként
felmerül az egyszempontos, illetve összefüggő esetek vizsgálata. Ennek következtében ezek az
elemzések rákövetkező elemzések, ahol jogosan hivatkozhatunk a már korábban vizsgált esetekre,
helyzetekre. Ezen esetekben nem szükséges megismételni feltétlenül a hivatkozásokat, elegendő
utalnunk rájuk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
67
Kvantitatív változók közötti kapcsolatvizsgálat
Korábban már ígértem, hogy a VA során tapasztalt egyik output-elemre vissza fogunk térni. A VA
esetén láthatunk egy nemlineáris korrelációs együtthatót és egy eta-négyzetet. Ezek nem mások,
mint a lineáris regresszióból, illetve Pearson-féle korrelációs együtthatóból általánosított mutatók.
A determinációs együttható vagy magyarázott variancia-arány általánosítása jelenik meg a
középértékek összehasonlításakor a ROPstat outputján, amikor nemlineáris magyarázott variancia-
arány mutatókat közöl a program (eta-négyzet).
• Vizsgáljuk meg mindkét programban a dominancia és a szociabilitás kapcsolatát.
Ennek az eljárásnak a sajátossága – az e leírásban szereplő többi eljárással szemben – hogy nincsen
szigorúan vett feltétele, hiszen itt modellt írunk fel. Azt kell tudnunk, hogy ebben az esetben pl.
lineáris regressziót alkalmazunk, azaz a két változó között egy lineáris kapcsolatot fog keresni az
eljárás.
Magyarán: csak azt akarjuk most eldönteni, hogy van-e LINEÁRIS (monoton) kapcsolat a két változó
között. Azonban tudnunk kell, hogy ha a két mért változó normális eloszlású, akkor közöttük csak és
kizárólag lineáris kapcsolat lehet, tehát normális eloszlású változók körében a lineáris kapcsolat
megléte vagy hiánya ekvivalens a meglévő vagy hiányzó kapcsolattal a két változó között.
Ezt az eljárást mind ROPstatban, mind SPSS-ben megnézzük, azonban SPSS-ben két külön eljárást kell
majd futtatni, hogy a ROPstattal azonos outputot kaphassunk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
68
Korrelációs együttható(k) és egyszerű lineáris regresszió – ROPstat programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
69
Amennyiben ilyen beállításokat használunk, a következő outputot nyerjük:
Korreláció, lineáris regresszió A beolvasott összes eset száma: 94 Jelölés: r: Pearson-féle lineáris korrelációs együttható Rpb: Wilcox-féle robusztus korrelációs együttható Tau-b: Kendall-féle tau-b monotonitási együttható Tau: Kendall-féle tau monotonitási együttható p_pos: Pozitív együttjárás (konkordancia) százaléka p_neg: Negatív együttjárás (diszkordancia) százaléka Szignifikancia: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 ELEMZENDŐ VÁLTOZÓPÁR: X = Domin (Dominance) Y = Sociab (Sociability) A mind X, mind Y esetében érvényes értékkel rendelkező esetek száma: N = 82 Változó Átlag Var. Min. Max. Regressziós egyenlet X: Domin 11,84 14,28 4 20 x = 0,779 + 0,757y Y: Sociab 14,62 11,52 7 21 y = 7,395 + 0,610x X: Reziduális variancia (Hibavariancia): MSerr(X) = 7,688, SH(X) = 2,773 Y: Reziduális variancia (Hibavariancia): MSerr(Y) = 6,202, SH(Y) = 2,490 Korrelációk és 95%-os intervallumbecslés az elméleti értékre: r = 0,680*** p = 0,0000 C95 = (0,545; 0,780) Rpb = 0,674*** p = 0,0000 C95 = (0,539; 0,776) tau-b = 0,518*** p = 0,0000 C95 = (0,360; 0,677) tau = 0,478*** p = 0,0000 C95 = (0,330; 0,625) p_poz = 66,6%, p_neg = 18,8%
A korreláció és regresszió esetén lényegében egyetlen hipotézist kell vizsgálnunk: van-e szignifikáns
kapcsolat vagy nincsen? Ezt az output legalsó blokkjában tudjuk ellenőrizni – minden egyéb csak
azután érdekes, hogy szignifikáns kapcsolatot látunk (nem tudunk modellt értelmezni, ha nincs is
kapcsolat).
Azt láthatjuk, hogy mind a Pearson-féle korrelációs együttható ’r’, mind annak robusztus változata,
mind pedig a két Kendall-féle tau-mutató szignifikánsan eltér a 0-tól, mindegyik pozitív és közepesen
erős (az első kettő lineáris, az utóbbi kettő monoton) kapcsolatot jelez.
Az egyenletekből megállapítható, hogy a dominancia és a szociabilitás miként fejezhetőek ki
egymásból.
SEGÉDANYAG MŰHELYMUNKÁHOZ
70
Korrelációs együttható(k) és egyszerű lineáris regresszió – SPSS programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
71
Amennyiben szeretnénk regressziós egyenletet is, úgy egy másik eljárást is futtatnunk kell még – ez
ugyanis csak a következő outputot adja:
A ROPstathoz hasonlóan itt is látható, hogy közepesen erős, szignifikáns kapcsolatot talált a
szociabilitás és a dominancia között. Minden eredmény megegyezik a ROPstat eredményeivel – csak
az egyenleteket nem látjuk még, mert azt egy másik menüpontból kell lekérnünk.
Correlations
1 ,680**
,000
82 82
,680** 1
,000
82 82
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Dominance
Sociability
Dominance Sociability
Correlation is significant at the 0.01 level (2-tailed).**.
Correlations
1,000 ,518**
. ,000
82 82
,518** 1,000
,000 .
82 82
1,000 ,684**
. ,000
82 82
,684** 1,000
,000 .
82 82
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Dominance
Sociability
Dominance
Sociability
Kendall's tau_b
Spearman's rho
Dominance Sociability
Correlation is significant at the 0.01 level (2-tailed).**.
SEGÉDANYAG MŰHELYMUNKÁHOZ
72
A lineáris regresszió a következő módon érhető el az SPSS-ben:
SEGÉDANYAG MŰHELYMUNKÁHOZ
73
Amennyiben mindent helyesen állítottunk be, az alábbi outputot kapjuk:
A modell szignifikanciáját a 3. táblázat (ANOVA) F-statisztikájának szignifikanciája mutatja meg
számunkra. Amennyiben itt a Sig.-érték 0,05 alatti, úgy van értelme tovább foglalkozni a regressziós
modellel (amennyiben a fenti, stepwise-algoritmust használjuk, úgy csak szignifikáns modellt
láthatunk).
Variables Entered/Removed a
Sociability .
Stepwise(Criteria:Probability-of-F-to-enter<= ,050,Probability-of-F-to-remove >=,100).
Model1
VariablesEntered
VariablesRemoved Method
Dependent Variable: Dominancea.
Model Summary
,680a ,462 ,455 2,790Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Sociabilitya.
ANOVAb
534,198 1 534,198 68,625 ,000a
622,741 80 7,784
1156,939 81
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Sociabilitya.
Dependent Variable: Dominanceb.
Coefficients a
,779 1,370 ,568 ,571
,757 ,091 ,680 8,284 ,000
(Constant)
Sociability
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Dominancea.
SEGÉDANYAG MŰHELYMUNKÁHOZ
74
Az első táblázatot csak többváltozós esetben szokás érdemben vizsgálni, ugyanis ebben a táblázatban
kerülnek felsorolásra a modellbe bevont változók. Itt most a dominancia-változóra nyilván a
szociabilitás-változót vontuk be.
Az F-érték alapján tehát szignifikáns kapcsolat van a változóink között, a korrelációs együttható 0,68
(közepesen erős, pozitív kapcsolat) és az ebből számított determinációs együttható (r-négyzet) 0,46.
A felírható modell:
• 0,779 + 0,757*szociabilitás = dominancia
A másik lehetőség a modell ellenőrzésére: ha a modell felírására használt utolsó táblázatban
vizsgáljuk az együtthatók szignifikanciáját (azt vizsgáljuk, hogy az együttható 0 vagy nem 0). Hiszen
amennyiben 0 lenne az együttható, akkor feleslegesen írjuk fel a modellbe.
SEGÉDANYAG MŰHELYMUNKÁHOZ
75
Műhelymunkabeli megfogalmazás
A szociabilitás- és dominancia-változók kapcsolata
A két változó között szignifikáns, pozitív, közepesen erős kapcsolat van (r = 0,68, p = 0,0000). A
magyarázott variancia-arány 0,46 (46%). Megállapítható tehát, hogy a szociabilitás növekedésével a
dominancia növekedése jár együtt.
Figyeljünk oda arra, hogy az ilyen esetekben MINDIG először a szignifikanciát ellenőrizzük. Nem
mondhatunk semmit sem a modellről, ha nincsen szignifikáns viszony – tehát bármely számított
paraméterrel csak akkor van értelme foglalkoznunk, ha meglévő kapcsolatot látunk.
SEGÉDANYAG MŰHELYMUNKÁHOZ
76
Diszkrét változók közötti kapcsolatvizsgálat
Diszkrét változók közötti kapcsolatvizsgálat esetén egy előző fejezetben már tárgyalt
kapcsolatvizsgálatot veszünk elő – más köntösbe bújtatva.
A kétmintás t-próba esetén használtuk nemek között a feminitás nagyságszintjének
összehasonlítását.
Most is hasonló dolgot fogunk tenni - a nem és az IQ kapcsolatát fogjuk vizsgálni. Alapesetben ez egy
kétmintás t-próba lenne, azonban ha övezetes felírása is létezik a folytonos változónak, akkor
ránézhetünk úgy is, hogy alacsony, közepes és magas IQ-szint, melyeknek van-e kapcsolata a nem-
változóval?
• Van-e kapcsolat a nem és az IQ között?
Statisztikai hipotézisként az alábbi vizsgálatot fogjuk végrehajtani:
• Az IQ- és a nem-változók függetlenek egymástól.
Ennek az eljárásnak egyetlen feltétele van, melynek ellenőrzése be van építve mindkét
programcsomagba: az elvárt vagy várható gyakoriságoknak minden egyes cellában (a kereszttábla
minden kategória-párosításában) legalább 5-nek kell lennie. Ez alól kis kivételt tehetünk: amennyiben
a cellák legalább 80%-ában ezt elértük, úgy alkalmazható az eljárás (tehát 2 x 2-es esetben minden
cella, de 2 x 3 cella esetén pl. 1 cellában sérülhet e feltétel).
A 2 x 2-es eset specifikus, ugyanis ebben az esetben használható az úgynevezett Fisher-egzakt próba,
melynek nincsen feltétele: bármikor alkalmazható, bármilyen cellagyakoriság esetén – azonban csak
2 x 2-es esetekre.
SEGÉDANYAG MŰHELYMUNKÁHOZ
77
Kereszttáblás elemzések – ROPstat programcsomagban
SEGÉDANYAG MŰHELYMUNKÁHOZ
78
Ha mindent a fentiek szerint állítottunk be, úgy a következő outputot kapjuk:
Diszkrét változók kapcsolatvizsgálata Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 A beolvasott összes eset száma: 94 KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZAT Sorváltozó: Gender (Gender of subjects) Oszlopváltozó: IQ (IQ of subjects) Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 8 3 5 16 Female 19 37 22 78 Összesen 27 40 27 94 Várt gyakoriságok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 4,6 6,8 4,6 16 Female 22,4 33,2 22,4 78 Összesen 27 40 27 94 Sorösszegek szerinti százalékok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 50,0 18,8 31,3 100,0 Female 24,4 47,4 28,2 100,0 Összesen 28,7 42,6 28,7 100,0 Oszlopösszegek szerinti százalékok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 29,6 7,5 18,5 17,0 Female 70,4 92,5 81,5 83,0 Összesen 100,0 100,0 100,0 100,0 Kétszempontos százalékos gyakoriságok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 8,5 3,2 5,3 17,0 Female 20,2 39,4 23,4 83,0 Összesen 28,7 42,6 28,7 100,0 KAPCSOLATI MUTATÓK Cramér-féle kontingencia-együttható, V = 0,245 Goodman-Kruskal-féle predikciós mutatók A) Mind a sor-, mind az oszlopváltozó véletlen változónak tekinthető: - Oszlopváltozó predikciója a sorváltozó alapján: Lambda(oszlop|sor) = 0,093, Tau(oszlop|sor) = 0,032 - Sorváltozó predikciója az oszlopváltozó alapján: Lambda(sor|oszlop) = 0,000, Tau(sor|oszlop) = 0,048 B) Csak a bejósolandó változó tekinthető véletlen változónak: - Oszlopváltozó predikciója a sorváltozó alapján: Lambda*(oszlop|sor) = 0,184, Tau*(oszlop|sor) = 0,056 - Sorváltozó predikciója az oszlopváltozó alapján: Lambda*(sor|oszlop) = 0,000, Tau*(sor|oszlop) = 0,054 Közös információ-hányad - Oszlopváltozó predikciója a sorváltozó alapján: UC(oszlop|sor) = 0,028 - Sorváltozó predikciója az oszlopváltozó alapján: UC(sor|oszlop) = 0,067 FÜGGETLENSÉG TESZTELÉSE Khi-négyzet-próba (f = 2): Khi2 = 5,649 (p = 0,0593)+ FIGYELEM: Túl sok az 5-nél kisebb várt gyakoriságok száma: k = 2 Emiatt a khi-négyzet-próba érvényessége kétséges lehet.
SEGÉDANYAG MŰHELYMUNKÁHOZ
79
A kereszttáblás elemzések során a leíró statisztikai részekhez tartoznak a különböző táblázatok:
tapasztalati gyakoriságok, százalékos eloszlások – sor- és oszlopösszeg szerint, illetve a teljes
százalékos megoszlás.
A predikciós mutatók és egyéb mutatók akkor értelmesek, ha az egész elemzéshez tartozó khi-
négyzet statisztika (mely a függetlenség-tesztelés elnevezésű, utolsó blokkban található) szignifikáns.
Esetünkben ezzel több gond is adódik, mert egyik oldalról a várható gyakoriságok nem elég nagyok
(le tudjuk ellenőrizni, hogy 2 cellában is 5 alatti értéket kapunk), másik oldalról pedig az érték csak
tendencia-szintű. Tehát elmondható, hogy az IQ- és a nem-változók függetlenek egymástól.
Természetesen ez azt jelenti, hogy a predikciós mutatók (valaki neméből előre tudnánk-e jelezni az
IQ-ját?), illetve a kapcsolat erősségét mérő kontingencia-együtthatók nem magyarázhatók.
SEGÉDANYAG MŰHELYMUNKÁHOZ
80
Kereszttáblás elemzések – SPSS programcsomagban
Az SPSS programcsomagnak ez a fejezete a leíró statisztikáknál található meg (ne keverjük össze a
nemparaméteres statisztikák khi-négyzet-próbájával).
SEGÉDANYAG MŰHELYMUNKÁHOZ
81
Ezen beállításokkal az alábbi táblázatokat, outputot nyerjük:
Case Processing Summary
94 100,0% 0 ,0% 94 100,0%Gender of subjects *Kódolt IQ: Készült az IQváltozó övezetei alapján
N Percent N Percent N Percent
Valid Missing Total
Cases
Gender of subjects * Kódolt IQ: Készült az IQ válto zó övezetei alapján Crosstabulation
8 3 5 16
4,6 6,8 4,6 16,0
50,0% 18,8% 31,3% 100,0%
29,6% 7,5% 18,5% 17,0%
8,5% 3,2% 5,3% 17,0%
19 37 22 78
22,4 33,2 22,4 78,0
24,4% 47,4% 28,2% 100,0%
70,4% 92,5% 81,5% 83,0%
20,2% 39,4% 23,4% 83,0%
27 40 27 94
27,0 40,0 27,0 94,0
28,7% 42,6% 28,7% 100,0%
100,0% 100,0% 100,0% 100,0%
28,7% 42,6% 28,7% 100,0%
Count
Expected Count
% within Gender ofsubjects
% within Kódolt IQ:Készült az IQ változóövezetei alapján
% of Total
Count
Expected Count
% within Gender ofsubjects
% within Kódolt IQ:Készült az IQ változóövezetei alapján
% of Total
Count
Expected Count
% within Gender ofsubjects
% within Kódolt IQ:Készült az IQ változóövezetei alapján
% of Total
Male
Female
Gender ofsubjects
Total
low middle high
Kódolt IQ: Készült az IQ változóövezetei alapján
Total
Chi-Square Tests
5,649a 2 ,059
5,769 2 ,056
1,167 1 ,280
94
Pearson Chi-Square
Likelihood Ratio
Linear-by-LinearAssociation
N of Valid Cases
Value dfAsymp. Sig.
(2-sided)
2 cells (33,3%) have expected count less than 5. Theminimum expected count is 4,60.
a.
SEGÉDANYAG MŰHELYMUNKÁHOZ
82
Az első táblázatban a hiányzó adatok számát követhetnénk nyomon. A második táblázatban látható
EGYBEN az a négy táblázat, ami a ROPstat sor-/oszlop-/teljes százalékos megoszlása, illetve várható
eloszlása (blokkonként: tapasztalt, várható, sor-, oszlop- és teljes %).
Az utolsó előtti táblázat tartalmazza a megfelelő khi-négyzet statisztikát, majd az utolsó táblázat a
belőle képezett, kapcsolat erősségét mérő kontingencia-együtthatókat.
Ezek alapján is az mondható el, hogy nincsen szignifikáns kapcsolat a nem és az IQ között.
Műhelymunkabeli megfogalmazás
A nem- és az IQ-változó kapcsolata
A két változó között nem tapasztalható szignifikáns összefüggés (khi-négyzet = 5,649, Sig. = 0,059).
Ráadásul a várt gyakoriságok miatt ez az érték megbízhatatlannak is tűnik, hiszen túl sok cellában (2)
sérült a próba feltétele. Az eredményünket úgy is interpretálhatjuk, hogy valaki neméből nem tudunk
az intelligenciahányadosának mértékére, pontosabban annak nagyságszintjére következtetni.
Figyeljünk oda arra, hogy az ilyen esetekben MINDIG először a szignifikanciát ellenőrizzük! A
kontingencia-együttható nagyságszintje nem mond semmit olyan esetekben, amikor a khi-négyzet
statisztika alapján a függetlenség nem elvethető.
Symmetric Measures
,245 ,059
,245 ,059
,238 ,059
94
Phi
Cramer's V
Contingency Coefficient
Nominal byNominal
N of Valid Cases
Value Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the nullhypothesis.
b.
SEGÉDANYAG MŰHELYMUNKÁHOZ
83
MELLÉKLET: Adatrögzítés (Treit Noémi)
A műhelymunka igen lényeges része az adataink statisztikai elemzése. Ahhoz azonban, hogy elemezni
tudjunk bármit is, létre kell hoznunk egy adatfájl. Ehhez nyújt segítséget ez az összefoglaló.
Milyen programokkal lehet adatot rögzíteni? Amit mindenképpen használnunk kell majd a statisztikai
elemzésekhez, az a ROPstat vagy az SPSS, így célszerű e két program valamelyikében rögzíteni az
adatokat. (Persze aki valamely egyéb statisztikai programcsomagot szokott használni, és azt tudja jól
kezelni, az használhatja most is azt).
Adatrögzítés ROPstatban
Ha megnyitjuk a ROPstatot, egy 1 x 1-es táblázat fog minket fogadni. Először is a változóinkat kell
definiálni. Ehhez új változó(ka)t kell beilleszteni. Ezt a ’Változók/Új változó beillesztése’ menüpontban
tehetjük meg.
Ha erre rákattintunk, egy új ablak ugrik elő, itt állíthatjuk be, hogy hány változót és hova szeretnénk
beilleszteni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
84
Ha elkészült a kellő mennyiségű oszlopot tartalmazó táblázat, akkor váltsunk át a ’Változók
deklarációi’ nézetre.
A változóinkat itt tudjuk elnevezni, címkézni, minimum/maximum értékeket beállítani.
Hogy mi mit jelent?
• Rövid név: Egy rövid név, ami utal a változóra, lehetőleg ékezetek nélkül. (Fontos
megjegyezni, hogy 8 karakternél hosszabb nevet nem ildomos adni a más programokba
történő konvertálhatóság fenntartása végett. Továbbá kerüljük el az egzotikus karaktereket,
ékezetes betűket, illetve lehetőség szerint az írásjeleket (?, %, !... például ne kerüljön bele)).
• Hosszú név: Hosszabb magyarázat, hogy az a változó mit takar. 100 karakternél ne írjunk
hosszabbat.
• Típus: Lehet numerikus, szöveg, link, dátum. Általában numerikus adatokkal dolgozunk. Ha
belekattintunk a cellába, megjelenik mellette egy szürke téglalap, arra kattintva egy
párbeszédablakban beállítható a típus, a minimum és maximum érték, illetve a hiányzó
adatok kódolására szolgáló érték(ek).
• Csoportnév: Alapesetben nem kell vele foglalkozni, akkor fontos, ha övezetesíteni
szeretnénk. A folytonos változóinkat itt tudjuk diszkrét változókká alakítani. Szintén
belekattintva, majd a megjelenő szürke téglalapra kattintva, a párbeszédablakban beállítva,
hogy mettől meddig milyen új értéket és milyen címkét kapjon a változónk, ezeket a
’Hozzáad’ gombbal egyenként bevisszük, majd ok.
• Csoporttípus: Lehet kódokkal (tipikusan a nemnél, illetve bármely nominális/ordinális
változónál fordul ez elő), övezetekkel (kort, IQ-t lehet például övezetesíteni, de igazából
bármit), vagy figyelmen kívül is hagyhatjuk, és nem definiálunk csoportokat.
• Hiányzó: A hiányzó adatokat jelölő értékek szerepelnek itt. Belekattintva, a szürke téglalapra
kattintva a párbeszédablakban a diszkrét hiányzó értékeknél lehet beállítani. Olyasmire kell
itt gondolni, hogy az illető nem hajlandó válaszolni, nem érti a kérdést, nyomdahibás a
kérdőív, amit megkapott. Ezek a lehetőségek mind más és más okból eredményeznek
hiányzó értékeket – ezeket külön-külön definiálhatjuk és rögzíthetjük, így a hiányzó értékek
mélyebb elemzése is lehetségessé válik.
SEGÉDANYAG MŰHELYMUNKÁHOZ
85
Egy példa ROPstatban
• Az első változó egy azonosító szám 1 és 94 között.
• A második változó a kísérleti személy neme, kódokkal definiálva: 1-férfi, 2-nő.
• A harmadik változó a kísérleti személy kora, 18 és 41 év között. Ha nem adta meg, vagy más
okból nincs róla adatunk, akkor hiányzó értéket jelezve 999 szerepel a táblázatban.
• A negyedik változó az IQ. 90 és 160 közötti értékek, viszont övezetekkel megadva, 125 alatt
alacsony, 141 fölött magas, a kettő között közepes.
Ha kész a változók deklarációja, következhet a táblázat feltöltése. Minden egyes sor egy kísérleti
személy adatait tartalmazza. Új eseteket az ’Esetek/Új eset beillesztése’ menüpontra kattintva
tudunk beilleszteni.
SEGÉDANYAG MŰHELYMUNKÁHOZ
86
Az előugró párbeszédablakban tudjuk beállítani, hogy hány új sort szeretnénk beilleszteni, és azok
hova kerüljenek.
Így elkészült egy megfelelő méretű táblázat, ebbe kell bevinni az adatainkat.
Mit hogyan érdemes kódolni? Ezekre legfeljebb példákat mondhatunk:
• Nem: férfi=1, nő=2.
• Személyiségmutatók: Egy értékkel. (Itt a következőkre kell gondolni: felveszünk valakivel egy
empátia-tesztet. A tesztben állításokat kell osztályozni 1 és 5 között. Ekkor az adataink
sorában MINDEN kérdést rögzítünk egy 1 és 5 közötti értékkel, továbbá a
személyiségmutatónak is készítünk egy új változót, melybe az összesítést is felvisszük.)
• Korcsoportok: Övezetekkel vagy az előbb megjelelölt egy darab évszámmal. Természetesen
minden folytonos változóra lehet övezeteket definiálni, pontosítva vagy árnyalva így annak
jelentését.
SEGÉDANYAG MŰHELYMUNKÁHOZ
87
Övezetesítés ROPstatban
Előfordulhat, hogy a folytonos változó helyett az elemzésben jobb, ha csoportokkal tudunk dolgozni.
Ilyenkor övezetekre kell bontani a folytonos változót. Erre a ROPstatban 2 lehetőség is van, íme a
könnyebb:
A ’Változók deklarációi’ nézetben az adott változónál a ’Csoportnevek’ mezőbe kattintva, majd a
megjelenő szürke téglalapra kattintva ugrik fel a párbeszédablakunk.
Itt a ’-tól’ és ’-ig’ után megadjuk a csoport határait, alatta a csoport nevét (opcionális), majd a
’Hozzáad’ gombra kattintva felvesszük a csoportot. Minden csoporttal így járunk el. Ha készen
vagyunk, akkor valami hasonlót kell látnunk:
Tehát megjelennek sorban, egymás alatt a csoportok. Ezek után a ’Változók deklarációi’ nézetben
már a csoportokat is feltünteti a program. A csoport típusát ilyenkor állítsuk át ’övezetek’-re.
SEGÉDANYAG MŰHELYMUNKÁHOZ
88
Adatrögzítés SPSS-ben
Nagyon hasonlóan működik, mint a ROPstatban, csak itt már nagyobb üres táblázat fogad minket,
rögtön a program indításakor. A ’Variable View’ nézetben beállítjuk a változóink neveit,
tulajdonságait, majd a ’Data View’ nézetben kitöltjük a cellákat úgy, hogy megint minden sor egy
kísérleti személynek felel meg.
A változók tulajdonságai a táblázatban:
SEGÉDANYAG MŰHELYMUNKÁHOZ
89
A ’Variable View’ nézet oszlopainak jelentése:
• Name: mint a rövid név ROPstatban.
• Type: mint a típus ROPstatban.
• Width: ilyen szélességű számsort/adatot tudunk rögzíteni (ennyi karakterrel dolgozhatunk).
• Decimals: amennyiben nem egész számokkal dolgozunk, úgy az adattáblánk megjelenítésekor
ennyi tizedesjegyet ír ki a program (a többi tizedesjegyet is rögzítjük, csak átláthatóbb lesz az
adattáblánk).
• Label: mint a hosszú név ROPstatban.
• Values: mint a csoportnevek ROPstatban.
• Missing: mint a hiányzó ROPstatban.
• Columns: Ezzel állíthatjuk be, hogy milyen széles legyen az oszlop, amikor az adatokat nézzük
a másik nézetben. (Pl. a nem 1 és 2 kódjainak felesleges egy 30 hosszúságú oszlopot kijelölni,
ami betölti a fél képernyőt.)
• Align: itt lehet beállítani, hogy balra, jobbra vagy középre igazítsa a cellában az adatot.
• Measure: Skálatípus. Lehet nominális, ordinális és scale, azaz skála.
• Role: ez régebbi verziójú SPSS-ben nem szerepel (pl. 15-ös verziószám). Ezek már más
programokhoz kapcsolódó beállítások inkább – jelen esetben ezt nem fogjuk kihasználni,
nekünk minden változónk input kategória.
Itt a nevek helyére kattintva kétszer a cellába már írhatjuk is be, amit szeretnénk, ahol pedig
beállítást kell megadni, ott egyszer a cellába kell kattintani, majd a megjelenő kékes négyzetre
kattintva egy párbeszédablak ugrik elő, amit értelemszerűen kitöltve tudunk beállításokat megadni. A
beállítások nagyon hasonlítanak a ROPstatban már megszokottakhoz, így ezekre külön nem térnénk
ki. Van azonban egy érdekes lehetőség a két program között – mely az átjárást biztosítja számunkra.
SEGÉDANYAG MŰHELYMUNKÁHOZ
90
Meglévő ROPstat adatfájl átvitele SPSS-be
Ez az opció szokott a gyakoribb lenni, azaz a ROPstat-adatokat szoktuk átvinni SPSS-környezetbe.
(Visszafelé nagyon könnyű, mert csak el kell menteni az SPSS-adatot ’SPSS portable’ formátumban,
azt ugyanis meg tudja nyitni a ROPstat).
Ha a ROPstatban már rögzítettük az adatainkat,
akkor könnyen átkonvertálhatjuk őket SPSS
adatfájllá.
A ROPstatban a megnyitott adatfáljnál a
’Fájl/Mentés SPSS-formátumban’ menüpontra
kattintva elmentjük a ’.dat’-kiterjesztésű fájlt és
egy SPSS-syntaxot azonos névvel és általunk
megadott helyre a merevlemezünkön.
Ezután az SPSS-ben a
’File/Open/Syntax’ menüponttal
előhozott ablakban kikeressük azt a
mappát, amibe korábban
mentettünk, és kiválasztjuk a
megfelelő ’.sps’-kiterjesztésű fájlt.
Ezt lefuttatva a program létrehozza
az SPSS-adatfájlunkat.
Feltétlenül figyeljünk arra, hogy az
egész szövegtörzs ELSŐ sorában
megadott elérési útvonal helyes
legyen, azaz a számítógép jó
helyen keresse a kimentett
adatokat.
SEGÉDANYAG MŰHELYMUNKÁHOZ
91
A futtatás a ’Run/All’ paranccsal történik, vagy a ’Play’ gomb megnyomásával.
A futtatás után megnyílik az elemzések (output) ablaka – visszajelzést kapunk, hogy a beolvasás
sikeres volt-e. Egy külön ablakban az adatfájlunkat is megnyitja a program, melyben minden
ROPstatban tárolt információt megtalálunk. Amire figyelnünk kell: az SPSS-ben nincsen övezetes
bontás, így azon változókat, ahol megadtunk övezeteket (nem kódokat, szigorúan övezetek, mint
fentebbi példánál az IQ), ott az SPSS minden ilyen változóhoz 1-1 új változót fog definiálni, melyben
az övezetek kódokkal lesznek rögzítve. Ezt mi is meg tudjuk tenni, az alábbi módon:
SEGÉDANYAG MŰHELYMUNKÁHOZ
92
Övezetesítés SPSS-ben
Az SPSS ezen a ponton jelentős mértékben eltérően működik, mint a ROPstat. Ahhoz, hogy
övezeteket tudjunk definiálni, egy új változót kell létrehoznunk az eredeti – általában folytonos –
változónkból.
A ’Transform/Recode into Different Variables’ menüponttal hívjuk elő az alábbi párbeszédablakot.
Először kiválasztjuk a folytonos változónkat, amit övezetesíteni szeretnénk. Rákattintva, majd a nyílra
nyomva átvisszük az ’Input Variable’ dobozba. Az ’Output Variable’ részt kitöltjük, mégpedig úgy,
hogy a ’Name’-hez az új változónk rövid nevét, a ’Label’ mezőbe pedig az új változónk hosszú nevét
írjuk, majd meg kell nyomnunk a ’Change’ gombot is. Ha ez utóbbit elmulasztjuk, nem tudunk
továbbmenni. Ekkor az ’Input Variable’ dobozban megjelenik az új változónk neve is. Ezek után így
kell kinéznie az ablaknak:
SEGÉDANYAG MŰHELYMUNKÁHOZ
93
A következő lépés az övezetek megadása az ’Old and New Values’ gombra kattintva. Ekkor újabb
ablak ugrik fel.
Az ’Old Value’ hasábban a régi adatokat adjuk meg. Meg lehet adni egy konkrét értéket, illetve
intervallumokat is. Mi az intervallumokat fogjuk használni. A ’Range’ cellákba megadhatjuk az
intervallum határait (ehhez ki is kell jelölni a megfelelő ’Range’ típust. Az elsőben konkrét
intervallumot tudunk megadni, a másodikban egy értéket és annál kisebbeket kódolhatunk (lefelé
nyílt, végtelen intervallum), a harmadik lehetőségnél pedig egy adott értéknél nagyobb értékeket
kódolhatunk át (felfelé nyílt, végtelen intervallum).
SEGÉDANYAG MŰHELYMUNKÁHOZ
94
A ’New Value’ hasábban megadjuk, hogy a beállított intervallumnak mi legyen az új értéke. (Ez az új
érték alapbeállításban egy szám, de ha szöveget szeretnénk, akkor ki kell pipálni az ’Output variables
are strings’ beállítást. Ezt elenyészően ritkán használjuk). Ha ezt beállítottuk, az ’Add’ gombra
kattintunk, a beállítás ekkor megjelenik az ’Old->New’ dobozban. Így megadhatjuk az összes
intervallumot, illetve kódot. Ha készen vagyunk, akkor nyomjunk a ’Continue’ gombra. Nagyjából így
kéne kinéznie a végén a kódolásnak:
’Continue’ után az eredeti ablakot kapjuk vissza, itt ’Paste’ vagy ’OK’. ’Paste’ után a syntaxot
lefuttatva ’Variable View’-ban leellenőrizhetjük, hogy megjelent-e az új változónk (a ’Paste’ azért
lehet hasznos, mert könnyen előfordulhat több hasonló újrakódolás egy elemzési munka
előfázisaként. Ekkor nem kell mindegyiket végigkattintgatni, hanem elegendő egyszer – majd utána
bármely szövegszerkesztőben tudunk másolatokat készíteni, és azokat át tudjuk írni a megfelelő
formába.
Megjegyzések az adatrögzítéshez
A műhelymunkában/szakdolgozatban is meg kell majd mindent magyarázni. Melyik változó, érték
mit takar, hozzájuk kapcsolódóan milyen érték mit jelent. Miként történt meg az adatrögzítés, miként
vetted fel az adatokat. Milyen elvek mentén hoztál létre övezeteket, kódokat. Amennyiben
megfelelően pontosan, gondosan járunk el, úgy erről a folyamatról készíthetünk egy dokumentumot,
melyben mindezen fenti kérdésekre választ adunk: az adatok mit takarnak, mit hogy kezeltünk. Ez
azért is hasznos, mert ha évek múlva valamiért hozzá akarsz nyúlni ezekhez az adatokhoz, akkor itt
vissza lehet keresni, hogy mi micsoda, ha már nem emlékszünk rá.
SEGÉDANYAG MŰHELYMUNKÁHOZ
Melléklet – Összefoglaló táblázat
Kérdésfelvetés Mit vizsgálunk? Feltétel Alkalmazandó eljárás
Adott változó középértékére vonatkozó kérdés. - Igaz-e, hogy az IQ várható értéke (elméleti átlaga) a
vizsgált populációban 100?
A változó átlagát vizsgáljuk (tetszőleges adott értékkel egyezés).
A vizsgált változó eloszlása normális. Hagyományos egymintás t-próba
A változó átlagát vizsgáljuk (tetszőleges adott értékkel egyezés).
A vizsgált változó folytonos. Hagyományos egymintás t-próba robusztus változatai (Johnson, Gayen)
A változó mediánját vizsgáljuk (tetszőleges adott értékkel egyezés).
A vizsgált változó folytonos és szimmetrikus. Wilcoxon-próba
A változó nagyságszintjét vizsgáljuk (tetszőleges adott értéknél található-e a közepe a populációnak).
A vizsgált változó skálája legalább ordinális. Előjelpróba
Egy változót vizsgálunk két független mintában. - Igaz-e, hogy a férfiak és a nők várható
dominanciájának szintje nem tér el?
A változó átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.
Hagyományos kétmintás t-próba
A változó átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.
Hagyományos kétmintás t-próba robusztus változata (Welch-féle d-próba)
A változó mediánját, nagyságszintjét vizsgáljuk.
A vizsgált változó folytonos, persze így automatikusan ordinális is.
Sztochasztikus egyenlőség (Mann–Whitney-próba)
A vizsgált változó nominális – tehát az eloszlását vizsgáljuk.
A várt gyakoriságok legalább 5-ös értéke a vizsgált változó minden kategóriájában.
Khi-négyzet-próba
Egy változót vizsgálunk több független mintában. - Igaz-e, hogy a fővárosi, vidéki városi és községi
lakosok keresetének nagyságszintje megegyezik?
A változó átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.
Hagyományos egyszempontos VA
A változó átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.
Hagyományos egyszempontos VA robusztus változata (pl. Brown–Forsythe-próba)
A változó mediánját, nagyságszintjét vizsgáljuk.
A vizsgált változó folytonos, persze így automatikusan ordinális is.
Sztochasztikus homogenitás (Kruskall–Wallis-próba)
A vizsgált változó nominális – tehát az eloszlását vizsgáljuk.
A várt gyakoriságok legalább 5-ös értéke a vizsgált változó minden kategóriájában.
Khi-négyzet-próba
Egy változó két időpontban, azonos mintán – vagy két, azonos skálán mért változó, azonos mintán.
- Igaz-e, hogy futás előtt és futás után a várható vérnyomás mértéke azonos?
A különbségváltozó átlagát vizsgáljuk (0-val egyezés).
A különbségváltozó eloszlása normális. Összetartozó mintás t-próba
A különbségváltozó átlagát vizsgáljuk (0-val egyezés).
A különbségváltozó folytonos. Összetartozó mintás t-próba robusztus változatai (Johnson, Gayen)
A különbségváltozó mediánját vizsgáljuk (0-val egyezés).
A különbségváltozó folytonos és szimmetrikus. Wilcoxon-próba
A különbségváltozó nagyságszintjét vizsgáljuk (0-nál található-e a közepe a populációnak).
A különbségváltozó skálája legalább ordinális. Előjelpróba
SEGÉDANYAG MŰHELYMUNKÁHOZ
Kérdésfelvetés Mit vizsgálunk? Feltétel Alkalmazandó eljárás
Egy változó több eltérő időpontban, azonos mintán – vagy kettőnél több, azonos skálán mért változó összehasonlítása, azonos mintán.
- Igaz-e, hogy futás előtt, alatt és után a várható vérnyomás mértéke azonos?
A változó / változók átlagának megváltozását vizsgáljuk a különböző időpontokban.
A változók együttes normalitása és a szfericitási feltétel.
Friedman-próba
A változó / változók átlagának megváltozását vizsgáljuk a különböző időpontokban.
A változók együttes normalitása teljesül, de a szfericitás nem.
Friedman-próba robusztus változatai
A változó / változók sztochasztikus homogenitását teszteljük.
A változók eloszlása folytonos, ordinális. Rang-VA
A változó / változók nominális(ak), tehát az eloszlás megváltozása a kérdés.
A várt gyakoriságok legalább 5-ös értéke a vizsgált változó(k) esetén.
McNemar-próba
Egy változó nagyságszintjét vizsgáljuk két csoportosító változó mentén, egyidejűleg.
- Igaz-e, hogy a fővárosban, vidéki városokban, illetve községekben a férfiak és nők stressz-tűrése azonos mértékű?
A változó átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.
Kétszempontos, hagyományos VA
A változó átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.
Kétszempontos, hagyományos VA robusztus változatai
A változó mediánját, nagyságszintjét vizsgáljuk.
A vizsgált változó folytonos, persze így automatikusan ordinális is.
Kétszempontos rang-VA
Csoportokat és változókat vizsgálunk egyidejűleg. - Igaz-e, hogy futás előtt, alatt és után a vérnyomás
mértéke férfiaknál és nőknél megegyezik?
A változók átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.
Vegyes VA
A változók átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.
Vegyes VA robusztus változatai (általában ezt használjuk)
A változók mediánját, nagyságszintjét vizsgáljuk.
A vizsgált változó folytonos, persze így automatikusan ordinális is.
Vegyes rang-VA
Két változó közötti kapcsolat. - Igaz-e, hogy a dominancia és a szociabilitás
összefügg? A változók kvantitatívak. eseti Korreláció, monotonitási együtthatók
- Igaz-e, hogy a dominancia és a lakóhely összefügg? Az egyik változó kvantitatív, a másik diszkrét.
eseti T-próba vagy VA
- Igaz-e, hogy a szemszín és a hajszín összefügg? Mindkét változó diszkrét. eseti Kereszttáblás elemzés, khi-négyzet-próba