Statisztikai Segédanyag Műhelymunkához

96
KÁROLI GÁSPÁR REGORMÁTUS EGYETEM, PSZICHOLÓGIAI INTÉZET STATISZTIKAI SEGÉDANYAG Műhelymunkákhoz, szakdolgozatokhoz Takács Szabolcs 2011 verzió: 0.9

description

Statisztikai Segédanyag Műhelymunkához Ropstat

Transcript of Statisztikai Segédanyag Műhelymunkához

Page 1: Statisztikai Segédanyag Műhelymunkához

KÁROLI GÁSPÁR REGORMÁTUS EGYETEM, PSZICHOLÓGIAI INTÉZET

STATISZTIKAI SEGÉDANYAG

Műhelymunkákhoz, szakdolgozatokhoz

Takács Szabolcs

2011 verzió: 0.9

Page 2: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

2

Tartalomjegyzék Bevezető .............................................................................................................................................. 3

A minta bemutatása ............................................................................................................................ 4

DISZKRÉT VÁLTOZÓK ESETE – Gyakorisági elemzés a NEM-változóra ............................................ 5

FOLYTONOS VÁLTOZÓK ESETE – a KOR-változó bemutatása ........................................................ 10

KÖZÉPÉRTÉKEK VIZSGÁLATÁRA VONATKOZÓ HIPOTÉZISEK ............................................................. 20

Egy változó nagyságszintjének tesztelése ..................................................................................... 22

Egy változó nagyságszintjének tesztelése 2 csoportban ............................................................... 28

Egy változó nagyságszintjét szeretnénk tesztelni legalább 3 csoportban ..................................... 37

Két összetartozó mintát tesztelünk ............................................................................................... 49

Két összetartozó minta tesztelése– ROPstat programcsomagban................................................ 50

Legalább 3 összetartozó mintát tesztelünk ................................................................................... 52

Két csoportosító változó egyidejű hatásának tesztelése ............................................................... 56

Csoportok és változók egyidejű hatásának tesztelése .................................................................. 63

Kvantitatív változók közötti kapcsolatvizsgálat ................................................................................. 67

Diszkrét változók közötti kapcsolatvizsgálat ..................................................................................... 76

MELLÉKLET: Adatrögzítés (Treit Noémi) ............................................................................................ 83

Adatrögzítés ROPstatban............................................................................................................... 83

Övezetesítés ROPstatban .............................................................................................................. 87

Adatrögzítés SPSS-ben ................................................................................................................... 88

Meglévő ROPstat adatfájl átvitele SPSS-be ................................................................................... 90

Övezetesítés SPSS-ben .................................................................................................................. 92

Megjegyzések az adatrögzítéshez ................................................................................................. 94

Melléklet – Összefoglaló táblázat ...................................................................................................... 95

Külön köszönet illeti meg Fenyőné Piró Krisztinát, amiért többszörösen átnézte a dolgozatot, kijavítva

benne értelmezési és egyéb hibákat, továbbá Treit Noémit, amiért az adatrögzítési mellékletet

elkészítette.

Page 3: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

3

Bevezető

A műhelymunkák egyik részét képezheti a saját kutatásokon alapuló statisztikai vizsgálatok leírása.

Ezen leírás tartalmazhat következtetéseket, eredményeket bemutató ábrákat táblázatos vagy színes

ábrák formájában. A következtetéseket hipotéziseken keresztül tudjuk a statisztika eszköztárával

vizsgálni, melyeknél elengedhetetlen, hogy a szakmai (nem statisztikai) hipotéziseket olyan formában

tudjuk megfogalmazni, hogy az utána statisztikai eszköztárral vizsgálható legyen, illetve a vizsgálati

eredményeinket is releváns módon tudjuk bemutatni.

A hipotéziseken túlmenően természetesen a mintát magát, illetve a mérőeszközt is fontos

bemutatnunk – ezen részekhez azonban nem rendelünk hipotéziseket, itt „csak” leírjuk a minta

jellemzőit (arányok, középértékek, szóródási mutatók).

Jelen leírás célja, hogy egy vagy két, mindenki által megszerezhető adatfájlon (CPI, Szondi – a ROPstat

beépített adatai) végigvegyük egy átlagos műhelymunka során fellépő statisztikai eljárásokat. A

hipotéziseket mind a műhelymunkák, mind pedig a statisztika nyelvezetével megfogalmazzuk,

továbbá a lehetséges vizsgálati eszközöket is sorra vesszük. Továbbá megfogalmazzuk a lehetséges

következtetéseket is – a statisztikai hivatkozásokkal, szükséges mutatókkal egyetemben.

A leírás során két rendező elvet veszünk figyelembe: a műhelymunkák során használt sorrendet

(minta bemutatása, statisztikai vizsgálatok, következtetések), illetve a statisztikai rendező elvet – mit

vizsgálunk.

A vizsgálatok lépéseit minden esetben a programokból vett képernyő-képekkel fogom bemutatni,

aránylag kevés megjegyzéssel a lépéseknél – de magyarázattal az outputok elemeihez. Továbbá

kiemeljük az összetettebb outputok esetén, hogy mely részek közlése fontos egy műhelymunkában,

illetve mely részek kellenek a döntéshozatalnál.

A műhelymunka során nem feltétlenül kell ragaszkodni 1-1 program használatához – alapvetően azt

kell alkalmazni, melynek outputja a leginkább megfelel, legkönnyebben interpretálható és

értelmezhető a számunkra – illetve amelyikben a legkényelmesebb módon tudunk dolgozni és

eredményei általánosan elfogadottnak minősülnek.

E leírás során alapvetőnek tekintjük, hogy a két, elemzésre használt program (ROPstat és SPSS)

ismert, a változók struktúrája, leírása nem jelent gondot – címkézés, hosszú és rövid nevek,

kódutasítások. Az elemzési részekre koncentrálunk, az adatrögzítési feladatot megoldottnak

tekintjük.

Page 4: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

4

A minta bemutatása

A minta bemutatása során általában kétfajta döntési helyzetünk adódik: a változó, melyet be kell

mutatnunk, diszkrét vagy folytonos (illetve kvalitatív vagy kvantitatív) – ennek megfelelően kell

statisztikai mutatókat választanunk. Vannak természetesen olyan változók is, ahol mindkét eszköz

bevethető, ilyenkor választási szempontként azt tartsuk be, hogy a későbbiekben az adott változóra

vonatkozó hipotéziseket milyen eszközzel fogjuk vizsgálni.

PÉLDA

A CPI adatfájllal dolgozunk. Ebben az adatfájlban több, a minta leírásához fontos változó is szerepel.

Ezek közül a NEM-változó egyértelműen diszkrét, így ennek bemutatására gyakorisági táblázat vagy

diagram (esetleg mindkettő) bevethető.

A KOR-változó egy alapvetően folytonos változó, így ebben az esetben átlagot, szórást és egyéb

mutatókat lehet a minta ismertetéseként felhozni (ferdeség és csúcsosság, minimum és maximum,

illetve standardizált minimum és maximum értéket stb.)

Azon változókra, ahol mindkét eljárás bevethető, jó példa az iskolai érdemjegyek bemutatása: van

értelme annak, hogy leírjuk, hogy egy dolgozatnál hány darab jeles, jó stb. érdemjegy született.

Azonban az osztályátlagnak szintén van jelentése, a szóródási mutatók segíthetnek feltárni a diákok

közötti különbségeket – vagy épp annak ellenkezőjét, alacsony szórás esetén. Így pl. osztályzatoknál

nem feltétlenül a változó alapján döntünk.

Általánosságban – és e harmadik esetben mindenképpen – az lehet a legjobb irányelv, ha a később

alkalmazandó hipotézisvizsgálati eljárásokat vesszük figyelembe:

1) Ha egy osztály átlagát szeretnénk vizsgálni, összehasonlítani egy várt eredménnyel vagy

egy másik osztály eredményével, akkor a minta – a változó – bemutatásánál erre

koncentráljunk, és számítsuk ki a szükséges paramétereket.

2) Amennyiben a változó eloszlását szeretnénk tesztelni (egyenletes-e a jegyek eloszlása),

vagy kíváncsiak vagyunk, hogy több-e az elégtelen és elégséges osztályzatok száma, mint a

jó és jeles osztályzatoké, akkor a gyakoriságokat érdemes bemutatni.

3) Harmadik lehetőség, hogy ha nem tudjuk egyértelműen eldönteni (előfordulhat), vagy

mindkét elemzés előjön a dolgozatban, akkor érdemes mindkét leíró statisztikai módszert

előszednünk.

Page 5: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

5

DISZKRÉT VÁLTOZÓK ESETE – Gyakorisági elemzés a NEM-változóra

Vegyük tehát az első esetet, illetve a harmadik esetnek azt a részét, amikor a változónknak a

gyakorisági eloszlását szeretnénk bemutatni, pl. arra vonatkozó hipotéziseink miatt.

A vizsgálat lépései – ROPstat-ban

A ROPstat programcsomagban minden leíró statisztikát az Alapok (egymintás elemzések)

menüpontban találhatunk meg.

Az első két menüpont a kvantitatív változók esetén alkalmazandó, míg a gyakoriság, hisztogram

menüpont alkalmazható mind kvantitatív, mind kvalitatív változókra (de kvalitatív változókra csak ez).

Page 6: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

6

Ha minden beállításunk megfelelő volt, akkor az alábbi output az eredmény:

|| A ROPstat olyan statisztikai programcsomag, amely a standard egyváltozós módszerek teljes repertoárja || mellett gazdag választékát nyújtja a robusztus technikáknak és az ordinális skálájú változókkal végezhető || elemzéseknek. A ROPstat megkülönböztetett figyelmet szentel a mintázatfeltáró eljárásoknak is. || A ROPstat szerzői: || - Prof. Dr. Vargha András, Károli Gáspár Református Egyetem Pszichológiai Intézete, Budapest || - Bánsági Péter matematikus mérnök, Budajenő || Konzultáns: Prof. Dr. Lars R. Bergman, Stockholm University, Department of Psychology Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Gyakoriság, hisztogram A beolvasott összes eset száma: 94 VÁLTOZÓ: Gender (Gender of subjects) Érték Gyak % Kum% 1 16 17,0 17,0 |======== 2 78 83,0 100,0 |============================================ Össz.: 94

Értelmezésre ebben az esetben nem sok szükség van. A továbbiakban az output elején található,

programot bemutató sávot nem fogom másolni. Az outputok elején látható mindig az input fájl neve

(ezt is szisztematikusan ki fogom hagyni).

A következő sor mindig az alkalmazott eljárás, majd esetszám. Végül a számunkra most érdekes

eredmények: a NEM-változónak két kódja van (1: férfi, 2: nő), gyakoriságok (16 férfi és 78 nő van a

mintában), mely százalékos megoszlásban 17-83%. A kumulált százalékok a folytonos változók esetén

játszanak inkább szerepet, hiszen ennek jelentése, hogy hányan tartózkodnak az adott értéknél nem

nagyobb sávban (pl. hány legfeljebb 35 éves van a mintában.

A vizsgálat lépései – SPSS-ben

Miután a ROPstat és az SPSS outputja érdemben nem különbözhetnek egymástól, ezért csak az

elemzés lépéseit mutatom be, illetve az output különböző részeit magyarázom el – a műhelymunka-

megfogalmazás nem fog változni.

Az SPSS-ben minden elemzés az Analyze menüpontban található. A leíró statisztikákat

értelemszerűen a leíró statisztikák (Descriptive Statistics) kell keresni, azon belül a diszkrét változókra

vonatkozó gyakorisági elemzés a Frequencies… almenüben kapott helyet.

Page 7: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

7

A gyakoriságokon túl az alábbi lehetőségeink vannak – tartva a fenti struktúrát a táblázatos leírásban

is.

Percentilisek. Alapvetően folytonos változóknál fontos mutatók, melyek jelentése: a populációban várhatóan mely érték alatt / felett helyezkedik el a populáció adott százaléka. A kvartilisek esetén 25%-ot keresünk, megadhatóak olyan kérések, hogy pl. 10 egyenlő részre hogyan vághatná el a populációt (dekádok), illetve a percentilisek esetén akármely érték megadható (például 20-30-50-80 beállítással). Műhelymunkában ritkán használt, leíró statisztikáknál sem túl gyakori.

Középértékek. Alapvető jelentőségű mutatók – mindenfajta változóra használhatjuk, azonban ha a fenti felsorolás harmadik esete áll fenn, azaz olyan változóval dolgozunk, mint pl. az osztályzatok, akkor itt spórolhatunk egy kis időt magunknak. Mert ezeket a statisztikákat egy másik menüpontban is elérhetjük, az output lényegében megegyezik – azonban akkor egy elemzési részt időben megtakaríthatunk. Kikérhető (sorrendben) az átlag, medián és módusz (az összeg lényegében nem használatos). Műhelymunkákban gyakori, lényegében mindenfajta változó bemutatásánál alkalmaznunk kell valamilyen középérték meghatározást.

Leíró statisztikai mutatók. Az első oszlopban a szóródási mutatók kaptak helyet, sorrendben: szórás, variancia (szórásnégyzet) és a terjedelem (maximum és minimum különbsége). A második oszlopban a minimum és a maximum, illetve az átlag standard hibája, míg az utolsó oszlopban az alaki mutatók találhatóak – sorrendben a ferdeség (skewness) és a csúcsosság (kurtosis). Műhelymunkában szintén gyakori az alkalmazásuk, de ez is folytonos változókra vonatkozik általában, így szintén nem e menüpontból érdemes elérni.

Page 8: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

8

Az output itt kicsit másként néz ki, mint a ROPstat programcsomagban. Rögtön táblázatos formában

kapunk mindent – mely szerencsés, ha nem kerül megszerkesztésre. Ezért is élek majd a fejezet

végén egy általános javaslattal az outputokat illetően.

Tartalmát tekintve egyetlen többlet található. A valid százalékok jelentéséhez tudnunk kell, hogy

vannak olyan helyzetek, amikor bizonyos kérdésekre a megkérdezettek nem tudnak vagy nem

akarnak válaszolni. A valid százalék azt mutatja meg, hogy a válaszadók között milyen a százalékos

megoszlása a különböző kategóriáknak – míg a százalék a teljes mintát figyelembe veszi.

Minden egyéb megegyezik a ROPstat adataival. Az első táblázatban láthatjuk, hogy hány fős a minta,

illetve a Missing értékeknél látnánk, ha valaki nem válaszolt volna a fenti kérdésre.

A második táblázatban először a címkék (férfi-nő), majd sorban a gyakoriság, százalék, valid százalék

és kumulatív százalék értékek szerepelnek.

Statistics

Gender of subjects94

0

Valid

Missing

N

Gender of subjects

16 17,0 17,0 17,0

78 83,0 83,0 100,0

94 100,0 100,0

Male

Female

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Page 9: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

9

Műhelymunkabeli megfogalmazás

A műhelymunkákban tehát a diszkrét változók elemzésére alapvetően a gyakorisági elemzéseket

használhatjuk – azonban nem mindegy, hogy ezeket hogyan fogalmazzuk meg. Ábraszerkesztést

szándékosan nem mutatok be, hiszen erre vonatkozóan sok lehetőségünk van – érdemes lehet

kísérletezni. Általánosan az oszlop- vagy sávdiagram típus kereshető, vagy a kördiagramok. Az SPSS

grafikai lehetőségei mellett az EXCEL is bevethető, illetve bármely más program, amiben

kényelmesen tudunk ábrákat szerkeszteni.

Megfogalmazás

A felmérés során 94 válaszoló adatait sikerült megszerezni. A mintában 16 férfi és 78 nő volt. Az

adatokat táblázatos formában is összefoglalom:

NEM Gyakoriság Százalékos megoszlás

Férfi 16 17% Nő 78 83% ÖSSZESEN 94 100%

Egy műhelymunkában tehát nem kell túlmisztifikálni a minta bemutatását, hiszen a lényegi részek

majd a hipotéziseink lesznek – így az egyszerű, átlátható megfogalmazásokra kell törekedni. Röviden,

pontosan definiáljunk mindent – mutassuk be a mintánkat, de ne ez legyen a fő statisztikai

mozgatórugója a dolgozatunknak.

JAVASLAT

Bátran használjunk saját formátumot, nyugodtan szerkesszük át az a programok által adott

outputokat saját magunk számára könnyen értelmezhető, átlátható formába. AZ EREDETI

OUTPUTOKAT MINDIG ŐRIZZÜK MEG, akár csatolmányként, mellékletként a dolgozathoz is lehet

fűzni – ez mindig a helyzettől függ, hogy milyen formában kell ezeket tárolni.

Page 10: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

10

FOLYTONOS VÁLTOZÓK ESETE – a KOR-változó bemutatása

Folytonos változó lehet pl. a kor, testmagasság, testsúly – ezek bemutatására általában a leíró

statisztikák közül a változó paramétereinek értékeit alkalmazzuk. Ilyenek az átlag, medián, szórás,

variancia, ferdeség – és itt alkalmazhatunk gyakorisági diagramot vagy hisztogramot, melyről például

előzetes képet kaphatunk a változónk normalitását illetően.

Folytonos változók esetén itt szokás megtenni az első hipotéziseket is, nevezetesen: azokat a

hipotéziseket, melyek a vizsgált változó normalitását hivatottak eldönteni. Erre vonatkozóan mind az

SPSS-ben, mind a ROPstat-ban több teszt is van – ezt egy külön fejezetben fogjuk tárgyalni.

A vizsgálat lépései – ROPstat-ban

Két lépésben fogjuk végrehajtani az elemzést, ugyanis mind az alap, mind a részletes

mintastatisztikákra szükségünk lehet egy műhelymunka során – és mindkettő leíró statisztikának

minősül. Ráadásul a részletes mintastatisztikák automatikusan tartalmaznak egy normalitás-vizsgálati

eljárást is, így megint csak időt takarítunk meg magunknak, ha azt használjuk.

Page 11: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

11

Amennyiben mindkét elemzést lefuttatjuk, ezt a két outputot nyerjük:

Alapstatisztikák Jelölés: - Var. eh. = Variációs együttható = Relatív szórás = szórás/átlag - X_min = Talált legkisebb érték - X_max = Talált legnagyobb érték - z_min = Standardizált legkisebb érték = (X_min - átlag)/szórás - z_max = Standardizált legnagyobb érték = (X_max - átlag)/szórás A beolvasott összes eset száma: 94 Index Változó Esetek Átlag Szórás Var. eh. X_min X_max z_min z_max 3. Age 94 22,59 5,808 0,257 18 41 -0,79 3,17 ________________________________________________________ Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Részletes leíró statisztikák A beolvasott összes eset száma: 94 Index Változó Esetek Medián Átlag St.hiba 95%-os konf.int. Ferdeség Csúcsosság 3. Age 94 20 22,59 0,599 21,39 23,78 1,316*** 0,708 Jelölés a normalitás tesztelésénél a Ferdeség és a Csúcsosság segítségével: *: p < 0,05 **: p < 0,01 ***: p < 0,001

Az alapstatisztikák esetén tehát átlagot, szórást, variációs együtthatót (szórás / átlag, azaz mekkora a

szórás az átlaghoz képest), a változó minimális és maximális értékét, illetve a minimum és a

maximum standardizált értékét nyerjük (ez utóbbi kettő azt mutatja meg, hogy a legnagyobb és

legkisebb érték hány szórásnyira helyezkedik el az átlagtól). Esetünkben jól látható, hogy míg a

minimum még 1 szórásnyira sincsen, addig a maximum több mint 3 szórásnyira van. Tehát az

Page 12: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

12

eloszlásunk közel sem tűnik szimmetrikusnak – az előző gyakorisági elemzéssel kérhetünk

hisztogramot is – a következőkben ennek módját ismertetem.

A részletes leíró statisztikákban az átlag mellett a medián is megjelenik, illetve az átlag standard

hibája és a segítségével számított, átlaghoz tartozó 95%-os konfidencia-intervallum (ebben az

intervallumban található a populációbeli átlag 95%-os valószínűséggel). A ferdeség és a csúcsosság

melletti ***-ok jelzik, ha a változó szignifikánsan eltér a normálistól. Esetünkben is leolvasható a

ferdeség melletti ***-ból, hogy az eloszlás lényegesen ferdébb annál, mint amit egy normális

eloszlásnál még tolerálni tudunk, tehát a Kor-változó ebben a mintában nagy valószínűséggel nem

normális eloszlású.

Gyakoriság, hisztogram A beolvasott összes eset száma: 94 VÁLTOZÓ: Age (Age of subjects in years) Oszt.köz. Gyak % Kum% 19,15 57 60,6 60,6 |============================================ 21,45 6 6,4 67,0 |==== 23,75 2 2,1 69,1 |= 26,05 8 8,5 77,7 |===== 28,35 6 6,4 84,0 |==== 30,65 5 5,3 89,4 |=== 32,95 3 3,2 92,6 |= 35,25 4 4,3 96,8 |== 37,55 2 2,1 98,9 |= 39,85 1 1,1 100,0 | Össz.: 94

Jól látható, hogy az eloszlásunk valóban igen ferde a normális eloszlás görbéjéhez képest – az alsó

régiók igen-igen túlreprezentáltak a felsőbb korkategóriák rovására. A program saját maga készít

kategóriákat, melyekbe a kor alapján elhelyezi a vizsgálati alanyokat.

Page 13: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

13

A vizsgálat lépései – SPSS-ben

Az SPSS-ben a fenti adatok közül néhányat nem fogunk tudni megjeleníteni, illetve néhány számítás

kell hozzá, hogy a ROPstat-tal azonos információkat kiolvashassuk ebből a programból is.

Az SPSS-ben csak egy menüpontot használunk, azon belül tudunk elérni minden lehetséges értéket –

azonban figyeljünk oda, hogy itt az adattartalom el fog térni a ROPstat adattartalmához képest!

Page 14: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

14

A megfelelő beállítások alkalmazása után az alábbi outputot kapjuk:

Általános eljárásként elmondható, hogy egy paraméter 95%-os konfidencia-intervallumát az alábbi

eljárással kaphatjuk meg:

Az intervallum alsó határa: paraméter – 2x(standard hiba)

Az intervallum felső határa: paraméter + 2x(standard hiba)

PÉLDA:

A ferdeség és csúcsosság esetén:

A ferdeség 95%-os konfidencia-intervallumának alsó határa: 1,3 – 2 x 0,25 = 0,8

A ferdeség 95%-os konfidencia-intervallumának felső határa: 1,3 + 2 x 0,25 = 1,8

A csúcsosság 95%-os konfidencia-intervallumának alsó határa: 0,7 – 2 x 0,5 = -0,3

A csúcsosság 95%-os konfidencia-intervallumának felső határa: 0,7 + 2 x 0,5 = 1,7

Így megállapíthatjuk, hogy a ferdeség esetén a 0 nincsen benne a 95%-os konfidencia-

intervallumban, míg a csúcsosság esetén igen – tehát az eloszlás szignifikánsan ferdébb, mint a

normális eloszlás, azonban a csúcsossága nem különbözik tőle szignifikánsan. Ezzel együtt azonban

megállapítható, hogy a KOR-változó eloszlása szignifikánsan nem normális.

A többi paraméter már kiolvasható a táblázatból.

Fontos azonban észrevenni, hogy a Variance (variancia, szórásnégyzet) oszlopot megelőző paraméter

kiírása nem történt meg. Az Std. felirat az Std. deviation (szórás) paramétert takarja.

Descriptive Statistics

94 18 41 22,59 ,599 5,808 33,729 1,316 ,249 ,708 ,493

94

Age of subjects in years

Valid N (listwise)

Statistic Statistic Statistic Statistic Std. Error Statistic Statistic Statistic Std. Error Statistic Std. Error

N Minimum Maximum Mean Std.Deviation

Variance Skewness Kurtosis

Page 15: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

15

Normalitás-vizsgálat – mindkét programban

A normalitásra tehát már megfogalmazhattunk egy megállapítást a ferdeség alapján, hiszen a

programok azt mutatták, hogy a KOR-változó eloszlása szignifikánsan különbözik a normális

eloszlástól.

A két programban azonban van lehetőségünk arra, hogy külön, bármely változóra normalitás-

vizsgálatot kérjünk. Erre vonatkozóan 3 módszerünk lesz:

1) A ferdeség és csúcsosság alapján egy paraméteres teszt, mely esetén azt teszteljük, hogy a

vizsgált változónk említett két paramétere szignifikánsan különbözik-e a normális eloszlás 0-0

ferdeség-csúcsosság értékétől. Ezt úgy tesszük meg, hogy:

a. A ROPstat program automatikusan kiszámítja helyettünk a konfidencia-intervallumot

és megjelöli számunkra, ha valamely érték szignifikáns eltérést mutat a hipotetikus 0

értéktől.

b. Az SPSS-ben a ferdeség és csúcsosság mellé egy-egy standard hibát számít a

program, melyek nagyjából 2-szeresét hozzáadva és kivonva a számított

paraméterből meghatározhatjuk a ferdeség és csúcsosság konfidencia-intervallumait.

Ezek után, ha ezek az intervallumok tartalmazzák a 0-t, akkor nincsen szignifikáns

eltérés – ha nem tartalmazzák, akkor a változó eloszlása szignifikánsan eltér a

normális eloszlástól.

2) A folytonos változók illeszkedés-vizsgálatának egyik legrégibb, általános módszere a

Kolmogorov, vagy Kolmogorov–Szmirnov-eljárás. Az SPSS-ben ezt az eljárást használjuk

általában normalitás tesztelésére. A ROPstat bizonyos esetszám alatt ezt, bizonyos esetszám

felett a 3. pontban ismertetett eljárást választja.

3) A harmadik lehetőség a diszkrét változókra használható khi-négyzet statisztika, mely azonban

használható folytonos eloszlások esetén is – ilyen helyzetben diszkretizálunk, csoportokat

hozunk létre. Ezt a ROPstat megteszi helyettünk (az SPSS nem, így ezt nem is használjuk),

tehát itt is csak az eredményt kell értelmeznünk. Fontos megjegyezni, hogy ehhez a

statisztikához (is) nagyobb elemszám szükséges, tehát kisebb mintánál nem ezt fogjuk találni

a ROPstat esetén sem.

A ferdeség és csúcsosság segítségével végzett elemzést már megnéztük. A khi-négyzet statisztikát

csak a ROPstat programban fogjuk elérni (az SPSS-ben ennek alkalmazása egyéb technikákat is

igényel).

Normalitás-vizsgálat ROPstat-ban

Page 16: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

16

E fenti beállításokkal az alábbi output születik:

Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Normalitásvizsgálat (a normális eloszlás nullhipotézisének tesztelése) A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 VÁLTOZÓ: Domin (Dominance) Érvényes értékek száma: 82 Kolmogorov-féle normalitásvizsgálat: Dmax = 0,089, D* = 0,808 (p = 0,5318)

Látható, hogy a Kolmogorov-féle vizsgálatot hajtotta végre a program (a HELP-ben ezt meg is

nézhetjük, hogy a khi-négyzet statisztikához legalább 100 fős mintára van szükség).

A dominancia-változó ezek alapján, p = 0,5318-as érték mellett, nem különbözik szignifikánsan a

normálistól.

Page 17: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

17

Normalitás-vizsgálat SPSS-ben

Az SPSS-ben tehát csak Kolmogorov-féle megoldást fogunk választani, mely az alábbi menüpontban

található:

Amennyiben jól helyeztünk el mindent, úgy az alábbi outputot kapjuk:

Page 18: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

18

Megfigyelhető, hogy a paraméterek ugyanazok: a Z-statisztika értéke (mely a ROPstatban D*-ként

szerepelt) 0,808, a hozzá tartozó Asymp. Sig (mely a ROPstatban „p”) 0,532.

Így megállapítható, hogy a ROPstattal azonos eredmény született, a dominancia-változó az SPSS

számításai alapján sem különbözik szignifikáns módon a normálistól.

Fontos kiemelni, hogy szándékosan nem a KOR-változóval végeztem el ezt a vizsgálatot, mert onnan

már a részletes statisztikáknál kaptunk információt. Ez a vizsgálat általában azoknál a változóknál

érdekes, melyekre később hipotéziseket készülünk építeni (a KOR-változó nem feltétlenül ilyen). A

felvett kérdőívek skálái, összesített eredményei szoktak olyan szerepet betölteni, hogy esetükben

fontos lehet a normalitás ellenőrzése.

One-Sample Kolmogorov-Smirnov Test

82

11,84

3,779

,089

,089

-,060

,808

,532

N

Mean

Std. Deviation

Normal Parameters a,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

Dominance

Test distribution is Normal.a.

Calculated from data.b.

Page 19: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

19

Műhelymunkabeli megfogalmazás

Ebben az esetben több mindent kell összefoglalnunk néhány mondatban, több eredményünket kell

tömör formában ismertetnünk. Ismertetnünk kell ugyanis a számunkra fontos paramétereket, illetve

a normalitásról is ejthetünk itt pár szót.

A KOR-változó ismertetése

A mintába kerültek átlagéletkora 22,6 év volt, szórása 5,8 év. A minta eloszlása ferde: a fiatalabbak

lényegesen nagyobb arányban reprezentáltak, mint a fiatalok, ezt támasztja alá a standardizált

minimum és maximum érték (-0,79 és 3,17), továbbá az eloszlás ferdesége is (1,316) – azaz a

maximális érték lényegesen távolabb van az átlagtól, mint a minimális érték.

A normalitás kérdése:

A DOMINANCIA-változó normalitására vonatkozó megfogalmazás – ROPstat használata esetén

A dominancia-változó normalitását Kolmogorov-teszttel ellenőriztük (D* = 0,808, p = 0,5318), és azt

mondhatjuk, hogy a dominancia-változó eloszlása nem különbözik szignifikánsan a normálistól.

A DOMINANCIA-változó normalitására vonatkozó megfogalmazás – SPSS használata esetén

A dominancia-változó normalitását Kolmogorov-teszttel ellenőriztük (z = 0,808, Asymp. Sig = 0,532),

és azt mondhatjuk, hogy a dominancia-változó eloszlása nem különbözik szignifikánsan a normálistól.

Amennyiben SPSS programot használunk, úgy a folytonos változók előzetes bemutatására a

Kolmogorov-teszttel időt takaríthatunk meg, hiszen az általánosan használt paraméterek szerepelnek

a statisztika outputján. Így az SPSS használata esetén a dominancia-változó bemutatása a következő

megfogalmazásban is történhet:

A dominancia-változót 82 vizsgálati személy esetén tudtuk meghatározni: a minta átlaga 11,84 lett,

szórása 3,78. A változó normalitását Kolmogorov-teszttel ellenőriztük (z = 0,808, Asymp. Sig = 0,532),

és azt mondhatjuk, hogy az eloszlása 95%-os szinten normálisnak tekinthető.

Megjegyzések

E fenti adatokat is össze lehet foglalni (amennyiben több változó is vizsgálatra kerül) táblázatos

formában, nem kell mindegyik változóra e fenti, szöveges megfogalmazást alkalmazni. A lényeg, hogy

a megfelelő hivatkozási értékek (statisztikai érték, szignifikancia) feltüntetésre kerüljenek.

Fontos tehát kiemelni: MINDEN OLYAN ESETBEN, ahol STATISZTIKAI ÁLLÍTÁS történik, az alkalmazott

statisztikai eljárásban számított STATISZTIKAI ÉRTÉK, ha van SZABADSÁGI FOKA és SZIGNIFIKANCIA

SZINTJE, KÖTELEZŐEN FELTÜNTETENDŐ ÉRTÉK!

Page 20: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

20

KÖZÉPÉRTÉKEK VIZSGÁLATÁRA VONATKOZÓ HIPOTÉZISEK

A középértékeket több módon is vizsgálhatjuk, illetve több felvetésünk, elgondolásunk vezethet

olyan statisztikai vizsgálathoz, melyek megoldásához egyes változók középértékeit kell vagy

önmagukban vizsgálni, vagy egymással összehasonlítani (akár csoportokat, akár ugyanazon változót

különböző mérési időpontokban).

Fontos kiemelni, hogy ebbe a sorba fognak tartozni azon esetek is, amikor hangulatában a

középértékek vizsgálatára hasonlít az eljárás, azonban „nagyságszinteket” hasonlítunk majd össze.

A vizsgálati helyzetekre néhány példát tekintünk át annak érdekében, hogy megkönnyítsük a saját

munkánkban található hipotézis elhelyezését. Ezeken a példákon keresztül fogjuk bemutatni a

felhasználható módszereket.

1) Egy változó elméleti középértékét szeretnénk tesztelni: igaz-e, hogy a vizsgált populációban

az IQ-változó átlaga 100?

2) Két független mintát szeretnénk összehasonlítani: igaz-e, hogy a férfiak feminitás-értéke

alacsonyabb, mint a nőké?

3) Kettőnél több független mintát szeretnénk összehasonlítani: igaz-e, hogy ha az IQ-változó

alapján 3 kategóriát hozunk létre, akkor az IQ emelkedésével nem jár együtt a feminitás-

érték növekedése?

4) Két, azonos skálán mért változó összehasonlítása: igaz-e, hogy a Szondi-tesztben a homo1 és

homo2 kép kedveltsége azonos?

→ A könnyebb alkalmazás okán ezt az elemzést kizárólag ROPstatban fogjuk majd

bemutatni – általánosságban, ezt elég egyszerű SPSS-ben is végrehajtani, viszont a

következő pont miatt hagyatkozunk inkább a ROPstatra.

5) Legalább 3 azonos skálán mért változó összehasonlítása: egy adott változót vizsgálunk

legalább 3 különböző időpontban, vagy legalább 3, azonos helyzetet, tulajdonságot mérő (és

így összefüggő) változót szeretnénk összehasonlítani: igaz-e, hogy a Szondi-tesztben a több

szadista kép megítélése azonos?

→ Ennél az alkalmazásnál egyértelműen kényelmesebb a ROPstat használata, mint az

SPSS-é, így az összefüggő mintás elemzéseknél e programot javasoljuk.

Page 21: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

21

6) Két csoportosító változó egyidejű hatásának vizsgálata: igaz-e, hogy a dominancia értéke

másként viselkedik a férfiak és a nők között, amennyiben az IQ nagyságszintjét is figyelembe

vesszük?

7) Csoportok és változók egyidejű összehasonlítása: igaz-e, hogy a Szondi-teszt szadist 1-2-3-4-

5-6 képeinek kedveltsége más férfiak és nők között?

Ezt a 7 kérdést fogjuk most mind SPSS-ben, mint ROPstatban megvizsgálni. Lesznek olyan helyzetek,

ahol CSAK az egyik programmal fogunk dolgozni.

Már most jegyezzük meg, hogy statisztikai hipotézisként minden esetben egyenlőséget, illetve

függetlenséget tudunk csak tesztelni, tehát a statisztikai programok ilyen jellegű kérdések

megfogalmazását tudják könnyebben eldönthetővé tenni számunkra.

Továbbá az utolsó esetben ez a hatás ÖSSZETETT, tehát egyszerre, egy időben több hipotézist is

vizsgálnunk kell!

Page 22: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

22

Egy változó nagyságszintjének tesztelése

Mostantól minden esetben megfogalmazzuk – a példáknál is látott – szakmai jellegű hipotéziseket,

illetve felírjuk azt is, hogy mindez a statisztikai megfogalmazásban hogyan fest. Így könnyű ugyanis

lefordítani a magunk számára a programok outputját, továbbá megkönnyítjük magunk számára a

statisztikai eredmények szakmai nyelvre történő lefordítását.

• Igaz-e, hogy a vizsgált populációban az IQ-változó átlaga 100?

A fenti megfogalmazás szakmai hipotézisként is felfogható – bár szakmai hipotézisnek megfelelne pl.

az is, hogy „Igaz-e, hogy a vizsgált populáció átlaga nagyobb / kisebb, mint 100?”.

A statisztikai hipotézis azonban – a korábbi megjegyzés miatt – mindenképpen ez lesz:

„Igaz-e, hogy a vizsgált populációban az IQ-változó átlaga 100?”, hiszen statisztikailag mindig

egyenlőséget tudunk tesztelni.

A fenti feladat esetén lép előtérbe az, hogy a vizsgált változónkra alkalmazható statisztikai módszerek

milyen feltételekkel alkalmazhatók. Tekintsük át a módszereket a feltételeikkel együtt – hogy

megfelelő módszert tudjunk választani e kérdés eldöntésére:

Hagyományos esetben a fenti kérdés eldöntésére t-próbát alkalmazunk, melynek használatához

szükséges a változó normalitása (nagy minták esetén ettől eltekinthetünk).

Amennyiben a normalitás sérül, úgy két lehetőségünk van:

a) Robusztus t-próbát használunk (Johnson és Gayen), melyek a változó ferdeség és / vagy

csúcsosság paraméterével kontrollálják a t-próba statisztikáját, elérve így, hogy az átlagra

egy robusztus (adott szignifikancia-szintet tartó) eljárást nyerjünk.

b) Nem az átlagot teszteljük, hanem a mediánt. Ennek feltétele a változó szimmetrikussága

(tehát, ha a ferdeség szignifikánsan eltér 0-tól, akkor ez továbbra sem járható út), így

amikor ez sérül, az előjelpróba alkalmazható, melynek egyetlen feltétele a változó

ordinális skálázása (nyilván egy nominális változó esetén sok értelme nincsen

középértékét tesztelni).

Ezen próbák közül az SPSS alapvetően az első verzióra alkalmas (ez persze nyilván túlzás, de azt

fogjuk csak megnézni), míg a ROPstat egy menüpontban az összes verziót kiszámítja számunkra, így

ezen hipotézisek eldöntésére alapvetően a ROPstat programcsomagot javasoljuk.

Page 23: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

23

Egy változó nagyságszintjének tesztelése – ROPstat programcsomagban

Page 24: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

24

Amennyiben mindenben helyesen jártunk el, az alábbi outputot kapjuk:

A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 VÁLTOZÓ: IQ (IQ of subjects) Érvényes értékek száma: 94 Átlag: 133,70 Szórás: 13,85 Medián: 135 Minimum: 90 Maximum: 160 Hipotetikus érték: 100 A normalitás tesztelése a Ferdeség és a Csúcsosság segítségével: Ferdeség: -0,572 (p = 0,024)* Csúcsosság (g4 = a4 - 3): 0,421 (p = 0,405) A H0: Az elméleti átlag = 100 nullhipotézis vizsgálata: - Egymintás t-próba: t(93) = 23,588 (p = 0,0000)*** A H0: Az elméleti medián = 100 nullhipotézis vizsgálata: - Wilcoxon-próba: R- = 5,5, R+ = 4459,5, z = 8,403 (p = 0,0000)*** A H0: P(X < 100) = P(X > 100) nullhipotézis vizsgálata: - Előjelpróba: #(X < 100) = 2 (2,1%), #(X > 100) = 92 (97,9%), z = 9,180 (p = 0,0000)***

Az output struktúrája: először az eljárást olvashatjuk le, majd a teljes esetszámot. Utána egy

jelölésrendszer következik, hogy a különböző statisztikák melletti * vagy + jel milyen szignifikancia-

szintet jelöl (mekkora az elkövethető elsőfajú statisztikai hiba valószínűsége).

A jelölések után a változó leíró statisztikai jellemzői következnek táblázatos formában, illetve annak

alján a tesztelendő hipotetikus értéket is kiírja a program, hiszen elviekben egyszerre több változót is

vizsgálhatnánk, más és más hipotetikus értékekkel.

A leíró statisztikák után a normalitás tesztelése következik, ahol jól láthatóan a ferdeség sérülése

némi bizonytalanságot okozhat, hogy a t-próba alkalmazása megfelelő-e a 100-as átlag tesztelésére

(ezt majd feloldjuk).

Ezek után 3 tesztelés következik: az első a hagyományos, egymintás t-próba, ahol a t(93) = 23,588 (p

= 0,0000)*** jelenti azt, hogy a t-statisztika 93-as szabadsági fokon számított értéke 23,588, melyhez

tartozó elsőfajú hiba valószínűsége igen csekély (0,0000), az átlag egyébként 133,7.

Page 25: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

25

A másik teszt a Wilcoxon-statisztika, melyben a mediánt teszteljük, illetve azt, hogy a változó

mediánja lehet-e 100 – itt a z = 8,403, illetve p = 0,0000 mutatja azt, hogy a medián is igen távol van

hipotetikus 100-as értéktől (medián = 135).

Az utolsó próba az előjelpróba, melynek során azt vizsgáljuk, hogy 100-as érték alatt, illetve 100-as

érték felett azonos valószínűséggel kapunk-e értéket? Az ehhez tartozó z-érték 9,18, p-érték pedig

0,0000, azaz itt is világos, hogy 100 alatt és felett nem ugyanolyan valószínűséggel tartózkodunk, sőt.

Azt is leolvashatjuk, hogy 100 alatt kisebb valószínűséggel (2,1%) vagyunk, mint felette (97,9%).

Az átlag tesztelésekor akkor lett volna indokolt a robusztus, átlagtesztelő eljárások bevetése, ha az

elemszám 500 alatti (ez most teljesül, hiszen 94 fős a minta), és a t-érték nem túl nagy (abszolút

értéke nem haladja meg a 10-et). Azonban most olyan nagy volt a t-érték, hogy a két robusztus teszt

sem hozott volna érdemileg több információt számunkra, mint a t-próba (olyan nagy a különbség a

hipotetikus és a számított érték között, hogy a tévedés valószínűsége elenyészően kicsi).

Page 26: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

26

Egy változó nagyságszintjének tesztelése – SPSS programcsomagban

Az SPSS-ben tehát hagyományos egymintás t-próbát használhatunk, ahol nem lesz beépített

normalitás-tesztelés, tehát itt mindenképpen meg kell előznie az előző fejezet végén használt

normalitás-vizsgálatnak egy ilyen típusú elemzést!

Amennyiben megfelelően jártunk el, az alábbi outputot nyerjük:

Az első táblázatban itt is a leíró statisztikákat láthatjuk, míg utána magát a t-próbát. A táblázat

oszlopai sorrendben tartalmazzák a ROPstattal megegyező információtartalmú adatokat. Először a

One-Sample Statistics

94 133,70 13,852 1,429IQ of subjectsN Mean Std. Deviation

Std. ErrorMean

One-Sample Test

23,588 93 ,000 33,702 30,86 36,54IQ of subjectst df Sig. (2-tailed)

MeanDifference Lower Upper

95% ConfidenceInterval of the

Difference

Test Value = 100

Page 27: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

27

vizsgált változó nevét (felső sorban a tesztelendő értékkel), míg utána a t-értéket, szabadsági fokot

(df) és a szignifikancia-szintet. Ezen kívül az átlag különbségét, illetve az átlag 95%-os konfidencia-

intervallumát.

Megjegyezzük, hogy ebből az intervallumból származó értékek azok, melyektől nem különbözik

szignifikánsan a számított átlag, azaz: ha innen származna a hipotetikus érték, akkor nem

tapasztalnánk szignifikáns különbséget.

Műhelymunkabeli megfogalmazás

Az „IQ-változó átlaga = 100” hipotézis tesztelése

A mintába került 94 fő adatai alapján azt állíthatjuk, hogy a vizsgált populáció 133,7-es IQ-átlaga

szignifikánsan magasabb, mint 100 (t = 23,588, szabadsági fok = 93, p = 0,0000). Bár a változó

eloszlása ferde, az eltérés akkora, hogy nincsen szükség semmifajta robusztus tesztelésre.

Fontos megjegyezni, hogy ha kellenének a robusztus tesztek, akkor ott a fenti magyarázatban leírt

statisztikák kellenek a hivatkozásba, illetve a leírásba. Több változó esetén az eredményeket

összefoglaló táblázatban is be lehet mutatni, és a nyers szövegben már csak a különbségeket, illetve

egyezéseket szükséges kiemelni.

A dolgozatokban tehát a változó ELOSZLÁSA dönti el, hogy az egymintás tesztek közül melyiket

választjuk. A hivatkozásoknak minden esetben tartalmaznia kell a használt változó statisztikai

jellemzőit. Ezek:

1) T-próba, illetve annak robusztus változatai (Johnson és Gayen) esetén a t-érték, szabadsági

fok és a p-érték.

2) Wilcoxon-próba esetén mindenképpen szerepeljen, hogy ekkor már a mediánt teszteljük

(ferde eloszlásnál nem alkalmazható), hivatkozni a z- és a p-értékre kell.

3) Előjelpróba esetén (csak az ordinalitás kell hozzá, azaz ferde eloszlások esetén is használható)

szintén a z- és p-érték kell.

Page 28: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

28

Egy változó nagyságszintjének tesztelése 2 csoportban

Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor két csoport (akár kontroll- és vizsgálati

csoportok összehasonlítása, akár két független csoport, mint férfiak-nők) kerül összehasonlításra

valamely vizsgált változó mentén. A kérdésfelvetés szakmailag többek között az alábbi módon

fogalmazható meg:

• Igaz-e, hogy a férfiak feminitás-értéke alacsonyabb, mint a nőké?

Világos az előző fejezet alapján, hogy e fenti kérdés szakmai hipotézis – statisztikailag nem ezt fogjuk

vizsgálni, tesztelni, hanem:

• Igaz-e, hogy a férfiak és nők feminitás-értékének mértéke megegyezik?

Vegyük észre, hogy – az előző fejezetben már hangsúlyt kapott módon – itt e hipotézist már

szándékosan nem is az átlagon keresztül fogalmazzuk meg, bár megtehetnénk. A hagyományos

eljárás (kétmintás t-próba) alkalmazásához két feltételt kell teljesítenünk: a vizsgált változónknak

(jelen esetben a feminitásnak) normális eloszlásúnak kell lennie, továbbá a két csoportban e mért

változó szórása nem különbözhet egymástól.

A két feltétel közül a normalitás (ahogy már az egymintás esetben is) nagyobb minták esetén nem

számít szigorú feltételnek (nagyobb mintának mondjuk 100 főt vehetünk), azonban a szórások

egyezése (ez az úgynevezett szóráshomogenitás) igen fontos kitétele a hagyományos eljárás

alkalmazásának.

Amennyiben ez sérül, úgy robusztus alternatívát kell nézni az átlag tesztelésére (tehát ekkor a

normalitás még fennáll) – ez lesz a Welch-féle d-próba.

Amennyiben kisebb mintánk van, vagy úgy érezzük, hogy az átlag nem megfelelő mutató a

számunkra, mert pl. két ellentétesen ferde eloszlásról van szó, úgy az úgynevezett Mann–Whitney-

statisztikát, illetve egyéb, robusztus rangstatisztikai módszereket lehet bevetni – ám ekkor már

sztochasztikus egyenlőséget tesztelünk.

A ROPstatban ezeket a problémákat végigvesszük, az SPSS-ben a hagyományos kétmintás t-próbát, a

Welch-féle d-próbát és a Mann-Whitney-statisztikát fogjuk megnézni.

Page 29: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

29

Egy változó nagyságszintjének tesztelése 2 csoportban – a ROPstat programcsomagban

Page 30: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

30

Amennyiben ezt a beállítást használjuk, úgy az átlagokat teszteljük, és az alábbi outputot nyerjük:

A beolvasott összes eset száma: 94 Csoportosító változó: Gender (Gender of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Index Gender Esetek Átlag Szórás Min. Max. Ferdeség Csúcsosság 1 Male 12 12,08 2,678 8 16 0,268 -1,241 2 Female 70 14,00 1,963 10 18 0,154 -0,465 Ha a Ferdeség vagy a Csúcsosság szignifikáns, az a normalitás sérülését jelzi. Elméleti szórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(1,0; 12,9) = 2,604 (p = 0,1308) - Levene-próba (Welch-féle): F(1; 14,6) = 3,409 (p = 0,0852)+ Elméleti átlagok egyenlőségének tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Kétmintás t-próba: t(80) = -2,954 (p = 0,0041)** Hatásvariancia = 37,6321, Hibavariancia = 4,3115 Korrelációs hányados (nemlineáris korrelációs együttható): eta = 0,314 Megmagyarázott variancia-arány: eta-négyzet = 0,098 Cohen-féle delta hatásmérték: d = -0,923 Robusztus eljárás, amelynél nem szükséges a szóráshomogenitás: - Welch-féle d-próba: d(13,1) = -2,372 (p = 0,0337)* 95%-os konfidencia-intervallum a két elméleti átlag m1-m2 különbségére - a kétmintás t-próba alapján: C(0,95) = (-3,210, -0,623) - a Welch-féle d-próba alapján: C(0,95) = (0,028; 0,599)

Az output szerkezete a következő: először az esetszám és a csoportosító változó van feltüntetve,

majd a már megismert, szignifikanciákat jelölő * és + jelek.

Ezek után a vizsgálathoz szükséges alapstatisztikák következnek – az átlagokat teszteljük, a szórások

egyezése az egyik feltétel (ezért kellenek a szórások), illetve a normalitás a másik (ferdeség és

csúcsosság). Amennyiben a ferdeség és csúcsosság szignifikánsan eltér valamely csoportban a 0-tól,

úgy ott + vagy * jel lesz látható – most ezzel nincsen gondunk.

Az első teszt a szórások egyezésének tesztelése Levene- vagy O’Brien-próbával, melyek a

szóráshomogenitásnak robusztus tesztjei. Hivatkozni az F-értékekre, a zárójelekben lévő szabadsági

fokokra és a p értékekre kell – itt egyik esetben sem látunk *-ot, tehát nincsen szignifikáns különbég

a szórások között.

Így – miután mindkét feltétel teljesül – használhatjuk az első blokkban lévő hagyományos eljárást, a

kétmintás t-próba lesz számunkra az érdekes. Azt láthatjuk, hogy a t-érték megfelelően eltér 0-tól, a

p-érték alapján ez az eltérés szignifikáns, tehát a két átlag között szignifikáns különbség van. Jelen

esetben a hatásvariancia és egyéb paraméterek nem számítanak – a későbbiekben, a korrelációs

együtthatók vizsgálatakor erre ki fogunk térni.

Amennyiben a szóráshomogenitás tesztelésekor gond lenne, úgy a következő blokkot kéne nézni, a

Welch-féle d-próbát (hivatkozás: t-értékre, szabadsági fokra és p-értékre). Ez is azt mutatja, hogy

szignifikáns eltérés van a két átlag között.

A konfidencia-intervallum a különbségre nem fontos számunkra.

Page 31: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

31

Amennyiben a nagyságszinti viszonyok érdekelnek minket – tehát nem az átlagot szeretnénk

tesztelni, az alábbi módon járhatunk el:

Így az output nyilván megváltozik:

A beolvasott összes eset száma: 94 Csoportosító változó: Gender (Gender of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Rang- Rang- Index Gender Esetek átlag szórás Min. Max. 1 Male 12 26,79 26,98 8 16 2 Female 70 44,02 22,19 10 18 Elméleti rangszórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(1,0; 12,8) = 1,306 (p = 0,2741) - Levene-próba (Welch-féle): F(1; 15,1) = 1,588 (p = 0,2267) Sztochasztikus egyenlőség tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Mann-Whitney-próba (normális közelítés): Z = -2,339 (p = 0,019)* Szóráshomogenitást nem igénylő robusztus közelítő eljárások: - Fligner-Policello-próba Welch-féle szabadságfokkal: FPW(11,0) = -2,169 (p = 0,0528)+ - Brunner-Munzel-próba: BM(12,1) = -2,108 (p = 0,0566)+ Pont- és intervallumbecslés a valószínűségi fölény A mutatójára: A12 = 0,290 [ P(Csop1 > Csop2) = 0,243, P(Csop1 < Csop2) = 0,663 ] C(0,95) = (0,073; 0,507)

Page 32: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

32

Ebben az esetben úgy lehet a hipotézist felfogni, hogy ha találomra választanánk egy férfit és egy nőt,

akkor melyiknek lenne a feminitás-skálán mért értéke várhatóan a nagyobb. Ezt kívánjuk tesztelni.

Ehhez először ugyanúgy a létszámon és a csoportosító változón, majd a jelöléseken kell végigmenni.

Ezek után következnek a leíró statisztikák. Azonban, miután itt sztochasztikus egyenlőséget

tesztelünk, ezért ezek rangsorolásos eljárások, ahol a rangszámok átlagai és szórásai kerülnek górcső

alá.

A „hagyományos” rangsorolásos eljáráshoz nem kell a normalitás (éppen azért szoktuk ezt az esetet

vizsgálni, mert a normalitás sérül az eredeti változónknál), viszont a rangsorok szórásának

egyenlősége itt is feltétel lesz. Ezt ugyanúgy teszteljük, mint a rendes esetben – tehát, ha itt *-ot jelez

valamely próba (Levene, O’Brien), akkor a robusztus alternatívát kell figyelnünk.

Ezek után jön a hagyományos, Mann-Whitney-féle eljárás (hivatkozni a Z-értékre és a p-értékre kell).

Itt azt láthatjuk, hogy szignifikáns eltérés van a rangátlagok között.

Amennyiben a szóráshomogenitás sérül, úgy a FPW-próba (a hozzá tartozó statisztikával és p-

értékkel), vagy a BM-próba (szintén a hozzá tartozó statisztikával és p-értékkel) lesz az irányadó.

Ezen kívül az előző blokkban megismert előjelpróba általánosítása is szerepet kaphat, az úgynevezett

valószínűségi fölény mutatója, melynek segítségével értelmezhetőek, magyarázhatóak,

interpretálhatóak az előző eredmények: mennyi annak a várható valószínűsége, hogy az első vagy a

második csoport „nyer”, azaz hogy valamely csoport nagyobb értéket ér el.

Minden tesztünk azt mutatja, hogy a férfiak alacsonyabb feminitás-értékekkel rendelkeznek, mint a

nők.

Page 33: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

33

Egy változó nagyságszintjének tesztelése 2 csoportban – az SPSS programcsomagban

Az SPSS-ben tehát csak a kétmintás t-próbával, illetve a Mann–Whitney-próbával fogunk

megismerkedni, a többi rangstatisztikai módszert nem fogjuk alkalmazni. Továbbá a

szóráshomogenitást is csak a Levene-próbával fogjuk tesztelni, a normalitás-tesztelésről pedig

feltételezzük, hogy előtte elvégeztük, ahogy azt az első fejezetben megismertük.

Amennyiben mindent jól csináltunk, úgy a kétmintás t-próba outputját nyerjük:

Group Statistics

12 12,08 2,678 ,773

70 14,00 1,963 ,235

Gender of subjectsMale

Female

FemininityN Mean Std. Deviation

Std. ErrorMean

Page 34: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

34

Az első táblázatban a leíró statisztikák láthatóak csoportonként.

A második táblázatnak két sora van: hogy a két sor közül melyiket használjuk, az első két érdemi

oszlopban található Levene-próba fogja eldönteni. Az első sor ugyanis a hagyományos kétmintás t-

próba statisztikáit tartalmazza, míg a második sor a Welch-féle d-próba eredményeit. Tehát, ha a

Levene-próba második oszlopában látható Sig.-érték 0,05 alá kerül (most felette van), akkor az azt

jelenti, hogy a két szórás szignifikánsan eltér egymástól, tehát nem használható a t-próba (azaz ekkor

kell a második sort választani).

Most a Sig.-érték 0,05 feletti, tehát az első sorból kiolvassuk a t-értéket (-2,954), szabadsági fokot

(80) és Sig.-értéket (0,004). Ezek alapján elmondható, hogy a férfiak átlaga szignifikánsan

alacsonyabb, mint a nők átlaga (az átlagokat az első táblázatban láthatjuk).

Amennyiben mégis szükségessé válik a rangstatisztikák használata, úgy a következő módon járhatunk

el:

Independent Samples Test

3,648 ,060 -2,954 80 ,004 -1,917 ,649 -3,208 -,626

-2,372 13,102 ,034 -1,917 ,808 -3,661 -,172

Equal variancesassumed

Equal variancesnot assumed

FemininityF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Page 35: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

35

Amennyiben minden beállításunk helyes, az alábbi outputhoz juthatunk:

Az első táblázatban a rangstatisztikai értékeket láthatjuk, majd a második táblázatban a Mann–

Whitney-statisztika megfelelő értékeit nézhetjük meg (megegyeznek a ROPstat eredményeivel).

Ranks

12 26,79 321,50

70 44,02 3081,50

82

Gender of subjectsMale

Female

Total

FemininityN Mean Rank Sum of Ranks

Test Statistics a

243,500

321,500

-2,339

,019

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

Femininity

Grouping Variable: Gender of subjectsa.

Page 36: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

36

Műhelymunkabeli megfogalmazás

A feminitás-változó nemenkénti összehasonlítása – átlag alapján

A feminitás-változó eloszlása nem különbözik szignifikánsan a normálistól (ferdeség és csúcsosság

alapján), illetve a két nem esetén számított tapasztalati szórások alapján a két csoport szórása sem

tekinthető szignifikánsan különbözőnek (Levene-próba: F(1; 14,6) = 3,409 (p = 0,0852)).

Ennek következtében a hagyományos kétmintás t-próba feltételei fennállnak, így (t(80) = -2,954

(p = 0,0041)) mellett állíthatjuk, hogy a férfiak feminitás-skálán várható átlaga szignifikánsan

alacsonyabb, mint a nők feminitás-skálán várható átlaga.

Ha a normalitás sérül, úgy a robusztus tesztek kellenek, majd azokból is azokat kell kiválasztani,

melyeket a szórások egyenlőségének tesztelése mutat. Ezeket az elágazásokat egyénileg kell

végignézni – a fenti levezetések alapján.

A dolgozatokban tehát a változó ELOSZLÁSA dönti el, hogy a kétmintás tesztek közül az átlagokat

vagy a rangsorokat szeretnénk tesztelni (átlagok egyenlősége vagy sztochasztikus egyenlőség lesz a

kérdés). Ezek után a megfelelő tesztek közül a szóráshomogenitás fennállása vagy elvetése alapján

kell kiválasztani a megfelelőt. Hivatkozásként az alábbiakat tudjuk megfogalmazni szabályként:

1) A Levene- / O’Brien-próbáknál az F(szabadsági fok1; szabadsági fok2)-érték és p-érték.

2) T-próba, illetve annak robusztus változata (Welch-d) esetén a t-érték, szabadsági fok és a p-

érték.

3) Mann–Whitney-próba esetén mindenképpen szerepeljen, hogy ekkor már sztochasztikus

egyenlőséget tesztelünk, a hivatkozásban z-érték és p-érték kell.

4) Az FPW és BM esetén a megfelelő értékek szabadsági fokokkal és p-értékek kellenek.

A több lehetséges elágazás miatt nagyon körültekintőnek kell lenni ezeknél a teszteknél. Vegyük

észre azt is, hogy ilyenkor nem biztos, hogy minden eredményt össze tudunk egy táblázatba foglalni,

tehát általában szöveges értékeléseket adunk – és az esetleges táblázatokat mellékletbe fogjuk

összefoglalni, amennyiben szükséges.

Page 37: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

37

Egy változó nagyságszintjét szeretnénk tesztelni legalább 3 csoportban

Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor legalább 3 csoport kerül összehasonlításra

valamely vizsgált változó mentén. (Hasonló az előző fejezethez, csak több csoporttal). A

kérdésfelvetés szakmailag többek között az alábbi módon fogalmazható meg:

• Igaz-e, hogy ha az IQ-változó alapján 3 kategóriát hozunk létre, akkor az IQ emelkedésével

együtt jár a feminitás-érték növekedése?

Ismét olyan hipotézist fogalmaztunk meg, mely nem egészen a statisztikai hipotézis – hiszen nem

egyenlőség, hanem eltérés szerepel benne. A statisztikai hipotézis, melyet vizsgálni tudunk:

• Igaz-e, hogy ha az IQ-változó alapján 3 kategóriát hozunk létre, akkor az IQ emelkedése nem

befolyásolja a feminitás várható értékét?

Ezt már tudjuk kezelni statisztikailag. Matematikailag az előző blokk általánosítása történik

hagyományos esetben. Sztochasztikus homogenitás / egyenlőség esetén nem triviális az

általánosítás, így itt némi többlet végiggondolásra lesz szükségünk. A hagyományos eljárásban

továbbra is feltétel lesz a normalitás és a szóráshomogenitás (a hagyományos eljárás itt a

varianciaanalízis, vagy VA vagy ANOVA).

A normalitás sérülése esetén alkalmazott rangstatisztikai eljárások során használt sztochasztikus

homogenitás azonban egy érdekes sajátosságot hordoz a hagyományos módszerrel szemben: ha a

hagyományos módszerben az átlagokat összehasonlítjuk, akkor igaz lesz az alábbi:

- Ha A csoport átlaga nagyobb, mint B csoport átlaga, mely nagyobb, mint C csoport átlaga,

akkor ebből következik, hogy A csoport átlaga nagyobb, mint C csoport átlaga. Ilyen esetben

tehát a PÁRONKÉNTI eltérések egyértelmű sorrendet határoznak meg. A páronkénti

eredmények egyértelmű rangsort is definiálnak a csoportok között.

Azonban sztochasztikus homogenitás esetén ez bonyolultabb. Eddig is úgy próbáltuk meg kezelni a

sztochasztikus fölényt, hogy ha egyik vagy másik csoportból kivennénk 1-1 egyedet, és

versenyeztetnénk, akkor valamely csapat szisztematikusan legyőzné-e a másik csapatot. Azonban

ebben az esetben a legkönnyebb a sportból vett „körbeverés” esetét felidézni: A mindig megveri B-t,

B mindig megveri C-t, de C mindig megveri A-t. Tehát, bár PÁRONKÉNT mindig van domináns csoport,

összességében mégsem mondhatunk senkit dominánsnak. Ez lesz a rangstatisztikák egyik

érdekessége ebben az esetben: itt akkor mondunk majd valakit sztochasztikusan dominánsnak, ha

MINDENKIT meg tud verni.

Page 38: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

38

Egy változó nagyságszintjének tesztelése legalább 3 csoportban – ROPstat

programcsomagban

Page 39: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

39

Ha minden beállítás megegyezik a fentivel, ezt az outputot nyerjük:

Független minták egyszempontos összehasonlítása A beolvasott összes eset száma: 94 Csoportosító változó: IQ (IQ of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Index IQ Esetek Átlag Szórás Min. Max. Ferdeség Csúcsosság 1 low 22 13,59 2,282 10 18 0,188 -0,897 2 middle 36 13,61 2,032 8 17 -0,689+ 0,416 3 high 24 14,00 2,341 10 18 0,155 -0,556 Ha a Ferdeség vagy a Csúcsosság szignifikáns, az a normalitás sérülését jelzi. Elméleti szórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(2,0; 48,2) = 0,384 (p = 0,6830) - Levene-próba (Welch-féle): F(2; 47,5) = 0,642 (p = 0,5306) Elméleti átlagok egyenlőségének tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Varianciaanalízis: F(2; 79) = 0,278 (p = 0,7579) Hatásvariancia = 1,3375, Hibavariancia = 4,8085 Korrelációs hányados (nemlineáris korrelációs együttható): eta = 0,084 Megmagyarázott variancia-arány: eta-négyzet = 0,007 Robusztus eljárások, amelyeknél nem szükséges a szóráshomogenitás: - Robusztus Welch-féle varianciaanalízis: W(2; 45,6) = 0,253 (p = 0,7777) - James-próba: U = 0,513 (p > 0,10) - Brown-Forsythe-próba: BF(2; 67) = 0,267 (p = 0,7661)

Az (ANO)VA-elemzésnél a normalitás vizsgálata a ferdeség és csúcsosság paraméterek segítségével

történik – látható, hogy egyik csoportban sem sérül a normalitás. Szintén ebben a táblázatban

láthatók az átlagok, szórások, esetszámok.

A próba másik feltétele a szórások egyezése. Ennek megszokott próbáit láthatjuk a következő

blokkban, ahonnan leolvashatjuk, hogy a csoportok szórásai szignifikánsan nem különböznek

egymástól.

Az átlagok összehasonlítása megtörténik, a páros összehasonlításokat viszont azért nem látjuk, mert

a kapott eredmények alapján nincsenek szignifikáns eltérések a csoportok között. Ezt az első sorban

lévő varianciaanalízis-értékből tudjuk kiolvasni – a hozzá tartozó p-érték elég magas, tehát a

feminitás nem mutat eltérést a különböző IQ-kategóriákban.

Amennyiben nem teljesülne a szóráshomogenitás feltétele, úgy a következő blokkban tudnánk a

megfelelő varianciaanalízis-statisztikákat kiolvasni, innen általában a Brown–Forsythe-próbát szokás

használni. A robusztus tesztek szintén azt mutatják, hogy nincsenek szignifikáns eltérések.

Page 40: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

40

Amennyiben sérül a normalitás, úgy a következő eljárást kell alkalmazni:

Ekkor az alábbi outputot kapjuk:

Az input fájl neve: C:\_vargha\ropstat\dat\CPI.msw Független minták egyszempontos összehasonlítása A beolvasott összes eset száma: 94 Csoportosító változó: IQ (IQ of subjects) Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 FÜGGŐ VÁLTOZÓ: Feminin (Femininity) Csoportonkénti alapstatisztikák Rang- Rang- Sztochasztikus dominancia Index IQ Esetek átlag szórás Súlyozott Nem súlyozott 1 low 22 39,52 25,54 0,476 0,476 2 middle 36 41,28 22,00 0,497 0,498 3 high 24 43,65 24,83 0,526 0,526 Megjegyzés: Minden csoport esetében a sztochasztikus dominancia annak a valószínűségét jelzi, hogy egy random megfigyelés ebből a csoportból (Xj) nagyobb lesz, mint egy random megfigyelés az egész mintából (X), plusz az egyenlőség valószínűségének a fele: SZTDj = P(Xj > X) + 0,5P(Xj = X) A sztochasztikus homogenitás definíciója: SZTD1 = SZTD2 = SZTD3 = ... = 0,50 Elméleti rangszórások egyenlőségének tesztelése - O'Brien-próba (Welch-féle): F(2,0; 46,1) = 0,866 (p = 0,4275) - Levene-próba (Welch-féle): F(2; 47,9) = 1,058 (p = 0,3550) Sztochasztikus homogenitás tesztelése Hagyományos eljárás, amely feltételezi a szóráshomogenitást: - Kruskal-Wallis-próba: H(2) = 0,357 (p = 0,8366) Szóráshomogenitást nem igénylő robusztus közelítő eljárás: - Korrigált rang Welch-próba: rW3(2; 45,4) = 0,155 (p = 0,8568) KULLE-féle aszimptotikusan egzakt próbák - Populációk azonos súlyozása: Khi2(1,93) = 0,351 (p = 0,8257) F(1,93; 79,0) = 0,182 (p = 0,8261) - Mintaelemszámokkal arányos súlyozás: Khi2(1,92) = 0,354 (p = 0,8228) F(1,92; 79,0) = 0,184 (p = 0,8232)

Page 41: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

41

Ebben az esetben a rangátlagokkal kell elsősorban dolgozni – ezeket fogjuk összehasonlítani. Ennek is

feltétele a szóráshomogenitás – de itt a rangsorok szórásainak egyenlősége szükséges. Ennek is a

szokásos tesztjei láthatóak az első blokkban, melyekből megállapítható, hogy a rangszórások nem

különböznek szignifikánsan egymástól.

A sztochasztikus homogenitás hagyományos, szóráshomogenitási feltétel megléte melletti tesztje a

Kruskal–Wallis-próba, mely azt mutatja, hogy nincsen sztochasztikusan domináns csoport.

Amennyiben nem állna fent a szóráshomogenitás, úgy a korrigált Welch-próbát kellene figyelnünk

(most ezt sem jelez eltérést).

Megállapíthatjuk tehát, hogy bármely eljárást nézzük is – átlagok, rangsorok – nem állapítható meg

eltérés a feminitás értékeiben az IQ által övezetekre bontott populációban.

Page 42: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

42

Egy változó nagyságszintjének tesztelése legalább 3 csoportban – SPSS programcsomagban

Page 43: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

43

Page 44: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

44

Amennyiben mindent jól állítottunk be, az alábbi outputot nyerjük:

Descriptives

Femininity

22 13,59 2,282 ,486 12,58 14,60 10 18

36 13,61 2,032 ,339 12,92 14,30 8 17

24 14,00 2,341 ,478 13,01 14,99 10 18

82 13,72 2,173 ,240 13,24 14,20 8 18

low

middle

high

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

Test of Homogeneity of Variances

Femininity

,609 2 79 ,547

LeveneStatistic df1 df2 Sig.

ANOVA

Femininity

2,675 2 1,338 ,278 ,758

379,874 79 4,809

382,549 81

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Robust Tests of Equality of Means

Femininity

,267 2 66,808 ,766Brown-ForsytheStatistica df1 df2 Sig.

Asymptotically F distributed.a.

Page 45: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

45

A táblázatok hasonló információkat tartalmaznak, mint a ROPstat esetén. Először itt is a leíró

statisztikákkal találkozhatunk. A következő output itt is a szóráshomogenitás – bár az SPSS csak a

Levene-tesztet használja.

Az ANOVA-táblázat a hagyományos varianciaanalízis táblája, melyben az F-érték és a Sig.-érték számít

– itt is megfigyelhetjük, amit már a ROPstatnál, hogy nem jelez szignifikáns eltéréseket. A

hagyományos után a robusztus, szóráshomogenitást nem igénylő Brown–Forsythe-tesztet láthatjuk

(ez sem jelez eltérést, bár ezt most úgyis figyelmen kívül hagyjuk).

Az első és legnagyobb eltérés a ROPstat és az SPSS között ebben az eljárásban, hogy az SPSS

mindenképpen kiszámolja és kiírja a páros összehasonlítások táblázatait – függetlenül attól, hogy

vannak-e szignifikáns eltérések vagy sem.

Ezek közül az első táblázatban páronként (egy-egy sorban egy-egy páros összehasonlítása látható) írja

ki az eredményeket, ahol az átlagok közötti különbségek, annak standard hibája, illetve az eltérés 0

voltának tesztelési eredménye látható (Sig.-érték). Amennyiben a Sig.-érték 0,05 alá csökken, akkor

van a két csoport között szignifikáns eltérés.

A Tukey-féle teszt a szóráshomogenitás megléte mellett értelmezhető, míg a Games–Howell-

statisztika robusztus a szóráshomogenitás feltételére nézve.

A másik, hasonló tartalommal bíró táblázat az átlagokat csoportosítva jeleníti meg, tehát tömörebb,

vizuálisabb formában örökíti meg az eredményeket számunkra.

Multiple Comparisons

Dependent Variable: Femininity

-,020 ,593 ,999 -1,44 1,40

-,409 ,647 ,803 -1,96 1,14

,020 ,593 ,999 -1,40 1,44

-,389 ,578 ,780 -1,77 ,99

,409 ,647 ,803 -1,14 1,96

,389 ,578 ,780 -,99 1,77

-,020 ,593 ,999 -1,46 1,42

-,409 ,682 ,821 -2,06 1,24

,020 ,593 ,999 -1,42 1,46

-,389 ,586 ,785 -1,81 1,03

,409 ,682 ,821 -1,24 2,06

,389 ,586 ,785 -1,03 1,81

(J) Kódolt IQ:Készült az IQ változóövezetei alapjánmiddle

high

low

high

low

middle

middle

high

low

high

low

middle

(I) Kódolt IQ: Készült az IQváltozó övezetei alapjánlow

middle

high

low

middle

high

Tukey HSD

Games-Howell

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

Femininity

22 13,59

36 13,61

24 14,00

,779

22 13,59

36 13,61

24 14,00

Kódolt IQ: Készült az IQváltozó övezetei alapjánlow

middle

high

Sig.

low

middle

high

Tukey HSDa,b

Tukey Ba,b

N 1

Subsetfor alpha

= .05

Means for groups in homogeneous subsets are displayed.

Uses Harmonic Mean Sample Size = 26,110.a.

The group sizes are unequal. The harmonic mean of thegroup sizes is used. Type I error levels are notguaranteed.

b.

Page 46: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

46

Amennyiben nem teljesül a normalitás, úgy rangstatisztikai eljárást tudunk alkalmazni, azonban ez

nem lesz annyira részletes, mint a ROPstat hasonló rutinja (így azt javasoljuk, hogy amennyiben

rangstatisztikai eljárásra van szükségünk, használjuk a ROPstatot).

Page 47: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

47

Amennyiben mindent beállítottunk, az alábbi outputot nyerjük:

A rangstatisztikai eljárás az SPSS-ben lényegesen rövidebb, itt csak a Kruskal–Wallis-teszt látható,

illetve az értelmezéshez, interpretációhoz szükséges rangstatisztikai leíró statisztikák. Ez alapján, a

benne lévő khi-négyzet statisztika és a hozzá tartozó Asymp. Sig-érték alapján elmondható, hogy,

hasonlóan a ROPstat eredményéhez, itt sem láthatunk semmifajta szignifikáns eltérést a rangátlagok

között, nincsen szignifikánsan domináns csoport.

Ranks

22 39,52

36 41,28

24 43,65

82

Kódolt IQ: Készült az IQváltozó övezetei alapjánlow

middle

high

Total

FemininityN Mean Rank

Test Statistics a,b

,357

2

,837

Chi-Square

df

Asymp. Sig.

Femininity

Kruskal Wallis Testa.

Grouping Variable: Kódolt IQ: Készültaz IQ változó övezetei alapján

b.

Page 48: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

48

Műhelymunkabeli megfogalmazás

E kérdések változatos módokon interpretálhatók egy műhelymunkában, hiszen elég összetett

eljárásról van szó – annak ellenére, hogy maga a hipotézis egyszerű, nagyon sok részeljárás van,

melyekről mindenképpen kell írni, hogy valid legyen a vizsgálatunk.

A feminitás-változó IQ-övezetek szerinti összehasonlítása

Az IQ-változót 3 övezetre bontottuk (alacsony, közepes és magas), majd e 3 övezetben vizsgáltuk a

feminitás-változó nagyságszintjét. Bár a csoportonként kiszámított ferdeségi és csúcsossági mutatók

egyike sem mutatott szignifikáns eltérést a normális eloszlás megfelelő paramétereitől,

rangstatisztikai eszközökkel is megvizsgáltuk a kérdést.

Azt tapasztaltuk, hogy mind a hagyományos eljáráshoz szükséges szóráshomogenitás fennáll (Levene-

próba: F(2; 47,5) = 0,642 (p = 0,5306)), mind a rangstatisztikákhoz szükséges rangsorok szórásának

homogenitása teljesül (Welch-féle Levene-próba: F(2; 47,9) = 1,058 (p = 0,3550)). Így az átlagoknak

és rangátlagoknak a hagyományos eljárásait alkalmazhattuk.

Az átlagok hagyományos eljárással sem (F(2; 79) = 0,278 (p = 0,7579)), illetve Kruskal–Wallis-féle

rang-ANOVA eljárással sem (H(2) = 0,357 (p = 0,8366)) különböznek egymástól szignifikánsan.

Megállapíthatjuk tehát, hogy az IQ növekedő csoportjaiban a feminitás átlaga szignifikánsan nem

különbözik egymástól

Fontos észrevenni és megemlíteni, hogy ha páros összehasonlításokat teszünk, akkor azt táblázatos

formában vagy akár oszlopdiagramos formában is érdemes lehet ábrázolni (az átlagokat feltüntetve),

vagy pontdiagrammal, összekötve az átlagokat, stb. Ezen a ponton már nagyon nagyfokú

szabadságunk van, hiszen az eredmények értelmezése, interpretációja változatos lehet. Figyeljünk

azonban oda, hogy a szükséges hivatkozások minden esetben pontosan jelenjenek meg a

dolgozatban.

1) A Levene- / O’Brien-próbáknál az F(szabadsági fok1; szabadsági fok2)-érték és a p-érték.

2) ANOVA, illetve annak robusztus változata (Brown–Forsythe) esetén az F-érték, szabadsági

fokok és a p-érték.

3) Kruskal–Wallis-próba esetén mindenképpen szerepeljen, hogy ekkor már sztochasztikus

homogenitást tesztelünk (vagy hogy rangsorokon elemzünk), hivatkozásban H-érték és p-

érték kell.

4) A páros összehasonlításoknál érdemes lehet táblázatos formában bemutatni az adatokat,

akár az eredeti SPSS vagy ROPstat outputtal. Hivatkozni a megfelelő t-értékekre kell, illetve

Sig.- vagy p-értékre.

Ne felejtsük el, hogy a ROPstat csak abban az esetben vizsgálja a páros összehasonlításokat, ha a

varianciaanalízisben szignifikáns különbséget talál – egyéb esetben ezt az elemét az outputnak nem

fogjuk látni. Nyilván, ha nincsenek különbségek, akkor a páros összehasonlítások bemutatása sem

lehet kötelező.

Page 49: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

49

Két összetartozó mintát tesztelünk

Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor összetartozó mintákkal dolgozunk (pl.

ugyanazon csoport két különböző időpontban mért adatai. Szintén ilyen eset, ha adott mintán,

azonos skálán mért változókat vizsgálunk, illetve pl. férj és feleség értékei azonos változón mérve).

Egy lehetséges szakmai hipotézis lehet a következő:

• Igaz-e, hogy a Szondi-tesztben a homo1 és homo2 kép kedveltsége azonos?

Vegyük észre, hogy ez a megfogalmazás statisztikai hipotézis is egyben, hiszen egyenlőséget

feltételezünk – így ez a szakmai hipotézis egyben a statisztikai hipotézisünk is.

A kétmintás esetet azonban aránylag könnyen el tudjuk intézni, amennyiben tudunk

különbségváltozót definiálni. Két változó esetén ugyanis e fenti hipotézis – bár megállja a helyét

statisztikailag is – átfogalmazható a következő formába:

• Igaz-e, hogy a Szondi-tesztben a homo1 és homo2 kép kedveltségének különbsége várhatóan

0?

Világos, hogy ha minden mért esetben képezzük a két képre adott érték különbségét, akkor e fenti

hipotézis az előzőekben már ismertetett, egy változó középértékére vonatkozó hipotézis vizsgálatával

elvégezhető (és a különbségváltozó képzésének jogossága miatt fontos, hogy azonos skálán legyenek

mérve).

Page 50: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

50

Két összetartozó minta tesztelése– ROPstat programcsomagban

Amennyiben mindent jól állítottunk be, úgy egy már (tartalmában) ismerős outputot kapunk:

Összetartozó minták egyszempontos összehasonlítása FÜGGÓ VÁLTOZÓK: homo1 homo2 A beolvasott összes eset száma: 277 Érvényes (komplett) esetek száma: 277 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 Elméleti átlagok egyenlőségének tesztelése: - Egymintás t-próba: t(276) = 1,911 (p = 0,0570)+ - Johnson-próba: J(276) = 1,912 (p = 0,0569)+ - Gayen-próba szignifikanciája: p = 0,0570+ A "Nincs X-ről Y-ra változás" hipotézis vizsgálata: - Wilcoxon-próba: R+ = 11045,0, R- = 8065,0, z = 1,929 (p = 0,0538)+ "A két változó sztochasztikusan ugyanakkora" hipotézis vizsgálata: - Előjelpróba: #(X < Y) = 108, #(X > Y) = 87, z = 1,432 (p = 0,1521) Index Változó Átlag Szórás Rangátlag X: homo1 1,809 1,232 1,46 Y: homo2 1,993 1,116 1,54 Y - X: 0,184 1,603 Ferdeség- és csúcsosságérték és normalitásvizsgálat Az Y - X változó mintabeli ferdesége = 0,010 (p = 0,946) Az Y - X változó mintabeli csúcsossága (g4 = a4 - 3) = -0,312 (p = 0,289) 95%-os konfidencia-intervallum az Y-X különbség elméleti átlagára C(0,95) = (-0,005; 0,373) Pontbecslés a valószínűségi fölény A(Y, X) mutatójára: A(Y, X)^ = 0,538 ( (X < Y)% = 39,0 (Y = X)% = 29,6 (X > Y)% = 31,4 ) 95%-os konfidencia-intervallum A(Y, X)-re: C(0,95) = (0,489; 0,587)

Page 51: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

51

Mint azt már említettük, ebben az esetben lényegében a különbségváltozó 0 voltát teszteljük, így

elemeiben az egymintás t-próba elemeit kell viszontlátnunk – és ebben az esetben NEM KELL külön

az ordinális esetet futtatni, mert AUTOMATIKUSAN szerepel az outputon a Wilcoxon-próba és az

előjelpróba.

Mégegyszer vegyük végig tehát az egymintás t-próbának és robusztus változatainak eseteit: mind a t-

próba, mind annak robusztus próbája (Johnson, Gayen) azt mutatja, hogy az eltérés a két változó

között tendencia-szintű, tehát nincsen szignifikáns eltérés a homo1 és homo2 kép kedveltsége

között.

A Wilcoxon-próba z-értéke és p-értéke szintén hasonlót mutat: tendencia-szintű eltérést tapasztal,

azonban ennél több nem mondható el.

Az előjelpróba hasonló eredményre vezet, bár itt már tendencia-szintű különbséget sem tudunk

kimutatni.

A próba feltételeinek ellenőrzése az output közepén kapott helyett: a különbségváltozó

normalitásának tesztelése ferdeség és csúcsosság alapján azt mutatja, hogy a különbségváltozó ezen

277 fős minta alapján nem különbözik szignifikánsan a normálistól.

Így megállapíthatjuk, hogy a hagyományos egymintás t-próba eredménye (melynek az itteni

megnevezése összetartozó mintás t-próba) teljesen megfelel számunkra, bár a többi eredmény is

értelmezhető. Mindenesetre megállapítható, hogy a homo1 és homo2 kép kedveltsége szignifikánsan

nem tér el egymástól.

Műhelymunkabeli megfogalmazás

Ebben az esetben azonosan hivatkozunk az egymintás t-próba eseteihez, azonban a megfogalmazás

más lesz.

Homo1 és homo2 kép kedveltségének összehasonlítása

A két képet egyaránt értékelő 277 esetet figyelembe véve megállapítható összetartozó mintás t-

próbával, hogy a két kép kedveltsége szignifikánsan nem különbözik egymástól (t(276) = 1,911, p =

0,057), bár tendencia-szintű eltérés megállapítható, a leíró statisztikák alapján a második kép

magasabb pontszámokat mutatott.

A próba feltételét ellenőriztük, a különbségváltozó normalitása a számított ferdeség- és csúcsosság-

paraméterek alapján feltételezhető, így a robusztus eljárásokra nem volt szükség.

Page 52: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

52

Legalább 3 összetartozó mintát tesztelünk

Ebben a fejezetben olyan kérdéseket tárgyalunk, amikor összetartozó mintákkal dolgozunk (pl.

ugyanazon csoport legalább 3 különböző időpontban mért adatai, vagy összefüggő változók azonos

csoportban mérve). Egy lehetséges szakmai hipotézis lehet a következő:

• Igaz-e, hogy a Szondi-tesztben a több szadista kép megítélése azonos?

Ismét olyan megfogalmazásunk van, mely statisztikai hipotézis is egyben, hiszen ismét egyenlőséget

tesztelhetünk.

Ebben az esetben is feltétel a normalitás, azonban a szóráshomogenitás-feltétele ennek az esetnek

lényegesen bonyolultabb, mint a független eseté. Ez az úgynevezett szfericitási feltétel elég bonyolult

számításokkal végezhető csak el – viszonylag ritkán is teljesül – így érdemes rögtön robusztus

eljárásokat is figyelembe venni. Ennek következtében érdemes ezen eljárásokat automatikusan a

robusztus tesztekkel ellenőrizni.

Ráadásul az intervallum-skálatípus beállítása itt is automatikusan tartalmazza az outputban a

rangstatisztikai eljárásokat.

Page 53: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

53

Kettőnél több összetartozó minta nagyságszintjének tesztelése – ROPstat

programcsomagban

Page 54: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

54

Amennyiben ezeket a beállításokat használjuk, a következő outputot nyerjük:

Összetartozó minták egyszempontos összehasonlítása FÜGGÓ VÁLTOZÓK: sadist1 sadist2 sadist3 sadist4 sadist5 sadist6 A beolvasott összes eset száma: 277 Érvényes (komplett) esetek száma: 277 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 Elméleti átlagok egyenlőségének tesztelése: - Varianciaanalízis (VA): F(5,1380) = 96,412 (p = 0,0000)*** (Hatásvariancia = 113,3921, Hibavariancia = 1,1761) - Robusztus VA szabadságfok-korrekcióval Geisser-Greenhouse (epszilon = 0,927): F(4,6; 1278,8) = 96,412 (p = 0,0000)*** Huynh-Feldt (epszilon = 0,944): F(4,7; 1303,3) = 96,412 (p = 0,0000)*** Sztochasztikus homogenitás tesztelése: - Friedman-próba: G(5) = 352,332 (p = 0,0000)*** - Rangszámokon végzett VA: rF(5,1380) = 94,594 (p = 0,0000)*** - Robusztus rang-VA szabadságfok-korrekcióval Geisser-Greenhouse (epszilon = 0,955): rF(4,8; 1318,4) = 94,594 (p = 0,0000)*** Huynh-Feldt (epszilon = 0,974): rF(4,9; 1344,5) = 94,594 (p = 0,0000)*** Rang- Sztochasztikus Index Változó Átlag Szórás átlag dominancia 1. sadist1 1,282 1,080 2,88 0,376*** 2. sadist2 1,451 1,320 3,05 0,411*** 3. sadist3 2,437 1,100 4,47 0,694*** 4. sadist4 2,690 1,244 4,74 0,748*** 5. sadist5 1,329 1,020 2,92 0,383*** 6. sadist6 1,296 1,014 2,94 0,388*** Megjegyzés: Minden változó esetében a sztochasztikus dominancia annak a valószínűségét jelzi, hogy ennek a változónak egy véletlen értéke (Xj) nagyobb lesz, mint egy random megfigyelés bármely változótól (X), plusz az egyenlőség valószínűségének a fele: SZTDj = P(Xj > X) + 0,5P(Xj = X) A sztochasztikus homogenitás definíciója: SZTD1 = SZTD2 = SZTD3 = ... = 0,5 Egy SZTDj érték szignifikanciája azt jelenti, hogy a Hj: SZTDj = 0,5 hipotézis elvethető. Átlagok Tukey-féle páronkénti összehasonlítása (k = 6, df = 1380): T12= 2,60 T13= 17,73** T14= 21,61** T15= 0,72 T16= 0,22 T23= 15,13** T24= 19,00** T25= 1,88 T26= 2,38 T34= 3,88+ T35= 17,01** T36= 17,51** T45= 20,89** T46= 21,39** T56= 0,50 Rangátlagok Tukey-féle páronkénti összehasonlítása (k = 6, df = 1380): T12= 1,96 T13= 17,95** T14= 20,96** T15= 0,41 T16= 0,65 T23= 15,99** T24= 19,01** T25= 1,55 T26= 1,30 T34= 3,01 T35= 17,54** T36= 17,29** T45= 20,55** T46= 20,31** T56= 0,24

Jól látható, hogy mind a varianciaanalízis, mind annak robusztus változatai, mind a rangstatisztikán

alapuló sztochasztikus dominancia tesztelések azt mutatják, hogy e kérdések között vannak

különbségek, vannak kiemelkedő képek, melyek kedveltsége valamilyen módon eltér a többiétől.

Az eljárásunk feltételeinek ellenőrzése bonyolult, így inkább a robusztus változatokat figyeljük:

miután a számított statisztika melletti p-érték mindenhol 0,0000, ezért bizton állíthatjuk, hogy e

képek kedveltsége nem egyenlő.

Page 55: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

55

A páros összehasonlítások között (Tukey, alsó két blokk) megfigyelhetjük, hogy pl. az első két kép

között (T12) nem látunk szignifikáns különbséget, azonban ha azokat az eseteket figyeljük, ahol a 3-as

vagy 4-es kód szerepel, akkor jól látható, hogy ez a két kép csak egymástól nem különbözik, minden

más képtől eltérést mutat.

Ennek kapcsán megállapítható, hogy – miután a többi kép között eltéréseket, *-al jelzett

különbségeket nem vehetünk észre – az 1-2-5-6. képek kedveltsége között nincsen eltérés, míg a 3-4.

képek ezeknél szignifikánsan magasabb értékeken szerepelnek, ráadásul a 3-4. képek között sem

találhatunk szignifikáns különbséget.

Műhelymunkabeli megfogalmazás

Az összetartozó mintás ANOVA esetén is kiemelhető a teljes különbség tesztelése, illetve az

egyenkénti, páros különbségek összehasonlítása. Azonban fontos megemlíteni, hogy itt a feltételeket

nem tudjuk ellenőrizni, ezért érdemes rögtön a robusztus tesztekre hivatkozni, a feltételek

ellenőrzésének okait is megemlítve.

A sadist képek kedveltségének összehasonlítása

A 6 képet egyszerre vizsgálva az eljáráshoz fontos normalitási és szfericitási feltételek ellenőrzésének

nehézsége miatt rögtön robusztus és rangstatisztikai eljárásokat fogunk figyelembe venni.

Mind a hagyományos, mind a normalitást feltételező, de robusztus eljárás azt mutatja, hogy

(F(5,1380) = 96,412 (p = 0,0000)***) szignifikáns eltérés van (robusztus, Huynh–Feldt (epszilon =

0,974): rF(4,9; 1344,5) = 94,594 (p = 0,0000)***).

Mindezt megerősítik a rangstatisztikai eljárások, melyek sztochasztikus dominanciát mutatnak:

Friedman, G(5) = 352,332, p=0,0000*, illetve Huynh–Feldt (epszilon = 0,974): rF(4,9; 1344,5) =

94,594 (p = 0,0000)***.

Ezek után páros összehasonlításokat végeztünk, ahol a Tukey-féle összehasonlítások alapján

elmondható, hogy az 1-2-5-6. képek egymástól nem térnek el. Szintén nem térnek el szignifikánsan a

3-4. képek egymástól, azonban az első csoportba sorolt képek szignifikánsan alacsonyabb értékeket

kaptak, mint a 3-4. képek.

A páros összehasonlítások adott esetben táblázatos formában is megjeleníthetők vagy valamilyen

diagramon ábrázolhatók. Ennek megvalósítására több program is alkalmas, érdemes lehet vele

kísérletezni – de ez már nem tartozik szigorúan a matematikai statisztikai problémák közé.

Page 56: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

56

Két csoportosító változó egyidejű hatásának tesztelése

Ebben az esetben azt vizsgálhatjuk, ha két csoportosító változó (nem, korcsoportok, lakóhelytípusok

stb) figyelembevételével szeretnénk az adott változót megvizsgálni. Jelen esetben azt a módot

követjük, hogy szeretnénk az IQ alapján övezetekre bontott populációnkban a nemeket megfigyelni a

dominancia-változó mentén.

• Igaz-e, hogy a dominancia értéke másként viselkedik a férfiak és a nők között, amennyiben az

IQ nagyságszintjét is figyelembe vesszük?

Ennek statisztikai megfogalmazása változatos, ugyanis egyszerre több dolgot is állítunk, egyszerre

több dolgot is vizsgálunk. A legegyszerűbb talán azt megvizsgálni statisztikailag, ha ezt nem

egyenlőséggel vagy függetlenséggel vizsgáljuk, hanem – kicsit kötve már a következő fejezet

látásmódjához, egyfajta modellként szemléljük a változók kapcsolatát.

• Mit mondhatunk a dominancia-változó várható nagyságszintjéről, amennyiben a

populációnkat nem- és intelligenciahányados-nagyság szerint szeretnénk csoportokba

osztani?

Ez a szemlélet egyfajta modellt eredményez: milyen viszonyok írhatóak fel e 3 változó között.

Természetesen ez magába foglalja, hogy nemenként, IQ-övezetenként is szemléljük a dominancia-

változó nagyságszintjét, de egyben, egymás hatásait is figyelve szeretnénk értékelni a

nagyságszinteket.

Ezt a feladatot könnyebb a ROPstat programban kiértékelni. A modell adta hipotézisek vizsgálatának

feltételei a vizsgált változó normalitása, továbbá a már szinte megszokott szóráshomogenitás –

azonban ez utóbbi vizsgálata és ellenőrzése nem annyira bonyolult, mint az összetartozó esetben.

Amennyiben a normalitás sérül, úgy itt is érdemes a rangstatisztikai megfelelőket előszedni és

futtatni.

Page 57: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

57

Page 58: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

58

Ha minden beállításunk ilyen, úgy a következő eredményt nyerjük:

Független minták kétszempontos összehasonlítása A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 1. csoportosító változó: Gender (Gender of subjects) 2. csoportosító változó: IQ (IQ of subjects) Mintaelemszámok táblázata Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 8 3 5 16 2 Female 19 37 22 78 ÖSSZESEN 27 40 27 94 FÜGGŐ VÁLTOZÓ: Domin (Dominance) Érvényes esetek száma: 82 Érvénytelen esetek száma: 12 AZ ÉRVÉNYES ESETEK KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZATA Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 7 2 3 12 2 Female 15 34 21 70 ÖSSZESEN 22 36 24 82 MINTAÁTLAGOK TÁBLÁZATA (Domin) 'IQ' szerinti csoportok Index Gender low middle high ÁTLAG 1 Male 12,29 10,00 12,00 11,43 2 Female 10,13 12,12 12,62 11,62 ÁTLAG: 11,21 11,06 12,31 MINTASZÓRÁSOK TÁBLÁZATA (Domin) 'IQ' szerinti csoportok Index Gender low middle high 1 Male 4,608 4,243 4,583 2 Female 3,399 3,557 4,018 Varianciaanalízis összefoglaló táblázata (súlyozatlan átlagok módszere) Szóródás oka f Szórásnégyzet F p-érték Gender 1 0,305 0,021 0,8844 IQ 2 4,979 0,347 0,7077 Gende x IQ 2 14,631 1,020 0,3653 Hibatag 76 14,337 Szóráshomogenitás tesztelése -- Levene-próba: F(5; 76,0) = 0,332 (p = 0,8923) Cellastatisztikák Index: (1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) n: 7 2 3 15 34 21 Átlag: 12,29 10,00 12,00 10,13 12,12 12,62 Szórás: 4,608 4,243 4,583 3,399 3,557 4,018 ROBUSZTUS kétszempontos varianciaanalízis (Domin) - Welch-próba a Gender csoporthatás tesztelésére: F(1; 4,1) = 0,016 (p = 0,9044) - Welch-próba az IQ csoporthatás tesztelésére: F(2; 3,3) = 0,210 (p = 0,6755) - Johansen-próba a Gender x IQ interakció tesztelésére: Khi2(2) = 1,426 (p = 0,4901)

Az output elején láthatjuk a csoportok kategóriáit, illetve a különböző kategória-metszetekben

számított szórásokat, átlagokat. Lényegében ezeket az átlagokat teszteljük, hogy egyenlők-e

(főhatások), illetve azt, hogy ha nem egyenlők, akkor a főhatások egymástól függetlenül hatnak-e

vagy sem (interakció).

Page 59: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

59

Először tehát az output közepén található Levene-tesztet érdemes előszedni, hiszen ez dönti el, hogy

majd a robusztus vagy a hagyományos eljárások közül kell választanunk. Az ott lévő F-érték és hozzá

tartozó p-érték azt mutatja, hogy a szóráshomogenitás teljesül, tehát maradhatunk a hagyományos

eljárásoknál.

A szóráshomogenitás-teszt feletti blokk mutatja, hogy a különböző főhatások, illetve a közöttük lévő

interakció szignifikáns-e.

Minden sor elején láthatjuk, hogy főhatás (egy változó) vagy interakció (két főhatás keresztezése)

kerül tesztelésre. A mellette látható érték a szabadsági fok, majd a megfelelő variancia (ezt

analizáljuk, variancia = szórásnégyzet). Ezek után az F-érték és a hozzá tartozó p-érték.

Ezekből megállapítható, hogy egyik főhatás sem szignifikáns, továbbá az interakció sem kimutatható.

(Megjegyezzük, hogy az interakció annyit jelent, hogy a két szempont nem egymástól függetlenül fejti

ki hatását – azaz a hatásuk nem egyszerűen összeadódik, hanem valamilyen gyengítés vagy erősítés

történik a két változó valamely kombinációjában – az eredeti főhatás hatásokhoz képest).

Amennyiben a normalitás sérül, úgy rangstatisztikai eljárást is bevethetünk:

Page 60: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

60

Ha minden beállítás helyes, a következő outputot kapjuk:

Független minták kétszempontos sztochasztikus összehasonlítása A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 1. csoportosító változó: Gender (Gender of subjects) 2. csoportosító változó: IQ (IQ of subjects) Mintaelemszámok táblázata Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 8 3 5 16 2 Female 19 37 22 78 ÖSSZESEN 27 40 27 94 FÜGGŐ VÁLTOZÓ: Domin (Dominance) Érvényes esetek száma: 82 Érvénytelen esetek száma: 12 Átlagos mintaelemszám: n_átlag = 13,7 AZ ÉRVÉNYES ESETEK KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZATA Gender 'IQ' szerinti csoportok Index csoport low middle high ÖSSZESEN 1 Male 7 2 3 12 2 Female 15 34 21 70 ÖSSZESEN 22 36 24 82 A legkisebb mintaelemszám kisebb, mint 3. Statisztikai elemzés nem végezhető. A legkisebb mintaelemszám kisebb, mint 3. Statisztikai elemzés nem végezhető.

Vegyük észre, hogy a program ezt nem tudja számunkra megoldani. Ezért újradefiniáljuk a

csoportokat. A nem-változót nyilván lehetetlen átkódolni, azonban az IQ esetén a 3 csoport helyett

csak kettőt fogunk engedni: lesz egy 120 alatti és egy 120 feletti csoport, így reménykedhetünk

benne, hogy eredményes lesz a vizsgálat.

Page 61: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

61

Az új beállításokkal az alábbi outputot nyertük:

Független minták kétszempontos sztochasztikus összehasonlítása A beolvasott összes eset száma: 94 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 1. csoportosító változó: Gender (Gender of subjects) 2. csoportosító változó: IQ (IQ of subjects) Mintaelemszámok táblázata Gender 'IQ' szerinti csoportok Index csoport 0-120 121-200 ÖSSZESEN 1 Male 5 11 16 2 Female 14 64 78 ÖSSZESEN 19 75 94 FÜGGŐ VÁLTOZÓ: Domin (Dominance) Érvényes esetek száma: 82 Érvénytelen esetek száma: 12 Átlagos mintaelemszám: n_átlag = 20,5 AZ ÉRVÉNYES ESETEK KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZATA Gender 'IQ' szerinti csoportok Index csoport 0-120 121-200 ÖSSZESEN 1 Male 4 8 12 2 Female 10 60 70 ÖSSZESEN 14 68 82 SZTOCHASZTIKUS DOMINANCIA ÉRTÉKEK TÁBLÁZATA (Domin) 'IQ' szerinti csoportok Gender 0-120 121-200 ÁTLAG Male 0,595 0,444 0,519 Female 0,341 0,528 0,434 ÁTLAG: 0,468 0,486 Sztochasztikus homogenitás (SZTH) elemzés (mintaelemszámokkal arányos populációsúlyok) Kétszempontos rang-VA ÖSSZEFOGLALÓ TÁBLÁZATA (Domin) Hatás Nullhipotézis f1 f2 F p-érték Gender Egyszempontos SZTH (A) 1,0 78 0,715 0,4004 IQ Egyszempontos SZTH (B) 1,0 78 0,031 0,8609 Gend. x IQ Nincs sztoch. interakció 1,0 78 2,908 0,0921+

Jól láthatóan az előző esettel majdnem megegyező eredményt kaptunk – a rangstatisztika mutat egy

tendencia-szintű interakciót, azonban szignifikáns eredményeket itt sem tudunk kimutatni.

Ilyen esetekben a válaszok némiképpen egyszerűsödnek, ráadásul minden módszer ugyanazt az

eredményt hozta. Fontos azonban megjegyezni, hogy ehhez az elemzéshez, miután nem tartalmazza,

érdemes a normalitás-vizsgálatot legalább előtte elvégezni a dominancia-változóra.

Page 62: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

62

Műhelymunkabeli megfogalmazás

A kétszempontos (ANO)VA-elemzés esetén a feltételek ellenőrzése – ellentétben az összefüggő

esettel – megtörténik, tehát meg kell emlékezni róla a dolgozatainkban is. A normalitás-vizsgálatot

érdemes előtte lefuttatni – bár mi ezt most nagyvonalúan elhanyagoltuk, mert előzetesen már

bemutattuk.

A dominancia vizsgálata nemenként és az IQ különböző kategóriái mentén

A dominancia-változót mind férfiak és nők, mind pedig az IQ három (rangstatisztikákkal kettő)

kategóriájában számítottuk, értékeltük.

Az egymáshoz való viszonyuk alapján kijelenthető, hogy sem a rangstatisztikák, sem a hagyományos

eljárások nem mutattak szignifikáns eltéréseket (a legkisebb p-értéket a rangstatisztika interakciója

esetén tapasztaltuk, p>0,09).

Ez alapján kijelenthető tehát, hogy sem a nem szerinti megkülönböztetés, sem az IQ eltérései

nincsenek hatással a dominancia-skálán várható értékre.

Természetesen akkor, ha valakinek a dolgozatában ez a fő csapásvonal, akkor a különböző átlagok,

szórások, minden egyéb statisztika külön-külön kiemelhető és tárgyalható, magyarázva, hogy miért is

nincsenek nem vagy intelligencia alapján meghatározható különbségek a dominancia-változó várható

értékében.

Ezeket egyénileg érdemes interpretálni, azokra az esetekre, helyzetekre koncentrálva, melyek

számunkra fontosak.

Page 63: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

63

Csoportok és változók egyidejű hatásának tesztelése

E fejezetben olyan eseteket vizsgálunk, amikor azonos skálán mért változókat (pl. a Szondi-teszt

azonos jelenséget mérő képeit) különböző, egymástól független csoportokban szeretnénk

összehasonlítani. Ilyen kérdés például:

• Igaz-e, hogy a Szondi-teszt sadist1-2-3-4-5-6. képeinek kedveltsége másként viselkedik férfiak

és nők között?

Ennek statisztikai vizsgálata ismételten az előző fejezetben megtapasztalt modellhez vezet: ugyanis

ez is egy összetett helyzet, több lehetséges hipotézist is vizsgálunk egyben.

A modell:

• Mit mondhatunk a Szondi-teszt szadista képeinek kedveltségéről férfiakat és nőket vizsgálva?

Ahogy az előző esetben is, most is csak ROPstat programot használunk, mert ahogy már korábban

megjegyeztük: ezen vizsgálatok az SPSS programcsomagban lényegesen nagyobb eljárás

részfeladataként vannak definiálva – míg a ROPstat beépítve tartalmazza a rangsorolásos eljárásokat

is, megkönnyítve így a robusztus tesztelést.

Ez az eset az úgynevezett vegyes varianciaanalízis, hiszen egyik oldalról csoportokat hasonlítunk

össze, másik oldalról pedig több, egymással összefüggő változót. Mint azt az összefüggő esetén

tapasztaltuk, ennek az esetnek a feltételrendszer-ellenőrzése bonyolult, tehát ebből következően itt

sem várhatjuk el, hogy a szóráshomogenitási (szfericitási) feltétel ellenőrzése megtörténik. Így

érdemes minden esetben a robusztus teszteléssel összevetni a hagyományos eljárás eredményeit.

Továbbá a ROPstat nem tartalmaz olyan eljárást, ahol vegyes VA lenne futtatható rangsorokon, tehát

ezt az esetet sem fogjuk vizsgálni. Így ez a metódus csak nagyobb mintákon alkalmazható (hogy a

normalitás sérülését kivédjük), ráadásul ott is úgy, hogy érdemes a robusztus eljárásokat mindig

megnéznünk a hagyományos eljárás mellé, hiszen nem látjuk a másik feltétel tesztelését sem.

Fontos kiemelnünk, hogy ilyenkor egyszerre több mindent vizsgálunk: a csoportok / változók

(fő)hatásait és az egymásra gyakorolt hatásukat egyaránt teszteljük, tehát egyetlen kérdéssel nem

írható le ennek az eljárásnak a hipotézis-rendszere!

Page 64: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

64

Page 65: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

65

Ha minden beállításunk helyes, úgy a következő outputot nyerjük:

Kétszempontos vegyes varianciaanalízis FÜGGÓ VÁLTOZÓK: sadist1 sadist2 sadist3 sadist4 sadist5 sadist6 A beolvasott összes eset száma: 277 Érvényes (komplett) esetek száma: 277 Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 MINTAÁTLAGOK táblázata Gender Függő változók (Ismétléses szempont) csoport n sadist1 sadist2 sadist3 sadist4 sadist5 male 135 1,274 1,681 2,452 2,637 1,326 female 142 1,289 1,232 2,423 2,739 1,331 ÁTLAG: 1,282 1,451 2,437 2,690 1,329 Gender Függő változók (Ismétléses szempont) csoport n sadist6 ÁTLAG male 135 1,333 1,784 female 142 1,261 1,712 ÁTLAG: 1,296 MINTASZÓRÁSOK táblázata Gender Függő változók (Ismétléses szempont) csoport n sadist1 sadist2 sadist3 sadist4 sadist5 sadist6 male 135 1,109 1,423 1,170 1,273 1,028 1,072 female 142 1,056 1,177 1,034 1,219 1,016 0,958 VARIANCIAANALÍZIS összefoglaló táblázata (Az összetartozó mintás szempont elemzését a súlyozatlan átlagok módszerével végezzük) Szóródás oka f Szórásnégyzet F p-érték Gender 1 2,123 1,146 0,2854 Hibatag-1 275 1,854 ----------------- Ismétlés 5 112,995 96,500 0,0000*** Gende x Ismét 5 2,600 2,221 0,0500* Hibatag-2 1375 1,171 ROBUSZTUS kétszempontos varianciaanalízis - Welch-próba a Gender csoporthatás tesztelésére: F(1; 269,7) = 1,140 (p = 0,2865) Robusztus tesztelések szabadságfok korrekcióval (Geisser-Greenhouse-féle epszilon = 0,931, Huynh-Feldt-féle epszilon = 0,948) - Ismétléses faktor (Ismétléses szempont) Geisser-Greenhouse-féle tesztelése: F(4,7; 1279,5) = 96,500 (p = 0,0000)*** - Ismétléses faktor (Ismétléses szempont) Huynh-Feldt-féle tesztelése: F(4,7; 1304,1) = 96,500 (p = 0,0000)*** Gender x Ismétlés interakció tesztelése: - Geisser-Greenhouse-próba: F(4,65; 1279,45) = 2,221 (p = 0,0547)+ - Huynh-Feldt-próba: F(4,74; 1304,08) = 2,221 (p = 0,0534)+ Ismétléses szempont: szintátlagok Tukey-féle páronkénti összehasonlítása (k = 6, f = 1304): T12= 2,61 T13= 17,77** T14= 21,65** T15= 0,72 T16= 0,22 T23= 15,16** T24= 19,05** T25= 1,89 T26= 2,39 T34= 3,89+ T35= 17,05** T36= 17,55** T45= 20,93** T46= 21,43** T56= 0,50

A tapasztalatok nagyon hasonlítanak arra, amit az összetartozó elemzésekből már megtudtunk. Az

ismétléses faktor (minden esetben ki van emelve, hogy melyik az ismétléses faktor) szignifikáns

különbséget mutat (erről tudunk is már, hiszen vizsgáltuk, hogy a sadist képek pontszámai eltérőek, a

3-4. kép magasabb pontszámokat kap, mint a többi 4).

Page 66: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

66

Továbbá itt is „csak” tendencia-szintű interakciókat tapasztalunk, azaz nincsen szignifikáns interakció,

tehát nem mondhatjuk, hogy a nemek másként vélekednének ezekről a képekről, illetve nem

mondhatjuk, hogy a férfiak esetén szignifikánsan eltérő lenne a képek sorrendje (kapott pontszámok

alapján rangsorolva), mint a nőknél.

Műhelymunkabeli megfogalmazás

Jelen esetben, megfogalmazásban szinte másolhatnánk az összetartozó eset adatait erre az esetre is,

hiszen nemenként semmifajta különbséget nem tapasztalunk (illetve szignifikáns különbséget nem

érzékeltünk, ráadásul interakció sem volt).

Sadist képek kedveltségének mértéke a két nem esetén

Az összetartozó mintás (ANO)VA-elemzésből már tudjuk, hogy mind a rang-VA, mind a hagyományos

eljárás azt mutatta, hogy a képek közül a 3-4. képek másként viselkednek.

A vegyes (ANO)VA-elemzés azt mutatta, hogy nincsen nemenként eltérő hatás egyik kép esetén sem,

továbbá nincsen kimutatható szignifikáns interakció sem (p>0,05), azaz elmondható, hogy e fenti, 3-

4. képek eltérő viselkedése nemenként külön-külön vizsgálva a populációt, szintén felfedezhető.

Általánosságban is érvényes: a vegyes, illetve a többszempontos elemzések során részesetként

felmerül az egyszempontos, illetve összefüggő esetek vizsgálata. Ennek következtében ezek az

elemzések rákövetkező elemzések, ahol jogosan hivatkozhatunk a már korábban vizsgált esetekre,

helyzetekre. Ezen esetekben nem szükséges megismételni feltétlenül a hivatkozásokat, elegendő

utalnunk rájuk.

Page 67: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

67

Kvantitatív változók közötti kapcsolatvizsgálat

Korábban már ígértem, hogy a VA során tapasztalt egyik output-elemre vissza fogunk térni. A VA

esetén láthatunk egy nemlineáris korrelációs együtthatót és egy eta-négyzetet. Ezek nem mások,

mint a lineáris regresszióból, illetve Pearson-féle korrelációs együtthatóból általánosított mutatók.

A determinációs együttható vagy magyarázott variancia-arány általánosítása jelenik meg a

középértékek összehasonlításakor a ROPstat outputján, amikor nemlineáris magyarázott variancia-

arány mutatókat közöl a program (eta-négyzet).

• Vizsgáljuk meg mindkét programban a dominancia és a szociabilitás kapcsolatát.

Ennek az eljárásnak a sajátossága – az e leírásban szereplő többi eljárással szemben – hogy nincsen

szigorúan vett feltétele, hiszen itt modellt írunk fel. Azt kell tudnunk, hogy ebben az esetben pl.

lineáris regressziót alkalmazunk, azaz a két változó között egy lineáris kapcsolatot fog keresni az

eljárás.

Magyarán: csak azt akarjuk most eldönteni, hogy van-e LINEÁRIS (monoton) kapcsolat a két változó

között. Azonban tudnunk kell, hogy ha a két mért változó normális eloszlású, akkor közöttük csak és

kizárólag lineáris kapcsolat lehet, tehát normális eloszlású változók körében a lineáris kapcsolat

megléte vagy hiánya ekvivalens a meglévő vagy hiányzó kapcsolattal a két változó között.

Ezt az eljárást mind ROPstatban, mind SPSS-ben megnézzük, azonban SPSS-ben két külön eljárást kell

majd futtatni, hogy a ROPstattal azonos outputot kaphassunk.

Page 68: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

68

Korrelációs együttható(k) és egyszerű lineáris regresszió – ROPstat programcsomagban

Page 69: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

69

Amennyiben ilyen beállításokat használunk, a következő outputot nyerjük:

Korreláció, lineáris regresszió A beolvasott összes eset száma: 94 Jelölés: r: Pearson-féle lineáris korrelációs együttható Rpb: Wilcox-féle robusztus korrelációs együttható Tau-b: Kendall-féle tau-b monotonitási együttható Tau: Kendall-féle tau monotonitási együttható p_pos: Pozitív együttjárás (konkordancia) százaléka p_neg: Negatív együttjárás (diszkordancia) százaléka Szignifikancia: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 ELEMZENDŐ VÁLTOZÓPÁR: X = Domin (Dominance) Y = Sociab (Sociability) A mind X, mind Y esetében érvényes értékkel rendelkező esetek száma: N = 82 Változó Átlag Var. Min. Max. Regressziós egyenlet X: Domin 11,84 14,28 4 20 x = 0,779 + 0,757y Y: Sociab 14,62 11,52 7 21 y = 7,395 + 0,610x X: Reziduális variancia (Hibavariancia): MSerr(X) = 7,688, SH(X) = 2,773 Y: Reziduális variancia (Hibavariancia): MSerr(Y) = 6,202, SH(Y) = 2,490 Korrelációk és 95%-os intervallumbecslés az elméleti értékre: r = 0,680*** p = 0,0000 C95 = (0,545; 0,780) Rpb = 0,674*** p = 0,0000 C95 = (0,539; 0,776) tau-b = 0,518*** p = 0,0000 C95 = (0,360; 0,677) tau = 0,478*** p = 0,0000 C95 = (0,330; 0,625) p_poz = 66,6%, p_neg = 18,8%

A korreláció és regresszió esetén lényegében egyetlen hipotézist kell vizsgálnunk: van-e szignifikáns

kapcsolat vagy nincsen? Ezt az output legalsó blokkjában tudjuk ellenőrizni – minden egyéb csak

azután érdekes, hogy szignifikáns kapcsolatot látunk (nem tudunk modellt értelmezni, ha nincs is

kapcsolat).

Azt láthatjuk, hogy mind a Pearson-féle korrelációs együttható ’r’, mind annak robusztus változata,

mind pedig a két Kendall-féle tau-mutató szignifikánsan eltér a 0-tól, mindegyik pozitív és közepesen

erős (az első kettő lineáris, az utóbbi kettő monoton) kapcsolatot jelez.

Az egyenletekből megállapítható, hogy a dominancia és a szociabilitás miként fejezhetőek ki

egymásból.

Page 70: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

70

Korrelációs együttható(k) és egyszerű lineáris regresszió – SPSS programcsomagban

Page 71: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

71

Amennyiben szeretnénk regressziós egyenletet is, úgy egy másik eljárást is futtatnunk kell még – ez

ugyanis csak a következő outputot adja:

A ROPstathoz hasonlóan itt is látható, hogy közepesen erős, szignifikáns kapcsolatot talált a

szociabilitás és a dominancia között. Minden eredmény megegyezik a ROPstat eredményeivel – csak

az egyenleteket nem látjuk még, mert azt egy másik menüpontból kell lekérnünk.

Correlations

1 ,680**

,000

82 82

,680** 1

,000

82 82

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Dominance

Sociability

Dominance Sociability

Correlation is significant at the 0.01 level (2-tailed).**.

Correlations

1,000 ,518**

. ,000

82 82

,518** 1,000

,000 .

82 82

1,000 ,684**

. ,000

82 82

,684** 1,000

,000 .

82 82

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

Dominance

Sociability

Dominance

Sociability

Kendall's tau_b

Spearman's rho

Dominance Sociability

Correlation is significant at the 0.01 level (2-tailed).**.

Page 72: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

72

A lineáris regresszió a következő módon érhető el az SPSS-ben:

Page 73: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

73

Amennyiben mindent helyesen állítottunk be, az alábbi outputot kapjuk:

A modell szignifikanciáját a 3. táblázat (ANOVA) F-statisztikájának szignifikanciája mutatja meg

számunkra. Amennyiben itt a Sig.-érték 0,05 alatti, úgy van értelme tovább foglalkozni a regressziós

modellel (amennyiben a fenti, stepwise-algoritmust használjuk, úgy csak szignifikáns modellt

láthatunk).

Variables Entered/Removed a

Sociability .

Stepwise(Criteria:Probability-of-F-to-enter<= ,050,Probability-of-F-to-remove >=,100).

Model1

VariablesEntered

VariablesRemoved Method

Dependent Variable: Dominancea.

Model Summary

,680a ,462 ,455 2,790Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Sociabilitya.

ANOVAb

534,198 1 534,198 68,625 ,000a

622,741 80 7,784

1156,939 81

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Sociabilitya.

Dependent Variable: Dominanceb.

Coefficients a

,779 1,370 ,568 ,571

,757 ,091 ,680 8,284 ,000

(Constant)

Sociability

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Dominancea.

Page 74: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

74

Az első táblázatot csak többváltozós esetben szokás érdemben vizsgálni, ugyanis ebben a táblázatban

kerülnek felsorolásra a modellbe bevont változók. Itt most a dominancia-változóra nyilván a

szociabilitás-változót vontuk be.

Az F-érték alapján tehát szignifikáns kapcsolat van a változóink között, a korrelációs együttható 0,68

(közepesen erős, pozitív kapcsolat) és az ebből számított determinációs együttható (r-négyzet) 0,46.

A felírható modell:

• 0,779 + 0,757*szociabilitás = dominancia

A másik lehetőség a modell ellenőrzésére: ha a modell felírására használt utolsó táblázatban

vizsgáljuk az együtthatók szignifikanciáját (azt vizsgáljuk, hogy az együttható 0 vagy nem 0). Hiszen

amennyiben 0 lenne az együttható, akkor feleslegesen írjuk fel a modellbe.

Page 75: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

75

Műhelymunkabeli megfogalmazás

A szociabilitás- és dominancia-változók kapcsolata

A két változó között szignifikáns, pozitív, közepesen erős kapcsolat van (r = 0,68, p = 0,0000). A

magyarázott variancia-arány 0,46 (46%). Megállapítható tehát, hogy a szociabilitás növekedésével a

dominancia növekedése jár együtt.

Figyeljünk oda arra, hogy az ilyen esetekben MINDIG először a szignifikanciát ellenőrizzük. Nem

mondhatunk semmit sem a modellről, ha nincsen szignifikáns viszony – tehát bármely számított

paraméterrel csak akkor van értelme foglalkoznunk, ha meglévő kapcsolatot látunk.

Page 76: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

76

Diszkrét változók közötti kapcsolatvizsgálat

Diszkrét változók közötti kapcsolatvizsgálat esetén egy előző fejezetben már tárgyalt

kapcsolatvizsgálatot veszünk elő – más köntösbe bújtatva.

A kétmintás t-próba esetén használtuk nemek között a feminitás nagyságszintjének

összehasonlítását.

Most is hasonló dolgot fogunk tenni - a nem és az IQ kapcsolatát fogjuk vizsgálni. Alapesetben ez egy

kétmintás t-próba lenne, azonban ha övezetes felírása is létezik a folytonos változónak, akkor

ránézhetünk úgy is, hogy alacsony, közepes és magas IQ-szint, melyeknek van-e kapcsolata a nem-

változóval?

• Van-e kapcsolat a nem és az IQ között?

Statisztikai hipotézisként az alábbi vizsgálatot fogjuk végrehajtani:

• Az IQ- és a nem-változók függetlenek egymástól.

Ennek az eljárásnak egyetlen feltétele van, melynek ellenőrzése be van építve mindkét

programcsomagba: az elvárt vagy várható gyakoriságoknak minden egyes cellában (a kereszttábla

minden kategória-párosításában) legalább 5-nek kell lennie. Ez alól kis kivételt tehetünk: amennyiben

a cellák legalább 80%-ában ezt elértük, úgy alkalmazható az eljárás (tehát 2 x 2-es esetben minden

cella, de 2 x 3 cella esetén pl. 1 cellában sérülhet e feltétel).

A 2 x 2-es eset specifikus, ugyanis ebben az esetben használható az úgynevezett Fisher-egzakt próba,

melynek nincsen feltétele: bármikor alkalmazható, bármilyen cellagyakoriság esetén – azonban csak

2 x 2-es esetekre.

Page 77: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

77

Kereszttáblás elemzések – ROPstat programcsomagban

Page 78: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

78

Ha mindent a fentiek szerint állítottunk be, úgy a következő outputot kapjuk:

Diszkrét változók kapcsolatvizsgálata Jelölés: +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001 A beolvasott összes eset száma: 94 KÉTSZEMPONTOS GYAKORISÁGI TÁBLÁZAT Sorváltozó: Gender (Gender of subjects) Oszlopváltozó: IQ (IQ of subjects) Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 8 3 5 16 Female 19 37 22 78 Összesen 27 40 27 94 Várt gyakoriságok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 4,6 6,8 4,6 16 Female 22,4 33,2 22,4 78 Összesen 27 40 27 94 Sorösszegek szerinti százalékok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 50,0 18,8 31,3 100,0 Female 24,4 47,4 28,2 100,0 Összesen 28,7 42,6 28,7 100,0 Oszlopösszegek szerinti százalékok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 29,6 7,5 18,5 17,0 Female 70,4 92,5 81,5 83,0 Összesen 100,0 100,0 100,0 100,0 Kétszempontos százalékos gyakoriságok táblázata Az IQ változó csoportjai/kategóriái: Gender low middle high Összesen Male 8,5 3,2 5,3 17,0 Female 20,2 39,4 23,4 83,0 Összesen 28,7 42,6 28,7 100,0 KAPCSOLATI MUTATÓK Cramér-féle kontingencia-együttható, V = 0,245 Goodman-Kruskal-féle predikciós mutatók A) Mind a sor-, mind az oszlopváltozó véletlen változónak tekinthető: - Oszlopváltozó predikciója a sorváltozó alapján: Lambda(oszlop|sor) = 0,093, Tau(oszlop|sor) = 0,032 - Sorváltozó predikciója az oszlopváltozó alapján: Lambda(sor|oszlop) = 0,000, Tau(sor|oszlop) = 0,048 B) Csak a bejósolandó változó tekinthető véletlen változónak: - Oszlopváltozó predikciója a sorváltozó alapján: Lambda*(oszlop|sor) = 0,184, Tau*(oszlop|sor) = 0,056 - Sorváltozó predikciója az oszlopváltozó alapján: Lambda*(sor|oszlop) = 0,000, Tau*(sor|oszlop) = 0,054 Közös információ-hányad - Oszlopváltozó predikciója a sorváltozó alapján: UC(oszlop|sor) = 0,028 - Sorváltozó predikciója az oszlopváltozó alapján: UC(sor|oszlop) = 0,067 FÜGGETLENSÉG TESZTELÉSE Khi-négyzet-próba (f = 2): Khi2 = 5,649 (p = 0,0593)+ FIGYELEM: Túl sok az 5-nél kisebb várt gyakoriságok száma: k = 2 Emiatt a khi-négyzet-próba érvényessége kétséges lehet.

Page 79: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

79

A kereszttáblás elemzések során a leíró statisztikai részekhez tartoznak a különböző táblázatok:

tapasztalati gyakoriságok, százalékos eloszlások – sor- és oszlopösszeg szerint, illetve a teljes

százalékos megoszlás.

A predikciós mutatók és egyéb mutatók akkor értelmesek, ha az egész elemzéshez tartozó khi-

négyzet statisztika (mely a függetlenség-tesztelés elnevezésű, utolsó blokkban található) szignifikáns.

Esetünkben ezzel több gond is adódik, mert egyik oldalról a várható gyakoriságok nem elég nagyok

(le tudjuk ellenőrizni, hogy 2 cellában is 5 alatti értéket kapunk), másik oldalról pedig az érték csak

tendencia-szintű. Tehát elmondható, hogy az IQ- és a nem-változók függetlenek egymástól.

Természetesen ez azt jelenti, hogy a predikciós mutatók (valaki neméből előre tudnánk-e jelezni az

IQ-ját?), illetve a kapcsolat erősségét mérő kontingencia-együtthatók nem magyarázhatók.

Page 80: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

80

Kereszttáblás elemzések – SPSS programcsomagban

Az SPSS programcsomagnak ez a fejezete a leíró statisztikáknál található meg (ne keverjük össze a

nemparaméteres statisztikák khi-négyzet-próbájával).

Page 81: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

81

Ezen beállításokkal az alábbi táblázatokat, outputot nyerjük:

Case Processing Summary

94 100,0% 0 ,0% 94 100,0%Gender of subjects *Kódolt IQ: Készült az IQváltozó övezetei alapján

N Percent N Percent N Percent

Valid Missing Total

Cases

Gender of subjects * Kódolt IQ: Készült az IQ válto zó övezetei alapján Crosstabulation

8 3 5 16

4,6 6,8 4,6 16,0

50,0% 18,8% 31,3% 100,0%

29,6% 7,5% 18,5% 17,0%

8,5% 3,2% 5,3% 17,0%

19 37 22 78

22,4 33,2 22,4 78,0

24,4% 47,4% 28,2% 100,0%

70,4% 92,5% 81,5% 83,0%

20,2% 39,4% 23,4% 83,0%

27 40 27 94

27,0 40,0 27,0 94,0

28,7% 42,6% 28,7% 100,0%

100,0% 100,0% 100,0% 100,0%

28,7% 42,6% 28,7% 100,0%

Count

Expected Count

% within Gender ofsubjects

% within Kódolt IQ:Készült az IQ változóövezetei alapján

% of Total

Count

Expected Count

% within Gender ofsubjects

% within Kódolt IQ:Készült az IQ változóövezetei alapján

% of Total

Count

Expected Count

% within Gender ofsubjects

% within Kódolt IQ:Készült az IQ változóövezetei alapján

% of Total

Male

Female

Gender ofsubjects

Total

low middle high

Kódolt IQ: Készült az IQ változóövezetei alapján

Total

Chi-Square Tests

5,649a 2 ,059

5,769 2 ,056

1,167 1 ,280

94

Pearson Chi-Square

Likelihood Ratio

Linear-by-LinearAssociation

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)

2 cells (33,3%) have expected count less than 5. Theminimum expected count is 4,60.

a.

Page 82: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

82

Az első táblázatban a hiányzó adatok számát követhetnénk nyomon. A második táblázatban látható

EGYBEN az a négy táblázat, ami a ROPstat sor-/oszlop-/teljes százalékos megoszlása, illetve várható

eloszlása (blokkonként: tapasztalt, várható, sor-, oszlop- és teljes %).

Az utolsó előtti táblázat tartalmazza a megfelelő khi-négyzet statisztikát, majd az utolsó táblázat a

belőle képezett, kapcsolat erősségét mérő kontingencia-együtthatókat.

Ezek alapján is az mondható el, hogy nincsen szignifikáns kapcsolat a nem és az IQ között.

Műhelymunkabeli megfogalmazás

A nem- és az IQ-változó kapcsolata

A két változó között nem tapasztalható szignifikáns összefüggés (khi-négyzet = 5,649, Sig. = 0,059).

Ráadásul a várt gyakoriságok miatt ez az érték megbízhatatlannak is tűnik, hiszen túl sok cellában (2)

sérült a próba feltétele. Az eredményünket úgy is interpretálhatjuk, hogy valaki neméből nem tudunk

az intelligenciahányadosának mértékére, pontosabban annak nagyságszintjére következtetni.

Figyeljünk oda arra, hogy az ilyen esetekben MINDIG először a szignifikanciát ellenőrizzük! A

kontingencia-együttható nagyságszintje nem mond semmit olyan esetekben, amikor a khi-négyzet

statisztika alapján a függetlenség nem elvethető.

Symmetric Measures

,245 ,059

,245 ,059

,238 ,059

94

Phi

Cramer's V

Contingency Coefficient

Nominal byNominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the nullhypothesis.

b.

Page 83: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

83

MELLÉKLET: Adatrögzítés (Treit Noémi)

A műhelymunka igen lényeges része az adataink statisztikai elemzése. Ahhoz azonban, hogy elemezni

tudjunk bármit is, létre kell hoznunk egy adatfájl. Ehhez nyújt segítséget ez az összefoglaló.

Milyen programokkal lehet adatot rögzíteni? Amit mindenképpen használnunk kell majd a statisztikai

elemzésekhez, az a ROPstat vagy az SPSS, így célszerű e két program valamelyikében rögzíteni az

adatokat. (Persze aki valamely egyéb statisztikai programcsomagot szokott használni, és azt tudja jól

kezelni, az használhatja most is azt).

Adatrögzítés ROPstatban

Ha megnyitjuk a ROPstatot, egy 1 x 1-es táblázat fog minket fogadni. Először is a változóinkat kell

definiálni. Ehhez új változó(ka)t kell beilleszteni. Ezt a ’Változók/Új változó beillesztése’ menüpontban

tehetjük meg.

Ha erre rákattintunk, egy új ablak ugrik elő, itt állíthatjuk be, hogy hány változót és hova szeretnénk

beilleszteni.

Page 84: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

84

Ha elkészült a kellő mennyiségű oszlopot tartalmazó táblázat, akkor váltsunk át a ’Változók

deklarációi’ nézetre.

A változóinkat itt tudjuk elnevezni, címkézni, minimum/maximum értékeket beállítani.

Hogy mi mit jelent?

• Rövid név: Egy rövid név, ami utal a változóra, lehetőleg ékezetek nélkül. (Fontos

megjegyezni, hogy 8 karakternél hosszabb nevet nem ildomos adni a más programokba

történő konvertálhatóság fenntartása végett. Továbbá kerüljük el az egzotikus karaktereket,

ékezetes betűket, illetve lehetőség szerint az írásjeleket (?, %, !... például ne kerüljön bele)).

• Hosszú név: Hosszabb magyarázat, hogy az a változó mit takar. 100 karakternél ne írjunk

hosszabbat.

• Típus: Lehet numerikus, szöveg, link, dátum. Általában numerikus adatokkal dolgozunk. Ha

belekattintunk a cellába, megjelenik mellette egy szürke téglalap, arra kattintva egy

párbeszédablakban beállítható a típus, a minimum és maximum érték, illetve a hiányzó

adatok kódolására szolgáló érték(ek).

• Csoportnév: Alapesetben nem kell vele foglalkozni, akkor fontos, ha övezetesíteni

szeretnénk. A folytonos változóinkat itt tudjuk diszkrét változókká alakítani. Szintén

belekattintva, majd a megjelenő szürke téglalapra kattintva, a párbeszédablakban beállítva,

hogy mettől meddig milyen új értéket és milyen címkét kapjon a változónk, ezeket a

’Hozzáad’ gombbal egyenként bevisszük, majd ok.

• Csoporttípus: Lehet kódokkal (tipikusan a nemnél, illetve bármely nominális/ordinális

változónál fordul ez elő), övezetekkel (kort, IQ-t lehet például övezetesíteni, de igazából

bármit), vagy figyelmen kívül is hagyhatjuk, és nem definiálunk csoportokat.

• Hiányzó: A hiányzó adatokat jelölő értékek szerepelnek itt. Belekattintva, a szürke téglalapra

kattintva a párbeszédablakban a diszkrét hiányzó értékeknél lehet beállítani. Olyasmire kell

itt gondolni, hogy az illető nem hajlandó válaszolni, nem érti a kérdést, nyomdahibás a

kérdőív, amit megkapott. Ezek a lehetőségek mind más és más okból eredményeznek

hiányzó értékeket – ezeket külön-külön definiálhatjuk és rögzíthetjük, így a hiányzó értékek

mélyebb elemzése is lehetségessé válik.

Page 85: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

85

Egy példa ROPstatban

• Az első változó egy azonosító szám 1 és 94 között.

• A második változó a kísérleti személy neme, kódokkal definiálva: 1-férfi, 2-nő.

• A harmadik változó a kísérleti személy kora, 18 és 41 év között. Ha nem adta meg, vagy más

okból nincs róla adatunk, akkor hiányzó értéket jelezve 999 szerepel a táblázatban.

• A negyedik változó az IQ. 90 és 160 közötti értékek, viszont övezetekkel megadva, 125 alatt

alacsony, 141 fölött magas, a kettő között közepes.

Ha kész a változók deklarációja, következhet a táblázat feltöltése. Minden egyes sor egy kísérleti

személy adatait tartalmazza. Új eseteket az ’Esetek/Új eset beillesztése’ menüpontra kattintva

tudunk beilleszteni.

Page 86: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

86

Az előugró párbeszédablakban tudjuk beállítani, hogy hány új sort szeretnénk beilleszteni, és azok

hova kerüljenek.

Így elkészült egy megfelelő méretű táblázat, ebbe kell bevinni az adatainkat.

Mit hogyan érdemes kódolni? Ezekre legfeljebb példákat mondhatunk:

• Nem: férfi=1, nő=2.

• Személyiségmutatók: Egy értékkel. (Itt a következőkre kell gondolni: felveszünk valakivel egy

empátia-tesztet. A tesztben állításokat kell osztályozni 1 és 5 között. Ekkor az adataink

sorában MINDEN kérdést rögzítünk egy 1 és 5 közötti értékkel, továbbá a

személyiségmutatónak is készítünk egy új változót, melybe az összesítést is felvisszük.)

• Korcsoportok: Övezetekkel vagy az előbb megjelelölt egy darab évszámmal. Természetesen

minden folytonos változóra lehet övezeteket definiálni, pontosítva vagy árnyalva így annak

jelentését.

Page 87: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

87

Övezetesítés ROPstatban

Előfordulhat, hogy a folytonos változó helyett az elemzésben jobb, ha csoportokkal tudunk dolgozni.

Ilyenkor övezetekre kell bontani a folytonos változót. Erre a ROPstatban 2 lehetőség is van, íme a

könnyebb:

A ’Változók deklarációi’ nézetben az adott változónál a ’Csoportnevek’ mezőbe kattintva, majd a

megjelenő szürke téglalapra kattintva ugrik fel a párbeszédablakunk.

Itt a ’-tól’ és ’-ig’ után megadjuk a csoport határait, alatta a csoport nevét (opcionális), majd a

’Hozzáad’ gombra kattintva felvesszük a csoportot. Minden csoporttal így járunk el. Ha készen

vagyunk, akkor valami hasonlót kell látnunk:

Tehát megjelennek sorban, egymás alatt a csoportok. Ezek után a ’Változók deklarációi’ nézetben

már a csoportokat is feltünteti a program. A csoport típusát ilyenkor állítsuk át ’övezetek’-re.

Page 88: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

88

Adatrögzítés SPSS-ben

Nagyon hasonlóan működik, mint a ROPstatban, csak itt már nagyobb üres táblázat fogad minket,

rögtön a program indításakor. A ’Variable View’ nézetben beállítjuk a változóink neveit,

tulajdonságait, majd a ’Data View’ nézetben kitöltjük a cellákat úgy, hogy megint minden sor egy

kísérleti személynek felel meg.

A változók tulajdonságai a táblázatban:

Page 89: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

89

A ’Variable View’ nézet oszlopainak jelentése:

• Name: mint a rövid név ROPstatban.

• Type: mint a típus ROPstatban.

• Width: ilyen szélességű számsort/adatot tudunk rögzíteni (ennyi karakterrel dolgozhatunk).

• Decimals: amennyiben nem egész számokkal dolgozunk, úgy az adattáblánk megjelenítésekor

ennyi tizedesjegyet ír ki a program (a többi tizedesjegyet is rögzítjük, csak átláthatóbb lesz az

adattáblánk).

• Label: mint a hosszú név ROPstatban.

• Values: mint a csoportnevek ROPstatban.

• Missing: mint a hiányzó ROPstatban.

• Columns: Ezzel állíthatjuk be, hogy milyen széles legyen az oszlop, amikor az adatokat nézzük

a másik nézetben. (Pl. a nem 1 és 2 kódjainak felesleges egy 30 hosszúságú oszlopot kijelölni,

ami betölti a fél képernyőt.)

• Align: itt lehet beállítani, hogy balra, jobbra vagy középre igazítsa a cellában az adatot.

• Measure: Skálatípus. Lehet nominális, ordinális és scale, azaz skála.

• Role: ez régebbi verziójú SPSS-ben nem szerepel (pl. 15-ös verziószám). Ezek már más

programokhoz kapcsolódó beállítások inkább – jelen esetben ezt nem fogjuk kihasználni,

nekünk minden változónk input kategória.

Itt a nevek helyére kattintva kétszer a cellába már írhatjuk is be, amit szeretnénk, ahol pedig

beállítást kell megadni, ott egyszer a cellába kell kattintani, majd a megjelenő kékes négyzetre

kattintva egy párbeszédablak ugrik elő, amit értelemszerűen kitöltve tudunk beállításokat megadni. A

beállítások nagyon hasonlítanak a ROPstatban már megszokottakhoz, így ezekre külön nem térnénk

ki. Van azonban egy érdekes lehetőség a két program között – mely az átjárást biztosítja számunkra.

Page 90: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

90

Meglévő ROPstat adatfájl átvitele SPSS-be

Ez az opció szokott a gyakoribb lenni, azaz a ROPstat-adatokat szoktuk átvinni SPSS-környezetbe.

(Visszafelé nagyon könnyű, mert csak el kell menteni az SPSS-adatot ’SPSS portable’ formátumban,

azt ugyanis meg tudja nyitni a ROPstat).

Ha a ROPstatban már rögzítettük az adatainkat,

akkor könnyen átkonvertálhatjuk őket SPSS

adatfájllá.

A ROPstatban a megnyitott adatfáljnál a

’Fájl/Mentés SPSS-formátumban’ menüpontra

kattintva elmentjük a ’.dat’-kiterjesztésű fájlt és

egy SPSS-syntaxot azonos névvel és általunk

megadott helyre a merevlemezünkön.

Ezután az SPSS-ben a

’File/Open/Syntax’ menüponttal

előhozott ablakban kikeressük azt a

mappát, amibe korábban

mentettünk, és kiválasztjuk a

megfelelő ’.sps’-kiterjesztésű fájlt.

Ezt lefuttatva a program létrehozza

az SPSS-adatfájlunkat.

Feltétlenül figyeljünk arra, hogy az

egész szövegtörzs ELSŐ sorában

megadott elérési útvonal helyes

legyen, azaz a számítógép jó

helyen keresse a kimentett

adatokat.

Page 91: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

91

A futtatás a ’Run/All’ paranccsal történik, vagy a ’Play’ gomb megnyomásával.

A futtatás után megnyílik az elemzések (output) ablaka – visszajelzést kapunk, hogy a beolvasás

sikeres volt-e. Egy külön ablakban az adatfájlunkat is megnyitja a program, melyben minden

ROPstatban tárolt információt megtalálunk. Amire figyelnünk kell: az SPSS-ben nincsen övezetes

bontás, így azon változókat, ahol megadtunk övezeteket (nem kódokat, szigorúan övezetek, mint

fentebbi példánál az IQ), ott az SPSS minden ilyen változóhoz 1-1 új változót fog definiálni, melyben

az övezetek kódokkal lesznek rögzítve. Ezt mi is meg tudjuk tenni, az alábbi módon:

Page 92: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

92

Övezetesítés SPSS-ben

Az SPSS ezen a ponton jelentős mértékben eltérően működik, mint a ROPstat. Ahhoz, hogy

övezeteket tudjunk definiálni, egy új változót kell létrehoznunk az eredeti – általában folytonos –

változónkból.

A ’Transform/Recode into Different Variables’ menüponttal hívjuk elő az alábbi párbeszédablakot.

Először kiválasztjuk a folytonos változónkat, amit övezetesíteni szeretnénk. Rákattintva, majd a nyílra

nyomva átvisszük az ’Input Variable’ dobozba. Az ’Output Variable’ részt kitöltjük, mégpedig úgy,

hogy a ’Name’-hez az új változónk rövid nevét, a ’Label’ mezőbe pedig az új változónk hosszú nevét

írjuk, majd meg kell nyomnunk a ’Change’ gombot is. Ha ez utóbbit elmulasztjuk, nem tudunk

továbbmenni. Ekkor az ’Input Variable’ dobozban megjelenik az új változónk neve is. Ezek után így

kell kinéznie az ablaknak:

Page 93: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

93

A következő lépés az övezetek megadása az ’Old and New Values’ gombra kattintva. Ekkor újabb

ablak ugrik fel.

Az ’Old Value’ hasábban a régi adatokat adjuk meg. Meg lehet adni egy konkrét értéket, illetve

intervallumokat is. Mi az intervallumokat fogjuk használni. A ’Range’ cellákba megadhatjuk az

intervallum határait (ehhez ki is kell jelölni a megfelelő ’Range’ típust. Az elsőben konkrét

intervallumot tudunk megadni, a másodikban egy értéket és annál kisebbeket kódolhatunk (lefelé

nyílt, végtelen intervallum), a harmadik lehetőségnél pedig egy adott értéknél nagyobb értékeket

kódolhatunk át (felfelé nyílt, végtelen intervallum).

Page 94: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

94

A ’New Value’ hasábban megadjuk, hogy a beállított intervallumnak mi legyen az új értéke. (Ez az új

érték alapbeállításban egy szám, de ha szöveget szeretnénk, akkor ki kell pipálni az ’Output variables

are strings’ beállítást. Ezt elenyészően ritkán használjuk). Ha ezt beállítottuk, az ’Add’ gombra

kattintunk, a beállítás ekkor megjelenik az ’Old->New’ dobozban. Így megadhatjuk az összes

intervallumot, illetve kódot. Ha készen vagyunk, akkor nyomjunk a ’Continue’ gombra. Nagyjából így

kéne kinéznie a végén a kódolásnak:

’Continue’ után az eredeti ablakot kapjuk vissza, itt ’Paste’ vagy ’OK’. ’Paste’ után a syntaxot

lefuttatva ’Variable View’-ban leellenőrizhetjük, hogy megjelent-e az új változónk (a ’Paste’ azért

lehet hasznos, mert könnyen előfordulhat több hasonló újrakódolás egy elemzési munka

előfázisaként. Ekkor nem kell mindegyiket végigkattintgatni, hanem elegendő egyszer – majd utána

bármely szövegszerkesztőben tudunk másolatokat készíteni, és azokat át tudjuk írni a megfelelő

formába.

Megjegyzések az adatrögzítéshez

A műhelymunkában/szakdolgozatban is meg kell majd mindent magyarázni. Melyik változó, érték

mit takar, hozzájuk kapcsolódóan milyen érték mit jelent. Miként történt meg az adatrögzítés, miként

vetted fel az adatokat. Milyen elvek mentén hoztál létre övezeteket, kódokat. Amennyiben

megfelelően pontosan, gondosan járunk el, úgy erről a folyamatról készíthetünk egy dokumentumot,

melyben mindezen fenti kérdésekre választ adunk: az adatok mit takarnak, mit hogy kezeltünk. Ez

azért is hasznos, mert ha évek múlva valamiért hozzá akarsz nyúlni ezekhez az adatokhoz, akkor itt

vissza lehet keresni, hogy mi micsoda, ha már nem emlékszünk rá.

Page 95: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

Melléklet – Összefoglaló táblázat

Kérdésfelvetés Mit vizsgálunk? Feltétel Alkalmazandó eljárás

Adott változó középértékére vonatkozó kérdés. - Igaz-e, hogy az IQ várható értéke (elméleti átlaga) a

vizsgált populációban 100?

A változó átlagát vizsgáljuk (tetszőleges adott értékkel egyezés).

A vizsgált változó eloszlása normális. Hagyományos egymintás t-próba

A változó átlagát vizsgáljuk (tetszőleges adott értékkel egyezés).

A vizsgált változó folytonos. Hagyományos egymintás t-próba robusztus változatai (Johnson, Gayen)

A változó mediánját vizsgáljuk (tetszőleges adott értékkel egyezés).

A vizsgált változó folytonos és szimmetrikus. Wilcoxon-próba

A változó nagyságszintjét vizsgáljuk (tetszőleges adott értéknél található-e a közepe a populációnak).

A vizsgált változó skálája legalább ordinális. Előjelpróba

Egy változót vizsgálunk két független mintában. - Igaz-e, hogy a férfiak és a nők várható

dominanciájának szintje nem tér el?

A változó átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.

Hagyományos kétmintás t-próba

A változó átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.

Hagyományos kétmintás t-próba robusztus változata (Welch-féle d-próba)

A változó mediánját, nagyságszintjét vizsgáljuk.

A vizsgált változó folytonos, persze így automatikusan ordinális is.

Sztochasztikus egyenlőség (Mann–Whitney-próba)

A vizsgált változó nominális – tehát az eloszlását vizsgáljuk.

A várt gyakoriságok legalább 5-ös értéke a vizsgált változó minden kategóriájában.

Khi-négyzet-próba

Egy változót vizsgálunk több független mintában. - Igaz-e, hogy a fővárosi, vidéki városi és községi

lakosok keresetének nagyságszintje megegyezik?

A változó átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.

Hagyományos egyszempontos VA

A változó átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.

Hagyományos egyszempontos VA robusztus változata (pl. Brown–Forsythe-próba)

A változó mediánját, nagyságszintjét vizsgáljuk.

A vizsgált változó folytonos, persze így automatikusan ordinális is.

Sztochasztikus homogenitás (Kruskall–Wallis-próba)

A vizsgált változó nominális – tehát az eloszlását vizsgáljuk.

A várt gyakoriságok legalább 5-ös értéke a vizsgált változó minden kategóriájában.

Khi-négyzet-próba

Egy változó két időpontban, azonos mintán – vagy két, azonos skálán mért változó, azonos mintán.

- Igaz-e, hogy futás előtt és futás után a várható vérnyomás mértéke azonos?

A különbségváltozó átlagát vizsgáljuk (0-val egyezés).

A különbségváltozó eloszlása normális. Összetartozó mintás t-próba

A különbségváltozó átlagát vizsgáljuk (0-val egyezés).

A különbségváltozó folytonos. Összetartozó mintás t-próba robusztus változatai (Johnson, Gayen)

A különbségváltozó mediánját vizsgáljuk (0-val egyezés).

A különbségváltozó folytonos és szimmetrikus. Wilcoxon-próba

A különbségváltozó nagyságszintjét vizsgáljuk (0-nál található-e a közepe a populációnak).

A különbségváltozó skálája legalább ordinális. Előjelpróba

Page 96: Statisztikai Segédanyag Műhelymunkához

SEGÉDANYAG MŰHELYMUNKÁHOZ

Kérdésfelvetés Mit vizsgálunk? Feltétel Alkalmazandó eljárás

Egy változó több eltérő időpontban, azonos mintán – vagy kettőnél több, azonos skálán mért változó összehasonlítása, azonos mintán.

- Igaz-e, hogy futás előtt, alatt és után a várható vérnyomás mértéke azonos?

A változó / változók átlagának megváltozását vizsgáljuk a különböző időpontokban.

A változók együttes normalitása és a szfericitási feltétel.

Friedman-próba

A változó / változók átlagának megváltozását vizsgáljuk a különböző időpontokban.

A változók együttes normalitása teljesül, de a szfericitás nem.

Friedman-próba robusztus változatai

A változó / változók sztochasztikus homogenitását teszteljük.

A változók eloszlása folytonos, ordinális. Rang-VA

A változó / változók nominális(ak), tehát az eloszlás megváltozása a kérdés.

A várt gyakoriságok legalább 5-ös értéke a vizsgált változó(k) esetén.

McNemar-próba

Egy változó nagyságszintjét vizsgáljuk két csoportosító változó mentén, egyidejűleg.

- Igaz-e, hogy a fővárosban, vidéki városokban, illetve községekben a férfiak és nők stressz-tűrése azonos mértékű?

A változó átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.

Kétszempontos, hagyományos VA

A változó átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.

Kétszempontos, hagyományos VA robusztus változatai

A változó mediánját, nagyságszintjét vizsgáljuk.

A vizsgált változó folytonos, persze így automatikusan ordinális is.

Kétszempontos rang-VA

Csoportokat és változókat vizsgálunk egyidejűleg. - Igaz-e, hogy futás előtt, alatt és után a vérnyomás

mértéke férfiaknál és nőknél megegyezik?

A változók átlagát vizsgáljuk. A vizsgált változó normális, és teljesül a szóráshomogenitás.

Vegyes VA

A változók átlagát vizsgáljuk. A vizsgált változó normális, de nem teljesül a szóráshomogenitás.

Vegyes VA robusztus változatai (általában ezt használjuk)

A változók mediánját, nagyságszintjét vizsgáljuk.

A vizsgált változó folytonos, persze így automatikusan ordinális is.

Vegyes rang-VA

Két változó közötti kapcsolat. - Igaz-e, hogy a dominancia és a szociabilitás

összefügg? A változók kvantitatívak. eseti Korreláció, monotonitási együtthatók

- Igaz-e, hogy a dominancia és a lakóhely összefügg? Az egyik változó kvantitatív, a másik diszkrét.

eseti T-próba vagy VA

- Igaz-e, hogy a szemszín és a hajszín összefügg? Mindkét változó diszkrét. eseti Kereszttáblás elemzés, khi-négyzet-próba