Feleletválasztós tesztek...

37
Feleletválasztós tesztek kiértékelése Szakdolgozat Írta: Kerestély Csilla Annamária Matematika Elemző szak Témavezető: Csiszár Villő, adjunktus Valószínűségelméleti és Statisztika Tanszék Eötvös Loránd Tudományegyetem, Természettudományi Kar Eötvös Loránd Tudományegyetem Természettudományi Kar 2016

Transcript of Feleletválasztós tesztek...

Page 1: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Feleletválasztós tesztekkiértékelése

Szakdolgozat

Írta: Kerestély Csilla Annamária

Matematika Elemző szak

Témavezető:

Csiszár Villő, adjunktusValószínűségelméleti és Statisztika Tanszék

Eötvös Loránd Tudományegyetem, Természettudományi Kar

Eötvös Loránd TudományegyetemTermészettudományi Kar

2016

Page 2: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Tartalomjegyzék

Bevezetés 3

1. Klasszikus tesztelmélet alapjai 51.1. A klasszikus tesztelmélet alapfeltevései (axiómák) . . . . . . . 61.2. A tesztek jóságmutatói . . . . . . . . . . . . . . . . . . . . . . 7

2. A modern tesztelmélet alapjai 92.1. Georg Rasch . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2. Rasch-modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1. A Rasch-modell és az IRT(Item Response Theory) vi-szonya . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.2. A Rasch-modell alapkoncepciója . . . . . . . . . . . . . 112.2.3. A Rasch-modell feltételezései, tulajdonságai . . . . . . 122.2.4. A Rasch-modell matematikája . . . . . . . . . . . . . . 122.2.5. Az adatok illeszkedése a Rasch-modellhez (model fit) . 162.2.6. Rasch-modell alkalmazása . . . . . . . . . . . . . . . . 17

3. Adatok elemzése Rasch-modellel 183.1. A kutatócsoport által végzett adatelemzés folyamata . . . . . 183.2. Az általam végzett adatelemzés folyamata . . . . . . . . . . . 20

3.2.1. Az adatok feldolgozása . . . . . . . . . . . . . . . . . . 203.2.2. Az adatok elemzése az lmt csomag segítségével . . . . . 213.2.3. Az adatok elemzése az eRm csomag segítségével . . . . 283.2.4. Az eredmények összegzése és összehasonlítása . . . . . 35

Irodalomjegyzék 36

Köszönetnyílvánítás 37

2

Page 3: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Bevezetés

A szakdolgozatom témája a feleletválasztós tesztek kiértékelése. Fontosszempontnak tartottam az olyan témában való elmerülést, amellyel a min-dennapokban sűrűn lehet találkozni.

A dolgozatom három fejezetből áll. Az első fejezetben szó esik a klasszikustesztelméletről, amelynek alapján világszerte még napjainkban is a tesztektúlnyomó része készül. A klasszikus tesztelmélet matematikai háttere nagyonegyszerű, ugyanis azt állítja, hogy a tesztek megfigyelt értéke egyenlő a tesztvalódi értékének és a kitöltés során keletkezett hiba értékének összegével. Eza tesztelmélet sok olyan hibával rendelkezik, melyet nem lehet kiküszöbölni,illetve nagyon magas a populáció- és itemfüggőség, azaz az elemzés során nemlehet szétválasztani a populáció okozta faktor és a teszt eredményeinek hatá-sát, tehát nem lehet eldönteni, hogy teszthibáról vagy populációazonosságrólvan szó.

Az első fejezet feldolgozása abból a szempontból volt fontos, hogy a ké-sőbbiekben bevezessem a modern tesztelméletet, illetve összehasonlítsam aklasszikus tesztelmélettel, melyre a második fejezetben kerül sor.

A modern tesztelmélet(Item Response Theory-IRT) a klasszikus tesztel-mélet egy újabb generációja, azonban nem a klasszikus tesztelmélet javítottváltozata. A modern tesztelmélet az itemek tulajdonságát valószínűségelmé-leti eszközökkel jellemzi, más matematikai alapokra támaszkodik, más sta-tisztikai eljárásokat használ. Ezen tesztelmélet egyik legismertebb modellje aRasch-modell, mely Georg Raschtól származik. Az adatok elemzése mellettfontosnak tartottam az elemzéshez használt modell bemutatását, a modell ki-alakulását, viszonyát a modern tesztelmélethez, alapkoncepcióját, tulajdon-ságait, matematikai hátterét, illetve alkalmazását más tudományágakban. Amodell elméleti tanulmányozása fontos szerepet játszott a későbbi adatelem-zésben, illetve az eredmények értelmezésében. Az adatok elemzése a dolgozatharmadik, egyben az utolsó fejezetében kap helyet.

Az elemzés és az eredmények kiértékelése előtt fontosnak tartottam meg-említeni, hogy honnan származnak az adatok, melyek segítségével a szakdol-gozatom témáját szemléltetni tudtam.

Az adatok egy kutatócsoporttól származnak, akik egy már korábban ki-fejlesztett térképolvasással kapcsolatos kérdőív kitöltésének segítségével gyűj-tötték be az adatokat. Ezen adatok 488 különböző nemzetiségű, korú, nemű,képzettségszintű kitöltőtől származnak, akik 8 darab térképolvasással kapcso-latos kérdésre adtak helyes vagy helytelen választ. A kutatócsoport számára

3

Page 4: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

a válaszok helyes és helytelen aránya mellett a különböző háttérváltozók(kor,nyelv, nem, stb) eredménye is fontos információval szolgált, illetve céljaik kö-zé tartozott a kezdő, közepes és haladó csoportok kialakítása.

Az így megkapott adatokat én az R nevű program segítségével, ezen belülkét Rasch-csomag (ltm és eRm) segítségével elemeztem. Az ltm csomagsegítségével a Rasch-modell egy-, kettő-, illetve háromparaméteres változatátillesztettem az adatokra, mely során el lehetett dönteni, melyik a legjobbanilleszkedő modell. Az eRm csomag csak az általános Rasch-modellt használja,viszont itt a háttérváltozókat lehetett vizsgálni (kor, nem, stb).

Az adatok elemzése után pedig az általam kapott eredményeket összeha-sonlítottam a kutatócsoport által kapott eredmányekkel, melyek annak elle-nére, hogy a kutatócsoport más modszerrel vizsgálta az adatokat, hasonlóakvoltak.

4

Page 5: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

1. fejezet

Klasszikus tesztelmélet alapjai

A tesztelmélet alapjait az 1910-es években fektették le, majd az 50-esévekben a kifejlesztett változata is napvilágot látott. Az így kialakult tesz-tek pedagógiai, illetve pszichológiai mérőeszközként szolgáltak. A teszteksegítségével előrejelezték a pszichológiai vizsgálatok eredményeit, mint pél-dául a tesztet kitöltő személy képességeit vagy a teszt különböző részeineka nehézségét. A klasszikus tesztelmélet a [9] szakirodalom alapján mutatombe.

Világszerte a tesztek túlnyomó része a klasszikus tesztelmélet alapjánkészül. A tesztek összpontszámának meghatározásában minden egyes itemre(ahol az item a teszt egy kérdését jelenti, ami lehet feladat, kérdés, stb.)adott válasz egyformán fontos szerepet játszik. Léteznek olyan esetek is,amikor nem a tesztek öszpontszáma érdekel - nem ezzel dolgozunk, hanem azátlagpontszámot nézzük. Például abban az esetben amikor egy bizonyos célrakifejlesztett, különböző hosszúságú tesztek eredményeit hasonlítjuk össze.

A klasszikus tesztelmélet segítségével megtudhatjuk, hogy az adott tesztmennyire mér jól, tehát ezzel a módszerrel javítják a tesztek megbízhatósá-gát. Ezeket a felmerülő kérdéseket matematikai úton is megfogalmazhatjuk,mégpedig az alábbi egyenlet felírásával, amit a klasszikus tesztelmélet alap-egyenletének nevezünk:

X = t+ ε (1.1)

ahol X jelöli a tapasztalati úton mért értéket vagy a megfigyelt értéket, a t avalódi értéket jelöli és az ε pedig a hiba értékét fejezi ki ebben az egyenletben.

A mérések célja az, hogy a t értékét minél jobban közelítsük az ε csökken-tésével, vagyis a valódi értékhez minél kevesebb hibával kapjunk egy nagyonközeli értéket. A mérés során figyelembe kell vennünk a környezeti ténye-zőket, azt, hogy a mérést azonos körülmények között végezzük, ellenkezőesetben a hiba növekedését okozhatjuk.

A teszt eredményét a hiba is befolyásolja, ezért a kapott eredményhezhozzátartozik a hiba nagyságának becslése, amit ismételt méréssel határoz-hatunk meg. Tehát a hibát a mért értékek változásaiból becsülhetjük meg.A véletlenszerű hiba hatása úgy csökkenthető, hogy növeljük az ismétlésekszámát. Ha pedig a teszt felvétele nem ismételhető (például fáradtság vagy

5

Page 6: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

túltanulás miatt), akkor a párhuzamos tesztváltozókat kell alkalmazni.

1.0.1. Definíció. Két teszt párhuzamos, ha bármely két személy esetébena két teszttel kapott valódi érték megegyezik, illetve ha ezek hibaszórása isegyenlő, azaz mindkettő ugyanolyan jól mér.

1.1. A klasszikus tesztelmélet alapfeltevései (axi-ómák)

1.) A hiba átlaga, pontosabban a várható értéke M(ε) = 0.

• A mérések számát minden határon túl növelve elérjük, hogy a méré-sek hibáinak az átlaga 0 lesz és a mért értékek átlaga megegyezik a valódiértékkel.• Minél többször ismételjük a mérést, annál kisebb lesz az átlagos hiba.• Ha a hiba nagysága nem közelít a 0-hoz a mérések ismétlésével, akkor

ebben az esetben szisztematikus hibáról beszélünk.• A szisztematikus hibát ki kell küszöbölni, mivel ezt a klasszikus teszt-

elmélet nem tudja kezelni.

2.) Statisztikailag a hiba és a valódi érték közötti korreláció 0, azaz ahiba és a valódi érték között nincs semmiféle lineáris kapcsolat. Ezt a követ-kező matematikai egyenlet írja le: korr(t, ε) = 0.

• A hiba minden más esetben szisztematikus. Például egy IQ teszt eseténazt jelenti, hogy minél nagyobb IQ szinttel rendelkező személyt tesztelünk,annál nagyobb lesz a mérési hiba. Ez azt jelenti, hogy minél magasabb intelli-genciaszinttel rendelkezik a tesztelt személy, annál nehezebben lehet biztosanmeghatározni az IQ-ját. Ez már nem véletlenszerű hiba, hanem szisztemati-kus, tehát ki kell küszöbölni. Ha sikerül kiküszöbölni, akkor a korreláció márnem áll fenn.

3.) Két párhuzamos teszt hibái közötti korrelációs együttható nulla:korr(ε1,ε2) = 0.

• Az esetleges hibák együtt változnak abban az esetben, ha az egyik teszthibája korrelál a vele párhuzamos teszt hibájával. Amikor a korreláció értékepozitív, akkor ha az egyik teszt esetén egy adott személynél a mérési hibanagy, akkor nagy valószínűséggel a másik teszt esetén is nagy lesz a mérésihiba értéke.

6

Page 7: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

1.2. A tesztek jóságmutatói

A méréseink nem csak akkor lehetnek sikertelenek, ha nem tudjuk figye-lembe venni a körülmények hatásait, hanem az is előfordulhat, hogy maga amérőeszköz hibás.

Két alapvető mutató jellemzi a teszt hatásosságát:◦ megbízhatóság (reliabiliás, reliability)◦ érvényesség (validitás, validity)

A megbízhatóság a tesztekkel mért pontosságot fejezi ki. A megbízha-tóságot a legtöbb esetben úgy határozhatjuk meg, hogy ugyanazt a tesztettöbbször is elvégezhetjük és minél kevesebb az eltérés a mérési eredményekközött, annál megbízhatóbb a tesztünk.

Abban az esetben, ha olyan teszttel mérünk, amelyet csak egyszer vé-gezhetünk el (túltanulás, fáradtság, stb. miatt nem ismételhető), akkor apárhuzamos tesztváltozatot kell alkalmazni. Ilyenkor bekövetkezhet az, hogyhasonló eredményt kapunk, de a mérési hiba miatt nem kapjuk ugyanazt azeredményt.

A teszt megbízhatóságát a reliabilitási együtthatóval mérjük és ezt pediga teszt és annak egy párhuzamos tesztjének korrelációjával becsülhetjük.Amegbízhatóságot a legáltalánosabban úgy tudjuk definiálni, hogy a megbíz-hatóság a valódi, a megfigyelt és a hiba értékének, illetve ezen értékek vari-anciájának figyelembevételével adható meg.

A variancia tulajdonságainak, illetve a valódi érték és a hiba közötti kor-relálatlanság felhasználásával a következő egyenletet kapjuk:

var(X) = var(t) + var(ε) (1.2)

Tehát láthatjuk, hogy a pontosabb mérés, azaz a hiba varianciájának csök-kenése, a valódi és a megfigyelt érték közötti azonosságot növeli. Így a va-lódi értéket egyre jobban tudjuk közelíteni. A megbízhatóság, amelyet rel -eljelölünk, megegyezik a valódi érték és a megfigyelt érték négyzetes korreláci-ójával, amelyet a következő matematikai egyenlettel írhatunk le:

korr2(X, t) = rel(X) (1.3)

Az előbbi egyenlettel azonban az a probléma, hogy a valódi értéket és en-nek varianciáját nem ismerjük, így csak becsülni tudjuk a megbízhatóságot,például a párhuzamos tesztek korrelációjával lehet becsülni.

Az érvényesség a teszt azon mérőszáma, mellyel a tesztet tartalmilag,szerkezetileg és más egyéb kritériumok és mérési célkitűzések szerint mérjük.Ahhoz, hogy ezt vizsgálni tudjuk, egy viszonyítási alapra lenne szükségünk.(Fizikai mérések során ez nem jelent nagy problémát, de pszichológiai kí-sérletek során nehéz egy optimális viszonyítási alapot találni). Mivel több

7

Page 8: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

kritérium is létezik a teszt jóságára nézve, ezért több szempontból is lehetvizsgálni az érvényességet.

Igazolható, hogy párhuzamos tesztek esetén az érvényesség a megbízha-tósággal azonos, így az érvényességnek a megbízhatóság egy speciális ese-te. A megbízhatósági vizsgálatok jelentősége jól megvilágítható a konkurens-validitás segítségével.

1.2.1. Definíció. A konkurens-validitás az a vizsgálat, amellyel megmutat-ható, hogy két teszt esetén, az egyik teszt mennyire korrelál a másik teszttelvagy kritériummal.

A következő képlettel belátható, hogy egy teszt mért értékének egy kri-térium (Krit) változóval való korrelációja mindig kisebb vagy egyenlő a tesztmért értékének valódi értékkel mért korrelációjánál:

korr(X,Krit) ≤ korr(X, t) (1.4)

Mivel igaz az, hogy korr2(X, t) = rel(X), ezért egy teszt konkurens-validitásalegfeljebb olyan nagy lehet, mint a megbízhatóság négyzetgyöke. Ebből pedigaz következik, hogy egy teszt validitása lehet nagyobb a megbízhatóságnál,viszont, ha a megbízhatóság értéke kicsi, akkor a négyzetgyöke is kicsi lesz,így a validitás sem lehet lényegesen nagyobb. Ezek alapján alacsony meg-bízhatóságú tesztet nem lehet érvényes tesztnek tekinteni, ami bizonyítja atesztek megbízhatóság-becslésének fontosságát.

A klasszikus tesztelmélet korlátokkal rendelkezik, például vannak olyanmérési hibák, amiket nem tudunk korrigálni vagy az item- és tesztmutatókpopuláció függőek, értékük attól függ, hogy melyik mintából származnak azadatok. Ezekből pedig az következik, hogy nem mér elég pontosan a szélsőtartományokban.

8

Page 9: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

2. fejezet

A modern tesztelmélet alapjai

A modern tesztelmélet (Item Response Theory - IRT) a klasszikus teszt-elmélet egy újabb generációja, amely az itemek tulajdonságát valószínűség-elméleti eszközökkel jellemzi. Az interneten található Kislexikon [8] leírá-sa szerint a klasszikus tesztelmélettel kapcsolatos kritikák, mint például apopoulációfüggőség, a skálafüggőség, illetve a harmadik axióma kritikája,segítették elő a modern tesztelmélet kialakulását. A klasszikus tesztelmé-let módszereivel végzett elemzés során nem lehet szétválasztani a populációokozta faktort és a teszt eredményeinek hatását, tehát nehéz megállapítani,hogy populációazonosságról vagy teszthibáról van szó. A modern tesztelmé-let nem a klasszikus tesztelmélet egy jobb változata. A modern tesztelméletmás matematikai eszközökre támaszkodik, más statisztikai eljárásokat hasz-nál, modelleket felállító és függvényekkel dolgozó tesztelmélet.

A modern tesztelmélet vagy a valószínűségi tesztelmélet egyik legismer-tebb modellje a Rasch-modell, amely Georg Raschtól származik. (kislexi-kon.hu, Modern tesztelméletek)

2.1. Georg Rasch

Georg Rasch (1901 szeptember 21 - 1980 október 19) dán matematikus,statisztikus és pszichometrikus, a mérési modellek legismertebb modelljének,a Rasch-modell megalkotója. 1919-ben megkezdte matematikai tanúlmányaita Koppenhágai Egyetemen, 1925-ben megszerezte a mesteri fokozatot, majd1930-ban a doktori címet is. 1948-ban tagja lett a Nemzetközi StatisztikaiIntézetnek.

Georg Raschnak a pszichometriához volt a legismertebb hozzájárulása.A munkája ezen a területen akkor kezdődött, amikor a Poisson eloszlásthasználta a diákok olvasási hibájának a modellezéséhez. A modellre úgyutalt, mint egy multiplikatív Poisson modellre. Később kidolgozta a Rasch-modellt dichotóm adatokra. Ugyanebben a korszakban amerikai tudósokönállóan fejlesztik ki a modern tesztelméletet, melynek egyik legegyszerűbbmodellje a Rasch-modell lesz.

9

Page 10: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Ellentétben más egyszerű modellekkel, a Rasch-modell jellegzetes mate-matikai tulajdonsága az, hogy a modell paramétereire (itemek nehézsége,képességparaméterek) egyszerű elégséges statisztikák adhatók.

Napjainkban a Rasch-modellt széles körben használják az oktatás és azoktatási pszichológia, különösen a végzettség és a kognitív értékelések vizs-gálatában.(Wikipedia, Georg Rasch [6])

2.2. Rasch-modell

A Rasch-modell pszichometriában használt modell, mely megalkotójárólkapta nevét. A modell a modern tesztelmélet egyik legismertebb modellje,amely a következő három változóval dolgozik:

1.) Egy tesztelt személynek egy dichotóm itemre adott válasza ( Dicho-tóm: helyes vagy helytelen, igaz vagy hamis, egyetért vagy sem, stb.)

2.) A válaszadó személyére jellemző képességparaméter

3.) Az itemet jellemző nehézségparaméter

A modell szerint az egyén helyes vagy helytelen válaszának valószínűségefügg a képességparamétertől és a nehézségparamétertől.

2.2.1. A Rasch-modell és az IRT(Item Response Theory)viszonya

A Rasch-modell csak az egyik fajta modellje a modern tesztelméletnekvagy más szóval a valószínűségi tesztelméleteknek (IRT). A modern tesztel-mélet modelljei között vannak közös pontok, mégpedig az, hogy nem determi-nisztikusak, hanem valószínűségi alapon közelítik meg a személyek egy itemreadott helyes válaszát, abban az esetben, ha az item és a személyparaméterekismertek.

Az egyes modern tesztelméleti modelleket két fő tulajdonság alapján kü-lönböztethetjük meg egymástól:

1.) Milyen matematikai modellt használnak, vagyis milyen összefüggésfedezhető fel a tesztelt egyén képességparamétere és a helyes válasz valószí-nűsége között.

2.) Hány paraméter alapján jellemzik az itemeket.

10

Page 11: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

A Rasch-modell matematikai alapja a logisztikus függvény, illetve a mo-dell az itemnehézséget használja az itemek jellemzésére. Az itemekre adottválasz kizárólag dichotóm változó lehet. Ezek alapján tehát a Rasch-modellaz egyik legegyszerűbb a modern tesztelmélet modelljei közül. (Wikipédia,Rasch-modell [7])

2.2.2. A Rasch-modell alapkoncepciója

Ebben a szakaszban a Rasch-modellt Molnár Gyöngyvér [3] publikáci-ója alapján mutatom be. A Rasch-modell azon elképzelésen alapul, hogyaz adatokban logikus hierarchiának kell lennie. Például, ha valaki a diá-kok problémamegoldó képességét szeretné megmérni, akkor az eredménybenlesznek jobb, illetve kevésbé jó problémamegoldó képességgel rendelkező di-ákok. Minden egyes diák számos lényeges képességgel rendelkezik, egyszerreértelmesen csak egy tulajdonság jellemezhető. Ezáltal az eredmény model-lezhető egy egyenes mentén, ahol a kevesebb felől haladunk a több felé, mintszámegyenesen.

Ezt az elképzelést átültették egy egyszerű eljárással egy matematikai mo-dellbe. A Rasch-modell kiindulópontként a diákok teszten elért összpontszá-mát számolja ki a helyes, illetve helytelen válaszok valószínűségének meg-adásához. Ezután arra alapoz, hogy az emberek nagyobb valószínűséggel tel-jesítenek jól a könnyebb itemeken, mint a nehezeken, valamint a magasabbképességszinttel rendelkező emberek nagyobb valószínűséggel oldják meg jóla feladatokat, mint az alacsonyabb képességszintűek. A modell hasonlókép-pen azokat az itemeket tekinti nehéznek, melyeken kevesebben teljesítenekjól és azokat tekinti könnyűnek, amelyeket sokan jól oldanak meg. Ezt áb-rázolja közös skálán a személy és itemtérkép. A következő ábra modellezi aszemély és itemtérképet 8 item és 3 diák (A, B, C) segítségével. A modellrőlleolvashatjuk, hogy melyik item nehezebb vagy könnyebb, melyik személyrendelkezik magasabb vagy alacsonyabb intellgenciaszinttel, milyen nehézsé-gű itemek hiányoznak a tesztből, illetve mennyire felel meg a teszt nehézségea diákok képességszintjének.

A modellünk továbbfejlesztett változata a sétálóutca analógiája.

A sétálóutca analógiája:

Képzeljünk el egy utcát ahol, az utca elején az alacsonyabb, az ut-ca végén a magasabb képességszinttel rendelkező diákok vannak. Az utcakülönböző nehézségű, különböző fejlődési szinteket reprezentáló, illetve egy-re nehezebb feladatokkal van kikövezve, amely feladatokat a diákoknak megkell oldaniuk ahhoz, hogy tovább tudjanak haladni egyik kőről a másikra.

11

Page 12: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

2.1. ábra. Közös skálán levő 8 item nehézségi szintje és 3 diák képességszintje

Az egyes feladatokon mutatott eredmény fényében haladnak tovább jobbravagy balra egészen addig, amíg elérik a fejlettségi szintjük legmagasabb fokát.A utca minden egyes pontja tehát megfeleltethető egy képességszintnek, azadott item, illetve az item 50 százalékos valószínűséggel történő megoldásá-hoz szükséges személyi képességszint reprezentációjának. Ennek megfelelőenminden tanulónál megvannak a képességnek megfelelő itemek, és minél in-kább innen kerülnek ki a teszt itemei, annál nagyobb valószínűséggel oldjákmeg jól a feladatokat a diákok, valamint minél inkább a hibazónában van egyitem, annál nagyobb eséllyel ront az itemen.

2.2.3. A Rasch-modell feltételezései, tulajdonságai

• Egydimenziós skála: a helyes válasz valószínűsége nem függ másháttér változótól

• Feltételes függetlenség: rögzített θ képességparaméter esetén kétitemre adott válasz között nincs korreláció

• Elégségesség: a válaszolók pontszáma minden információt tartalmaz,a képességükről, függetelenül attól, hogy melyik itemeket oldották meg he-lyesen

•Monotonitás: a helyes válaszok valószínűsége növekszik a θ képesség-paraméter növekedése esetén

2.2.4. A Rasch-modell matematikája

A Rasch-modell valószínűségi alapú matematikai modell, mely logarit-mus transzformáció segítségével átalakítja intervallumskálájúvá az ordinálisadatokat, azaz az értékek közötti különbségek mértéke informatívvá válik.A Rasch-modell megadja, hogy milyen valószínűséggel válaszol helyesen egy

12

Page 13: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

ismert képességszinttel rendelkező személy egy ismert nehézségű itemre. Anehézségparaméter (jele: θ) és képességparaméter (jele: δ) értékeit általábanstandardizált formában használjuk, így átlaguk 0 lesz. A két változót egyközös logit-skálán mérjük.

A Rasch-modell leggyakoribb matematikai megfogalmazása a következő:

p(Xij = 1|θi, δj) =eθi−δj

1 + eθi−δj(2.1)

Az egyenlet bal oldala kifejezi, hogy θi képességparaméterrel rendelkező iszemély helyes válaszadásának valószínűségét keressük adott δj nehézségű jitemen. A modell szerint a valószínűséget az a hányados adja, melynek szám-lálója az Euler-féle szám (e) képesség- és nehézségparaméter különbségéreemelt haványa, nevezője pedig az ennél 1-el nagyobb érték. Rasch munkája

során azX

X + 1függvényből indult ki, amely az általa ismert legegyszerűbb

olyan függvény, amely 0-tól 1-ig nő, ha X nullától végtelenig növekszik.A (2.1) egyenletből következik, hogy ha egy személy képességparamétere

és egy item nehézségértéke megegyezik, akkor annak valószínűsége, hogy aszemély helyesen oldja meg az adott tételt p(X=1) = 0.5. A modell tehátegy tétel nehézségét az alapján definiálja, hogy milyen képességszintű személyválaszol ra helyesen 0.5-es valószínűséggel.

Átrendezve a (2.1) exponenciális összefüggést logaritmus formába a kö-vetkező egyenenletet kapjuk:

lnpij

1− pij= θi − δj (2.2)

Leolvasható tehát a kapott egyenlet alapján, hogy a képesség- és nehézség-paraméter értékének különbsége megegyezik annak a törtnek a természetesalapú logaritmusával, melynek számlálója i személy j itemre vonatkozó he-lyes válaszadásának valószínűsége, nevezője pedig ugyanennek a helyzetnek ahelytelen válaszadásnak a valószínűsége. A törtet a helyes válasz odds-ánaknevezzük, logaritmusát pedig logitnak (log odds unit - a képességszintek ésa nehézségi paraméterek közös skálájának egysége).

Tehát ha például i személy képessége meghaladja azt, amit j feladat elvár(θi > δj), akkor helyes válaszadásának valószínűsége 0.5-ről 1 felé mozdul. Eztszámszerűsíti a (2.2) egyenlet, azaz ha ismerjük a személy képessége és azitem nehézségparamétere közötti különbséget, akkor a képlet megadja azt avalószínűségi értéket, mellyel a személy helyesen oldja meg az itemet.

Például: Ha i személy képességszintje 2 logitegység, j tétel nehézsége 1logitegység, akkor i helyes válaszadásának valószínűsége p(X=1) ≈ 0.731. Amodell a két paraméter egymáshoz viszonyított, relatív helyzetével dolgozik.Ebben az esetben ha egy személy képessége átlagos (θ = 0), akkor a -1logitegység nehézségű feladatot szintén 0.731-es valószínűséggel oldja meghelyesen a modell értelmében.

13

Page 14: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Képesség- és nehézségparaméterek első becslése

A képesség- illetve nehézségparaméterek egy egyszerű becslése egy meg-lévő adatmátrixból két-két lépésben történhet a Wikipédia [7] alapján:

1.) Első lépésben kiszámítjuk a helyes válaszok arányát:1.1.) Személyenként, minden i válaszadó személyre a helyesen megvála-

szólt tételek számát elosztjuk az összes item számával.1.2.) Hasonlóan járunk el minden j tétel esetében is: egy adott tételre

helyes válaszadók számát elosztjuk az összes válaszadó számával

2.) A második lépésben a modellből levezetett összefüggések segítségévelmeghatározzuk a paraméterértékeket:

2.1.) A képességparaméter meghatározása:

θi = lnPi

1− Pi(2.3)

ahol θi az i -edik személy képességparamétere, Pi pedig az i -edik személyhelyes válaszainak és összes válaszának a hányadosát jelöli, vagyis helyesválaszainak arányát.

2.2.) A nehézségparaméter meghatározása:

−δj = lnPj

1− Pj(2.4)

ahol δj az j -edik item nehézségparamétere, Pj pedig a j -edik itemre adotthelyes válaszok aránya, vagyis az itemet helyesen megválaszolók számánakés az összes válaszolónak hányadosa.

A Rasch-modell általánosabb formái

A Rasch-modellnek léteznek általánosításai, és mindegyik modellben fon-tos feladat a paraméterek becslése. A R programon belül két programcsomagfoglalkozik ezzel a modellel. Ezek egyike az ltm csomag, melyhez D. Rizopo-ulus [5] készített leírást. Ez alapján a Rasch-modell legáltalánosabb alakja akövetkező:

p(Xij = 1|zj) = ci + (1− ci)g[αi(zj − βi)], (2.5)

ahol a Xij a helyes válaszadás valószínűsége, a zj a tesztelt személy képes-ségszintje, a ci a tippelési paramétert jelöli, az αi jelöli a diszkriminációsparamétert és a βi pedig a nehézségi paramétert jelöli.

A tippelési paraméter annak valószínűségét adja meg, hogy egy embertippelés útján ad helyes választ az itemre. A diszkriminációs paraméter aztméri, hogy a képességszint növekedésével milyen meredeken emelkedik a he-

lyes válasz valószínűsége. Az általunk használt modellekben g(x) =ex

1 + ex.

14

Page 15: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Az előző általános képlet alapján pedig léteznek egy, kettő, illetve háromparaméteres Rasch-modellek.

Az egy-paraméteres nem más, mint maga a Rasch-modell, ahol a ci = 0,tehát nem tartalmaz tippelési paramétert, illetve a diszkriminációs paraméterértéke 1 (αi = 1).

A két-paraméteres modell lehetővé teszi a diszkriminációs paraméterekmegkülönböztetését itemenként és feltételezi, hogy a tippelési paraméter ér-téke még mindig nulla.

Végül a három-paraméteres, vagy más néven Birnbaum három-paraméteresmodell becsli mind a három paramétert itemenként.

A Rasch-modell paramétereinek becslése

Az IRT (Item Response Theory) irodalomban fontos szerepet kapott amodellek paramétereinek becslése. A maximum likelihood módszeren belülhárom megközelítést különböztethetünk meg, ezeket együttes, marginális,és feltételes maximum likelihood becsléseknek nevezik. Az együttes maxi-mum likelihood becslés kiszámítása numerikusan nagyon bonyolult, ezért eztnem szokták használni. Az ltm csomag a marginális maximum likelihood(MMLE) becslést használja a modell illesztése során, míg az eRm csomag afeltételes maximum likelihood becslést használja.

A marginális maximum likelihood becslés során feltételezzük, hogy a vá-laszadók egy véletlen mintát képviselnek, azaz képességeik függetlenek, ésazonos eloszlásúak F (z) eloszlásfüggvénnyel. Így ezeket a látens változókatkiintegrálva, megkapjuk az itemparaméterek marginális likelihood függvé-nyét.

A mintam-edik eleméhez (azaz azm-edik kitöltőhöz) tartozó log-likelihooda következő:

lm(θ) = log p(xm; θ) = log

∫p(xm|zm; θ)f(zm)dzm, (2.6)

ahol f jelöli az F eloszláshoz tartozó sűrűségfüggvényt (ez gyakran astandard normális eloszlás), xm azm-edik személy válaszainak vektorát jelöli,illetve θ az itemekhez tartozó paraméterek vektora.

A (2.6)-os integrált azonban nem lehet explicit módon kiszámolni, ezértennek numerikus közelítésére a Gauss-Hermite kvadraturát használja. A ka-pott közelítést (minden m-re összeadva), amely θ-tól függ, kellene maxima-lizálni. Ez a BFGS beépített algoritmus segítségével fog történni. A BFGSalgoritmus egy olyan iteratív módszer, amely hatékonyan oldja meg az opti-malizálási problémákat. (Rizopoulus, 2006)

A feltételes maximum likelihood becslés numerikusan stabilabb feladat-nak bizonyul. Ezt a Rasch-modell legegyszerűbb változatára lehet alkal-mazni. Láttuk, hogy ebben az esetben az összpontszám elégséges statisztika

15

Page 16: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

a képességparaméterre, tehát ha az összpontszámokra vett feltételes likeli-hoodot számítjuk ki, az már csak a βi nehézségparamétereket tartalmazza,így csak ezekben kell maximalizálni. A feltételes likelihood függvényre akövetkező képlet adódik:

Lc(β) = exp(−∑i

βisi)/∏r

∑x|r

exp(−∑i

xiβi)

nr

. (2.7)

Ebben a képletben a βi-k mellett az si jelöli az adott itemre helyesenválaszolók számát, r a lehetséges pontszámok (az én esetemben 8 item van,ezért 0-tól 8-ig mennek a pontszámok, de itt technikai okokból az r értékecsak 1-től 7-ig megy), x|r jelöli az összes olyan válaszvektort, melynek össz-pontszáma éppen r, illetve az nr az r pontszámmal rendelkezők számát jelöli.(Hatzinger [2])

2.2.5. Az adatok illeszkedése a Rasch-modellhez (modelfit)

A Rasch-modell az itemre adott helyes válasz valószínűségét az item ne-hézsége és a személy képességparamétere segítségével határozza meg. Abbanaz esetben, amikor egy itemre adott helyes válasz valószínűségét az item ne-hézségén és a személy képességparaméterén kívül más is befolyásolja, akkorsérül a Rasch-modell alkalmazhatósága. Néhány tényező, amely ronthatja azitemek modellilleszkedését:

• Találgatás - nagyon nehéz feleletválasztós itemek esetén fordul elő.

• Itemfüggőség - egy item helyes megoldásához egy másik itemen adottválaszt kell felhasználni (erős függőség), vagy az itemeket kontextus köti össze(gyenge függőség).

• Különböző itemműködés - a minta különböző egyénei máshogy vála-szólnak a kérdésére, például a fiúk általában jobban válaszolnak a focivalkapcsolatos kérdésekre, mint a lányok.

• Többdimenzionalitás - egy item mást, más látens képességet mér, minta többi item, például egy matematikai feladat számolási, illetve fogalmi isme-retet is mér egyszerre, ez a két látens változó pedig személyenként változhat,valaki az egyikben, valaki a másikban jobb.

Az, hogy alkalmazható-e az adatok elemzésére a Rasch-modell, az illesz-kedésvizsgálat mutatja meg. (Molnár [4])

16

Page 17: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

2.2.6. Rasch-modell alkalmazása

A Rasch-modellt számos területen használják, mint például orvostudo-mányokban, neveléstudományban, marketing kutatásokban, stb. A pszicho-metriában a tesztfejlesztés különböző fázisaiban alkalmazhatjuk: új mérő-eszköz tételeinek kialakításakor, már létező teszt pszichometriai jellemzőinekellenőrzésekor vagy számítógépes adaptív teszteléshez szükséges tételcsomagösszeállításakor.

A Rasch-modell alkalmazása minden olyan esetben ajánlott, ahol össze-tartozó ordinális szintű adatok értékei közötti különbséget szeretnénk szám-szerűsíteni és az adataink eleget tesznek a modell feltételeinek, illetve a mo-dell illeszkedik az adatainkhoz. Ilyen helyzet lehet például, ha összetartozóitemeket úgy veszünk fel, hogy a teszt nem minden itemét oldja meg mindenkitöltő, de vannak olyan kulcsfontosságú itemek melyekhez minden kitöltőtőlvannak adataink, és kíváncsiak vagyunk az itemek, illetve kitöltők paramé-tereire. (Wikipédia, Rasch-modell [7])

17

Page 18: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

3. fejezet

Adatok elemzése Rasch-modellel

A kutatás célja adatot gyűjteni a már korábban készült és kitöltött fele-letválasztós tesztek eredményeiről. Az így kapott adatok vizsgálata a Rasch-modell segítségével, a kapott eredmények elemzése, illetve ezek összevetésemár korábban, mások által végzett elemzések eredményeivel.

Adatok származása

Az adatok egy kutatócsoporttól származnak. A kutatócsoport az adato-kat egy már korábban létrehozott feleletválasztós teszt segítségével gyűjtöttebe. A tesztet több nyelvre is lefordították - elérhető volt magyar, román,német, angol, bolgár és spanyol nyelven - és elsősorban a felsőfokú képzésbenrésztvevőket vagy végzetteket célozza, azonban más végzettségűek is kitöl-tötték a tesztet.

A teszt feladata, hogy több térképolvasáshoz köthető kompetencia vizsgá-latával megmérje az emberek térképolvasási képsségét nagy méretarányú tér-képek használata esetén, valamint választ adjon arra, hogy különböző kompe-tenciájú emberek számára mely térképi elemek olvasása okozzák a legnagyobbvagy legkisebb problémát. A kutatócsoport eredményeit az [1] publikációbanfoglalta össze. A következő szakaszban tekintsük át ezeket az eredményeket!

3.1. A kutatócsoport által végzett adatelemzésfolyamata

A kutatócsoport a már korábban létrehozott feleletválasztós teszt segít-ségével gyűjtotte be a kutatáshoz szükséges adatokat.

A teszt nyolc kérdésből állt és ezt a tesztet magyar nyelvről román, német,angol, bolgár, illetve spanyol nyelvre is lefordították. Nem csak a tesztkér-dések, hanem a térképen szereplő kifejezések és földrajzi nevek is át lettekfordítva az adott nyelve. A földrajzi nevek esetén különösen vigyáztak arra,hogy a név hangzása az adott nyelvre való lefordítása után is tükrözze a föld-rajzi név jellegét, ezért nem tükörfordítást használtak, hanem új kifejezéseket

18

Page 19: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

hoztak létre. A teszt kérdései - egy kivételével - négy válaszlehetőséget tartal-maztak, a teszt során négy térképhez tartozó feladatot kellett megoldaniuka kitöltőknek.

A teszt elkészítése során a teszt hossza is lényegesen fontos szempontvolt, mivel 5-7 percnél hosszabb kitöltést igénylő kérdőív esetén nagy való-színűséggel a kitöltő megszakítja a kérdőív kitöltését, illetve az is egy fontosszempont volt, hogy a térképek csak olyan információt tartalmazzanak ami azadott kérdés megoldásában játszott fontos szerepet, ezzel elkerülve a kognitívtúlterhelést. A teszt kitöltése során minden alany esetében a teszt kérdései,illetve ezekhez tartozó lehetséges válaszok megjelenési sorrendje véletlenszerűvolt.

A teszt nyolc darab kérdése a következő kategóriák segítségével mérteaz alany térképolvasási kompetenciáját: domborzati rajz felismerése, tájé-kozódás és mentális forgatás, távolság és menetidő becslés, domborzat ésmentális forgatás, térképi jelek, névrajz, síkrajz, valamint aránymérték éstávolságbecslés. A teszt kérdések mellett, a pontosabb kiértékelés érdeké-ben a kitöltőktől néhány személyes adatot is bekértek (pl. életkort, iskolaivégzettség, nem, stb.), továbbá feltettek térképhasználattal kapcsolatos kér-déseket is (pl. térképhasználat gyakorisága).

A kutatás esetében a kérdőív kitöltése internetes felületen tőrtént. Ma-gyarországon elsősorban az ELTE-s hallgatók alkották a minta nagy részét,mivel a kérdőívet levelezőlistákon, Facebook-on, karok illetve a Hök-ök hon-lapjain lehetett elérni. A külföldi hallgatókhoz kevésbé struktúrált módon,informális kapcsolatok segítségével jutott el a kérdőív.

Az adatfelvétel közel egy hónapig tartott és összesen 611 kitöltés érke-zett, amelyből csupán 488 kitöltő válasza került elemzésre. Az összadatbólkiszűrésre kerültek azok a kérdőívek, amelyek a kitöltés során megszakításrakerültek, illetve azok, amelyeket 2 percnél rövidebb idő alatt töltöttek ki. Azadattisztításra azért volt szükség, hogy az adatok minőségét javítsák, illetvekiszűrjék a komolytalan kitöltéseket.

A minta nagy részét magyar kitöltők alkotják (45% - 220 fő), fennmara-dó részének 23%-át román kitöltők (110 fő), 17%-át spanyol kitöltők (83 fő),10%-át bolgár (50 fő), 3%-át német (15 fő) és 2%-át angol kitöltők (10 fő)teszik ki. A 488 fős minta 44%-át férfi, míg 56%-át nő kitöltő alkotja. A ki-töltők legnagyobb részét a reál végzettségűek alkották, viszont voltak humánterületen tanulók is, valamint a minta elsősorban felsőoktatásban szereplőkrevagy felsőoktatásban végzettekre fókuszál, de nem kizárólagosan, azt középés alapfokkal rendelkező kitöltők is gazdagítják. Ezek az adattisztítás soránazért nem kerültek kiszűrésre, mert hasznos információkkal szolgáltak.

A kutatócsoport az adatokat kérdésenként különböző kategóriákat tartal-mazó táblázatba gyűjtve kezdte elemezni, kiértékelni. Először kiértékeltéka nyolc kérdésre adott helyes és helytelen válaszok százalékos arányát. Akésőbbiekben ezeket kiválogatva nézték külön a helyes, illetve helytelen vá-laszok esetén a tesztelt személy adatait (végzettség, nem, korcsoport, nyelvés térképolvasási gyakoriság).

19

Page 20: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

A tesztfeladatok esetében a helyes válaszok aránya sokszínűen alakult:első kérdés esetében 71,5%, a második kérdés esetében 65,4%, a harmadikkérdésnél 66,8%, a negyedik kérdésnél 59,6%, az ötödik kérdésnél 65,2%, ahatodik kérdésnél 55,1%, a hetedik kérdésnél 30,3%, míg végül a nyolcadikkérdésre érkezett helyes válaszok százalékos aránya 72,1% volt. A későbbi-ekben a helyes válaszok vizsgálata során más tulajdonságok függvényében iskülönböző eltéréseket véltek felfedezni.

Az elemzés során cél volt nem csupán a térképolvasási készségek mérésérekidolgozott kérdőív tesztelése, hanem a kérdőívre adott helyes és helytelenválaszok függvényében különböző térképolvasási csoportok elkülönítése is. Alegoptimálisabb felosztásnak előzetes meggondolások alapján a hármas fel-osztás bizonyult, melynek megvalósításához az összesített pontszámok op-timális vágáspontjait igyekeztek megtalálni. Ezt az optimális vágást végülannak alapján választották ki, hogy figyelembe vették a felsőfokú végzett-ségű válaszadókat akik átlagosan jobban teljesítenek és akik a nagy részétképezték a mintának, illetve mely vágáspontok mentén érhető el az, hogya megkérdezettek egyharmada essen minden csoportba. Az előző megfonto-lásokból adódóan, az a legkisebb négyzetes eltéréssel rendelkező ponthatárkerült megválasztásra, melynél a ponthatár legközelebb áll az optimális hár-mas felosztáshoz: ez a 4 és 6 vágáspont volt. A csoportok ez alapján annakmegfelelően alakultak, hogy a 0-3 pontszámmal rendelkező kitöltők (100 fő)kerültek a kezdő, 4-5 pontszámot elérők (197 fő) a közepes, míg a 6 és felettipontszámot elérők (191 fő) kerültek a haladó térképolvasási csoportba.

3.2. Az általam végzett adatelemzés folyamata

A feladatom célja a Rasch-modell segítségével kapott eredmények kiérté-kelése, valamint a kiértékelt eredmények összevetése a kutatócsoport ered-ményeivel.

3.2.1. Az adatok feldolgozása

A kutatócsoporttól kapott adatok egy újabb adattisztításon vettek részt.Azok az adatok kerültek kiszűrésre, amelyek nem voltak szignifikánsak vagynem befolyásolták az elemzés során kapott eredményeket.

Az adattisztítást követően a feladat az volt, hogy az adatok az R prog-ramba kerüljenek.

Ezt egy rövidke program segítségével lehetett megoldani:getwd ( )setwd ("F: / Szakdolgozat ")adat<−read . t ab l e (" adat . txt " , header=TRUE)s t r ( adat )

Ezek után pedig következett az R programon belül a Rasch-csomag te-

20

Page 21: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

lepítése, amelynek használatával elemezésre, majd kiértékelésre kerülnek azadatok. A Rasch-csomag keresése során két csomag is kiválasztásra és telepí-tésre került. Ezek közül az egyik a már említett ltm csomag, a másik pedigaz eRm nevű csomag.

Ezeket a következő program segítségével lehetett telepíteni:

i n s t a l l . packages ("eRm" , repos="http :// r−f o r g e . r−p r o j e c t . org ")l i b r a r y ("eRm")i n s t a l l . packages (" ltm " , repos="https : // cran . r−p r o j e c t . org ")l i b r a r y (" ltm ")

3.2.2. Az adatok elemzése az lmt csomag segítségével

Az adatok egy térképolvasással kapcsolatos kérdőívre adott válaszokbólszármaznak. Az adatsor 488 személy 8 darab térképolvasással kapcsolatoskérdésre adott válaszát tartalmazza (az adatokat ez alapján a valasz nevűváltozóban tároltam).

Az adatok elemzését D. Rizopoulus [5] leírása alapján végeztem.Első lépésként a leíró statisztikáját a valasz adatnak a descript() ne-

vezetű függvénnyel lehet megnézni:

R> de s c r i p t ( va l a s z )

De s c r i p t i v e s t a t i s t i c s f o r the ’ va lasz ’ data−s e t

Sample :8 items and 488 sample un i t s ; 0 miss ing va lue s

Proport ions f o r each l e v e l o f r e sponse :0 1 l o g i t

q1_d 0.2848 0 .7152 0 .9206q2_d 0.3463 0 .6537 0 .6353q3_d 0.3320 0 .6680 0 .6993q4_d 0.4037 0 .5963 0 .3901q5_d 0.3484 0 .6516 0 .6263q6_d 0.4488 0 .5512 0 .2056q7_d 0.6967 0 .3033 −0.8317q8_d 0.2787 0 .7213 0 .9510

Frequenc ie s o f t o t a l s c o r e s :0 1 2 3 4 5 6 7 8

Freq 5 17 24 54 94 103 103 68 20

21

Page 22: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Pai rwi se As so c i a t i on s :Item i Item j p . va lue

1 2 6 1 .0002 5 6 0 .8173 2 7 0 .7174 1 7 0 .3105 5 8 0 .2786 2 5 0 .2617 3 5 0 .2218 6 7 0 .1719 1 5 0 .13610 3 7 0 .111

A descript() parancs során kapott leíró statisztika többek között tar-talmazza a helyes, illetve helytelen válaszok arányát tartalmazó táblázatotitemekre lebontva. A következő táblazat értékei mutatják azt, hogy az egyespontszámokat hányan érték el, illetve az utolsó táblázatban az itemek páron-kénti asszociációja figyelhető meg.

Kezdetben az eredeti Rasch-modellt illesztem, amely azt jelenti, hogy adiszkriminációs paramétert, amely nem más mint az α, lerögzítem, értékét1-re beállítva. Ezáltal minden egyes itemhez tartozó diszkriminációs paramé-ter értéke egyenlő lesz α1=α2=...=αp=α. Az α=1 beállításhoz a constraintopció használható. Tehát az egyparaméteres Rasch-modell illesztését a kö-vetkező paranccsal lehet megoldani:

> f i t 1 <− rasch ( va lasz , c on s t r a i n t = cbind ( l ength ( va l a s z ) +1, 1 ) )> summary( f i t 1 )

Ca l l :rasch ( data = valasz , c on s t r a i n t = cbind ( l ength ( va l a s z ) + 1 , 1 ) )

Model Summary :l og . Lik AIC BIC

−2445.473 4906.946 4940.469

Co e f f i c i e n t s :va lue std . e r r z . va l s

D f f c l t . q1_d −1.0817 0 .1175 −9.2071D f f c l t . q2_d −0.7489 0 .1127 −6.6424D f f c l t . q3_d −0.8238 0 .1136 −7.2490D f f c l t . q4_d −0.4606 0 .1101 −4.1834D f f c l t . q5_d −0.7383 0 .1126 −6.5555D f f c l t . q6_d −0.2427 0 .1090 −2.2280

22

Page 23: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Df f c l t . q7_d 0.9792 0 .1158 8 .4590D f f c l t . q8_d −1.1169 0 .1181 −9.4574Dscrmn 1.0000 NA NA

In t e g r a t i on :method : Gauss−Hermitequadrature po in t s : 21

Optimizat ion :Convergence : 0max ( | grad | ) : 6e−06quasi−Newton : BFGS

Az eredmények alátámasztják a leíró statisztikában levő eredményeket.Ezekből az eredményekből is az olvasható ki, hogy a legnehezebb item a 7-ik, a legkönnyebb item pedig a 8-adik. Ezeket a Coefficients táblából lehetkiolvasni, mégpedig a value oszlopból, ugyanis a value nem más mint az itemnehézségi paraméter.

Ezek a becsült értékek a korábban említett (2.6)-os integrál numerikusközelítéséből származnak. Látható, hogy az integrált Gauss-Hermite kvad-ratúrával számolja a program, az integrál kiértékeléséből kapott függvénymaximalizálása pedig a BFGS algoritmussal történik.

A paraméterbecslések a helyes válasz valószínűségének becslésére is trasz-formálhatóak a coef() parancs segítségével. Az order parancsnak a segítsé-gével az is elérhető, hogy az itemek nehézségi sorrendbe kerüljenek.

> coe f ( f i t 1 , prob = TRUE, order = TRUE)D f f c l t Dscrmn P(x=1| z=0)

q8_d −1.1169402 1 0.7534207q1_d −1.0817076 1 0.7468170q3_d −0.8238299 1 0.6950487q2_d −0.7488782 1 0.6789342q5_d −0.7382816 1 0.6766200q4_d −0.4605854 1 0.6131530q6_d −0.2427361 1 0.5603878q7_d 0.9792157 1 0.2730474

Ebből a táblázatból az itemek nehézségi sorrendje mellett, az itemekreadott helyes válaszok valószínűsége is fellelhető egy átlagos képességű (z=0)ember esetén, méghozzá a P(x=1|z=0) oszlopban.

Végül, de nem utolsósorban az alábbi paranccsal ellenőrizhetjük, megfi-

23

Page 24: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

gyelve a táblában szereplő p-értéket, hogy a modellünk mennyire jól illeszke-dik.> GoF. rasch ( f i t 1 , B=199)

Bootstrap Goodness−of−Fit us ing Pearson chi−squared

Cal l :rasch ( data = valasz , c on s t r a i n t = cbind ( l ength ( va l a s z ) + 1 , 1 ) )

Tobs : 325 .79# data−s e t s : 200p−value : 0 .005

A GoF.rasch() függvény során létrejött p-érték mutatja, hogy a modellmennyire illeszkedik jól. Az adatok alapján a p-értéke=0.005, amely erősenszignifikáns, egy nem elfogadható modellilleszkedésre utal.

Mivel a modellillesztési vizsgálat során a p-értéke szignifikáns, ezért akövetkező lépésben azt a Rasch-modellt illesztem, ahol az α diszkrimináci-ós paraméter már nem fixált, tehát nincs 1-re beállítva a constraint pa-ranccsal. Ez a Rasch-modell azonban nem a kétparaméteres Rasch-modell,hanem az egyparaméteres modellnek az a változata, amikor az alfa értékenem fixált, hanem egy becsült érték, jelen esetben 0,7339. Ezt a modellt azalábbi módon lehet meghívni:

> f i t 2 <− rasch ( va l a s z )> summary( f i t 2 )

Ca l l :rasch ( data = va la s z )

Model Summary :l og . Lik AIC BIC

−2436.305 4890.609 4928.322

Co e f f i c i e n t s :va lue std . e r r z . va l s

D f f c l t . q1_d −1.3973 0 .1775 −7.8744D f f c l t . q2_d −0.9664 0 .1580 −6.1180D f f c l t . q3_d −1.0633 0 .1619 −6.5696D f f c l t . q4_d −0.5938 0 .1460 −4.0679D f f c l t . q5_d −0.9527 0 .1574 −6.0514D f f c l t . q6_d −0.3125 0 .1404 −2.2251D f f c l t . q7_d 1.2652 0 .1707 7 .4112D f f c l t . q8_d −1.4430 0 .1798 −8.0245

24

Page 25: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Dscrmn 0.7339 0 .0583 12.5940

In t e g r a t i on :method : Gauss−Hermitequadrature po in t s : 21

Optimizat ion :Convergence : 0max ( | grad | ) : 0 .00044quasi−Newton : BFGS

Ebben az esetben is megvizsgálom a modellillesztés elfogadhatóságát, sze-retném megnézni, hogy ebben az esetben a p-értéke mennyivel tér el az előzőmodell p-értékénél.

> GoF. rasch ( f i t 2 , B=199)

Bootstrap Goodness−of−Fit us ing Pearson chi−squared

Cal l :rasch ( data = va la s z )

Tobs : 279 .15# data−s e t s : 200p−value : 0 . 1

A kapott p-értéke az 1-től különböző α értéket tartalmazó Rasch-modellesetén már nem szignifikáns p = 0,1. Ezáltal elmondható, hogy ez a modellmár jól illeszkedik.

Összevetve a két modellillesztést észrevehető, hogy az értékek eltérnek,azonban ez alapján is megfigyelhető, hogy melyek a nehezebb, illetve a könnyebbkérdések. Az eltérést a két modellillesztés között az anova paranccsal is tesz-telni lehet, illetve ennek segítségével a p-értékének függvényében elmondható,hogy melyik a preferált modellillesztés.

> anova ( f i t 1 , f i t 2 )

L ike l i hood Ratio TableAIC BIC log . Lik LRT df p . va lue

f i t 1 4906.95 4940.47 −2445.47f i t 2 4890.61 4928.32 −2436.30 18 .34 1 <0.001

25

Page 26: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

A kapott értékekből látható, hogy a második modellillesztés jobb az első-nél, a "minél kisebb, annál jobb" elv alapján, mivel észrevehetően a másodikmodellillesztés értékei kisebbek az első értékeihez képest.

A továbbiakban a kettő és három paraméteres Rasch-modell illesztését ismeg szeretném vizsgálni azáltal, hogy összehasonlítom, hogy a négy modell-illesztés közül melyik a legjobban illeszkedő modell. A kettő- és hárompara-méteres Rasch-modell között a különbség az, hogy a kétparaméteres Rasch-modell nem tartalmazza a tippelési paramétereket, viszont az alfa paramé-terei nincsenek 1-re rögzítve, ezzel ellentétben a háromparaméteres Rasch-modell esetében a tippelési paraméterek jelen vannak és az alfa paraméterekegyformák.

Első lépésben a kétparaméteres Rasch-modellt hasonlítom a második mo-dellillesztéssel (ahol az α értéke már nincs 1-re rögzítve), majd ezután ugyan-ezt az összehasonlítást végzem el a háromparaméteres Rasch-modell esetébenis.

A kétparaméteres Rasch-modellben az α diszkriminációs paraméter ér-téke itemenként változó, így arra következtetnénk, hogy mivel itt már többparaméter van, az illeszkedés is pontosabb lesz. Az előző összehasonlításhozhasonlóan az anova paranccsal hasonlíthatóak a modellek, azonban előtte akétparaméteres modellt illeszteni kell.

> f i t 3 <− ltm ( va l a s z ~ z1 )> anova ( f i t 2 , f i t 3 )

L ike l i hood Ratio TableAIC BIC log . Lik LRT df p . va lue

f i t 2 4890.61 4928.32 −2436.30f i t 3 4890.53 4957.57 −2429.26 14 .08 7 0 .05

A kapott értékek alapján a kétparaméteres Rasch-modell jobban illeszke-dik, az értékek a fit3 esetén kisebbek, mint a fit2 esetén, illetve a p-értéke isalacsonynak mondható. Ezen értékek alapján a kétparaméteres Rasch-modellpreferáltabbnak mondható, azonban előtte még vizsgáljuk meg a hárompa-raméteres Rasch-modell illeszkedését is.

A következő lépésben pedig a háromparaméteres Rasch-modell illeszke-dését hasonlítom a második modellillesztéssel:

> f i t 4 <− tpm( va lasz , type = " rasch " , max . gue s s ing=1)> anova ( f i t 2 , f i t 4 )

L ike l i hood Ratio TableAIC BIC log . Lik LRT df p . va lue

26

Page 27: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

f i t 2 4890.61 4928.32 −2436.30f i t 4 4895.46 4966.70 −2430.73 11 .15 8 0 .194

Ebben az esetben is ahhoz, hogy az összehasonlítást el lehessen végez-ni, először illeszteni kellett a modellt, majd a modellillesztés után az anovaparancs segítségével összehasonlítható a két modellillesztés.

Az összehasonlítási táblát figyelve, a háromparaméteres modellillesztésértékei, már magasabbak az egyparaméteres, itemenként egyforma alfákattartalmazó modellillesztés értékeinél, de a kettő- és háromparaméteres Rasch-modell illeszkedésének értékeit összehasonlítva kevésbé eltérő értékeket lehetfelfedezni.

Tehát az általam preferált modell a kétparaméteres Rasch-modell lesz,melyet a következő programrészlettel lehet bemutatni:

> f i t 3 <− ltm ( va l a s z ~ z1 )> summary( f i t 3 )

Ca l l :ltm ( formula = va la s z ~ z1 )

Model Summary :l og . Lik AIC BIC

−2429.263 4890.525 4957.57

Co e f f i c i e n t s :va lue std . e r r z . va l s

D f f c l t . q1_d −1.3173 0 .2897 −4.5465D f f c l t . q2_d −0.9102 0 .2180 −4.1746D f f c l t . q3_d −0.8466 0 .1796 −4.7143D f f c l t . q4_d −0.4577 0 .1301 −3.5178D f f c l t . q5_d −1.3717 0 .4531 −3.0275D f f c l t . q6_d −0.5161 0 .2834 −1.8209D f f c l t . q7_d 1.6734 0 .5121 3 .2677D f f c l t . q8_d −1.0977 0 .2079 −5.2790Dscrmn . q1_d 0.7900 0 .1909 4 .1380Dscrmn . q2_d 0.7912 0 .1875 4 .2201Dscrmn . q3_d 0.9898 0 .2240 4 .4190Dscrmn . q4_d 1.0365 0 .2331 4 .4466Dscrmn . q5_d 0.4807 0 .1559 3 .0832Dscrmn . q6_d 0.4145 0 .1452 2 .8543Dscrmn . q7_d 0.5282 0 .1679 3 .1460Dscrmn . q8_d 1.0550 0 .2395 4 .4045

In t e g r a t i on :

27

Page 28: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

method : Gauss−Hermitequadrature po in t s : 21

Optimizat ion :Convergence : 0max ( | grad | ) : 0 .00016quasi−Newton : BFGS

A kétparaméteres modell esetében az illeszkedés jóságát is szeretném meg-vizsgálni, azonban a tapasztalat az, hogy ebben az esetben a Gof.raschparancs nem működik, hibát ad vissza a program.

> GoF. rasch ( f i t 3 ,B=199)Error in GoF. rasch ( f i t 3 , B = 199) :Use only with ’ rasch ’ ob j e c t s .

A kérdőív nem azért lett kifejlesztve, hogy a képesség- és nehézségpara-métereket lehessen ez által vizsgálni, azonban az én elemzéseim során ezekaz adatok és az általuk hordozott információk fontos szerepet játszottak. Amodellillesztés során látható, hogy a modell bizonyos típusai nem illeszked-nek kellőképpen (pl. egyparaméteres Rasch-modell), ez azonban nem gond,mivel az adatokat a Rasch-modell bemutatására használtam.

Az elemzés során nem csak az dönthető el, hogy melyek azok a modellek,amelyek jól illeszkednek, az is megfigyelhető, hogy melyek a nehezebb ésmelyek a könnyebb kérdések. Az értékekből kiolvasható a helyes és helytelenválaszok aránya, illetve ezek valószínűségi értéke.

Az elemzés során nem csak egy modellillesztést vizsgáltam, hanem aRasch-modell egy-, kettő- és háromparaméteres változataira is megfigyeltemaz adatok értékeinek változását, majd ezen modellek összehasonlításából le-het eldönteni, hogy melyik a legjobban illeszkedő modell.

Ezen információkon kíül, fontosnak tartom a válaszok különböző háttér-változóval vett kapcsolatát, például a nők és férfiak által adott helyes válaszokaránya, azaz melyek azok a kérdések melyekre a nő vagy a férfi könnyebbenválaszol, vagy melyek azok a kérdések, amelyeket az idősebb korosztály ne-hezebben válaszol meg helyesen, a fiatal korosztállyal ellentétben, stb.

Ezek elemzését az eRm nevezetű csomag segítségével fogom végezni.

3.2.3. Az adatok elemzése az eRm csomag segítségével

Az eRm csomag abban különbözik az ltm csomagtól, hogy míg az ltmcsomag során a paraméterek becslése a Marginális Maximum Likelihood(MMLE) segítségével történnek, addig az eRm csomag során a paraméte-rek becslése a Feltételes Maximum Likelihood (CML) segítségével történik,

28

Page 29: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

illetve az a különbség is fellelhető, hogy az ltm csomag mindhárom paramé-terű Rasch-modellt képes illeszteni, míg az eRm csomag csak a hagyományosRasch-modellt tudja illeszteni.

Az eRm csomagot szintén a térképolvasással kapcsolatos kérdésekre adott488 személy által adott válaszokból nyert adatokra használom.

Az adatok elemzése során R. Hatzinger: Rasch-modell című előadásjegy-zetét [2] tanulmányoztam, majd ez alapján elemeztem az adatokat.

Elsősorban illesszük a modellt!

> r e s <− RM( va l a s z )> summary( r e s )

Resu l t s o f RM est imat ion :

Ca l l : RM(X = va la s z )

Cond i t iona l log−l i k e l i h o o d : −1488.662Number o f i t e r a t i o n s : 12Number o f parameters : 7

Item ( Category ) D i f f i c u l t y Parameters ( eta ) : with 0 .95 CI :Estimate Std . Error lower CI upper CI

q2_d −0.205 0 .094 −0.390 −0.021q3_d −0.277 0 .095 −0.463 −0.091q4_d 0.068 0 .092 −0.112 0 .248q5_d −0.195 0 .094 −0.380 −0.011q6_d 0.274 0 .091 0 .096 0 .452q7_d 1.417 0 .098 1 .225 1 .609q8_d −0.558 0 .099 −0.752 −0.363

Item Eas ine s s Parameters ( beta ) with 0 .95 CI :Estimate Std . Error lower CI upper CI

beta q1_d 0.524 0 .099 0 .330 0 .717beta q2_d 0.205 0 .094 0 .021 0 .390beta q3_d 0.277 0 .095 0 .091 0 .463beta q4_d −0.068 0 .092 −0.248 0 .112beta q5_d 0.195 0 .094 0 .011 0 .380beta q6_d −0.274 0 .091 −0.452 −0.096beta q7_d −1.417 0 .098 −1.609 −1.225beta q8_d 0.558 0 .099 0 .363 0 .752

Nem meglepő, hogy az eRm csomag során kapott eredmények eltérnek azltm csomaggal elemzett adatok eredményeitől, mivel a paraméterek becslésea két különböző csomagban két különböző eljárással történik. Ami azonban

29

Page 30: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

ezekből az eredményekből is kitűnik az az, hogy ebben az esetben is a 7-es,illetve a 8-as kérdések azok, amelyek a legnehezebbek, illetve a legkönnyeb-bek.

3.1. ábra.

Az ábra a nehézség- és képességparamétereket tartalmazza. Az ábra felsőrészében az oszlopdiagramok jelölik az emberek képességparamétereit. Ittcsak 7 oszlopdiagramot láthatunk, mivel az itemek értékelése 0-tól 8 pontigterjed, azonban a rendszer nem tudja becsülni azokat az értékeket, ahol azemberek 0 vagy 8 pontot értek el. Az ábra alsó részében vannak az itemekheztartozó nehézségparaméterek, melyek fekete pontokkal vannak ábrázolva. Azábrából tehát kiolvasható, hogy a kérdések nehézségei nincsenek jól szétoszt-va, mivel a (-1,1) intervallumot nézve a pontok nagyon sürűn helyezkednekel.

Az elkövetkezendő lépésekben szeretném vizsgálni az itemek paramétere-inek és a különböző háttérváltozók közötti összefüggéseket.

Elsősorban vizsgálni fogom a nők és férfiak válaszait, vagyis azt, hogymelyek azok a kérdések amelyek a férfiak vagy a nők számára nehezebbek,

30

Page 31: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

illetve melyek azok a kérdések, amelyek függetlenek a nemtől. Ezt a következőparancsokkal lehet megoldani:

> l r t 1 <− LRtest ( res , s p l i t c r = adat$gender , se=TRUE)> summary( l r t 1 )

Andersen LR−t e s t :LR−value : 25 .822Chi−square df : 7p−value : 0 .001

Subject Subgroup : adat$gender 1 :Log−l i k e l i h o o d : −814.3864

Beta Parameters :beta q1_d beta q2_d beta q3_d beta q4_d beta q5_d

Estimate 0.5062026 0.08303682 0.2480465 0.2860521 0.0652340Std . Err . 0 .1348037 0.12550516 0.1285647 0.1293705 0.1252169

beta q6_d beta q7_d beta q8_dEstimate −0.1081347 −1.545016 0.4645791Std . Err . 0 .1228259 0.130757 0.1336781

Subject Subgroup : adat$gender 2 :Log−l i k e l i h o o d : −661.3642

Beta Parameters :beta q1_d beta q2_d beta q3_d beta q4_d beta q5_d

Estimate 0.5433044 0.3552253 0.3095270 −0.4893135 0.3552253Std . Err . 0 .1452991 0.1420481 0.1413846 0.1376779 0.1420481

beta q6_d beta q7_d beta q8_dEstimate −0.4893135 −1.2507180 0.6660630Std . Err . 0 .1376779 0.1483761 0.1478881

Az értékeket a program két táblázat szerint csoportosítja, 1-el jelölve aférfiak csoportját, 2-vel pedig a nők csoportját. A táblázatbeli értékekbőlaz olvasható ki, hogy egyes itemek függenek a nemtől, mint például a 4-esés 6-os itemek esetén. Ezek az itemek szignifikánsan eltérnek egymástól ésészrevehető, hogy a 4-es és 6-os kérdések könnyebbek a férfiak számára, azaza férfiak nagyobb valószínűséggel válaszolnak helyesen ezekre a kérdésekre,

31

Page 32: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

mint a nők. Ezek az eltérések könnyen szemléltethetőek az alábbi ábrán:

3.2. ábra. Nők(2) és férfiak(1) válasza

Az ábrán látható, hogy az egyes kérdésekhez tartozó béták becsült értékemennyi a férfiak, illetve a nők esetében. Látszik, hogy a 4-es és 6-os kérdésekkonfidencia-ellipszisei nem metszik az x = y egyenest sem.

Az itemek illeszkedésének jóságát a Wald Test segítségével lehet mérni,itt is a 4-es és 6-os kérdések esetén szignifikáns értékeket fedezhetünk fel,vagyis ezen itemek nem bizonyulnak jól illeszkedőeknek.

> wald1 <− Waldtest ( res , s p l i t c r = adat$gender )> wald1

Wald t e s t on item l e v e l ( z−va lue s ) :

z−s t a t i s t i c p−valuebeta q1_d −0.187 0 .852beta q2_d −1.436 0 .151beta q3_d −0.322 0 .748beta q4_d 4.104 0 .000beta q5_d −1.531 0 .126beta q6_d 2.066 0 .039beta q7_d −1.488 0 .137beta q8_d −1.011 0 .312

32

Page 33: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

A továbbiakban vizsgálni fogom, hogy melyek azok a kérdések, amelyeknehezebbek vagy könnyebbek a 24 év alatti, illetve feletti korosztálynak. Eztúgy tudom elérni, hogy előbb az életkorhoz tartozó adatokat csoportosítanomkell a két csoport szerint, 24 év alatti és 24 év felettiekre, majd ez utánugyanúgy mint a nők és férfiak esetében, ebben az esetben is vizsgálni fogomaz adatokat.

A válaszolók életkorait két csoportba osztom a következő program rész-lettel,

> korcsop <−kor> korcsop [ kor <24] <− 1> korcsop [ kor>=24] <− 2

majd ezután vizsgálom a két korcsoport közötti válaszkülönbségeket, ki-ugró értékeket.

> l r t 2 <− LRtest ( res , s p l i t c r = korcsop )> summary( l r t 2 )

Andersen LR−t e s t :LR−value : 20 .05Chi−square df : 7p−value : 0 .005

Subject Subgroup : korcsop 1 :Log−l i k e l i h o o d : −735.5415

Beta Parameters :beta q1_d beta q2_d beta q3_d beta q4_d beta q5_d

Estimate 0.7307065 0.3769680 0.2739026 −0.2302040 0.2739026Std . Err . 0 .1430569 0.1353881 0.1337308 0.1293451 0.1337308

beta q6_d beta q7_d beta q8_dEstimate −0.5489391 −1.316593 0.4402560Std . Err . 0 .1298002 0.141922 0.1365341

Subject Subgroup : korcsop 2 :Log−l i k e l i h o o d : −743.0954

Beta Parameters :beta q1_d beta q2_d beta q3_d beta q4_d beta q5_d

Estimate 0.3177652 0.03305532 0.2754282 0.0920055 0.1118762

33

Page 34: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Std . Err . 0 .1364639 0.13118533 0.1355524 0.1321131 0.1324450beta q6_d beta q7_d beta q8_d

Estimate −0.005731145 −1.5095216 0.6851223Std . Err . 0 .130620824 0.1351365 0.1464506

Az adatokból eszrevehető, hogy az 1,4 illetve 6-os itemek esetében a kétkorcsoport között az értékek szignifikánsan eltérnek, azonban a következő áb-rán látható, hogy csak az 1-es és 6-os item az, amelynek konfidencia-ellipsziseegyáltalán nem metszi az x = y egyenest.

3.3. ábra. A 24 év alattiak és felettiek válaszadása

Az ábráról leolvasható az, hogy míg az 1-es kérdés a 24 év felettieknekbizonyult bonyolultabbnak, addig a 6-os kérdés a 24 év alattiaknak okozottproblémát. Ezen értékek alátámasztására használom a következő Wald Test-et, ugyanúgy mint a nők és férfiak csoport vizsgálata során.

> wald2 <− Waldtest ( res , s p l i t c r=korcsop )> wald2

Wald t e s t on item l e v e l ( z−va lue s ) :

z−s t a t i s t i c p−valuebeta q1_d 2.089 0 .037

34

Page 35: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

beta q2_d 1.824 0 .068beta q3_d −0.008 0 .994beta q4_d −1.743 0 .081beta q5_d 0.861 0 .389beta q6_d −2.950 0 .003beta q7_d 0.984 0 .325beta q8_d −1.223 0 .221

Az eRm csomaggal vizsgált adatok eredményeiből az a következtetés von-ható le, hogy ez egy nem kellőképpen illeszkedő adathalmaz, mivel több itemesetén is észlelhető némi összefüggőség, azaz vannak olyan itemek amelyekfüggnek a nemtől, például a 4-es és 6-os itemek könnyebbek a férfi kitöl-tők számára, vagy pedig a korcsoportot figyelve, ahol a 6-os item a 24 évalattiaknak, míg az 1-es item a 24 év felettieknek bizonyult könnyebbnek.

3.2.4. Az eredmények összegzése és összehasonlítása

Az adatok elemzése során azonban a kapott eredményekre kisebb na-gyobb eltérés figyelhető meg. Ezen eltérések azzal magyarázhatóak, hogyamíg én a Rasch-modellt használtam az adatok elemzéséhez, addig a kuta-tócsoport más módszerrel elemezte az adatokat.

A válaszok vizsgálata során eltérések figyelhetők meg a nem, illetve akorcsoport szerinti bontásban, ugyanúgy mint a kutatócsoport által kapotteredmények esetében. Néhány kérdés esetén megjelenik az, hogy a férfi ki-töltők átlagos eredményei szignifikánsan magasabbak a női kitöltőknél. Azáltalam kapott eredmények azt mutatják, hogy azok a kérdések, amelyekrea férfi kitöltők jobban válaszolnak a női kitöltőknél, azok nem másak, minta 4-es és 6-os számú itemek. A kutató csoport eredményeit vizsgálva pedig,ugyanezekre a kérdésekre vonatkoznak a magasabb szignifikanciával eltérőértékek.

Hasonlóan a korcsoport esetén kapott eredményeim során azt tapasztal-tam, hogy vannak olyan itemek, amelyek a 24 év alattiaknak okoztak nehéz-séget, illetve vannak olyan itemek, amelyek a 24 év fölöttiek számára voltaknehezebbek. Ezek a kérdések az általam végzett elemzés során az 1-es item,amely a 24 év felettieknek okozott nehézséget, illetve a 6-os kérdés amelyek a24 év alatti kitöltőknek okozott nehézséget. A kutató csoport az életkorokat4 csoportra osztotta, azonban az értékeket 24 év alatt és fölött hasonlítottamés ebben az esetben ismételten azt véltem felfedezni, hogy az ők esetükbenis a magasabb szignifikanciájú eltérések az 1-es és 6-os itemek esetén voltak.

Az eredményeket tovább elemezve arra a következtetésre jutottam, hogymindkét csoport esetén a 6-os számú item nehézséget okozott, azaz a 6-osszámú itemre kevés valószínűséggel válaszoltak helyesen a 24 év alatti nők.

35

Page 36: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Irodalomjegyzék

[1] Albert G.,Ilyés V., Kis D., Szegedi C. and Várkonyi D. (2016): Testingthe map reading skills of university students. In: T. Bandrova and M.Konecny (Editors), 6th International Conference on Cartography and GIS.Bulgarian Cartographic Association, Albena, Bulgaria, pp. 188-199

[2] R. Hatzinger: Seminar: Rasch Modell

statmath.wn.ac.at/people/hatz/psychometrics/10w/RM-handouts-1-7.pdf

[3] Molnár Gy. (2005): Az objektív mérés megvalósításának lehetősége: aRasch-modell. Iskolatúra, 3, pp. 71-80

[4] Molnár Gy. (2006): A Rasch-modell alkalmazása a társadalomtudományikutatásokban. Iskolatúra, 12, pp. 99-113

[5] D. Rizopoulus (2006): ltm: An R Package for Latent Variable Modelingand Item Response Theory Analyses, Journal of Statistical Software, Vo-lume 17, Issue 5, pp. 1-25

[6] https://en.wikipedia.org/wiki/Georg-Rasch

[7] https://hu.wikipedia.org/wiki/Rasch-modell

[8] www.kislexikon.hu/modern-testelméletek.html

[9] okt.ektf.hu/data/lenke/file/TESZTELMÉLET-2012-02.pdf

36

Page 37: Feleletválasztós tesztek kiértékeléseweb.cs.elte.hu/blobs/diplomamunkak/bsc_matelem/2017/kerestely_csilla... · elméleti eszközökkel jellemzi. Az interneten található Kislexikon

Köszönetnyílvánítás

Ezúton szeretnék köszönetet mondani témavezetőmnek, Csiszár Villőnek,hogy segítségével, hasznos tanácsaival és útmutatásával hozzájárult a szak-dolgozatom elkészüléséhez. Külön köszönöm a konzultációkat, ahol mindigtürelemmel fordult felém.

Hálás köszönettel tartozom férjemnek, szüleimnek és barátaimnak, akikaz egyetemi éveim alatt türelmesek voltak hozzám, kitartóan támogattak ésbíztattak.

37