Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf ·...

15
Statisztikai hipotézisvizsgálatok Paraméteres statisztikai próbák 1. Magyarországon a lakosság élelmiszerre fordított kiadásainak 2000-ben átlagosan 140 ezer Ft/fő volt. Egy kérdőíves felmérés során Veszprém megyében 100 főt kérdeztek meg fogyasztási szokásairól. A válaszul kapott éves élelmiszerre fordított kiadásaik a kiadas.sav fileban találhatók. Vizsgáljuk meg, hogy Veszprém megyében megegyezik-e a lakosság élelmiszerre fordított kiadásainak alakulása az országos átlaggal? Megoldás: Ebben a feladatban a 100 adatból számított átlagot egy elméleti értékhez – a 140 ezer Ft-os országos átlaghoz kell hasonlítani. Egymintás t-próbát alkalmazhatunk. A próba előfeltétele, hogy normális eloszlású sokaságból származzanak a vizsgálandó értékeink. A normalitás vizsgálathoz az ANALYZE / NONPARAMETRIC TESTS / 1-SAMPLE K-S menüjét célszerű választani, ahol egy egymintás Kolmogorov – Szmirnov próba kerül végrehajtásra. Az ábrán látható módon a TEST VARIABLE LIST részhez, vagyis a tesztelendő változók listájához kerüljön a kiadas (élelmiszerre fordított kiadások) változónk, majd az OK gomb lenyomásával az output ablakban megtalálhatjuk az eredmény táblázatot. One-Sample Kolmogorov-Smirnov Test élelmiszerre fordított kiadás N 100 Normal Parameters Mean 141.53 Std. Deviation 20.313 Most Extreme Differences Absolute .075 Positive .075 Negative -.066 Kolmogorov-Smirnov Z .749 Asymp. Sig. (2-tailed) .630 1

Transcript of Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf ·...

Page 1: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

Statisztikai hipotézisvizsgálatok

Paraméteres statisztikai próbák

1. Magyarországon a lakosság élelmiszerre fordított kiadásainak 2000-ben átlagosan

140 ezer Ft/fő volt. Egy kérdőíves felmérés során Veszprém megyében 100 főt kérdeztek meg fogyasztási szokásairól. A válaszul kapott éves élelmiszerre fordított kiadásaik a kiadas.sav fileban találhatók. Vizsgáljuk meg, hogy Veszprém megyében megegyezik-e a lakosság élelmiszerre fordított kiadásainak alakulása az országos átlaggal?

Megoldás: Ebben a feladatban a 100 adatból számított átlagot egy elméleti értékhez – a 140 ezer Ft-os országos átlaghoz kell hasonlítani. Egymintás t-próbát alkalmazhatunk. A próba előfeltétele, hogy normális eloszlású sokaságból származzanak a vizsgálandó értékeink. A normalitás vizsgálathoz az ANALYZE / NONPARAMETRIC TESTS / 1-SAMPLE K-S menüjét célszerű választani, ahol egy egymintás Kolmogorov – Szmirnov próba kerül végrehajtásra.

Az ábrán látható módon a TEST VARIABLE LIST részhez, vagyis a tesztelendő változók listájához kerüljön a kiadas (élelmiszerre fordított kiadások) változónk, majd az OK gomb lenyomásával az output ablakban megtalálhatjuk az eredmény táblázatot. One-Sample Kolmogorov-Smirnov Test

élelmiszerre fordított kiadás N 100

Normal Parameters Mean 141.53 Std. Deviation 20.313

Most Extreme Differences Absolute .075 Positive .075 Negative -.066

Kolmogorov-Smirnov Z .749 Asymp. Sig. (2-tailed) .630

1

Page 2: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A kapott táblázatból csak a legutolsó értékre van szükségünk. Az Assymp. Sig. részhez 0,63 került, ez nem más, mint a bevezető részben említett empirikus szignifikancia szint, más néven P érték. A P érték annak a valószínűsége, hogy a próbastatisztika a mintából kiszámított értéket veszi fel. Minél kisebb a P érték, annál nagyobb a valószínűsége hogy a H0 hipotézis hamis. Megegyezés alapján 0,05 felett elfogadjuk, 0,05 alatt elvetjük a nullhipotézist. Esetünkben a nullhipotézis a normális eloszlás fennállása volt, és ezt a kapott eredmény birtokában elfogadhatjuk. Ezek alapján elvégezhetjük az egymintás t-próbát. Ehhez az ANALYZE / COMPARE MEANS /ONE SAMPLE T TEST menüpont alatt található párbeszédablakot kell kitöltenünk.

A vizsgált változónk ismét az élelmiszerre fordított kiadás. A TEST VALUE cellában alapértelmezésben 0 található, ezt át kell írnunk 140-re, hiszen azt kívánjuk tesztelni, hogy az átlag szignifikánsan eltér-e a 140 (ezer Ft) –tól. Az eredmény táblázatot ismét az OK gomb lenyomása után kapjuk meg az output ablakban. Az első táblázat arról tájékoztat bennünket, hogy a Veszprém megyei minta átlaga (Mean) 141,53 volt. Ezt kell összehasonlítani a 140-es értékkel. One-Sample Statistics

N Mean Std. Deviation Std. Error Mean élelmiszerre fordított kiadás 100 141.53 20.313 2.031

A második táblázatban találjuk az összehasonlítást. One-Sample Test

Test Value = 140 t df Sig. (2-tailed) Mean

Difference 95% Confidence Interval of

the Difference Lower Upper

élelmiszerre fordított kiadás

.753 99 .453 1.53 -2.50 5.56

A lényeges elem számunkra a Sig. (2-tailed) oszlopban található P érték: 0,453. Mivel a t-próbánál a nullhipotézis mindig két érték egyezősége, a P érték alapján elfogadhatjuk, hogy a Veszprém megyei fogyasztás az országos átlagnak megfelelő.

2. Heves megyében 2001-ben 238 termelőibor-kimérés volt. Ezek egy része vállalkozások által üzemeltetett, más része pedig őstermelőké volt. A borterm.sav file alapján, ahol 50 vállalkozás és 60 őstermelő árbevétele található, válaszoljon az alábbi kérdésekre! Van-e szignifikáns különbség a vállalkozók és az őstermelők árbevétele között? Igazolható-e, hogy a vállalkozások árbevételének szórása nagyobb, mint az őstermelőké?

2

Page 3: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

Megoldás: Az első kérdésre a választ kétmintás t-próba alkalmazása után tudjuk megadni. A nullhipotézis az, hogy a két sokaság várható értéke – amit a minta átlagával becsülhetünk – egyenlő. A t-próbához ismét ellenőriznünk kell, hogy a mintánk normális eloszlásból származott. A borterm.sav filet megnyitva láthatjuk, hogy két változónk van, a borf_arb és a borf_tip. Az első az árbevételeket, a második a vállalkozás típusát adja meg. A vállalkozásokat 1-es, az őstermelőket 2-es jelzi. A normalitás vizsgálathoz külön kell vizsgálnunk ezeket az eseteket. A DATA / SELECT CASES menü alatt az IF CONDITION IS SATISFIED részt kiválasztva a jobb felső részben helyezhetjük el feltételünket: borf_tip=1.

Ennek hatására egy új változó keletkezik (filter_$) melynek értéke a vállalkozásoknál 1 lesz, és az őstermelőknél pedig 0. Ezen kívül az őstermelők rekordszámai áthúzással is meg lettek jelölve.

3

Page 4: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

Ezután már mindenféle művelet csak a vállalkozásokra vonatkozik. Az előző feladatnál megismert Kolmogorov – Szmirnov próbát kell végrehajtani. (Az ANALYZE / NONPARAMETRIC TESTS / 1-SAMPLE K-S menüben található.) A próba eredményeképpen ismét egy táblázatot kapunk. One-Sample Kolmogorov-Smirnov Test

borkimérés árbevétele N 50

Normal Parameters Mean 1766.78 Std. Deviation 144.904

Most Extreme Differences Absolute .109 Positive .078 Negative -.109

Kolmogorov-Smirnov Z .771 Asymp. Sig. (2-tailed) .591

A második sorban látható, hogy a program csak 50 adattal számolt, vagyis valóban csak a vállalkozásokat vette figyelembe. Az utolsó sorban olvasható P érték (0,591 > 0,05) alapján elmondhatjuk, hogy a vállalkozások árbevételére vonatkozó mintánk egy normális eloszlású sokaságból származott. A normalitás vizsgálatot természetesen az őstermelőkre is megismételjük. A DATA / SELECT CASES menü alatt az IF CONDITION IS SATISFIED részben az új feltételünk: borf_tip=2. A filter_$ változó értéke most a vállalkozásoknál lesz 0, és az őstermelőknél pedig 1. A Kolmogorov – Szmirnov próba a szűrőfeltételnek köszönhetően az őstermelőkre fog vonatkozni. One-Sample Kolmogorov-Smirnov Test

borkimérés árbevétele N 60

Normal Parameters Mean 1006.03 Std. Deviation 127.358

Most Extreme Differences Absolute .150 Positive .103 Negative -.150

Kolmogorov-Smirnov Z 1.158 Asymp. Sig. (2-tailed) .137

4

Page 5: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A táblázatból látható, hogy az őstermelőkre vonatkozó árbevételek is normális eloszlású sokaságból származnak. A kétmintás t-próba végrehajtásának tehát nincs akadálya. Első teendőnk visszaállítani a szűrőt alapértelmezésre, vagyis a DATA / SELECT CASES / ALL CASES beállításra. A kétmintás t-próba az ANALYZE / COMPARE MEANS / INDEPENDENT SAMPLE T TEST menüpont alatt található. A TEST VARIABLE(S) részhez kerüljön a vizsgálandó borf_arb (borkimérés árbevétele) változó, a GROUPING VARIABLE pedig a borf_tip (borforgalmazó típusa). Az OK gomb lenyomása előtt még be kell állítani a lehetséges típusértékeket a DEFINE GROUPS… gombra való kattintással. Jelenleg 1 és 2 a lehetséges két érték.

Az első táblázat leíró statisztikai elemeket tartalmaz. Ebből láthatjuk, hogy a vállalkozások árbevétele átlagosan 1766,78 (ezer Ft) míg az őstermelőké 1006,3 (ezer Ft), a szórások pedig 144,9 (ezer Ft) illetve 127,4 (ezer Ft). Group Statistics

borforgalmazó típusa N Mean Std. Deviation Std. Error Mean borkimérés árbevétele vállalkozások 50 1766.78 144.904 20.492

őstermelők 60 1006.03 127.358 16.442 A másodiknak kapott táblázat alapján válaszolhatjuk meg a kérdést. Independent Samples Test

Levene's Test for Equality of

Variances

t-test for Equality of Means

F Sig. t df Sig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the

Difference Lower Upper

borkimérés árbevétele

Equal variances assumed

1.045 .309 29.30 108 .000 760.75 25.965 709.28 812.21

Equal variances

not assumed

28.95 98.49 .000 760.75 26.273 708.61 812.88

5

Page 6: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

Mivel a kétmintás t-próbát közel azonos szórású minták esetén lehet alkalmazni, ezért először erre végez a program egy tesztet. Az Equal variances assumed sorban az első két cellában a szórások (valójában varianciák) azonosságára vonatkozó számításait láthatjuk.1 A nullhipotézis a szórások azonossága, az empirikus szignifikancia szint 0,309, tehát azonosnak tekinthetők. Ezzel a második kérdésre már megadhatjuk a választ, az árbevételek szórása között nincs különbség. A sor folytatásában a t-teszt látható, melyből megállapíthatjuk, hogy a vállalkozások és az őstermelők árbevétele szignifikáns különbségeket mutat. (A P érték 0,000 < 0,05.) Amennyiben a szórások különbözőek lettek volna, úgy egy módosított t-próbával az alsó sorban található számok alapján adhattuk volna meg a választ.

3. Egy országos felmérés során vizsgálták az 5%-os árnövekedés forgalomra gyakorolt hatását az élelmiszerjellegű termékek fogyasztása esetén a kereskedelmi egységekben. A forgalom.sav file tartalmaz egy 100 elemű mintát az árnövekedés előtti, és ugyanannak a kereskedelmi egységnek az árnövekedés utáni forgalmáról. Vizsgáljuk meg, hogy változott-e a forgalom az árnövekedés hatására?

A probléma megoldására két módszer is a rendelkezésünkre áll. Egyrészt az előző feladatnál alkalmazott kétmintás t-próba, másrészt ha az áremelkedés előtti és utáni időszak forgalmának különbségét tekintjük változónak, tesztelhetjük ennek a különbségnek az átlagát. Általában a nullhipotézis az, hogy ez a különbség nulla, hiszen azt vizsgáljuk, hogy történt-e változás vagy nem. Ebben az esetben azonban az árnövekedés miatt bekövetkezett 5%-os emelkedés még nem jelent tényleges forgalom növekedést, ezért az árnövekedés után a forgalom reálértékével kell számolnunk. Először számoljuk ki az árnövekedés utáni forgalom reálértékét, majd a reálérték és az árnövekedés előtti forgalom különbségének átlagát vizsgáljuk meg, hogy vajon eltér-e a nullától. A reálértéket a TRANSFORM / COMPUTE… menü segítségével számíthatjuk ki. A párbeszéddobozban a TARGET VARIABLE mezőbe az új változónk nevét kell begépelni (real), a NUMERIC EXPRESSION mezőbe pedig a számítás módját, vagyis a forg_aru (árnövekedés utáni időszak forgalma) változót osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy az SPSS tizedes pontot használ!) Az OK gomb lenyomása után elkészül az új változónk real névvel, mely az utolsó oszlopba kerül.

1 A Levene-próba segítségével egy X kvantitatív változó elméleti átlagos abszolút eltérése hasonlítható össze két populációban független minták segítségével. … Mivel a legtöbb eloszlás esetén az átlagos abszolút eltérés csak egy konstans szorzótényezőben különbözik a szórástól (például normális eloszlás esetén a szórás 0,798-szerese az átlagos abszolút eltérésnek, egyenletes eloszlás esetén 0,866 a szorzótényező stb.) azonos eloszlástípusok esetén az átlagos abszolút eltérések egyenlősége ekvivalens a szórások, illetve a varianciák egyenlőségével (Vargha, 2000).

6

Page 7: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A páros t-próbát az ANALYZE / COMPARE MEANS / PAIRED SAMPLES T TEST alapján végezhetjük. Itt a párbeszéddobozban a két változót csak együtt tudjuk átemelni a PAIRED VARIABLES részhez. A Ctrl billentyű lenyomása mellett kattintsunk a forg_are (Árnövekedés előtt időszak forgalma) és a real változókra, majd a kis háromszög segítségével áthelyezhetjük ezen változókat a megfelelő helyre. Az OK gomb megnyomása után az output ablakban leolvashatjuk az eredményeket.

Paired Samples Statistics

Mean N Std. Deviation Std. Error MeanPair 1 Árnövekedés előtti időszak forgalma 10469.91 100 5800.645 580.065

REAL 10468.9714 100 5803.50909 580.35091 Az első táblázatban leíró statisztikai számításokat látunk. A két változó közötti eltérés igen kicsi, az árnövekedés előtti időszak forgalmának átlaga (Mean) 10469,91 (ezer Ft), míg az áremelkedés utáni időszaki forgalom reálértékének átlaga 10468,97 (ezer Ft). Paired Samples Test

Paired Differences

t df Sig. (2-tailed)

Mean Std. Deviation

Std. Error Mean

95% Confidence Interval of the

Difference

Lower Upper Pair 1 Árnövekedés

előtti időszak forgalma -

REAL

.9386 91.91358 9.19136 -17.2991 19.1762 .102 99 .919

A páros t-próba táblázatából a két változó átlagának különbsége is olvasható (Paired Differences, Mean), mindössze 0,9386. A számított t érték (t) 0,102, a szabadság fokok száma (df) 99. Az empirikus szignifikancia alapján (Sig.) pedig megállapíthatjuk, hogy az áremelkedésnek nem volt statisztikailag bizonyítható hatása a forgalomra, hiszen 0,919 > 0,05.

7

Page 8: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

Nemparaméteres eljárások

1. Egy felmérés során azt vizsgálták, hogy a háziasszonyok körében a vásárolt mosószer típusa függ-e az életkortól. A mososzer.sav fileban 300 megkérdezett háziasszony életkora és a vásárolt mosószer típusa található. A használt kódolás: a nulla jelenti a régi típusú, az egy pedig az új fajta mosószert. Igazolható-e, hogy a fiatalabb korosztály szívesebben próbál ki új termékéket, míg az idősebbek ragaszkodnak régi kedvenc márkájukhoz?

Megoldás: Első lépésben vizsgáljuk meg a sokaságot néhány leíró statisztikai mutatóval. Az ANALYZE / DESCRIPTIVE STATISTICS / DESCRIPTIVES útvonalon elérhető párbeszéddobozban a kor (életkor) változót helyezzük el a VARIABLE(S) részhez.

Válaszul az OK gomb lenyomása után az alábbi táblázatot kapjuk: Descriptive Statistics

N Minimum Maximum Mean Std. Deviation életkor 300 26.00 55.00 41.4033 8.61014

Valid N (listwise) 300 Látható, hogy a 300 megkérdezettből a legfiatalabb vásárló 25 éves, a legidősebb 55 éves volt. A kezelhetőség érdekében érdemes életkor helyett életkor kategóriákkal dolgozni. Az életkorok kategóriákba osztását több módon is elvégezhetjük. A TRANSFORM / RECODE / INTO DIFFERENT VARIABLES… menüben a kor változót kell a NUMERIC VARIABLE −> OUTPUT VARIABLES részbe áttenni. Ezután kitölthetők az OUTPUT VARIABLE mező NAME és LABEL cellái. A CHANGE gomb megnyomásával definiálhatjuk az új változónkat, ahová az életkorok kategóriái kerülnek majd. Ezután áttérhetünk az érdemi részre az OLD AND NEW VALUES gomb megnyomásával.

8

Page 9: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A párbeszédablak bal oldalán állíthatjuk be a régi értékeket. A rádiógombok közül az első (VALUE) segítségével egy-egy értékhez tudunk újat rendelni. A következő kettő (SYSTEM–MISSING és a SYSTEM– OR USER MISSING) a hiányzó adatok kezelésére szolgál. A RANGE résznél beállítható az alsó és a felső intervallum is, amibe eső értékek helyett szeretnénk valami mást használni. A LOWEST THROUGH jelentése: a legalacsonyabbtól, A THROUGH HIGHEST pedig a legmagasabb értékig. Az ALL OTHER VALUES bejelölésével az összes maradék számhoz rendelhetünk más számokat.

9

Page 10: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A kategóriák meghatározásához nehéz biztosan használható receptet adni. A kategóriák számát és terjedelmét elsősorban szakmai megfontolás befolyásolja, de mindenképpen úgy célszerű elrendezni az adatainkat, hogy lehetőleg ne legyenek nagyon eltérő terjedelműek, és a kategóriák száma ne legyen se túl sok, se túl kevés. Készítsünk először négy kategóriát. A legfiatalabb és a legidősebb vásárló életkora között 30 év van, ezt osztjuk négy részre. Legyenek a korosztályok a következők: 25–32; 33–40; 41–48; 49–55. Ezekhez a korcsoportokhoz rendeljük hozzá az 1, 2, 3 és 4 számokat. A hozzárendelés menete: először a bal oldali részben feltüntetjük az életkor intervallumot, majd a jobb oldalon a NEW VALUE részbe beírjuk a megfelelő számot, majd az ADD gombbal rögzíthetjük. Ezt követően a következő intervallum beállítása jön a bal oldalon, majd ismét a hozzárendelt érték és a rögzítés következik. Az összes intervallum rögzítése után a CONTINUE gombbal juthatunk vissza az előző ablakra, és ott az OK gomb megnyomása után elkészül az új változónk. Ezek alapján elvégezhetjük a sokaság függetlenség vizsgálatát χ2 teszt segítségével. A kontingencia táblázatot az ANALYZE / DESCRIPTIVE STATISTICS / CROSSTABS… menüpontja alapján készítjük el. A ROW(S) sorokat, a COLUMN(S) oszlopokat jelent, és ide helyezzük el a két vizsgálandó változónkat. A korkat (életkor kategóriák) került a sorokhoz és mosopor (mosópor típusa), de e két változót fel is cserélhettük volna, ugyanis a számításokban nem, csak a táblázat elrendezésében jelent különbséget.

10

Page 11: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A párbeszédablakon belül a STATISTICS gomb lenyomásával a kapott menüben kérhetjük a χ2 teszt elvégzését (CHI-SQUARE).

Az output ablakban az alábbi eredményeket találjuk. A kontingencia táblázatban (crosstabulation) látható, hogy melyik korcsoportban hányan vásároltak az egyik vagy a másik mosóporból. életkor kategóriák * mosópor típusa Crosstabulation Count

mosópor típusa Total régi új

életkor kategóriák 25-32 11 48 59 33-40 37 40 77 41-48 47 41 88 49-55 41 35 76

Total 136 164 300

11

Page 12: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A χ2 teszt eredménye is olvasható (Chi-Square Tests). A számolt χ2 érték 21,779, a szabadság fok 3, és a próba szignifikáns eredményt hozott, jelentős a különbség a korosztályok vásárlási szokásai között. Chi-Square Tests

Value df Asymp. Sig. (2-sided) Pearson Chi-Square 21.779 3 .000

Likelihood Ratio 23.414 3 .000 Linear-by-Linear Association 15.204 1 .000

N of Valid Cases 300 a 0 cells (.0%) have expected count less than 5. The minimum expected count is 26.75. (Gyakorlásképpen elvégezheti ismét a számításokat három korcsoportot alkalmazva. Hasonlítsa össze az eredményeket!) Megjegyzések: 1. Egy magas mérési szintű változó alacsonyabb mérésű változóvá transzformálásához használható még a TRANSFORM / CATEGORIZE VARIABLES menüje is, ahol az eljárás sokkal egyszerűbb, hiszen csak a kategóriák számát kell megadni, az intervallumokat nem. Ebben rejlik a hátránya is, mivel így lemondunk arról a lehetőségről, hogy magunk állítsuk be a határokat.

2. Az ANALYZE / DESCRIPTIVE STATISTICS / CROSSTABS… menüben a CELLS… gombra kattintva a kontingencia táblázatban szereplő értékek százalékos arányát is kérhetjük.

A PERCENTAGES / COLUMN kapcsoló segítségével egy olyan táblázathoz juthatunk, ahol a régi mosóport vásárlókat, az új mosóport vásárlókat és az összes vásárlót külön-külön 100%-nak véve ezen belül a korosztályok szerinti megoszlást láthatjuk.

12

Page 13: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

életkor kategóriák * mosópor típusa Crosstabulation

mosópor típusa Total régi új

életkor kategóriák 25-32 Count 11 48 59 % within mosópor típusa 8.1% 29.3% 19.7% 33-40 Count 37 40 77 % within mosópor típusa 27.2% 24.4% 25.7% 41-48 Count 47 41 88 % within mosópor típusa 34.6% 25.0% 29.3% 49-55 Count 41 35 76 % within mosópor típusa 30.1% 21.3% 25.3%

Total Count 136 164 300 % within mosópor típusa 100.0% 100.0% 100.0%

A százalékos megoszlást sorok szerint is számíttathatjuk, csak akkor a PERCENTAGES / COLUMN kapcsoló helyett a PERCENTAGES / ROW kapcsolót kell beállítani.

2. Egy kérdőíves felmérés során 216 személy fizetési–, életkori adatait valamint nemét jegyezték fel 2003-ban2. A fizetéseket és az életkort kategóriákba osztották. A fizetés esetében a következő négy kategóriát különböztették meg: havi bruttó jövedelem 50 000 Ft alatt, 50 000 forinttól 110 000 forintig, 111 000 forinttól 160 000 forintig, illetve 160 000 Ft felett. Az életkoroknál 18 évtől 25 éves korig, 26 évtől 35 éves korig, 36 évtől 50 éves korig, végül 50 éves kor felett lettek kialakítva a csoportok. Az adatok a fizetés.sav fileban találhatók. Vizsgálja meg, hogy van-e statisztikailag bizonyítható különbség a férfiak és a nők fizetése között, illetve azt, hogy eltérőek-e a jövedelmek az egyes életszakaszokban?

A kérdőív megfogalmazásánál nem konkrét összegeket kértek, hanem csak kategória megjelölést. Ha mindenki a pontos havi bruttó jövedelmét írta volna be, akkor kétmintás t-próbát lehetne alkalmazni. Esetünkben azonban a változónk ordinális skálán mért, itt tehát Mann-Whitney próbát alkalmazhatunk. A próbát az ANALYZE / NONPARAMETRIC TESTS / 2 INDEPENDENT SAMPLES menüben találhatjuk. A TEST VARIABLE LIST részhez kerüljön a bér változó, a GROUPING VARIABLE cellához pedig a nem változó. Itt a DEFINE GROUPS gomb megnyomásával be kell állítani az egyes nemeknek megfelelő kódokat, most a férfiakat 1, a nőket 2 jelöli.

2 Forrás: Szakál Zoltán

13

Page 14: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

Az OK gomb lenyomása után az output ablakban az alábbi két táblázatot találjuk. Ranks

férfi 1, nő 2 N Mean Rank

Sum of Ranks

50,50-110,111-160,160 1 122 116.39 14199.00 2 94 98.27 9237.00 Total 216

Test Statistics

50,50-110,111-160,160 Mann-Whitney U 4772.000

Wilcoxon W 9237.000 Z -2.207

Asymp. Sig. (2-tailed) .027 a Grouping Variable: férfi 1, nő 2 A felső táblázatból leolvashatjuk, hogy a rangtranszformáció után a rangok átlaga (Mean Rank) 116,39 a férfiaknál és 98,27 a nőknél. Ez azt jelenti, hogy a vizsgálatban szereplő személyek között a férfiak magasabb bérkategóriába estek. A második táblázat Asymp. Sig. sorában a 0,027 arról tájékoztat bennünket, hogy a nullhipotézist elvethetjük, a fizetésbeni különbségek statisztikailag bizonyíthatók. A második kérdésnél már nemcsak két mintánk van, hanem négy, a négy életkor kategóriának megfelelően. Ehhez a Kruskal – Wallis próba használható. A próbát az ANALYZE / NONPARAMETRIC TESTS / K INDEPENDENT SAMPLES menüben találhatjuk. A párbeszédablakban be kell állítani a TEST TYPE résznél A KRUSKAL – WALLIS kapcsolót, a TEST VARIABLE LIST részhez áthelyezni a bér változót, valamint a Grouping Variable esetén a Define Range gomb megnyomásával a korosztályokat meghatározni. Ez utóbbinál a legkisebb és a legnagyobb értéket kell beírni a minimum és a maximum cellákba.

14

Page 15: Paraméteres statisztikai próbák - agr.unideb.hubaloghp/UzletiStat/Hipotezis_vizsgalat.pdf · osztjuk 1,05-dal. A begépelés módja az ábrán látható. (Ne felejtsük el, hogy

A beállítások elvégzése után az OK gomb megnyomásával megkapjuk az eredmény táblázatokat. Ranks

18-25;26-35;36-50;50 felett N Mean Rank 50,50-110,111-160,160 1 54 82.98

2 64 120.84 3 62 122.42 4 36 100.86 Total 216

A rangok átlagánál (Mean Rank) megfigyelhető, hogy a legmagasabb fizetéseket a hármassal jelölt korosztálynál, vagyis a 36 évestől 50 éves korig találjuk, a legalacsonyabbak a kezdő fizetések a 18 évtől 25 éves korig. Ezek az adatok nem mondanak ellent a mindennapi életben megszokottnak, tekintve a mai nagyobb cégek viszonylag fiatal, magas beosztásban levő alkalmazottjainak fizetését. Test Statistics

50,50-110,111-160,160 Chi-Square 16.501

df 3 Asymp. Sig. .001

a Kruskal Wallis Test b Grouping Variable: 18-25;26-35;36-50;50 felett A második táblázatban a 0,001–es P érték alapján megállapíthatjuk, hogy ezek a különbségek szignifikánsak, nem a véletlen mintavételi hibáknak köszönhető.

Irodalomjegyzék

Baráth Cs. – Ittzés A. – Ugrósdy Gy.: Biometria. Mezőgazda Kiadó 1996

Kiss A. – Manczel J. – Pintér L. –Varga K.: Statisztikai módszerek alkalmazása a mezőgazdaságban. Mezőgazdasági Kiadó 1983

Kovács István: Statisztika. Szent István Egyetem Gazdálkodási és Mezőgazdasági Főiskolai Kar jegyzete. Gyöngyös 2000

Kriszt – Varga – Kenyeres: Általános statisztika II. Nemzeti tankönyvkiadó 1997.

Fodor János: Biomatematika http://www.univet.hu/users/jfodor/index_h.html

Meszéna György – Ziermann Margit: Valószínűségelmélet és matematikai statisztika Közgazdasági és Jogi Könyvkiadó 1981

Murray R. Spiegel: Statisztika. Elmélet és gyakorlat. Panem – McGraw – Hill 1995

Szűcs István: Alkalmazott statisztika. Agroinform Kiadó 2002

Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, 2000.

15