Statistika Kolegijoms

STATISTIKA. KOMPIUTERINIS TYRIMO DUOMENŲ APDOROJIMAS

Parengė dr. Daiva Urbonaitė - Šlyžiuvienė

TURINYS

1 APRAŠOMOJI STATISTIKA.............................................................................................31.1 Populiacija ir imtis...........................................................................................................31.2 Kintamieji........................................................................................................................31.3 Duomenų įvedimas naudojant SPSS...............................................................................41.4 Duomenų grupavimas......................................................................................................5

1.4.1 Variacinė eilutė........................................................................................................51.4.2 Dažniai.....................................................................................................................6

1.5 Duomenų skaitinės charakteristikos..............................................................................101.5.1 Duomenų padėties charakteristikos.......................................................................101.5.2 Duomenų sklaidos charakteristikos.......................................................................111.5.3 Imties simetriškumo įvertis...................................................................................12

1.6 Standartizuotosios reikšmės..........................................................................................141.7 Išskirtys..........................................................................................................................141.8 Stačiakampė diagrama...................................................................................................15

2 ATSITIKTINIAI DYDŽIAI, SKIRSTINIAI.....................................................................172.1 Pasiskirstymo funkcija, tankis, kvantiliai......................................................................172.2 Normalusis skirstinys....................................................................................................182.3 Skirstiniai, susiję su normaliuoju skirstiniu...................................................................19

2.3.1 χ2 skirstinys............................................................................................................192.3.2 Stjudento t skirstinys.............................................................................................202.3.3 Fišerio skirstinys....................................................................................................21

2.4 Diskrečiųjų skirstinių pavyzdžiai..................................................................................222.4.1 Binominis skirstinys..............................................................................................222.4.2 Puasono skirstinys.................................................................................................22

3 PASIKLIAUTINIEJI INTERVALAI................................................................................233.1 Parametrų pasikliautinieji intervalai..............................................................................233.2 Imties tūrio parinkimas..................................................................................................25

4 HIPOTEZIŲ TIKRINIMAS..............................................................................................274.1 Statistinės hipotezės.......................................................................................................274.2 Nulinė hipotezė ir alternatyva........................................................................................274.3 Hipotezių tikrinimas......................................................................................................284.4 Hipotezės apie normaliojo skirstinio vidurkį tikrinimas...............................................294.5 Dviejų populiacijų vidurkių palyginimas......................................................................31

4.5.1 Populiacijų dispersijos lygios................................................................................324.5.2 Populiacijų dispersijos nelygios:...........................................................................324.5.3 Nepriklausomų imčių taikymas SPSS programa...................................................33

5 KORELIACINĖ IR REGRESINĖ ANALIZĖ...................................................................355.1 Kiekybinių kintamųjų tarpusavio priklausomybės analizė............................................355.2 Kiekybinių kintamųjų regresinė analizė........................................................................39

6 LITERATŪRA...................................................................................................................467 PRIEDAI............................................................................................................................47

7.1 Histogramos redagavimas..............................................................................................477.2 Aprašomųjų statistikų skaičiavimas Excel skaičiuokle.................................................497.3 Pasikliautinųjų intervalų ir hipotezių tikrinimas Excel skaičiuokle..............................517.4 Tiesinės regresijos skaičiavimas Excel skaičiuokle......................................................53

1.1. Populiacija ir imtis

Matematinės statistikos tyrimo objektas yra stebėjimo rezultatų rinkimo ir jų analizės būdai ir

metodai. Visuma, kuri mus domina ir kurią mes tiriame, remdamiesi jos požymiais, vadinama

populiacija (arba generaline aibe). Generalinė aibė gali būti baigtinė arba begalinė. Jeigu generalinė

aibė yra baigtinė, tai jos elementų skaičių žymime N raide. Generalinės aibės sąvoką iliustruosime

pavyzdžiais. Sakykime yra atliekama Lietuvos vidurinių mokyklų mokinių apklausa. Šiuo atveju

populiacija – Lietuvos vidurinių mokyklų mokiniai. Ji nėra begalinė, bet pakankami didelė. Tiriant

13 – 18 m. amžiaus vaikų sergamumą bronchine astma populiacija yra visi Lietuvos 13 – 18 m.

amžiaus vaikai.

Paprastai nežinoma, kaip dominantys požymiai pasiskirstę populiacijoje. Norint tai nustatyti,

reikia tirti visus populiacijos elementus. Tam reikia daug laiko ir lėšų, o kartais toks tyrimas iš

principo negalimas. Todėl elgiamasi kitaip: atsitiktinai parenkama generalinės aibės elementų dalis,

tiriamas nagrinėjamo požymio pasiskirstymas šioje dalyje ir iš jo sprendžiama apie šio požymio

pasiskirstymą visoje populiacijoje. Ši pasirinktoji dalis vadinama imtimi (sample). Imties elementų

skaičių žymėsime n (n N) ir vadinsime imties tūriu (sample size). Gautąsias stebėjimų skaitines

reikšmes žymėsime x1, x2,…, xn. Imtis turi reprezentuoti populiaciją, t.y. tiksliai atspindėti tiriamojo

požymio įgyjamų reikšmių proporcijas pačioje populiacijoje. Todėl individai, dalyvaujantys

tyrimuose, turi būti parinkti atsitiktinai. Imties reprezentatyvumas glaudžiai susijęs su jos didumu,

taip pat priklauso nuo imties sudarymo metodo. Praktikoje naudojami keli atsitiktinės atrankos

būdai. Toliau apsiribosime paprastąja atsitiktine imtimi – atveju, kai iš visos populiacijos atsitiktinai

atrenkamas tam tikras kiekis individų. Taip pat daroma prielaida, kad tiriamos populiacijos individų

skaičius yra labai didelis, palyginus su imties dydžiu, arba imtis sutampa su visa populiacija.

1.2. Imčių sudarymo būdai

Norėtųsi taip sudaryti imtį, kad būtų minimali ir paklaida, ir sąnaudos. Deja, paprastai paklaidų

mažinimas didina sąnaudas. Tačiau minimalią paklaidą galima gauti tinkamai atrinkus elementus.

Imtys sudaromos įvairiais būdais, tačiau pagrindiniai imčių sudarymo būdai yra du: tikimybinis ir

netikimybinis. Atrenkant tikimybiniu būdu, kiekvieno elemento tikimybė patekti į imtį yra žinoma,

o sudarant netikimybines imtis, daug lemia atsitiktinumas.

Netikimybinės imtys. Iš netikimybinių imčių sudarymo būdų populiariausi yra šie: ekspertinė

imtis, kai elementai į imtį įtraukiami atsižvelgiant į ekspertų nuomonę; kvotinė imtis, kai iš anksto

nustatomos atskirų populiacijos dalių kvotos; proginė imtis, kai į imtį įtraukiami patogiausiai

ištiriami elementai. Taip sudarytos imtys dažniausiai būna nereprezentatyvios.

3

Tikimybinės imtys. Populiariausia yra paprastoji atsitiktinė imtis (atsitiktinės atrankos

metodas). Atrenkant elementus šiuo metodu, visų populiacijos elementų galimybės patekti į imtį

turėtų būti vienodos. Šis metodas realizuojamas dviem būdais. Pirmuoju būdu elementai

numeruojami, maišomi, dedami į dėžę ir iš jos traukiami nesirenkant. Antruoju būdu kompiuteriu

generuojami atsitiktiniai skaičiai, kurie yra atrenkamų elementų numeriai.

Praeityje, dažnai ir dabar, imtis sudaroma mechaniškai, atrankos nesiejant su atsitiktinių skaičių

gavimo procedūromis. Taip sudaryta imtis vadinama sistemingąja imtimi. Šiuo būdu vienodu

žingsniu atrenkamas kas kelintas populiacijos elementas. Pavyzdžiui: jei populiaciją sudaro 100 000

elementų, o reikia atrinkti 1000 elementų, tai į ją patenka kiekvienas šimtasis elementas. Pirmąjį

elementą stengiamasi parinkti atsitiktiniu būdu arba jis imamas iš pirmosios imties vidurio. Jei

populiacija ganėtinai didelė, šis atrankos būdas artimas atsitiktinei atrankai.

Sluoksninė imtis naudojama tuo atveju, kai populiacija nėra vienalytė, o gali būti padalinta į

mažesnes aibes (sluoksnius), kurių kiekviena yra vienalytė tiriamojo požymio atžvilgiu. Jei iš

populiacijos, kurios dydis N, norima atrinkti imtį iš n elementų, o populiaciją sudaro k vienalyčių

sluoksnių, tai i-tojo sluoksnio dydis žymimas Ni, ir sluoksninių imčių dydžiai apskaičiuojami taip:

ni=n(Ni/N), čia: i=1,2,…,k. Apibendrinant gautą informaciją, reikia atsižvelgti į sluoksnyje esamos

populiacijos dalies dydį. Dažnai padalinti populiaciją į sluoksnius, juolab nustatyti sluoksnio dydį,

nėra paprasta.

Lizdinė imtis naudojama tada, kai populiacija yra vienalytė, tačiau gali būti padalinta į mažesnes

aibes. Daugelyje taikymų šį dalijimą lemia atstumas. Pavyzdžiui: tiriant savivaldybes, ligonines,

koledžus, kurių yra visoje šalyje. Šiuo atveju, atrinkus elementus atsitiktinės atrankos būdu,

kelionėms tektų skirti papildomai išlaidų, todėl atsitiktine atranka dažniausiai parenkamos atskiros

aibės. Į imtį patenka visi atrinktųjų aibių elementai.

Praktikoje imtys sudaromos ir kitais būdais – įvairiai derinant minėtus imčių sudarymo būdus.

1.3. Imties dydis

Prieš nutariant, kokio dydžio imtis bus naudojama tyrimui, reikia apibrėžti populiaciją,

pavyzdžiui: visi Mažeikių miesto vyresniųjų klasių moksleiviai. Šiuo atveju teks sudaryti visų

Mažeikių miesto vyresniųjų klasių moksleivių sąrašą, ir tik tada numatyti imties dydį.

Imties dydžio nustatymo problema yra viena iš sunkesniųjų. Imties dydį gali sąlygoti įvairūs

apribojimai, pavyzdžiui: turimos tyrimui lėšos gali turėti didelės įtakos imties dydžiui. Kai tyrimui

lėšos yra patvirtintos, planuojant išlaidas naudinga vadovautis paprasta taisykle: pusę lėšų išleisti

duomenų rinkimui, o kitą pusę – duomenų analizei. Šis apribojimas turi įtakos tiek imties dydžiui,

tiek tyrimo planavimui ir duomenų rinkimui.

Apskritai, imties dydis priklauso nuo būsimos analizės tipo; nuo norimo pasiekti įvertinimo

tikslumo; nuo vienu metu tiriamų kintamųjų skaičiaus; nuo tiriamos populiacijos vienalytiškumo.

4

Pavyzdžiui: jei statistinio eksperimento pagrindinis tikslas yra eksperimentiškai įvertinti vidurkius ir

palyginti jų skirtumus, gali pakakti šimto elementų imties.

Svarstant matematiškiau, imties dydis yra funkcija, priklausanti nuo kelių argumentų: norimo

pasiekti įverčių tikslumo, populiacijos sklaidos ir norimo patikimumo.

1 pavyzdys. Tarkime, norima įvertinti populiacijos narių vidutinį uždarbį. Prieš atsakant į šį

klausimą, pirmiausia reikia apibrėžti šią informaciją:

1) koks bus pasikliovimo lygmuo,

2) kokiu tikslumu norima įvertinti parametrą.

Pavyzdžiui: norima įvertinti atlyginimų vidurkį ± 10 Lt tikslumu per mėnesį, pasikliovimo

lygmuo – 95 procentų. Imties dydį n galima nustatyti pagal pasikliautinojo intervalo formulę:

. Čia: s – standartinis nuokrypis.

Standartizuoto normaliojo skirstinio 95 proc. pasikliovimo lygmenį formulėje atitinka kvantilio

reikšmė 1,96. Reikšmes, atitinkančias pasirinktą pasikliovimo lygmenį, galima rasti statistinėse

lentelėse. Kadangi pasirinktas tikslumas yra ± 10, arba intervalo plotis 20 Lt, tai dydis turi

būti 10. Nors aritmetinio vidurkio reikšmė yra nežinoma, tačiau matyti, kad šis dydis įtakos

sprendimui neturi, kadangi norima gauti intervalą, nepriklausomai nuo x reikšmės.

Taigi reikia išspręsti lygtį. Nežinoma standartinio nuokrypio s, tačiau šios reikšmės sužinoti

negalima, kol duomenys nesurinkti. Šią reikšmę galima gauti arba remiantis ekspertų nuomone,

arba ankstesnių tyrimų rezultatais, arba gauti iš atrinktos bandomosios imties. Paprastai

bandomosios imties atrinkimas yra per brangus, ir pasikliaujama kitais metodais. Tarkime, kad

remiantis turima informacija, s apytiksliai yra 220 Lt, tada pagal formulę sužinoma: n=1849.

Žinoma, imties neturi tiksliai sudaryti 1849 elementai, tačiau šis rezultatas – tai pageidautinas

imties dydis. Kadangi vieno tyrimo metu paprastai tiriama daugiau nei vienas požymis, realiai būna

sudėtingiau.

Pastaba. Imties dydžiui skaičiuoti internete galima rasti įvairių programinių skaičiuoklių.

2 pavyzdys. V. Dikčius (2005) nurodo imties dydžio nustatymo formulę mažoms visumoms:

, kur n – reikiamos imties dydis;

z – patikimumo laipsnis (95%, z = 1,96);

p – proporcija (70%);

e – atrankos klaida (5%);

5

N – įmonės pastovių klientų skaičius (2011 m. Mažeikiuose registruota 1066 įmonės).

2. APRAŠOMOJI STATISTIKA

2.1. Kintamieji

Duomenų analizės metodo parinkimas labai priklauso nuo jų prigimties. Populiacijos, kartu ir

imties, elementus vienija tiriamasis požymis. Matuodami šį požymį, gauname tam tikrą dydį, kuris

kinta kartu su imties nariais. Šį dydį ir vadiname kintamuoju. Imties duomenų aibė – tai visų galimų

kintamojo reikšmių poaibis. Išmatavę visą populiaciją, gautume visas kintamojo reikšmes. Pagal

matuojamo reiškinio prigimtį kintamieji skirstomi į kiekybinius ir kokybinius.

Kiekybinio kintamojo reikšmė – tai atsakymas, kiek tiriamo požymio turi populiacijos

elementas, kai tuo tarpu kokybiniai kintamieji nusako dydžius, kurių neįmanoma įvertinti skaičiais.

Pavyzdžiui, laikas, šeimos pajamos, žmogaus ūgis yra kiekybiniai kintamieji, o rasė, tautybė,

spalva, lytis ir pan. – kokybiniai kintamieji. Paprastai, kokybinio kintamojo reikšmės koduojamos

skaitmenimis. Pavyzdžiui, kintamojo “tautybė” reikšmes galima koduoti taip: “lietuvis” = 1,

“rusas” = 2, “lenkas” = 3 ir pan.

Kiekybinius kintamuosius paprastai dar galima skirstyti į tolydžiuosius ir diskrečiuosius.

Kiekybinis kintamasis yra vadinamas tolydžiuoju, jei jo reikšmių skirtumas gali būti kiek norima

mažas. Kiekybinis kintamasis, kurio reikšmių skirtumas yra ne mažesnis už tam tikrą minimalų

pokytį, vadinamas diskrečiuoju kintamuoju. Tolydžiųjų kintamųjų pavyzdžiai - ūgis, svoris, laikas;

diskrečiųjų kintamųjų – razinų bandelėje skaičius, šeimos gausumas, pataikytų baudų skaičius.

Skirtingai nei kiekybiniai kintamieji, kokybiniai kintamieji negali būti sudedami, dauginami.

2.2. Duomenų įvedimas naudojant SPSS

Duomenų analizei naudosime SPSS (Statistical Package for Social Sciences) programą. Pradinis

kiekvienos duomenų analizės etapas – duomenų įvedimas. Galimi du duomenų įvedimo į SPSS

programą būdai:

Pirmas būdas. Meniu juostoje pasirenkame File → Open → Data. Toliau pasirenkamas duomenų failas ir spaudžiama Open.

6

Antras būdas: MS Excel programoje pažymim norimus analizuoti duomenis ir pasinaudojame

komanda Copy. SPSS programoje pasinaudojame komanda Paste.

Duomenys yra tvarkomi Variable view lange:

Redaguojami laukai:

Name - kintamojo pavadinimas;

Type - pasirenkamas duomenų tipas: paprastai – Numeric (skaičiams) arba String (tekstui)

Dažniausiai pasirenkami

7

Width - duomenų ląstelės plotis

Decimals - skaičius po kablelio, kuris bus rodomas duomenų ląstelėje

1.1 DUOMENŲ GRUPAVIMAS

1.1.1 Variacinė eilutė

Tarkime, kad stebimas tam tikras kintamasis. Atsitiktinai išrinkę n elementų, sudarome

kintamojo reikšmių statistinę eilutę

x1, x2,…, xn. (1.)

Išdėstyta nemažėjimo tvarka kiekybinio kintamojo duomenų eilutė

x(1) ≤ x(2) ≤...≤ x(n) (1.)

vadinama variacine eilute. Skaičius (j) vadinamas elemento eilės numeriu. Dažniausiai xj ir x(j)

nesutampa. Galima atkreipti dėmesį, kad x(1) = xmin, x(n) = xmax, t.y. pirmas ir paskutinis variacinės

eilutės nariai yra atitinkamai statistinės eilutės arba imties minimumas ir maksimumas. Pavyzdžiui,

turime 10 studentų sesijos vidurkius:

7,6; 8,9; 5,8; 9,7; 6,4; 7,9; 8,2; 8,7; 6,8; 6,3.

Variacinė eilutė bus tokia:

5,8; 6,3; 6,4; 6,8;7,6; 7,9;8,2; 8,7; 8,9; 9,7.

Tuo pačiu,

xmin = x(1) = 5,8; xmax = x(10) = 9,7; x(5) = 7,6.

1.1.2 Dažniai

Dažnai matuojamo kintamojo (pavyzdžiui, amžiaus, ūgio) reikšmės gali kartotis daug kartų.

Tarkime, (1) statistinėje eilutėje yra k skirtingų reikšmių. Tegul jos yra . Tarkime, kad

jos pasikartoja atitinkamai f1, f2,…, fk kartų. Aišku, kad f1 + f2 +…+ fk = n. Atliekant statistinę

analizę dažnai yra naudojami ir santykiniai bei sukauptieji santykiniai dažniai. Jeigu stebimas

kintamasis įgyja nedaug skirtingų reikšmių, tai turimą informaciją lengviau suprasti, kai ji yra

pateikiama dažnių lentele (Lentelė 1.1).

Lentelė 1.1. Dažnių lentelė.

8

Reikšmė x1 x2 x3 ... xk

Dažnis f1 f2 f3 ... fk

Santykinis dažnis ...

Sukauptasis santykinis dažnis

...

Santykinius dažnius dar galima interpretuoti kaip procentus.

Pavyzdys 1.1. Tarkime, kad turime 30 kursuose dalyvaujančių mokytojų amžių: 46, 41, 46, 52, 49,

44, 55, 52, 44, 43, 41, 46, 49, 49, 52, 44, 44, 49, 46, 46, 46, 49, 46, 49, 43, 52, 43, 43, 46, 44. Iš

pateiktų duomenų sunkiau suprasti, kokio amžiaus mokytojų yra daugiau ar mažiau. Tuo tarpu

naudojant dažnių lentelę, tai įvertinti kur kas lengviau.

Lentelė 1.2. Dažnių lentelė.

Reikšmė 41 43 44 46 49 52 55

Dažnis 2 4 5 8 6 4 1

Santykinis dažnis 0,067 0,133 0,167 0,267 0,2 0,133 0,033

Sukauptasis santykinis dažnis

0,067 0,2 0,367 0,634 0,834 0,967 1

Iš pateiktos lentelės matyti, kad 46 metų amžiaus mokytojai sudaro 26,7 proc. kursų lankytojų.

Dažnai matuojamo kintamojo reikšmių būna pakankamai daug, be to, gretimos reikšmės gali

labai mažai skirtis tarpusavyje. Tokiu atveju matuojamo kintamojo dažnių lentelė yra

neinformatyvi. Todėl matuojamo kintamojo reikšmės sugrupuojamos ir po to pateikiamos

sugrupuotų duomenų dažnių lentele. Grupavimo intervalai paprastai parenkami vienodo ilgio.

Grupavimo intervalų skaičius (k) bei intervalų ilgiai () nustatomi atsižvelgiant į imties dydį (n),

didžiausią (xmax) ir mažiausią (xmin) reikšmes:

; (1.)

. (1.)

Turint intervalų skaičių ir intervalų plotį galima pradėti grupuoti duomenis. Pažymėkime j–tąjį

grupavimo intervalą (cj–1, cj]. Tada dažnis fj žymės į tą intervalą patekusių reikšmių skaičių.

9

Matuojamo kintamojo dažnių pasiskirstymo grafinis vaizdas yra histograma. Ji braižoma taip:

Ox ašyje atidedamas kiekvienas grupavimo intervalas, po to brėžiamas stačiakampis taip, kad jo

pagrindas sutampa su grupavimo intervalu, o aukštis proporcingas patekusių į šį intervalą kintamojo

reikšmių skaičiui. Grupavimo intervalai turi būti vienodo ilgio, nebent išskyrus pirmą ir paskutinį.

Pavyzdys 1.2. Turime 1989 m. JAV namų ūkių metinių pajamų (tūkst. dolerių) duomenis.

57 61 50 70 63 48 90 49 122 48

72 35 66 68 50 72 72 33 56 52

27 72 43 1 57 68 71 27 128 52

54 57 17 105 65 75 73 45 64 126

44 35 70 52 58 59 53 61 33 49

55 63 42 36 65 61 75 67 57 132

57 71 157 65 43 63 117 51 55 43

108 95 88 90 36 51 30 25 61 45

103 64 121 52 42 64 64 36 61 54

119 84 101 49 119 41 94 48 117 70

75 27 71 6 24 68 88 75 85 121

41 27 146 38 25 77 99 135 51 75

52 35 38 99 62 104 43 115 59 110

115 59 56 32 41 98 53 77 38 110

61 53 56 62 121 51 52 49 62 48

Duomenų grupavimas ir histograma pateikti žemiau.

Lentelė 1.3. Namų ūkių pasiskirstymas pagal pajamas.

Pajamų grupės Dažnis Sukauptasis dažnis Intervalo vidurys

(0; 20] 3 3 10

(20; 40] 20 23 30

(40; 60] 51 74 50

(60; 80] 42 116 70

(80; 100] 11 127 90

(100;120] 13 140 110

(120; 140] 8 148 130

(140; 160] 2 150 150

Sugrupavus duomenis galima braižyti histogramą. Tam pirmiausiai meniu juostoje pasirenkame

Graphs → Histogram

10

Atsiradus histogramos langui pažymim dominančią imtį ir perkeliam į lauką Variable.

Iš Pav. 1.1. matome, kad namų ūkių pajamų tyrime dažniausiai pasitaikančios pajamų reikšmės

yra tarp 40 ir 60 tūkts. dolerių. (Histogramos redagavimas pateiktas priede 7.1.)

11

160.00140.00120.00100.0080.0060.0040.0020.000.00

50

45

40

35

30

25

20

15

10

5

0

Da

žnia

i

50

45

40

35

30

25

20

15

10

5

0

Pav. 1.1. Dažnių histograma

1.2 DUOMENŲ SKAITINĖS CHARAKTERISTIKOS

Matuojamo kintamojo skaitinės imties charakteristikos yra skirstomos į tokias grupes:

1) charakteristikas imties padėčiai įvertinti (vidurkis, mediana, moda, kvantiliai);

2) charakteristikas duomenų kitimui arba sklaidai apie centrą įvertinti (dispersija, standartinis

nuokrypis, kitimo koeficientas, imties plotis, kvartilinis plotis);

3) charakteristikas imties simetriškumui įvertinti (asimetrijos, eksceso koeficientai).

1.2.1 Duomenų padėties charakteristikos

Pagrindinės duomenų padėties charakteristikos yra vidurkis (mean, average), mediana (median)

ir moda (mode). Imties vidurkis yra žymimas ir apskaičiuojamas pagal formulę

. (1.)

Imties vidurkis yra visų duomenų aibės elementų vidutinė reikšmė. Jeigu populiacija yra

baigtinė, tai galima paskaičiuoti ir populiacijos vidurkį:

. (1.)

Jeigu turime grupuotus duomenis, tai vidurkis yra paskaičiuojamas pagal tokią formulę:

12

, (1.)

kur – grupavimo intervalo vidurio taškas, o fj – dažnis.

Vidurkis yra labiausiai paplitusi duomenų aibės charakteristika – skaičiuojamas vidutinis

atlyginimas, sesijos pažymių vidurkis. Tačiau vidurkis yra labai jautrus smarkiai besiskiriančioms

reikšmėms, pavyzdžiui, klaidingai įvesta labai didelė reikšmė ženkliai pakeičia vidurkį.

Kitos padėties charakteristikos yra mediana, moda, kvartiliai, deciliai, procentiliai ir kt. Moda –

tai dažniausiai duomenų aibėje pasikartojanti reikšmė, arba kitaip sakant, tipiškiausia nagrinėjamos

duomenų aibės reikšmė.

Mediana yra reikšmė, „dalijanti“ variacinę eilutę pusiau: 50% reikšmių yra ne didesnės už

medianą, kitos 50% ne mažesnės. Imties medianai skaičiuoti yra naudojama duomenų aibės

variacinė eilutė:

(1.)

Vertinant imties centrą, mediana yra ne tokia jautri smarkiai besiskiriančioms reikšmėms kaip

vidurkis. Kylant įtarimui, kad imtyje yra išskirčių, imties centrą geriau įvertinti naudojant medianą.

Jei mediana labai skiriasi nuo vidurkio, kintamojo pasiskirstymas nėra simetriškas.

q-osios eilės kvantilis – tai charakteristika, dalijanti variacinę eilutę į q 100 ir (1 – q) 100

procentinių dalių. q įgyja reikšmes iš intervalo (0;1). Pavyzdžiui, 0,5 kvantilis yra mediana.

1.2.2 Duomenų sklaidos charakteristikos

Nors imties vidurkis yra naudingas, tačiau jis nepateikia visos informacijos apie duomenų aibę.

Tam yra naudojamos sklaidos charakteristikos: imties dispersija s2 (variance) ir vidutinis

kvadratinis nuokrypis s (standard deviation). Populiacijos dispersija σ2 vertinama imties dispersija

s2, t.y.

. (1.)

Šią formulę galima perrašyti ir kita forma:

.

Dispersijos mastelis yra kvadratinis, todėl naudojamas imties vidutinis kvadratinis nuokrypis:

. (1.)

13

Grupuotiems duomenims dispersija skaičiuojama pagal tokią formulę:

. (1.)

Paprasčiausia duomenų sklaidos charakteristika yta imties plotis (sample range), kuris

gaunamas iš didžiausios reikšmės atėmus mažiausią reikšmę: x(n) – x(1) = xmax – xmin.

Bedimensinė sklaidos charakteristika yra kitimo (variacijos) koeficiento (coefficient of

variation), lygus

.

Jis naudojamas lyginant skirtingų duomenų aibių sklaidas. Gana dažnai jis reiškiamas

procentais.

Kvartiliais (quartile) vadinami trys taškai, dalijantys kintamojo reikšmių aibę į keturias

grupes, kurių kiekvienoje yra maždaug po 25% imties reikšmių. Jie taip pat naudojami imties

reikšmių kintamumui įvertinti. Apatiniu kvartiliu (lower quartile) Q1 laikoma reikšmė, už kurią

25% tos imties reikšmių yra mažesnės, viduriniu kvartiliu Q2 laikoma mediana, o viršutiniu

kvartiliu (upper quartile) Q3 – reikšmė, už kurią 25% tos imties reikšmių yra didesnės. Kvartiliai

nepriklauso nuo imties variacinės eilutės kraštinių reikšmių, taigi jie nejautrūs išskirtims.

Kvartilinis plotis (Quartile range) H = Q3 – Q1, t.y. viršutinio ir apatinio kvartilio skirtumas,

dėl savo nejautrumo smarkiai besiskiriančioms reikšmėms ir skirstinio nenormalumui vartojamas

imties sklaidai įvertinti.

1.2.3 Imties simetriškumo įvertis.

Imties reikšmės ne visuomet būna išsibarsčiusios simetriškai imties centro atžvilgiu. Jei daugiau reikšmių yra kairėje vidurkio pusėje, turime teigiamąją asimetriją, jei dešinėje – neigiamąją. Asimetrijai įvertinti naudojamas asimetrijos koeficientas (skewness) g1:

Kai g1 > 0, turime teigiamąją asimetriją, kai g1 < 0 – neigiamąją asimetriją. Duomenų

simetriškumas ar asimetriškumas atsispindi histogramoje.

Histogramos lėkštumą parodo eksceso (kurtosis) koeficientas:

Jeigu g2 > 0, tao histograma smaila, kai g2 < 0 – histograma lėkšta.

14

Pavyzdys 1.3. Turime JAV namų ūkių metinių pajamų (tūkst. dolerių) duomenis (žr. Pavyzdys 1.2).

Su SPSS programa paskaičiuojame imties skaitines charakteristikas.

Norint apskaičiuoti duomenų aprašomąsias statistikas, meniu juostoje pasirenkama

Analyze → Descriptive → Statistics → Frequencies. Atsiradusiame lange pasirenkame analizei

kintamąjį. Norimas skaičiuoti aprašomąsias statistikas galima pažymėti pasirinkus lauką Statistics.

Gauti rezultatai pateikiami Lentelė 1.4. (Aprašomųjų statistikų skaičiavimas EXCEL skaičiuokle

pateiktas priede 7.2).

Lentelė 1.4. Aprašomosios statistikos

15

Aprasomosios statistikos

Imtis150

65,6467

61,0000

52,00a

29,14973

849,707

,799

,401

156,00

1,00

157,00

9847,00

48,0000

61,0000

75,0000

N

Vidurkis

Mediana

Moda

Standartinis nuokrypis

Dispersija

Asimetrija

Ekscesas

Imties plotis

Minimumas

Maksimumas

Suma

25 (apatinis kvartilis)

50 (vidurinis kvartilis)

75 (virsutinis kvartilis)

Procentiliai

Yra daug modu. Parodyta maziausiaa.

Kaip matyti iš gautų rezultatų, duotos imties vidurkis 65,65, mediana – 61, modų yra keletas, iš

kurių mažiausia – 52, standartinis nuokrypis – 29,15, o dispersija 849,71. Teigiamas asimetrijos

koeficientas rodo, kad histogramos viršūnė yra kairiau vidurkio, o teigiamas ekscesas parodo, kad

histograma yra smailėjanti. Toliau paskaičiuosime skaitines charakteristika grupuotiems

duomenims, pateiktiems Pavyzdys 1.2 lentelėje ir histogramoje. Pagal (1.) formulę grupuotų

duomenų vidurkis yra lygus 65,867, pagal (1.) formulę paskaičiuota dispersija – 804,132,

standartinis nuokrypis – 28,357. Iš dažnių lentelės galima pastebėti, kad mediana yra lygi 70, nes

intervale [60; 80) yra vidurinė imties reikšmė. Iš histogramos labai aiškiai matyti, kad moda yra lygi

50, nes daugiausia reikšmių yra įgyjama intervale [40; 60). Kaip matyti, grupuotiems duomenims

rezultatai šiek tiek skiriasi nuo paskaičiuotų negrupuojant duomenų. Taip yra todėl, kad grupuojant

duomenis visos stebimos reikšmės, pakliuvusios į tam tikrą intervalą, yra laikomos lygiomis to

intervalo vidurio taškui.

1.3 STANDARTIZUOTOSIOS REIKŠMĖS

Svarbi yra ne tik stebėjimo reikšmė, bet ir jos padėtis duomenų aibėje. Vienas iš būdų nusakyti

stebėjimo reikšmės padėtį yra duomenų standartizavimas. Jis įvertina tiek konkrečios reikšmės

padėtį vidurkio atžvilgiu, tiek visos duomenų aibės sklaidą.

Tarkime, turime duomenų aibę x1,x2,..., xn. Tada standartizuota z reikšmė paskaičiuojama pagal

formulę

16

.

Standartizavę duomenis, gauname naują duomenų aibę z1, z2,..., zn, kurios vidurkis visada yra lygus nuliui, o standartinis nuokrypis visada lygus vienetui. Teigiama standartizuotoji reikšmė parodo geresnį nei vidurkis rezultatą, neigiama – blogesnį. Pasinaudojant standartizuotosiomis reikšmėmis galima palyginti skirtingas duomenų aibes.

1.4 IŠSKIRTYS

Analizuojant realius duomenis, susiduriama su taip vadinamomis išskirtimis (outliers). Tai stebėjimų reikšmės, kurios yra labi nutolę nuo duomenų centro. Esant bet kokiam imties skirstiniui, sąlygine išskirtimi bus duomuo, priklausantis intervalams [Q1 –3 H; Q1 – 1,5H) arba (Q3 + 1,5H; Q3 + 3H]. Išskirtimi yra laikomas duomuo, mažesnis už Q1 – 3H ir didesnis už Q3 + 3H (Pav. 1.2). Tolesnėje analizėje išskirtys yra atmetamos, sąlyginės išskirtys yra papildomai tiriamos.

1.5 STAČIAKAMPĖ DIAGRAMA

Apie bendrą matuojamo kintamojo imties centro, išsibarstymo, simetriškumo bei ekstremalių (maksimalios ir minimalios) reikšmių vaizdą galime spręsti pagal stačiakampę diagramą – dėžutę su ūsais. (Box-whisker plot). Stačiakampėje diagramoje yra “dėžutė” – stačiakampis, braižomas nuo apatinio kvartilio Q1 iki viršutinio kvartilio Q3. Stačiakampio viduryje kvadratėliu ar brūkšniu pažymima mediana. Kartais diagramoje pliusu pažymimas ir vidurkis. Nuo stačiakampio šono brėžiami “ūsai” – į viršų iki maksimalios ir į apačią iki minimalios reikšmės. Stačiakampės diagramos “dėžutės” didumas charakterizuoja kintamojo išsibarstymą. Atstumai nuo “ūsų” galo iki medianos charakterizuoja asimetriją. Jei viršutinis “ūsas” daug ilgesnis už apatinį, kintamojo pasiskirstymas turi dešiniąją asimetriją, jei trumpesnis – kairiąją. Jei “ūsai” daug ilgesni nei “dėžutės” dydis, galima įtarti imtyje esant besiskiriančias reikšmes. Stačiakampės diagramos leidžia palyginti keleto kintamųjų, matuotų tais pačiais vienetais, ar to paties kintamojo kelių imčių duomenis.

Norint nubraižyti stačiakampę diagramą meniu juostoje reikia pasirinkti Graphs → Boxplot. Atsiradus langui Boxplot pažymima Simple ir Summaries of separate variables.

17

Gautas grafikas pateikiamas Pav. 1.2.

Imtis

150.00

100.00

50.00

0.00

98.00

42

117

123

10

56

48

37Išskirtis

Sąlyginės išskirtys

Sąlyginės išskirtys

Mediana

Apatinis kvartilis

Viršutinis kvartilis

1,5*Kvartilinis plotis

1,5*Kvartilinis plotis

Pav. 1.2. Stačiakampė diagrama.

18

2 ATSITIKTINIAI DYDŽIAI, SKIRSTINIAI

2.1 PASISKIRSTYMO FUNKCIJA, TANKIS, KVANTILIAI

Pateiksime tikimybių teorijos sąvokas, kurios yra svarbios statistinėms išvadoms pagrįsti.

Atsitiktinis dydis – atsitiktinių įvykių skaitinė funkcija. Atsitiktinį dydį X pilnai charakterizuoja jo pasiskirstymo funkcija

F(x) = P{X ≤ x}. (2.)

Atsitiktinis dydis vadinamas diskrečiuoju, jeigu jis įgyja baigtinę arba suskaičiuojamą reikšmių aibę. Diskretusis atsitiktinis dydis X pilnai aprašomas įgyjamomis reikšmėmis xi ir jų įgijimo tikimybėmis pi:

X x1 x1 x1 ...

P p1 p1 p1 ...

Atsitiktinis dydis X vadinamas absoliučiai tolydžiuoju, jei jo patekimo į intervalą [a; b] tikimybė yra skaičiuojama pagal formulę

. (2.)

Čia funkcija p(x) yra neneigiamai apibrėžta ir vadinama atsitiktinio dydžio X tankiu. Toliau absoliučiai tolydžiuosius atsitiktinius dydžius vadinsime tiesiog tolydžiaisiais.

Atsitiktinio dydžio skirstinys – tai jos pasiskirstymo funkcijos arba įgyjamų tikimybių nustatymo dėsnis. Jei atsitiktinis dydis yra tolydusis, jo skirstinį vadinsime tolydžiuoju, o jei diskretusis – diskrečiuoju.

Kvantiliai. Sakykime, α yra skaičius tarp 0 ir 1, o X – atsitiktinis dydis. Atsitiktinio dydžio X α lygmens kvantiliu (α kvantiliu) vadinamas skaičius xα, tenkinantis nelygybę

P{X < xα} ≤ α ≤ P{X ≤ xα}. (2.)

Tolydžiojo atsitiktinio dydžio X kvantilis apibrėžiamas lygybe: P{X ≤ xα} = α. Tolydžiajam atsitiktiniam dydžiui X teisinga lygybė P{X > xα} = 1 – α. Toliau bus naudojami tik tolydžiųjų skirstinių kvantiliai. Kai kurių skirstinių kvantiliai pateikti lentelėse arba skaičiuoklėse statistinėmis funkcijomis.

19

2.2 NORMALUSIS SKIRSTINYS

Atsitiktinis dydis turi normalųjį skirstinį, jeigu jo tankis yra:

, (2.)

čia μ ir σ – normaliojo skirstinio parametrai. μ gali būti bet koks skaičius, o σ2 – gali būti tik teigiama. Jei atsitiktinis dydis X turi normalųjį skirstinį su parametrais (μ, σ2) (šis faktas žymimas X ~ N(μ, σ2)), tuomet jo vidurkis lygus μ, dispersija σ2, standartinis nuokrypis – σ. Normaliojo skirstinio tankis yra varpo formos, turi maksimumą taške μ, simetriškas taško μ atžvilgiu, o jo “plotis” priklauso nuo parametro σ (Pav. 2.3). Parametras σ charakterizuoja atsitiktinio dydžio išsibarstymą apie vidurkį. Kuo σ mažesnis, tuo (2.) kreivė labiau suspausta, o kuo σ didesnis, tuo tankis labiau išsiplėtęs (Pav. 2.3). Normaliojo skirstinio pasiskirstymo funkcija yra aprašoma lygybe:

. (2.)

Vidurkis, st.nuokrypis

0; 1

0; 2

0; 3

-15 -12 -9 -6 -3 0 3 6 9 12 15

0

0,1

0,2

0,3

0,4

Pav. 2.3. Normaliojo skirstinio tankio grafikas

Normalusis skirstinys dar vadinamas Gauso skirstiniu. Normaliajam skirstiniui teisinga trijų sigmų taisyklė:

patekimo į intervalą [μ – σ; μ + σ] tikimybė yra 0,68;

patekimo į intervalą [μ – 2σ; μ + 2σ] tikimybė yra 0,95;

patekimo į intervalą [μ – 3σ; μ + 3σ] tikimybė yra 0,995.

Atskirą normaliojo skirstinio atvejį, kai μ = 0, σ = 1, vadiname standartiniu normaliuoju skirstiniu. Jis žymimas X ~ N(0, 1). Standartinio normaliojo skirstinio tankis yra

20

, (2.)

o pasiskirstymo funkcija

. (2.)

Tankio φ(x) ir pasiskirstymo funkcijos Φ(x) reikšmės paprastai pateikiamos kiekvieno statistikos vadovėlio lentelėse ir skaičiuojamos duomenų apdorojimo paketuose. Užtenka žinoti šių funkcijų reikšmes tik teigiamam argumentui, kadangi tankis φ(x) simetrinis, o Φ(–x) = 1 – Φ(x). Standartinio normaliojo skirstinio α lygmens kvantilį žymėsime zα. Kadangi skirstinys simetriškai, todėl teisinga lygybė zα = –z1-α. Normaliojo skirstinio kvantiliai pateikti lentelėse ir skaičiuoklėse statistine funkcija.

2.3 SKIRSTINIAI, SUSIJĘ SU NORMALIUOJU SKIRSTINIU

Toliau pateiksime atsitiktinių dydžių, sudarytų iš nepriklausomų standartinių normaliųjų dydžių tam tikrų funkcijų skirstinius. Šie skirstiniai sutinkami statistikoje tikrinant hipotezes.

2.3.1 χ2 skirstinys

Sakykime X1,X2,...,Xn – nepriklausomi standartinį normalųjį skirstinį turintys atsitiktiniai dydžiai. Tada atsitiktinis dydis

turi skirstinį su n laisvės laipsnių (Pav. 2.4). vidurkis lygus laisvės laipsnių skaičiui n, o

dispersija lygi 2n. χ2 skirstinio su n laisvės laipsnių α lygmens kvantilį žymėsime . skirstinio kvantiliai yra pateikiami lentelėse ir skaičiuoklėse statistine funkcija.

n

10

50

100

0 30 60 90 120 150 180

0

0,02

0,04

0,06

0,08

0,1

21

Pav. 2.4. χ2 skirstinio tankis.

2.3.2 Stjudento t skirstinys

Sakykime X,X1,X2,...,Xn – nepriklausomi standartinį normalųjį skirstinį turintys atsitiktiniai dydžiai. Tada atsitiktinis dydis

turi Stjudento arba t skirstinį su n laisvės laipsnių (Pav. 2.5). tn vidurkis lygus 0, o dispersija lygi . tn skirstinio α lygmens kvantilį žymėsime tα(n). t skirstinio kvantiliai yra pateikiami

lentelėse ir skaičiuoklėse statistine funkcija.

n

2

10

100

-8 -4 0 4 8

0

0,1

0,2

0,3

0,4

Pav. 2.5. Stjudento skirstinio tankis.

2.3.3 Fišerio skirstinys

Sakykime X1,X2,...,Xm,Y1,Y2,...,Yn – nepriklausomi standartinį normalųjį skirstinį turintys atsitiktiniai dydžiai. Tada atsitiktinis dydis

turi Fišerio skirstinį (F skirstinį) su m ir n laisvės laipsnių (Pav. 2.6). F skirstinio α lygmens kvantilį žymėsime Fα(m,n). F skirstinio kvantiliai yra pateikiami lentelėse ir skaičiuoklėse statistine funkcija.

22

m, n

5, 5

30, 30

100, 100

0 1 2 3 4 5

0

0,3

0,6

0,9

1,2

1,5

1,8

2,1

Pav. 2.6. Fišerio skirstinio tankis.

2.4 DISKREČIŲJŲ SKIRSTINIŲ PAVYZDŽIAI.

2.4.1 Binominis skirstinys

Sakykime atliekamas eksperimentas, kurio metu galimos tik dvi baigtys: “sėkmė” ir “nesėkmė”. Sėkmės tikimybė lygi p. Atliekame n nepriklausomų eksperimentų. Sėkmių skaičius yra atsitiktinis dydis ir vadinamas binominiu atsitiktiniu dydžiu. Binominio ats. d. X skirstinys priklauso nuo dviejų parametrų – p ir n. Tai žymima X ~ B(n,p). Tikimybė, kad binominis ats. d. įgis reikšmę, lygią k, yra

.

Binominio atsitiktinio dydžio vidurkis lygus np, o dispersija np(1 – p).

2.4.2 Puasono skirstinys

Šis skirstinys dar vadinamas retų įvykių skirstiniu. Puasono ats. d. X su parametru > 0 įgyja neneigiamas sveikas reikšmes su tikimybėmis (Pav. 2.7):

Puasono skirstinio vidurkis ir dispersija lygūs λ. Jei X nusako įvykių skaičių, tuomet – vidutinis įvykių skaičius.

23

5

10

20

0 10 20 30 40

0

0,03

0,06

0,09

0,12

0,15

0,18

Pav. 2.7. Puasono skirstinys.

24

3 PASIKLIAUTINIEJI INTERVALAI

3.1 PARAMETRŲ PASIKLIAUTINIEJI INTERVALAI

Apskaičiuotos atskiros imties charakteristikos nerodo šių charakteristikų įvertinimo tikslumo

bei jų patikimumo. Skirtumas tarp tikrųjų populiacijos ir turimų imties atitikmenų rodo

įvertinimo tikslumą. Tikimybė, jog šis skirtumas ne didesnis už fiksuotą tikslumą, yra įvertinimo

patikimumas. Statistinio įvertinimo tikslumą ir patikimumą nustato vadinamieji pasikliautinieji

intervalai (confidence intervals).

Jeigu turime imtį x1,x2,...,xn ir norime įvertinti populiacijos charakteristiką , tai šios

charakteristikos pasikliautinasis intervalas, esant patikimumui Q, yra

. (3.)

Čia Qvirš – Qap yra įvertinimo tikslumas, o šio įvykio tikimybė P – jo patikimumas. Patikimumas Q, dar vadinamas pasikliovimo lygmeniu (confidence level), rodo, kiek vidutiniškai kartų ieškomoji charakteristika patenka į nurodytą intervalą. Tradiciniai pasikliovimo lygmenys Q = 0,9; 0,95; 0,99. Kartais Q pateikiamas procentais. Nuo Q parinkimo priklauso pasikliovimo intervalų ilgis. Kuo Q artimesnis vienetui, tuo pasikliautinasis intervalas platesnis (Pav. 3.8).

Pav. 3.8. Pasikliautinieji intervalai su skirtingais pasikliovimo lygmenimis Q.

Matematinės statistikos metodais įrodoma, kad generalinės aibės, turinčios normalųjį

pasiskirstymą, pasikliautinasis vidurkio µ intervalas yra:

. (3.)

Q = 0,90

Q = 0,95

Q = 0,99

25

Dydis yra imties vidurkio vidutinis kvadratinis nuokrypis. Jis vadinamas šio vidurkio

vidutine kvadratine paklaida ir žymimas . Tada:

.

Koeficientas t yra Studento su n – 1 laisvės laipsnių kvantilis. Jis surandamas iš

Studento skirstinio lentelių ir priklauso nuo pasikliautinumo lygmens Q ir nuo laisvės laipsnių

skaičiaus f, kuris yra lygus n – 1. Pavyzdžiui, jeigu n = 20, Q = 0,99, tai t = 2,85.

Generalinės aibės, turinčios normalųjį pasiskirstymą, pasikliautinasis dispersijos

intervalas yra:

, (3.)

kur ir – skirstinio su n – 1 laisvės laipsnių lygmens kvantiliai,

.

Pavyzdyje Pavyzdys 1.2 pateiktiems duomenims SPSS pagalba paskaičiuosime populiacijos

vidurkio pasikliautinąjį intervalą. Meniu juostoje reikia pasirinkus Analyze → Descriptive

statistics → Explore atsiranda langas, kuriame pasirenkame norimą analizuoti kintamąjį.

Pastarajame lange pasirinkus Statistics reikia pažymėti Desriptives. Lauke Confidence Interval

for Mean galima pasirinkti pasikliautinojo intervalo ilgį.

Gauti rezultatai pateikiami tokioje rezultatų lentelėje.

Lentelė 3.5. Vidurkio pasikliautinasis intervalas.

26

Descriptives

65,6467 2,38007

60,9436

70,3497

64,4593

61,0000

849,707

29,14973

1,00

157,00

156,00

27,00

,799 ,198

,401 ,394

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

pajamosStatistic Std. Error

Iš gautų rezultatų matyti, kad populiacijos vidurkio pasikliautinasis 95% intervalas yra

.

Žemiau lentelėje pateikiami parametrų pasikliautinieji intervalai priklausomai nuo skirstinio.

Lentelė 3.6. Pasikliautinieji intervalai

Skirstinys Pasikliautinasis intervalas

X~N(,2)

- nežinomas, 2- žinoma,

X~N(,2)

- žinomas, 2- nežinoma ,

X~N(,2)

- nežinomas, 2- nežinoma

,

,

X~P()

- nežinomas ,

3.2 IMTIES TŪRIO PARINKIMAS

Planuojant tyrimus, labai svarbu žinoti reikiamą minimalų tyrimų skaičių, kad būtų galima

gauti statistiškai patikimas išvadas. Šis skaičius (imties tūris) apskaičiuojamas, pasinaudojant

populiacijos charakteristikų pasikliautinaisiais intervalais.

Kaip jau žinoma, populiacijos pasikliautinasis vidurkio intervalas yra:

27

.

Tarkime, kad mus tenkina vidurkio įvertinimo tikslumas , t.y.

,

čia:

,

arba:

.

Čia n – stebėjimų skaičius (imties tūris), Q – pasikliautinumo lygmuo, z – normaliojo

skirstinio N(0,1) kvantilis, s2 – imties dispersija, – populiacijos vidurkio įvertinimo

tikslumas (numatyta maksimali (absoliutinė) paklaida).

Jeigu nagrinėjama populiacija yra baigtinė, t.y. turi N elementų, tai reikiamas minimalus

imties tūris apskaičiuojamas iš formulės:

.

Kai N pakankami didelis, pastaroji formulė sutampa su ankstesniąja.

28

4 HIPOTEZIŲ TIKRINIMAS

4.1 STATISTINĖS HIPOTEZĖS

Bet kokią prielaidą apie stebimojo atsitiktinio dydžio arba kelių atsitiktinių dydžių pasiskirstymą vadiname statistine hipoteze. Keletas statistinių hipotezių pavyzdžių:

1. Ligonių, sergančių liga X, cholesterolio kiekis kraujyje padidėjęs.

2. Kolegijose besimokančių mokinių skaičius yra lygus 26.

3. Studentų vidutinis semestro vidurkis yra 7.

Darant prielaidas, kad nagrinėjamo kintamojo skirstinys priklauso nuo nežinomų parametrų, dalis statistinių hipotezių perfrazuojamos į hipotezes apie kintamojo teorinio skirstinio parametrus. Priimdami ar atmesdami hipotezes yra remiamasi savo tyrimų duomenimis.

Darant prielaidas apie kintamojo skirstinį, hipotezes galima suvesti į hipotezes apie kintamojo skirstinio parametrus. Pavyzdžiui, individo cholesterolio kiekis priklauso nuo įvairių individo savybių – amžiaus, mitybos, biologinių savybių ir t.t. Todėl daroma prielaida, kad cholesterolio kiekis kraujyje – atsitiktinis dydis, turintis tam tikro pavidalo skirstinį su vidurkiu m. Tai yra cholesterolio kiekio (tiriamo kintamojo) statistinis modelis. Vidurkis m yra cholesterolio skirstinio parametras. Šiuo modeliu aiškinant cholesterolio svyravimus, hipotezė „susirgimas X padidina cholesterolio kiekį“ suprantama „ligonių, sergančių liga X, cholesterolio skirstinio vidurkis didesnis, nei sveikų ligonių cholesterolio skirstinio vidurkis“. Matematiškai šią hipotezę formuluojame: m > m0, kur m0 – cholesterolio kiekio norma. Jei hipotezė pasitvirtino, sakoma „sergančių liga X cholesterolio kiekis reikšmingai didesnis už normą“. Aprašant statistines išvadas, posakis „reikšmingai didesnis“ suprantamas kaip „kintamojo teorinio skirstinio vidurkis yra didesnis“. Frazė „vidurkis didesnis“ suprantama, kad yra didesnė paskaičiuota kintamojo imties vidurkio reikšmė, o neturima galvoje išvados apie kintamojo teorinio skirstinio vidurkių palyginimą.

Taip pat yra nagrinėjamos hipotezės, nesusietos su skirstinio parametrais. Tai hipotezės apie imties skirstinį (dažniausiai skirstinio normališkumą), dviejų ar daugiau imčių skirstinių vienodumą ar dviejų ar daugiau kintamųjų nepriklausomumą. Tokio tipo hipotezių pavyzdys gali būti: „kolegijose mokosi daugiau vaikinų nei merginų“.

4.2 NULINĖ HIPOTEZĖ IR ALTERNATYVA

Tikrinant statistines hipotezes apibrėžiama nulinė hipotezė bei jai alternatyvioji hipotezė.

H0 – nulinė hipotezė – hipotezė apie nežinomo parametro (kelių nežinomų parametrų) reikšmę arba skirstinį, kurią galima patvirtinti arba atmesti;

H1 – alternatyva (alternatyvioji hipotezė).

Keletas nulinės hipotezės ir alternatyviosios hipotezės apie parametro m reikšmes pavyzdžių:

(4.)

29

(4.)

(4.)

Alternatyvos ir yra vadinamos vienpusėmis, o alternatyva – vadinama dvipuse alternatyva.

4.3 HIPOTEZIŲ TIKRINIMAS

Hipotezių tikrinimui naudojami statistiniai kriterijai. Jie yra imties funkcijos. Priklausomai nuo statistinio kriterijaus reikšmės nulinę hipotezę priimame arba atmetame. Kriterijaus reikšmių, kurioms esant nulinę hipotezę atmetame, aibė vadinama kritine sritimi. Kritine sritimi gali būti aibės {t: t > C}, {t: t < C}, {t: |t| > C}. Taškas C, ribojantis atmetimo sritį, vadinamas kritine reikšme.

Tikrinant hipotezes galima padaryti dviejų rūšių klaidas. Galima atmesti hipotezę, nors ji yra teisinga. Tokia klaida vadinama I rūšies klaida. Šios klaidos tikimybė žymima α. Taip pat galima priimti hipotezę, nors ji iš tikrųjų yra klaidinga. Tai II rūšies klaida. II rūšies klaidos tikimybė žymima β. Statistinio kriterijaus taikymo rezultatai pateikti Lentelė 4.7.

Lentelė 4.7. Statistinio kriterijaus taikymo rezultatai

H0 teisinga H0 klaidinga

atmetame H0 I rūšies klaida teisingas sprendimas

neatmetame H0 teisingas sprendimas II rūšies klaida

Statistinis kriterijus tuo geresnis, kuo mažesnės abiejų rūšių klaidų tikimybės. Praktiškai neįmanoma sudaryti kriterijaus, kad abiejų rūšių klaidų tikimybės būtų lygios nuliui. Todėl dažniausiai parenkamas mažas teigiamas skaičius α ir nagrinėjami tik tokie statistiniai kriterijai, kurių I rūšies klaidos tikimybė lygi α. α skaitinės reikšmės gali būti 0,1; 0,5; 0,01. Dažniausiai naudojama α = 0,05. Tikimybė α vadinama reikšmingumo lygmeniu (significance level).

Statistiniai kriterijai (Tn) sudaromi taip, kad esant teisingai nulinei hipotezei, turėtų žinomą skirstinį (standartinį normalųjį, , Stjudento, Fišerio), nepriklausantį nuo kintamojo skirstinio charakteristikų (nebent tik nuo imties tūrio n), be to II rūšies klaidos tikimybė būtų minimali esant fiksuotam reikšmingumo lygmeniui α (I rūšies klaidos tikimybei).

Tikrinant hipotezes statistinių paketų pagalba, skaičiuojamos statistinio kriterijaus Tn konkreti reikšmė tn ir jos vienpusės (one-sided) ar dvipusės (two-sided, 2-tailed) p reikšmės. p reikšmės apibrėžiamos tokiu būdu:

30

(4.)

Jei statistinis kriterijus, esant teisingai nulinei hipotezei turi χ2 arba Fišerio skirstinį, skaičiuojamos tik vienpusės p reikšmės p = P{Tn ≥ tn |H0}. Standartinio normaliojo ar Stjudento skirstinio atveju skaičiuojamos tiek vienpusės, tiek dvipusės p reikšmės.

Jei statistinio kriterijaus p reikšmė mažesnė nei reikšmingumo lygmuo α, tuomet statistinio kriterijaus reikšmė patenka į atmetimo sritį. Tokiu atveju nulinę hipotezę atmetame ir priimame alternatyvą, priešingu atveju nulinei hipotezei neprieštaraujame.

4.4 HIPOTEZĖS APIE NORMALIOJO SKIRSTINIO VIDURKĮ TIKRINIMAS

Tarkime, kad mūsų nagrinėjamas kintamasis turi normalųjį skirstinį su nežinomais parametrais – vidurkiu ir dispersija. Tikrinama hipotezė apie vidurkio lygybę skaičiui. Šios hipotezės tikrinimui naudojamas kriterijus remiasi prielaida, kad kintamojo skirstinys normalusis.

t kriterijus vienai imčiai (one sample t – test). Sakykime, tikriname nulinę hipotezę H0: µ = m0 (tiriamo kintamojo skirstinio vidurkis µ lygus konkrečiam skaičiui m0; pvz. „studentų semestro vidurkis lygus 7,2“). Alternatyvos šiai nulinei hipotezei gali būti H1: µ > m0 ; H1: µ < m0; H1: µ ≠ m0. H0 tikrinimui naudojamas t kriterijus

. (4.)

Esant teisingai nulinei hipotezei, kriterijus t turi Stjudento skirstinį su (n – 1) laisvės laipsniu. Priklausomai nuo naudojamos alternatyvos, yra skirtingos kritinės sritys (Lentelė 4.8).

Lentelė 4.8. Nulinės hipotezės priėmimo ir atmetimo sritys.

Alternatyva H1 H0 atmetama, jeigu H0 neatmetama, jeigu

m0 |t| > t/2 (n1) |t| ≤ t/2 (n1)

> m0 t > t (n1) t ≤ t (n1)

< m0 t < t (n1) t ≥ t (n1)

Statistiniuose paketuose pateikiama t kriterijaus dvipusė p reikšmė. Kaip jau minėta, jei p reikšmė mažesnė už pasirinktą reikšmingumo lygmenį, H0 atmetame ir laikome, kad yra teisinga dvipusė alternatyva. Tikrinant H0 su vienpuse alternatyva, H0 atmetame, jei p/2 mažesnė už parinką reikšmingumo lygmenį α.

31

Pavyzdys 4.4. Turime 1989 m. JAV namų ūkių duomenis (Pavyzdys 1.2). SPSS programos

pagalba patikrinsime hipotezę, kad „1989 m. namų ūkių vidutinės pajamos buvo 80 tūkst.

dolerių“. Alternatyvioji hipotezė – vidutinės namų ūkių pajamos nėra lygios 80 tūkst. dolerių

Meniu juostoje pasirenkame Analyze → Compare Means → One–Sample T Test...

Paskui pasirenkame kintamąjį Pajamos, lauke Test Value įvedame 80 ir spaudžiame OK.

Gauti rezultatai pateikiami tokiose lentelėse

Lentelė 4.9. Kintamojo pajamos aprašomosios statistikos.

32

One-Sample Statistics

150 65,6467 29,14973 2,38007pajamosN Mean Std. Deviation

Std. ErrorMean

Lentelė 4.10. Nulinės hipotezės tikrinimo rezultatai.

One-Sample Test

-6,031 149 ,000 -14,35333 -19,0564 -9,6503pajamost df Sig. (2-tailed)

MeanDifference Lower Upper

95% ConfidenceInterval of the

Difference

Test Value = 80

Lauke t yra pateikiama t statistika, kuri lygi –6,301. Lauke Sig. (2–tailed) pateikiama gauta p reikšmė, kuri lygi 0. Kadangi p = 0 < 0,05 = α, tai nulinė hipotezė „1989 m. namų ūkių vidutinės pajamos buvo 80 tūkst. dolerių“ yra atmetama. Tai reiškia, kad 1989 m. JAV namų ūkių vidutinės pajamos nebuvo lygios 80 tūkst. dolerių.

4.5 DVIEJŲ POPULIACIJŲ VIDURKIŲ PALYGINIMAS

Dažnai yra būtinybė palyginti dviejų populiacijų vidurkius. Tokios situacijos pavyzdžiai gali būti tokie: „vaikinų ir merginų semestro vidurkiai yra lygūs“, „išlaidos buities ir maisto prekėms yra lygios kitoms išlaidoms“ ir pan. Laikant kad tiriamo kintamojo skirstiniai abiejose populiacijose yra normalieji, populiacijų palyginimas suvedamas į atitinkamo kintamojo vidurkių palyginimą. Dviejų normalųjį skirstinį turinčių populiacijų kintamųjų vidurkiams palyginti naudojamas nepriklausomų imčių Stjudento t kriterijus (t-test for independent samples).

Sakykime, norima palyginti dviejų populiacijų X ir Y kintamojo, turinčio normalųjį skirstinį, vidurkius µX ir μY. Šiam tikslui suformuluojama nulinė hipotezė: H0: µX = µY su vienpuse ar dvipuse alternatyva.

Nulinės hipotezės tikrinimui naudosime dviejų imčių duomenis: imties iš X populiacijos x1,x2,...,xn ir imties iš Y populiacijos y1,y2,...,ym. Kaip jau minėta, kintamojo skirstinys X ir Y populiacijose normalusis su vidurkiu µX ir µY atitinkamai. Kriterijus H0 hipotezės tikrinimui priklausys nuo to, ar populiacijų dispersijos lygios, ar ne.

4.5.1 Populiacijų dispersijos lygios

Tarkime, X ~ N(µX,σ2), Y ~ N(µY,σ2) (Dispersijos nežinomos, bet lygios). Tuomet hipotezės apie vidurkių lygybę tikrinimui naudojamas t kriterijus:

, (4.)

33

kur ir – imčių vidurkiai, – apjungta dispersija: , ir

– imčių dispersijos, n ir m – imčių didumai. Jei teisinga nulinė hipotezė, tuomet kriterijus t turi Stjudento skirstinį su (n + m – 2) laisvės laipsnių. Nulinės hipotezės kritinės sritys bei sprendinio priėmimas remiantis t kriterijumi pateiktos lentelėje Lentelė 4.11.



X Y |t| > t/2 (n+m2) |t| ≤ t/2 (n+m2)

X > Y t > t (n+m2) t ≤ t (n+m2)

X < Y t < t (n+m2) t ≥ t (n+m2)

4.5.2 Populiacijų dispersijos nelygios:

Tarkime, X ~ N(µX, ), Y ~ N(µY, ) (Dispersijos nežinomos ir nelygios). Tuomet hipotezės apie vidurkių lygybę tikrinimui naudojamas toks t kriterijus:

, (4.)

kur ir – imčių vidurkiai, ir – imčių dispersijos, n ir m – imčių didumai. Jei teisinga nulinė hipotezė, tuomet t skirstinys yra Stjudento su k laisvės laipsnių. k yra mažiausias sveikas skaičius, tenkinantis nelygybę: k ≤ ( .Nulinės hipotezės kritinės sritys bei sprendinio priėmimas remiantis t kriterijumi pateiktos lentelėje



X Y |t| > t/2 (k) |t| ≤ t/2 (k)

X > Y t > t (k) t ≤ t (k)

X < Y t < t (k) t ≥ t (k)

4.5.3 Nepriklausomų imčių taikymas SPSS programa

Norint patikrinti dviejų populiacijų vidurkius, reikia meniu juostoje pasirinkti Analyze →

Compare Means → Independen–Samples T Test

34

Pasirodžius Independen–Samples T Test langui lauke Test Variable įvedami

analizuojamą kintamąjį, kuris apima abi populiacijas. Lauke Grouping Variable kintamąjį,

kuris parodo kuriai imčiai yra priskiriama kiekviena analizuojamojo kintamojo reikšmė.

Gauti rezultatai pateikiami tokiomis dvejomis lentelėmis. Pirmoje lentelėje yra pateikiamos

kiekvienos iš imčių pagrindinės charakteristikos. Antroje lentelėje pateikiamas hipotezės apie

populiacijos vidurkių lygybę tikrinimas dviem atvejais – kai dispersijos lygios (1 eilutė) ir kai

dispersijos nelygios (2 eilutė). Šiuo atveju abi hipotezės apie populiacijų vidurkių lygybę yra

atmetamos, nes gautos p reikšmės yra mažesnės už 0,05.

Lentelė 4.13. Grupių pagrindinės aprašomosios statistikos.

35

Group Statistics

150 24,9921 6,16753 ,50358

150 33,0740 7,57646 ,61862

grupe1,00

2,00

islaidosN Mean Std. Deviation

Std. ErrorMean

Lentelė 4.14. Nulinės hipotezės tikrinimo rezultatai.

Independent Samples Test

1,392 ,239 -10,132 298 ,000 -8,08193 ,79767 -9,65171 -6,51216

-10,132 286,218 ,000 -8,08193 ,79767 -9,65197 -6,51189

Equal variancesassumed

Equal variancesnot assumed

islaidosF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

36

5 KORELIACINĖ IR REGRESINĖ ANALIZĖ

Realiame pasaulyje daugelis reiškinių yra tarpusavyje susiję, todėl yra nustatinėjamos vieno reiškinio priklausomybės formos nuo kito. Tačiau dažnai negalima vienareikšmiškai nusakyti tarp jų egzistuojančių ryšių, kadangi paprastai vieną požymį veikia ne vienas, o keletas faktorių, pavyzdžiui, žmogaus išlaidos maistui priklauso ne tik nuo maisto kainų, bet ir nuo jo pajamų, šeimos dydžio, gyvenamos vietos ir pan. Vienodai maistui išleidžiantys asmenys gali gauti labai skirtingus darbo užmokesčius. Tokio pobūdžio ryšiai yra vadinami tikimybiniais. Praktikoje labai svarbu yra mokėti jį įvertinti. Pati paprasčiausia kiekybinė ryšio charakteristika yra koreliacijos koeficientas (coefficient of correlation). Jis yra žymimas raide ir įgyja reikšmes iš intervalo [–1; 1]. Jei koreliacijos koeficientas lygus nuliui, tai reiškia, kad nėra jokio ryšio tarp nagrinėjamų požymių. Jeigu koreliacijos koeficientas yra lygus 1, tai reiškia kad nagrinėjamų požymių egzistuoja teigiama (neigiama) tiesinė funkcinė priklausomybė.

5.1 KIEKYBINIŲ KINTAMŲJŲ TARPUSAVIO PRIKLAUSOMYBĖS ANALIZĖ

Tarkime, kad turime du kiekybinis dydžius X ir Y. Ir mums reikia nustatyti, ar šie dydžiai susiję, ar ne. Išmatuojame n kartų šiuos kintamuosius. Tarkime, kad matavimo rezultatai yra skaičių poros (x1, y1), (x2, y2),...,(xn, yn). Tada imties koreliacijos koeficientas r, dar vadinamas Pirsono koreliacijos koeficientu, yra skaičiuojamas pagal formulę

. (5.)

Reikia pažymėti, kad Pirsono koreliacijos koeficientas parodo tik tiesinio ryšio stiprumą.

Taip pat kintamųjų tiesinei priklausomybei vertinti dar naudojami Spirmeno ir Kendalo koreliacijos koeficientai. Skirtingai nei Pirsono koreliacijos koeficientas, Spirmeno ir Kendalo koreliacijos koeficientai skaičiuojami naudojant ne išmatuotas kintamųjų reikšmes, bet jų rangus – eilės numerį variacinėje eilutėje. Todėl Spirmeno ir Kendalo koreliacijos koeficientai vadinami ranginiais. Kurį koreliacijos koeficientą panaudoti sprendžiama remiantis turimu kintamųjų modeliu.

Sakoma, kad tarp kintamųjų yra:

labai silpnas ryšys, jei |r| ≤ 0,3;

silpnas ryšys, jei –0,5 < r ≤ –0,3 arba 0,3 < r ≤ 0,5;

vidutinio stiprumo ryšys, jei –0,7 < r ≤ –0,5 arba 0,5 < r ≤ 0,7;

stiprus ryšys, jei –0,9 < r ≤ –0,7 arba 0,7 < r ≤ 0,9;

labai stiprus ryšys, jei –1,0 < r ≤ –0,9 arba 0,9 < r ≤ 1,0.

Ryšio tarp kintamųjų glaudumo matui naudojamas ir koreliacijos koeficiento kvadratas r2, dar vadinamas determinacijos koeficientu. Kaip jau minėjome, koreliacijos koeficientams skaičiuoti naudojamos imties reikšmės – atsitiktinių dydžių realizacijos. Todėl koreliacijos koeficientai yra

37

atsitiktiniai dydžiai, turintys tam tikrą skirstinį, ir remiantis vien koreliacijos koeficiento reikšme negalime daryti išvadų apie kintamųjų tarpusavio priklausomybę. Turint nedaug kintamųjų matavimų, pavyzdžiui, 3 ar 4, didelė tikimybė, kad jie plokštumoje išsidėstys arti tiesės.

Galima tvirtinti, kad kintamieji X ir Y yra tiesiškai priklausomi, jei koreliacijos koeficientas tarp jų reikšmingai skirsis nuo nulio. Todėl būtina patikrinti nulinę hipotezę H0: = 0 su viena iš alternatyvų: vienpusėmis H1: > 0 arba H1: < 0; arba dvipuse H1: ≠ 0. Vienpusė alternatyva H1: > 0 apibūdinama taip: „tarp kintamųjų yra reikšminga teigiama koreliacija“. Vienpusė alternatyva H1: < 0 apibūdinama taip: „tarp kintamųjų yra reikšminga neigiama koreliacija“. Dvipusė alternatyva apibūdinama taip: „koreliacijos koeficientas reikšmingai skiriasi nuo nulio“ arba „tarp kintamųjų yra reikšminga koreliacija“.

Hipotezei H0 tikrinti sudaromi atitinkami statistiniai kriterijai, priklausantys nuo paskaičiuoto koreliacijos koeficiento r ir nuo tirtų individų skaičiaus n. Koreliacijos koeficientus galima paskaičiuoti statistinio paketo SPSS pagalba. Kaip ir visų statistinių hipotezių tikrinimo atveju, pakete pateikiama kriterijaus reikšmė bei jo atitinkama dvipusė p reikšmė. Priklausomai nuo šios p reikšmės hipotezę apie koreliacijos koeficiento lygybę nuliui atmetame arba jai neprieštaraujame. Jei nulinę hipotezę atmetame, sakoma, kad „tarp kintamųjų X ir Y yra reikšminga koreliacija“.

Hipotezė apie Pirsono koeficiento r lygybę nuliui (H0: r = 0) tikrinama naudojant t kriterijų:

. (5.)

Jeigu teisinga nulinė hipotezė, kad = 0, tai t turi asimptotinį Stjudento skirstinį su (n – 2) laisvės laipsnių. SPSS pakete pateikiama koreliacijos koeficiento reikšmė ir t kriterijaus dvipusė p reikšmė (Pavyzdys 5.5). H0 priėmimo ar atmetimo taisyklė su pasirinktu reikšmingumo lygmeniu α priklausomai nuo alternatyvos yra pateikiama pateikta Lentelė 5.15.

Lentelė 5.15. Sprendinio apie koreliacijos koeficiento lygybę nuliui priėmimas.


0 |t| > t/2 (n2) |t| ≤ t/2 (n2)

> 0 t > t (n2) t ≤ t (n2)

< 0 t < t (n2) t ≥ t (n2)

Pavyzdys 5.5. Turime 1989 m. JAV namų ūkių metinių pajamas (tūkst. dolerių), išlaidų

buičiai ir maistui procentą bendrose išlaidose ir kitų išlaidų procentą bendrose išlaidose.

Paskaičiuosime Pirsono, Kendalo ir Spirmeno koreliacijos koeficientus tarp šių faktorių,

įvertinsime koreliacijos koeficientų reikšmingumą.

Pradžioje SPSS programoje pasirenkame programų juostoje Analyze → Correlate →

Bivariate.

38

Toliau pasirinkę norimus analizuoti kintamuosius pažymime norimus paskaičiuoti koreliacijos

koeficientus: Pearson, Kendall‘s tau-b ir Spearmen. Norėdami tikrinti dvipusę alternatyvą

pažymime punktą Two-tailed.

Gauti rezultatai pateikiami tokiose lentelėse. Lentelė 5.16 pateikia paskaičiuotus Pirsono

koreliacijos koeficientus tarp visų tiriamų kintamųjų ir šių koreliacijų reikšmingumą.

39

Lentelė 5.16. Pirsono koreliacijos koeficientai.

Correlations

1 ,461** -,196*

,000 ,016

150 150 150

,461** 1 -,090

,000 ,272

150 150 150

-,196* -,090 1

,016 ,272

150 150 150

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

islaidos_buiciai_proc

islaidos_ne_buiciai_proc

pajamos


islaidos_ne_buiciai_proc pajamos

Correlation is significant at the 0.01 level (2-tailed).**.

Correlation is significant at the 0.05 level (2-tailed).*.

Pavyzdžiui, koreliacija tarp pajamos ir išlaidų buityje yra –0,196. Tai yra labai silpna

neigiama koreliacija, tačiau reikšmingai skiriasi nuo nulio, kadangi gauta p-reikšmė yra mažesnė

už 0,05 ir mes galime atmesti nulinę hipotezę apie koreliacinio ryšio nebuvimą.

Tuo tarpu Lentelė 5.17 pateikia paskaičiuotus Kendalo ir Spirmeno koreliacijos koeficientus

tarp išranguotų duomenų. Kaip matyti iš lentelės, koreliacijos tarp pajamų ir kitų išlaidų abiem

atvejais yra lygios nuliui, nes atitinkamai gautos p-reikšmės yra pakankami didelės.

Lentelė 5.17. Kendalo ir Spirmeno koreliacijos koeficientai.

Correlations

1,000 ,280** -,169**

. ,000 ,003

150 150 150

,280** 1,000 -,038

,000 . ,501

150 150 150

-,169** -,038 1,000

,003 ,501 .

150 150 150

1,000 ,377** -,246**

. ,000 ,002

150 150 150

,377** 1,000 -,051

,000 . ,536

150 150 150

-,246** -,051 1,000

,002 ,536 .

150 150 150

Correlation Coefficient

Sig. (2-tailed)

N


Sig. (2-tailed)

N


Sig. (2-tailed)

N


Sig. (2-tailed)

N


Sig. (2-tailed)

N


Sig. (2-tailed)

N



pajamos



pajamos

Kendall's tau_b

Spearman's rho


islaidos_ne_buiciai_proc pajamos

Correlation is significant at the 0.01 level (2-tailed).**.

40

5.2 KIEKYBINIŲ KINTAMŲJŲ REGRESINĖ ANALIZĖ

Dažniausiai ne visada užtenka žinoti, koks yra ryšys tarp dviejų nagrinėjamų požymių, kadangi koreliacijos koeficientas parodo tik tiesinio ryšio stiprumą, bet neparodo šio ryšio pobūdžio. Todėl dažnai duomenų analizė yra papildoma regresine analize, kurios pagrindinis tikslas – nustatyti statistinį modelį, kurio pagalba vieno kintamojo reikšmes galima būtų prognozuoti kito kintamojo reikšmes.

Tarkime, turime du intervalinius kintamuosius X ir Y. Tada bendriausias tiesinis tikimybinis modelis, siejantis dydžius X ir Y, atrodo taip:

Y = A + BX + e, (5.)

Čia a ir b yra nežinomos konstantos, e – atsitiktinė paklaida. Dažniausia atsitiktinės paklaidos

atsiradimo priežastis yra matavimo paklaidos. Pavyzdžiui, šeimos išlaidų maistui duomenys

sudaromi apklausų dalyviams užpildant anketas, kurios, kaip manoma, pildomos kiekvieną

dieną. Aišku, čia gali būti tam tikrų paklaidų, kadangi anketos gali būti pildomos ne kiekvieną

dieną, o, tarkim, tik kartą per mėnesį..

Šalia tiesinės regresijos dažnai dar yra nagrinėjamos ir netiesinės regresijos modeliai. Keletas pavyzdžių:

1. (lygiašakė hiperbolė);

2. (laipsninė priklausomybė);

3. (rodiklinė priklausomybė);

4. (eksponentinė priklausomybė).

Turint regresinį modelį, svarbiausias uždavinys yra įvertinti modelio parametrus a ir b.

Parametrų A ir B įverčiai a ir b turi būti parinkti taip, kad funkcijos reikšmės

taškuose xi būtų kiek galima arčiau yi reikšmių.

Tegul mūsų intervaliniai kintamieji yra (x1,y1), (x2,y2),...,(xn,yn). Įverčiai a ir b randami

mažiausiųjų kvadratų metodo (MKM) pagalba minimizuojant

SSE = . (5.)

Pradžioje paskaičiuojamos dalinės išvestinės

41

Iš pastarosios lygčių sistemos gauname

Taigi, SSE sumą minimizuoja

(5.)

Tuo būdu, ieškoma regresijos tiesės lygtis yra tokio pavidalo:

. (5.)

Nagrinėjamų kintamųjų tarpusavio priklausomybės stiprumą regresinėje analizėje matuoja

determinacijos koeficientas. Kiekvieną skirtumą yi ir galima išskaidyti tokiu būdu:

, (5.)

kur yra itoji liekamoji paklaida ir yra randama iš lygybės:

42

Pakėlę ... lygybės abi puse kvadratu, susumavę ir atlikę keletą aritmetinių veiksmų, gauname

tokią lygybę:

, (5.)

arba

SST = SSE + SSR,

kur SST visa nuokrypių kvadratų suma, SSE liekamųjų paklaidų nuokrypių kvadratų suma,

SSR regresijos nuokrypių kvadratų suma. Determinacijos koeficientu yra vadinamas santykis

, (5.)

kurį galima būtų interpretuoti taip:

.

Kartais naudojamas pataisytasis determinacijos koeficientas (adjusted R Square), kuris

leidžia atsižvelgti į imties didumą ir nepriklausomų kintamųjų skaičių (todėl jis svarbesnis

daugialypėje regresinėje analizėje). Jis tiesiogiai susijęs su determinacijos koeficientu ir

paskaičiuojamas iš lygybės:

.

43

Praktikoje dažniausiai reikalaujama, kad determinacijos koeficientas būtų nemažesnis už 0,25, nes kitaip labai abejotina, ar tiesinės regresijos modelis yra tinkamas.

Pavyzdys 5.6. Ištirkime priklausomybę tarp pajamų ir išlaidų maisto ir buities prekėms. Kaip

nepriklausomą kintamąjį (x) imkime pajamas, o priklausomą (y) – išlaidas.

Pradžioje meniu juostoje pasirenkame Analyze → Regression → Linear.

Atsiradus langui Linear Regression lauke Dependent įkeliame kintamąjį, kurį laikysime priklausomu kintamuoju, o lauke Indenpendent kintamąjį, kurį laikysime nepriklausomu kintamuoju. Lauke Method galima pasirinkti regresinės analizės vertinimo metodą. Kadangi regresija susideda tik iš dviejų kintamųjų, tai pasirenkame Enter. Kiti metodai daugiau taikytini daugialypėje regresijoje.

44

Pasirinkus lauką Statistics, galima paskaičiuoti įvairias charakteristikas.

Estimates - regresijos koeficientai

Confidence intervals - pasikliautinieji intervalai

Covariance matrix - kovariacinės ir koreliacinės matricų skaičiavimai

Model fit – determinacijos koeficientai, ANOVA lentelėje atvaizduojamos kvadratų sumos,

vidurkių kvadratai, patikrinamos hipotezės pasinaudojant F-kriterijumi ir kt.

Descriptives – aprašomosios statistikos: vidurkiai, standartiniai nuokrypiai, koreliacinės

matricos ir kt.

45

Part and partial correlations – dalinės koreliacijos koeficientų skaičiavimas, t – testas ir kt.

Colinearity diagnostics – tikrina multikolinearumą

Gauti regresijos rezultatai atrodo taip:

Lentelė 5.18. Koreliacijos ir determinacijos koeficientai.

Model Summaryb

,196a ,039 ,032 6,06800 1,939Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Durbin-Watson

Predictors: (Constant), pajamosa.

Dependent Variable: islaidos_buiciai_procb.

Iš pastarosios lentelės gauname koreliacijos koeficientą (R), determinacijos koeficientą (R

Square), pataisytą determinacijos koeficientą (Adjusted R Square). Kaip matyti, šie koeficientai

yra pakankami maži, todėl galima spręsti, kad koreliacija tarp kintamųjų yra labai silpna.

Lentelė 5.19. Dispersinės analizės rezultatai.

ANOVAb

218,257 1 218,257 5,928 ,016a

5449,460 148 36,821

5667,717 149

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), pajamosa.

Dependent Variable: islaidos_buiciai_procb.

Pastaroji lentelė rodo, kad priklausomas kintamasis yra išlaidos maisto ir buities prekėms

(po lentele b punktas), o nepriklausomas – pajamos (a punktas). Stulpelyje Sum of Squares

pateiktos nuokrypių sumos SSR, SSE ir SST. Stulpeliuose F (F statistika) ir Sig. (p reikšmė)

pateiktos hipotezės, kad visi regresijos parametrai yra lygūs nuliui (labiau taikytina daugialypėje

regresijoje). Kadangi gauta p reikšmė mažesnė už 0,05, tai atmetame nulinę hipotezę ir sakome,

kad bent vienas iš koeficientų nelygus nuliui.

Lentelė 5.20. Regresijos rezultatai.

46

Coefficientsa

27,718 1,224 22,641 ,000

-4,2E-002 ,017 -,196 -2,435 ,016

(Constant)

pajamos

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: islaidos_buiciai_proca.

Pastarojoje lentelėje pateikti regresinės analizės rezultatai. Stulpelyje B pateikti gauti parametrų

A ir B įverčiai. Stulpeliuose t ir Sig. pateiktas hipotezių apie atitinkamų parametrų lygybę nuliui

tikrinimas: t statistika ir p–reikšmė. Kadangi gautos p reikšmė mažesnės už 0,05, tai atmetame

nulines hipotezes ir sakome, kad abu koeficientai atskirai yra nelygūs nuliui. Vadinasi, jie yra

statistiškai reikšmingi.

47

6 LITERATŪRA

1. V.Čekanavičius, G.Murauskas. Statistika ir jos taikymai. I. Vilnius: TEV, 2000. 240 p.

2. V.Čekanavičius, G.Murauskas. Statistika ir jos taikymai. II. Vilnius: TEV, 2002. 272 p.

3. D.C.Montgomery, G.C.Runger, N.F.Hubele. Engineering statistics. 3rd edition. ISBN:0-

471-44854-0,©2004, 480 pages.

48

7 PRIEDAI

7.1 HISTOGRAMOS REDAGAVIMAS

1. Norint redaguoti histogramą, reikia du kartus spustelėti paveiksliuką

2. Pažymėjus histogramos stulpelius, galima pasirinkti histogramos parametrus

49

3.

Meniu Histogram Options galimi tokie pasirinkimai:

Display normal curve – braižoma normalioji kreivė;

Anchor First Bin – Pirmojo grupavimo intervalo apatinis rėžis:

Automatic – Automatiškai parenkamas programos,

Custom value for anchor: – laisvai pasirenkamas apatinis rėžis,

Bin Sizes – Grupavimo intervalai:

Automatic – Automatiškai parenkamas programos,

Custom – Pasirinkimai:

Number of intervals – Nurodoma į kiek intervalų sugrupuoti duomenis,

Intervals width – Nurodomas intervalų plotis

50

7.2 APRAŠOMŲJŲ STATISTIKŲ SKAIČIAVIMAS EXCEL SKAIČIUOKLE

1. Įsitikinkite, ar meniu punkte Tools yra punktas Data Analysis. Jeigu šio punkto nėra, vadinasi

duomenų analizės komponentas nėra įtrauktas į meniu. Tam kad jį įtrauktume reikia pasirinkiti

meniu punktą Tools/Add-ins... ir pažymėti Analysis ToolPak ir paspausti OK – dabar Data

Analysis punktas bus įrauktas į Jūsų Excel programos Tools meniu.

2. Duomenų padėties ir sklaidos charakteristikas skaičiuojame Tools → Data Analysis lange

pasirenkant punktą Descriptive Statistics (aprašomosios statistikos). Naujame lange matome

nemažai punktų, kuriuos galime pasirinkti analizei.

Pateikiame kiekvieno punkto paaiškinimą:

Input Range – nurodoma duomenų sritis, kuriai bus taikomi skaičiavimai;

The Grouped by – kompiuteriui nurodome kaip yra pateikiami duomenys: stulpeliu ar eilute;

Labels in First Row – pažymime, jeigu failo pirmoje eilutėje yra stulpelių pavadinimai;

Summary statistics – pažymėjus šį laukelį, parinktiems duomenims bus paskaičiuotos aprašomosios statistikos;

Parinkus visus norimus punktus, spaudžiate OK ir rezultatai bus įrašyti parinktoje vietoje.

3. Prieš braižant histogramą reikia atlikti keletą papildomų skaičiavimų.

51

a) nustatyti grupavimo intervalų skaičių: k = ROUND( 1 + 3,222·lg (n); 0 ) ( n – imties tūris);

b) apskaičiuoti grupavimo intervalo plotį: = ROUNDUP( (Max – Min) / k; 2 );

c) surasti grupavimo intervalų kraštinius taškus: c0 = ROUNDDOWN( Min; 2 ); c1 = c0 + ; c2 = c1 + ; ...; ck = ck-1 + ( ck turi būti didesnis už Max).

4. Duomenų histograma yra braižoma Tools → Data Analysis lange pasirinkus punktą

Histogram. Naujame lange matome nemažai punktų, kuriuos galime pasirinkti analizei.

Pateikiame kiekvieno punkto paaiškinimą:

Input Range – duomenų intervalas Excel lentelėje;

Bin Range – histogramos intervalų rėžių ląstelės Excel lentelėje. Šis laukas nėra privalomas: Excel paskaičiuos intervalus pats, jeigu jie nėra nurodyti. Tačiau rezultatai bus tikslesni, jeigu patys nurodysite intervalų galus, kurių pavyzdys pateiktas B stulpelyje;

Output range – nurodoma vieta esamame lape, kur įrašyti rezultatus;

Pareto (sorted histogram) – pažymėjus šią opciją histogramos intervalai būtų surūšiuoti pagal į juos duomenų skaičių (mums nereikia);

Cumulative percentage – brėžia sukauptų dažnių kreivę (t.y. pasiskirstymo funkciją);

Chart Output – brėžia histogramą.


52

7.3 PASIKLIAUTINŲJŲ INTERVALŲ IR HIPOTEZIŲ TIKRINIMAS EXCEL SKAIČIUOKLE

1. Vidurkio pasikliautinąjį intervalą skaičiuojame Tools → Data Analysis lange pasirinkus

punktą Descriptive Statistics ir pažymėjus Confidence Level for Mean.


2. Hipotezių tikrinimas atliekamas Tools → Data Analysis lange pasirinkus vieną iš 4 punktų:

53

t-Test: Paired Two Sample for Means – Stjudento t-testas dviejų porinių imčių

vidurkiams.

t-Test: Two-Sample Assuming Equal Variances – Stjudento t-testas, kai populiacijų dispersijos yra lygios ir nežinomos.

t-Test: Two-Sample Assuming Unequal Variances – Stjudento t-testas, kai populiacijų dispersijos skiriasi ir nežinomos.

z-Test: Two Sample for Means - z-testas dviejų imčių vidurkių palyginimui, kai populiacijų dispersijos žinomos.

3. Šiame darbe jums prireiks tokių Excel komandų:

NORMSINV(α) – skaičiuoja standartinio normaliojo skirstinio (1 – α) lygmens kvantilį. Skaičiavimams imamas modulį.

TINV(*;n) - skaičiuoja Stjudento skirstinio su n laisvės laipsnių (1 – α) lygmens kvantilį. Pirmame laukelyje rašomas skaičius, lygus (1 - pasikliovimo lygmuo); antrame - imties tūris.

CHIINV(*;n) - skaičiuoja Chi kvadratu skirstinio su n laisvės laipsnių (1 – α) lygmens kvantilį. Pirmame laukelyje rašomas skaičius, lygus (1 - pasikliovimo lygmuo); antrame - imties tūris.

54

7.4 TIESINĖS REGRESIJOS SKAIČIAVIMAS EXCEL SKAIČIUOKLE

Regresiją skaičiuojame Tools → Data Analysis lange pasirinkus punktą Regression.


55

Statistika Kolegijoms

Documents

Transcript of Statistika Kolegijoms