Statistika Kolegijoms
-
Upload
amber-johnson -
Category
Documents
-
view
18 -
download
2
description
Transcript of Statistika Kolegijoms
STATISTIKA. KOMPIUTERINIS TYRIMO DUOMENŲ APDOROJIMAS
Parengė dr. Daiva Urbonaitė - Šlyžiuvienė
TURINYS
1 APRAŠOMOJI STATISTIKA.............................................................................................31.1 Populiacija ir imtis...........................................................................................................31.2 Kintamieji........................................................................................................................31.3 Duomenų įvedimas naudojant SPSS...............................................................................41.4 Duomenų grupavimas......................................................................................................5
1.4.1 Variacinė eilutė........................................................................................................51.4.2 Dažniai.....................................................................................................................6
1.5 Duomenų skaitinės charakteristikos..............................................................................101.5.1 Duomenų padėties charakteristikos.......................................................................101.5.2 Duomenų sklaidos charakteristikos.......................................................................111.5.3 Imties simetriškumo įvertis...................................................................................12
1.6 Standartizuotosios reikšmės..........................................................................................141.7 Išskirtys..........................................................................................................................141.8 Stačiakampė diagrama...................................................................................................15
2 ATSITIKTINIAI DYDŽIAI, SKIRSTINIAI.....................................................................172.1 Pasiskirstymo funkcija, tankis, kvantiliai......................................................................172.2 Normalusis skirstinys....................................................................................................182.3 Skirstiniai, susiję su normaliuoju skirstiniu...................................................................19
2.3.1 χ2 skirstinys............................................................................................................192.3.2 Stjudento t skirstinys.............................................................................................202.3.3 Fišerio skirstinys....................................................................................................21
2.4 Diskrečiųjų skirstinių pavyzdžiai..................................................................................222.4.1 Binominis skirstinys..............................................................................................222.4.2 Puasono skirstinys.................................................................................................22
3 PASIKLIAUTINIEJI INTERVALAI................................................................................233.1 Parametrų pasikliautinieji intervalai..............................................................................233.2 Imties tūrio parinkimas..................................................................................................25
4 HIPOTEZIŲ TIKRINIMAS..............................................................................................274.1 Statistinės hipotezės.......................................................................................................274.2 Nulinė hipotezė ir alternatyva........................................................................................274.3 Hipotezių tikrinimas......................................................................................................284.4 Hipotezės apie normaliojo skirstinio vidurkį tikrinimas...............................................294.5 Dviejų populiacijų vidurkių palyginimas......................................................................31
4.5.1 Populiacijų dispersijos lygios................................................................................324.5.2 Populiacijų dispersijos nelygios:...........................................................................324.5.3 Nepriklausomų imčių taikymas SPSS programa...................................................33
5 KORELIACINĖ IR REGRESINĖ ANALIZĖ...................................................................355.1 Kiekybinių kintamųjų tarpusavio priklausomybės analizė............................................355.2 Kiekybinių kintamųjų regresinė analizė........................................................................39
6 LITERATŪRA...................................................................................................................467 PRIEDAI............................................................................................................................47
7.1 Histogramos redagavimas..............................................................................................477.2 Aprašomųjų statistikų skaičiavimas Excel skaičiuokle.................................................497.3 Pasikliautinųjų intervalų ir hipotezių tikrinimas Excel skaičiuokle..............................517.4 Tiesinės regresijos skaičiavimas Excel skaičiuokle......................................................53
1.1. Populiacija ir imtis
Matematinės statistikos tyrimo objektas yra stebėjimo rezultatų rinkimo ir jų analizės būdai ir
metodai. Visuma, kuri mus domina ir kurią mes tiriame, remdamiesi jos požymiais, vadinama
populiacija (arba generaline aibe). Generalinė aibė gali būti baigtinė arba begalinė. Jeigu generalinė
aibė yra baigtinė, tai jos elementų skaičių žymime N raide. Generalinės aibės sąvoką iliustruosime
pavyzdžiais. Sakykime yra atliekama Lietuvos vidurinių mokyklų mokinių apklausa. Šiuo atveju
populiacija – Lietuvos vidurinių mokyklų mokiniai. Ji nėra begalinė, bet pakankami didelė. Tiriant
13 – 18 m. amžiaus vaikų sergamumą bronchine astma populiacija yra visi Lietuvos 13 – 18 m.
amžiaus vaikai.
Paprastai nežinoma, kaip dominantys požymiai pasiskirstę populiacijoje. Norint tai nustatyti,
reikia tirti visus populiacijos elementus. Tam reikia daug laiko ir lėšų, o kartais toks tyrimas iš
principo negalimas. Todėl elgiamasi kitaip: atsitiktinai parenkama generalinės aibės elementų dalis,
tiriamas nagrinėjamo požymio pasiskirstymas šioje dalyje ir iš jo sprendžiama apie šio požymio
pasiskirstymą visoje populiacijoje. Ši pasirinktoji dalis vadinama imtimi (sample). Imties elementų
skaičių žymėsime n (n N) ir vadinsime imties tūriu (sample size). Gautąsias stebėjimų skaitines
reikšmes žymėsime x1, x2,…, xn. Imtis turi reprezentuoti populiaciją, t.y. tiksliai atspindėti tiriamojo
požymio įgyjamų reikšmių proporcijas pačioje populiacijoje. Todėl individai, dalyvaujantys
tyrimuose, turi būti parinkti atsitiktinai. Imties reprezentatyvumas glaudžiai susijęs su jos didumu,
taip pat priklauso nuo imties sudarymo metodo. Praktikoje naudojami keli atsitiktinės atrankos
būdai. Toliau apsiribosime paprastąja atsitiktine imtimi – atveju, kai iš visos populiacijos atsitiktinai
atrenkamas tam tikras kiekis individų. Taip pat daroma prielaida, kad tiriamos populiacijos individų
skaičius yra labai didelis, palyginus su imties dydžiu, arba imtis sutampa su visa populiacija.
1.2. Imčių sudarymo būdai
Norėtųsi taip sudaryti imtį, kad būtų minimali ir paklaida, ir sąnaudos. Deja, paprastai paklaidų
mažinimas didina sąnaudas. Tačiau minimalią paklaidą galima gauti tinkamai atrinkus elementus.
Imtys sudaromos įvairiais būdais, tačiau pagrindiniai imčių sudarymo būdai yra du: tikimybinis ir
netikimybinis. Atrenkant tikimybiniu būdu, kiekvieno elemento tikimybė patekti į imtį yra žinoma,
o sudarant netikimybines imtis, daug lemia atsitiktinumas.
Netikimybinės imtys. Iš netikimybinių imčių sudarymo būdų populiariausi yra šie: ekspertinė
imtis, kai elementai į imtį įtraukiami atsižvelgiant į ekspertų nuomonę; kvotinė imtis, kai iš anksto
nustatomos atskirų populiacijos dalių kvotos; proginė imtis, kai į imtį įtraukiami patogiausiai
ištiriami elementai. Taip sudarytos imtys dažniausiai būna nereprezentatyvios.
3
Tikimybinės imtys. Populiariausia yra paprastoji atsitiktinė imtis (atsitiktinės atrankos
metodas). Atrenkant elementus šiuo metodu, visų populiacijos elementų galimybės patekti į imtį
turėtų būti vienodos. Šis metodas realizuojamas dviem būdais. Pirmuoju būdu elementai
numeruojami, maišomi, dedami į dėžę ir iš jos traukiami nesirenkant. Antruoju būdu kompiuteriu
generuojami atsitiktiniai skaičiai, kurie yra atrenkamų elementų numeriai.
Praeityje, dažnai ir dabar, imtis sudaroma mechaniškai, atrankos nesiejant su atsitiktinių skaičių
gavimo procedūromis. Taip sudaryta imtis vadinama sistemingąja imtimi. Šiuo būdu vienodu
žingsniu atrenkamas kas kelintas populiacijos elementas. Pavyzdžiui: jei populiaciją sudaro 100 000
elementų, o reikia atrinkti 1000 elementų, tai į ją patenka kiekvienas šimtasis elementas. Pirmąjį
elementą stengiamasi parinkti atsitiktiniu būdu arba jis imamas iš pirmosios imties vidurio. Jei
populiacija ganėtinai didelė, šis atrankos būdas artimas atsitiktinei atrankai.
Sluoksninė imtis naudojama tuo atveju, kai populiacija nėra vienalytė, o gali būti padalinta į
mažesnes aibes (sluoksnius), kurių kiekviena yra vienalytė tiriamojo požymio atžvilgiu. Jei iš
populiacijos, kurios dydis N, norima atrinkti imtį iš n elementų, o populiaciją sudaro k vienalyčių
sluoksnių, tai i-tojo sluoksnio dydis žymimas Ni, ir sluoksninių imčių dydžiai apskaičiuojami taip:
ni=n(Ni/N), čia: i=1,2,…,k. Apibendrinant gautą informaciją, reikia atsižvelgti į sluoksnyje esamos
populiacijos dalies dydį. Dažnai padalinti populiaciją į sluoksnius, juolab nustatyti sluoksnio dydį,
nėra paprasta.
Lizdinė imtis naudojama tada, kai populiacija yra vienalytė, tačiau gali būti padalinta į mažesnes
aibes. Daugelyje taikymų šį dalijimą lemia atstumas. Pavyzdžiui: tiriant savivaldybes, ligonines,
koledžus, kurių yra visoje šalyje. Šiuo atveju, atrinkus elementus atsitiktinės atrankos būdu,
kelionėms tektų skirti papildomai išlaidų, todėl atsitiktine atranka dažniausiai parenkamos atskiros
aibės. Į imtį patenka visi atrinktųjų aibių elementai.
Praktikoje imtys sudaromos ir kitais būdais – įvairiai derinant minėtus imčių sudarymo būdus.
1.3. Imties dydis
Prieš nutariant, kokio dydžio imtis bus naudojama tyrimui, reikia apibrėžti populiaciją,
pavyzdžiui: visi Mažeikių miesto vyresniųjų klasių moksleiviai. Šiuo atveju teks sudaryti visų
Mažeikių miesto vyresniųjų klasių moksleivių sąrašą, ir tik tada numatyti imties dydį.
Imties dydžio nustatymo problema yra viena iš sunkesniųjų. Imties dydį gali sąlygoti įvairūs
apribojimai, pavyzdžiui: turimos tyrimui lėšos gali turėti didelės įtakos imties dydžiui. Kai tyrimui
lėšos yra patvirtintos, planuojant išlaidas naudinga vadovautis paprasta taisykle: pusę lėšų išleisti
duomenų rinkimui, o kitą pusę – duomenų analizei. Šis apribojimas turi įtakos tiek imties dydžiui,
tiek tyrimo planavimui ir duomenų rinkimui.
Apskritai, imties dydis priklauso nuo būsimos analizės tipo; nuo norimo pasiekti įvertinimo
tikslumo; nuo vienu metu tiriamų kintamųjų skaičiaus; nuo tiriamos populiacijos vienalytiškumo.
4
Pavyzdžiui: jei statistinio eksperimento pagrindinis tikslas yra eksperimentiškai įvertinti vidurkius ir
palyginti jų skirtumus, gali pakakti šimto elementų imties.
Svarstant matematiškiau, imties dydis yra funkcija, priklausanti nuo kelių argumentų: norimo
pasiekti įverčių tikslumo, populiacijos sklaidos ir norimo patikimumo.
1 pavyzdys. Tarkime, norima įvertinti populiacijos narių vidutinį uždarbį. Prieš atsakant į šį
klausimą, pirmiausia reikia apibrėžti šią informaciją:
1) koks bus pasikliovimo lygmuo,
2) kokiu tikslumu norima įvertinti parametrą.
Pavyzdžiui: norima įvertinti atlyginimų vidurkį ± 10 Lt tikslumu per mėnesį, pasikliovimo
lygmuo – 95 procentų. Imties dydį n galima nustatyti pagal pasikliautinojo intervalo formulę:
. Čia: s – standartinis nuokrypis.
Standartizuoto normaliojo skirstinio 95 proc. pasikliovimo lygmenį formulėje atitinka kvantilio
reikšmė 1,96. Reikšmes, atitinkančias pasirinktą pasikliovimo lygmenį, galima rasti statistinėse
lentelėse. Kadangi pasirinktas tikslumas yra ± 10, arba intervalo plotis 20 Lt, tai dydis turi
būti 10. Nors aritmetinio vidurkio reikšmė yra nežinoma, tačiau matyti, kad šis dydis įtakos
sprendimui neturi, kadangi norima gauti intervalą, nepriklausomai nuo x reikšmės.
Taigi reikia išspręsti lygtį. Nežinoma standartinio nuokrypio s, tačiau šios reikšmės sužinoti
negalima, kol duomenys nesurinkti. Šią reikšmę galima gauti arba remiantis ekspertų nuomone,
arba ankstesnių tyrimų rezultatais, arba gauti iš atrinktos bandomosios imties. Paprastai
bandomosios imties atrinkimas yra per brangus, ir pasikliaujama kitais metodais. Tarkime, kad
remiantis turima informacija, s apytiksliai yra 220 Lt, tada pagal formulę sužinoma: n=1849.
Žinoma, imties neturi tiksliai sudaryti 1849 elementai, tačiau šis rezultatas – tai pageidautinas
imties dydis. Kadangi vieno tyrimo metu paprastai tiriama daugiau nei vienas požymis, realiai būna
sudėtingiau.
Pastaba. Imties dydžiui skaičiuoti internete galima rasti įvairių programinių skaičiuoklių.
2 pavyzdys. V. Dikčius (2005) nurodo imties dydžio nustatymo formulę mažoms visumoms:
, kur n – reikiamos imties dydis;
z – patikimumo laipsnis (95%, z = 1,96);
p – proporcija (70%);
e – atrankos klaida (5%);
5
N – įmonės pastovių klientų skaičius (2011 m. Mažeikiuose registruota 1066 įmonės).
2. APRAŠOMOJI STATISTIKA
2.1. Kintamieji
Duomenų analizės metodo parinkimas labai priklauso nuo jų prigimties. Populiacijos, kartu ir
imties, elementus vienija tiriamasis požymis. Matuodami šį požymį, gauname tam tikrą dydį, kuris
kinta kartu su imties nariais. Šį dydį ir vadiname kintamuoju. Imties duomenų aibė – tai visų galimų
kintamojo reikšmių poaibis. Išmatavę visą populiaciją, gautume visas kintamojo reikšmes. Pagal
matuojamo reiškinio prigimtį kintamieji skirstomi į kiekybinius ir kokybinius.
Kiekybinio kintamojo reikšmė – tai atsakymas, kiek tiriamo požymio turi populiacijos
elementas, kai tuo tarpu kokybiniai kintamieji nusako dydžius, kurių neįmanoma įvertinti skaičiais.
Pavyzdžiui, laikas, šeimos pajamos, žmogaus ūgis yra kiekybiniai kintamieji, o rasė, tautybė,
spalva, lytis ir pan. – kokybiniai kintamieji. Paprastai, kokybinio kintamojo reikšmės koduojamos
skaitmenimis. Pavyzdžiui, kintamojo “tautybė” reikšmes galima koduoti taip: “lietuvis” = 1,
“rusas” = 2, “lenkas” = 3 ir pan.
Kiekybinius kintamuosius paprastai dar galima skirstyti į tolydžiuosius ir diskrečiuosius.
Kiekybinis kintamasis yra vadinamas tolydžiuoju, jei jo reikšmių skirtumas gali būti kiek norima
mažas. Kiekybinis kintamasis, kurio reikšmių skirtumas yra ne mažesnis už tam tikrą minimalų
pokytį, vadinamas diskrečiuoju kintamuoju. Tolydžiųjų kintamųjų pavyzdžiai - ūgis, svoris, laikas;
diskrečiųjų kintamųjų – razinų bandelėje skaičius, šeimos gausumas, pataikytų baudų skaičius.
Skirtingai nei kiekybiniai kintamieji, kokybiniai kintamieji negali būti sudedami, dauginami.
2.2. Duomenų įvedimas naudojant SPSS
Duomenų analizei naudosime SPSS (Statistical Package for Social Sciences) programą. Pradinis
kiekvienos duomenų analizės etapas – duomenų įvedimas. Galimi du duomenų įvedimo į SPSS
programą būdai:
Pirmas būdas. Meniu juostoje pasirenkame File → Open → Data. Toliau pasirenkamas duomenų failas ir spaudžiama Open.
6
Antras būdas: MS Excel programoje pažymim norimus analizuoti duomenis ir pasinaudojame
komanda Copy. SPSS programoje pasinaudojame komanda Paste.
Duomenys yra tvarkomi Variable view lange:
Redaguojami laukai:
Name - kintamojo pavadinimas;
Type - pasirenkamas duomenų tipas: paprastai – Numeric (skaičiams) arba String (tekstui)
Dažniausiai pasirenkami
7
Width - duomenų ląstelės plotis
Decimals - skaičius po kablelio, kuris bus rodomas duomenų ląstelėje
1.1 DUOMENŲ GRUPAVIMAS
1.1.1 Variacinė eilutė
Tarkime, kad stebimas tam tikras kintamasis. Atsitiktinai išrinkę n elementų, sudarome
kintamojo reikšmių statistinę eilutę
x1, x2,…, xn. (1.)
Išdėstyta nemažėjimo tvarka kiekybinio kintamojo duomenų eilutė
x(1) ≤ x(2) ≤...≤ x(n) (1.)
vadinama variacine eilute. Skaičius (j) vadinamas elemento eilės numeriu. Dažniausiai xj ir x(j)
nesutampa. Galima atkreipti dėmesį, kad x(1) = xmin, x(n) = xmax, t.y. pirmas ir paskutinis variacinės
eilutės nariai yra atitinkamai statistinės eilutės arba imties minimumas ir maksimumas. Pavyzdžiui,
turime 10 studentų sesijos vidurkius:
7,6; 8,9; 5,8; 9,7; 6,4; 7,9; 8,2; 8,7; 6,8; 6,3.
Variacinė eilutė bus tokia:
5,8; 6,3; 6,4; 6,8;7,6; 7,9;8,2; 8,7; 8,9; 9,7.
Tuo pačiu,
xmin = x(1) = 5,8; xmax = x(10) = 9,7; x(5) = 7,6.
1.1.2 Dažniai
Dažnai matuojamo kintamojo (pavyzdžiui, amžiaus, ūgio) reikšmės gali kartotis daug kartų.
Tarkime, (1) statistinėje eilutėje yra k skirtingų reikšmių. Tegul jos yra . Tarkime, kad
jos pasikartoja atitinkamai f1, f2,…, fk kartų. Aišku, kad f1 + f2 +…+ fk = n. Atliekant statistinę
analizę dažnai yra naudojami ir santykiniai bei sukauptieji santykiniai dažniai. Jeigu stebimas
kintamasis įgyja nedaug skirtingų reikšmių, tai turimą informaciją lengviau suprasti, kai ji yra
pateikiama dažnių lentele (Lentelė 1.1).
Lentelė 1.1. Dažnių lentelė.
8
Reikšmė x1 x2 x3 ... xk
Dažnis f1 f2 f3 ... fk
Santykinis dažnis ...
Sukauptasis santykinis dažnis
...
Santykinius dažnius dar galima interpretuoti kaip procentus.
Pavyzdys 1.1. Tarkime, kad turime 30 kursuose dalyvaujančių mokytojų amžių: 46, 41, 46, 52, 49,
44, 55, 52, 44, 43, 41, 46, 49, 49, 52, 44, 44, 49, 46, 46, 46, 49, 46, 49, 43, 52, 43, 43, 46, 44. Iš
pateiktų duomenų sunkiau suprasti, kokio amžiaus mokytojų yra daugiau ar mažiau. Tuo tarpu
naudojant dažnių lentelę, tai įvertinti kur kas lengviau.
Lentelė 1.2. Dažnių lentelė.
Reikšmė 41 43 44 46 49 52 55
Dažnis 2 4 5 8 6 4 1
Santykinis dažnis 0,067 0,133 0,167 0,267 0,2 0,133 0,033
Sukauptasis santykinis dažnis
0,067 0,2 0,367 0,634 0,834 0,967 1
Iš pateiktos lentelės matyti, kad 46 metų amžiaus mokytojai sudaro 26,7 proc. kursų lankytojų.
Dažnai matuojamo kintamojo reikšmių būna pakankamai daug, be to, gretimos reikšmės gali
labai mažai skirtis tarpusavyje. Tokiu atveju matuojamo kintamojo dažnių lentelė yra
neinformatyvi. Todėl matuojamo kintamojo reikšmės sugrupuojamos ir po to pateikiamos
sugrupuotų duomenų dažnių lentele. Grupavimo intervalai paprastai parenkami vienodo ilgio.
Grupavimo intervalų skaičius (k) bei intervalų ilgiai () nustatomi atsižvelgiant į imties dydį (n),
didžiausią (xmax) ir mažiausią (xmin) reikšmes:
; (1.)
. (1.)
Turint intervalų skaičių ir intervalų plotį galima pradėti grupuoti duomenis. Pažymėkime j–tąjį
grupavimo intervalą (cj–1, cj]. Tada dažnis fj žymės į tą intervalą patekusių reikšmių skaičių.
9
Matuojamo kintamojo dažnių pasiskirstymo grafinis vaizdas yra histograma. Ji braižoma taip:
Ox ašyje atidedamas kiekvienas grupavimo intervalas, po to brėžiamas stačiakampis taip, kad jo
pagrindas sutampa su grupavimo intervalu, o aukštis proporcingas patekusių į šį intervalą kintamojo
reikšmių skaičiui. Grupavimo intervalai turi būti vienodo ilgio, nebent išskyrus pirmą ir paskutinį.
Pavyzdys 1.2. Turime 1989 m. JAV namų ūkių metinių pajamų (tūkst. dolerių) duomenis.
57 61 50 70 63 48 90 49 122 48
72 35 66 68 50 72 72 33 56 52
27 72 43 1 57 68 71 27 128 52
54 57 17 105 65 75 73 45 64 126
44 35 70 52 58 59 53 61 33 49
55 63 42 36 65 61 75 67 57 132
57 71 157 65 43 63 117 51 55 43
108 95 88 90 36 51 30 25 61 45
103 64 121 52 42 64 64 36 61 54
119 84 101 49 119 41 94 48 117 70
75 27 71 6 24 68 88 75 85 121
41 27 146 38 25 77 99 135 51 75
52 35 38 99 62 104 43 115 59 110
115 59 56 32 41 98 53 77 38 110
61 53 56 62 121 51 52 49 62 48
Duomenų grupavimas ir histograma pateikti žemiau.
Lentelė 1.3. Namų ūkių pasiskirstymas pagal pajamas.
Pajamų grupės Dažnis Sukauptasis dažnis Intervalo vidurys
(0; 20] 3 3 10
(20; 40] 20 23 30
(40; 60] 51 74 50
(60; 80] 42 116 70
(80; 100] 11 127 90
(100;120] 13 140 110
(120; 140] 8 148 130
(140; 160] 2 150 150
Sugrupavus duomenis galima braižyti histogramą. Tam pirmiausiai meniu juostoje pasirenkame
Graphs → Histogram
10
Atsiradus histogramos langui pažymim dominančią imtį ir perkeliam į lauką Variable.
Iš Pav. 1.1. matome, kad namų ūkių pajamų tyrime dažniausiai pasitaikančios pajamų reikšmės
yra tarp 40 ir 60 tūkts. dolerių. (Histogramos redagavimas pateiktas priede 7.1.)
11
160.00140.00120.00100.0080.0060.0040.0020.000.00
50
45
40
35
30
25
20
15
10
5
0
Da
žnia
i
50
45
40
35
30
25
20
15
10
5
0
Pav. 1.1. Dažnių histograma
1.2 DUOMENŲ SKAITINĖS CHARAKTERISTIKOS
Matuojamo kintamojo skaitinės imties charakteristikos yra skirstomos į tokias grupes:
1) charakteristikas imties padėčiai įvertinti (vidurkis, mediana, moda, kvantiliai);
2) charakteristikas duomenų kitimui arba sklaidai apie centrą įvertinti (dispersija, standartinis
nuokrypis, kitimo koeficientas, imties plotis, kvartilinis plotis);
3) charakteristikas imties simetriškumui įvertinti (asimetrijos, eksceso koeficientai).
1.2.1 Duomenų padėties charakteristikos
Pagrindinės duomenų padėties charakteristikos yra vidurkis (mean, average), mediana (median)
ir moda (mode). Imties vidurkis yra žymimas ir apskaičiuojamas pagal formulę
. (1.)
Imties vidurkis yra visų duomenų aibės elementų vidutinė reikšmė. Jeigu populiacija yra
baigtinė, tai galima paskaičiuoti ir populiacijos vidurkį:
. (1.)
Jeigu turime grupuotus duomenis, tai vidurkis yra paskaičiuojamas pagal tokią formulę:
12
, (1.)
kur – grupavimo intervalo vidurio taškas, o fj – dažnis.
Vidurkis yra labiausiai paplitusi duomenų aibės charakteristika – skaičiuojamas vidutinis
atlyginimas, sesijos pažymių vidurkis. Tačiau vidurkis yra labai jautrus smarkiai besiskiriančioms
reikšmėms, pavyzdžiui, klaidingai įvesta labai didelė reikšmė ženkliai pakeičia vidurkį.
Kitos padėties charakteristikos yra mediana, moda, kvartiliai, deciliai, procentiliai ir kt. Moda –
tai dažniausiai duomenų aibėje pasikartojanti reikšmė, arba kitaip sakant, tipiškiausia nagrinėjamos
duomenų aibės reikšmė.
Mediana yra reikšmė, „dalijanti“ variacinę eilutę pusiau: 50% reikšmių yra ne didesnės už
medianą, kitos 50% ne mažesnės. Imties medianai skaičiuoti yra naudojama duomenų aibės
variacinė eilutė:
(1.)
Vertinant imties centrą, mediana yra ne tokia jautri smarkiai besiskiriančioms reikšmėms kaip
vidurkis. Kylant įtarimui, kad imtyje yra išskirčių, imties centrą geriau įvertinti naudojant medianą.
Jei mediana labai skiriasi nuo vidurkio, kintamojo pasiskirstymas nėra simetriškas.
q-osios eilės kvantilis – tai charakteristika, dalijanti variacinę eilutę į q 100 ir (1 – q) 100
procentinių dalių. q įgyja reikšmes iš intervalo (0;1). Pavyzdžiui, 0,5 kvantilis yra mediana.
1.2.2 Duomenų sklaidos charakteristikos
Nors imties vidurkis yra naudingas, tačiau jis nepateikia visos informacijos apie duomenų aibę.
Tam yra naudojamos sklaidos charakteristikos: imties dispersija s2 (variance) ir vidutinis
kvadratinis nuokrypis s (standard deviation). Populiacijos dispersija σ2 vertinama imties dispersija
s2, t.y.
. (1.)
Šią formulę galima perrašyti ir kita forma:
.
Dispersijos mastelis yra kvadratinis, todėl naudojamas imties vidutinis kvadratinis nuokrypis:
. (1.)
13
Grupuotiems duomenims dispersija skaičiuojama pagal tokią formulę:
. (1.)
Paprasčiausia duomenų sklaidos charakteristika yta imties plotis (sample range), kuris
gaunamas iš didžiausios reikšmės atėmus mažiausią reikšmę: x(n) – x(1) = xmax – xmin.
Bedimensinė sklaidos charakteristika yra kitimo (variacijos) koeficiento (coefficient of
variation), lygus
.
Jis naudojamas lyginant skirtingų duomenų aibių sklaidas. Gana dažnai jis reiškiamas
procentais.
Kvartiliais (quartile) vadinami trys taškai, dalijantys kintamojo reikšmių aibę į keturias
grupes, kurių kiekvienoje yra maždaug po 25% imties reikšmių. Jie taip pat naudojami imties
reikšmių kintamumui įvertinti. Apatiniu kvartiliu (lower quartile) Q1 laikoma reikšmė, už kurią
25% tos imties reikšmių yra mažesnės, viduriniu kvartiliu Q2 laikoma mediana, o viršutiniu
kvartiliu (upper quartile) Q3 – reikšmė, už kurią 25% tos imties reikšmių yra didesnės. Kvartiliai
nepriklauso nuo imties variacinės eilutės kraštinių reikšmių, taigi jie nejautrūs išskirtims.
Kvartilinis plotis (Quartile range) H = Q3 – Q1, t.y. viršutinio ir apatinio kvartilio skirtumas,
dėl savo nejautrumo smarkiai besiskiriančioms reikšmėms ir skirstinio nenormalumui vartojamas
imties sklaidai įvertinti.
1.2.3 Imties simetriškumo įvertis.
Imties reikšmės ne visuomet būna išsibarsčiusios simetriškai imties centro atžvilgiu. Jei daugiau reikšmių yra kairėje vidurkio pusėje, turime teigiamąją asimetriją, jei dešinėje – neigiamąją. Asimetrijai įvertinti naudojamas asimetrijos koeficientas (skewness) g1:
Kai g1 > 0, turime teigiamąją asimetriją, kai g1 < 0 – neigiamąją asimetriją. Duomenų
simetriškumas ar asimetriškumas atsispindi histogramoje.
Histogramos lėkštumą parodo eksceso (kurtosis) koeficientas:
Jeigu g2 > 0, tao histograma smaila, kai g2 < 0 – histograma lėkšta.
14
Pavyzdys 1.3. Turime JAV namų ūkių metinių pajamų (tūkst. dolerių) duomenis (žr. Pavyzdys 1.2).
Su SPSS programa paskaičiuojame imties skaitines charakteristikas.
Norint apskaičiuoti duomenų aprašomąsias statistikas, meniu juostoje pasirenkama
Analyze → Descriptive → Statistics → Frequencies. Atsiradusiame lange pasirenkame analizei
kintamąjį. Norimas skaičiuoti aprašomąsias statistikas galima pažymėti pasirinkus lauką Statistics.
Gauti rezultatai pateikiami Lentelė 1.4. (Aprašomųjų statistikų skaičiavimas EXCEL skaičiuokle
pateiktas priede 7.2).
Lentelė 1.4. Aprašomosios statistikos
15
Aprasomosios statistikos
Imtis150
65,6467
61,0000
52,00a
29,14973
849,707
,799
,401
156,00
1,00
157,00
9847,00
48,0000
61,0000
75,0000
N
Vidurkis
Mediana
Moda
Standartinis nuokrypis
Dispersija
Asimetrija
Ekscesas
Imties plotis
Minimumas
Maksimumas
Suma
25 (apatinis kvartilis)
50 (vidurinis kvartilis)
75 (virsutinis kvartilis)
Procentiliai
Yra daug modu. Parodyta maziausiaa.
Kaip matyti iš gautų rezultatų, duotos imties vidurkis 65,65, mediana – 61, modų yra keletas, iš
kurių mažiausia – 52, standartinis nuokrypis – 29,15, o dispersija 849,71. Teigiamas asimetrijos
koeficientas rodo, kad histogramos viršūnė yra kairiau vidurkio, o teigiamas ekscesas parodo, kad
histograma yra smailėjanti. Toliau paskaičiuosime skaitines charakteristika grupuotiems
duomenims, pateiktiems Pavyzdys 1.2 lentelėje ir histogramoje. Pagal (1.) formulę grupuotų
duomenų vidurkis yra lygus 65,867, pagal (1.) formulę paskaičiuota dispersija – 804,132,
standartinis nuokrypis – 28,357. Iš dažnių lentelės galima pastebėti, kad mediana yra lygi 70, nes
intervale [60; 80) yra vidurinė imties reikšmė. Iš histogramos labai aiškiai matyti, kad moda yra lygi
50, nes daugiausia reikšmių yra įgyjama intervale [40; 60). Kaip matyti, grupuotiems duomenims
rezultatai šiek tiek skiriasi nuo paskaičiuotų negrupuojant duomenų. Taip yra todėl, kad grupuojant
duomenis visos stebimos reikšmės, pakliuvusios į tam tikrą intervalą, yra laikomos lygiomis to
intervalo vidurio taškui.
1.3 STANDARTIZUOTOSIOS REIKŠMĖS
Svarbi yra ne tik stebėjimo reikšmė, bet ir jos padėtis duomenų aibėje. Vienas iš būdų nusakyti
stebėjimo reikšmės padėtį yra duomenų standartizavimas. Jis įvertina tiek konkrečios reikšmės
padėtį vidurkio atžvilgiu, tiek visos duomenų aibės sklaidą.
Tarkime, turime duomenų aibę x1,x2,..., xn. Tada standartizuota z reikšmė paskaičiuojama pagal
formulę
16
.
Standartizavę duomenis, gauname naują duomenų aibę z1, z2,..., zn, kurios vidurkis visada yra lygus nuliui, o standartinis nuokrypis visada lygus vienetui. Teigiama standartizuotoji reikšmė parodo geresnį nei vidurkis rezultatą, neigiama – blogesnį. Pasinaudojant standartizuotosiomis reikšmėmis galima palyginti skirtingas duomenų aibes.
1.4 IŠSKIRTYS
Analizuojant realius duomenis, susiduriama su taip vadinamomis išskirtimis (outliers). Tai stebėjimų reikšmės, kurios yra labi nutolę nuo duomenų centro. Esant bet kokiam imties skirstiniui, sąlygine išskirtimi bus duomuo, priklausantis intervalams [Q1 –3 H; Q1 – 1,5H) arba (Q3 + 1,5H; Q3 + 3H]. Išskirtimi yra laikomas duomuo, mažesnis už Q1 – 3H ir didesnis už Q3 + 3H (Pav. 1.2). Tolesnėje analizėje išskirtys yra atmetamos, sąlyginės išskirtys yra papildomai tiriamos.
1.5 STAČIAKAMPĖ DIAGRAMA
Apie bendrą matuojamo kintamojo imties centro, išsibarstymo, simetriškumo bei ekstremalių (maksimalios ir minimalios) reikšmių vaizdą galime spręsti pagal stačiakampę diagramą – dėžutę su ūsais. (Box-whisker plot). Stačiakampėje diagramoje yra “dėžutė” – stačiakampis, braižomas nuo apatinio kvartilio Q1 iki viršutinio kvartilio Q3. Stačiakampio viduryje kvadratėliu ar brūkšniu pažymima mediana. Kartais diagramoje pliusu pažymimas ir vidurkis. Nuo stačiakampio šono brėžiami “ūsai” – į viršų iki maksimalios ir į apačią iki minimalios reikšmės. Stačiakampės diagramos “dėžutės” didumas charakterizuoja kintamojo išsibarstymą. Atstumai nuo “ūsų” galo iki medianos charakterizuoja asimetriją. Jei viršutinis “ūsas” daug ilgesnis už apatinį, kintamojo pasiskirstymas turi dešiniąją asimetriją, jei trumpesnis – kairiąją. Jei “ūsai” daug ilgesni nei “dėžutės” dydis, galima įtarti imtyje esant besiskiriančias reikšmes. Stačiakampės diagramos leidžia palyginti keleto kintamųjų, matuotų tais pačiais vienetais, ar to paties kintamojo kelių imčių duomenis.
Norint nubraižyti stačiakampę diagramą meniu juostoje reikia pasirinkti Graphs → Boxplot. Atsiradus langui Boxplot pažymima Simple ir Summaries of separate variables.
17
Gautas grafikas pateikiamas Pav. 1.2.
Imtis
150.00
100.00
50.00
0.00
98.00
42
117
123
10
56
48
37Išskirtis
Sąlyginės išskirtys
Sąlyginės išskirtys
Mediana
Apatinis kvartilis
Viršutinis kvartilis
1,5*Kvartilinis plotis
1,5*Kvartilinis plotis
Pav. 1.2. Stačiakampė diagrama.
18
2 ATSITIKTINIAI DYDŽIAI, SKIRSTINIAI
2.1 PASISKIRSTYMO FUNKCIJA, TANKIS, KVANTILIAI
Pateiksime tikimybių teorijos sąvokas, kurios yra svarbios statistinėms išvadoms pagrįsti.
Atsitiktinis dydis – atsitiktinių įvykių skaitinė funkcija. Atsitiktinį dydį X pilnai charakterizuoja jo pasiskirstymo funkcija
F(x) = P{X ≤ x}. (2.)
Atsitiktinis dydis vadinamas diskrečiuoju, jeigu jis įgyja baigtinę arba suskaičiuojamą reikšmių aibę. Diskretusis atsitiktinis dydis X pilnai aprašomas įgyjamomis reikšmėmis xi ir jų įgijimo tikimybėmis pi:
X x1 x1 x1 ...
P p1 p1 p1 ...
Atsitiktinis dydis X vadinamas absoliučiai tolydžiuoju, jei jo patekimo į intervalą [a; b] tikimybė yra skaičiuojama pagal formulę
. (2.)
Čia funkcija p(x) yra neneigiamai apibrėžta ir vadinama atsitiktinio dydžio X tankiu. Toliau absoliučiai tolydžiuosius atsitiktinius dydžius vadinsime tiesiog tolydžiaisiais.
Atsitiktinio dydžio skirstinys – tai jos pasiskirstymo funkcijos arba įgyjamų tikimybių nustatymo dėsnis. Jei atsitiktinis dydis yra tolydusis, jo skirstinį vadinsime tolydžiuoju, o jei diskretusis – diskrečiuoju.
Kvantiliai. Sakykime, α yra skaičius tarp 0 ir 1, o X – atsitiktinis dydis. Atsitiktinio dydžio X α lygmens kvantiliu (α kvantiliu) vadinamas skaičius xα, tenkinantis nelygybę
P{X < xα} ≤ α ≤ P{X ≤ xα}. (2.)
Tolydžiojo atsitiktinio dydžio X kvantilis apibrėžiamas lygybe: P{X ≤ xα} = α. Tolydžiajam atsitiktiniam dydžiui X teisinga lygybė P{X > xα} = 1 – α. Toliau bus naudojami tik tolydžiųjų skirstinių kvantiliai. Kai kurių skirstinių kvantiliai pateikti lentelėse arba skaičiuoklėse statistinėmis funkcijomis.
19
2.2 NORMALUSIS SKIRSTINYS
Atsitiktinis dydis turi normalųjį skirstinį, jeigu jo tankis yra:
, (2.)
čia μ ir σ – normaliojo skirstinio parametrai. μ gali būti bet koks skaičius, o σ2 – gali būti tik teigiama. Jei atsitiktinis dydis X turi normalųjį skirstinį su parametrais (μ, σ2) (šis faktas žymimas X ~ N(μ, σ2)), tuomet jo vidurkis lygus μ, dispersija σ2, standartinis nuokrypis – σ. Normaliojo skirstinio tankis yra varpo formos, turi maksimumą taške μ, simetriškas taško μ atžvilgiu, o jo “plotis” priklauso nuo parametro σ (Pav. 2.3). Parametras σ charakterizuoja atsitiktinio dydžio išsibarstymą apie vidurkį. Kuo σ mažesnis, tuo (2.) kreivė labiau suspausta, o kuo σ didesnis, tuo tankis labiau išsiplėtęs (Pav. 2.3). Normaliojo skirstinio pasiskirstymo funkcija yra aprašoma lygybe:
. (2.)
Vidurkis, st.nuokrypis
0; 1
0; 2
0; 3
-15 -12 -9 -6 -3 0 3 6 9 12 15
0
0,1
0,2
0,3
0,4
Pav. 2.3. Normaliojo skirstinio tankio grafikas
Normalusis skirstinys dar vadinamas Gauso skirstiniu. Normaliajam skirstiniui teisinga trijų sigmų taisyklė:
patekimo į intervalą [μ – σ; μ + σ] tikimybė yra 0,68;
patekimo į intervalą [μ – 2σ; μ + 2σ] tikimybė yra 0,95;
patekimo į intervalą [μ – 3σ; μ + 3σ] tikimybė yra 0,995.
Atskirą normaliojo skirstinio atvejį, kai μ = 0, σ = 1, vadiname standartiniu normaliuoju skirstiniu. Jis žymimas X ~ N(0, 1). Standartinio normaliojo skirstinio tankis yra
20
, (2.)
o pasiskirstymo funkcija
. (2.)
Tankio φ(x) ir pasiskirstymo funkcijos Φ(x) reikšmės paprastai pateikiamos kiekvieno statistikos vadovėlio lentelėse ir skaičiuojamos duomenų apdorojimo paketuose. Užtenka žinoti šių funkcijų reikšmes tik teigiamam argumentui, kadangi tankis φ(x) simetrinis, o Φ(–x) = 1 – Φ(x). Standartinio normaliojo skirstinio α lygmens kvantilį žymėsime zα. Kadangi skirstinys simetriškai, todėl teisinga lygybė zα = –z1-α. Normaliojo skirstinio kvantiliai pateikti lentelėse ir skaičiuoklėse statistine funkcija.
2.3 SKIRSTINIAI, SUSIJĘ SU NORMALIUOJU SKIRSTINIU
Toliau pateiksime atsitiktinių dydžių, sudarytų iš nepriklausomų standartinių normaliųjų dydžių tam tikrų funkcijų skirstinius. Šie skirstiniai sutinkami statistikoje tikrinant hipotezes.
2.3.1 χ2 skirstinys
Sakykime X1,X2,...,Xn – nepriklausomi standartinį normalųjį skirstinį turintys atsitiktiniai dydžiai. Tada atsitiktinis dydis
turi skirstinį su n laisvės laipsnių (Pav. 2.4). vidurkis lygus laisvės laipsnių skaičiui n, o
dispersija lygi 2n. χ2 skirstinio su n laisvės laipsnių α lygmens kvantilį žymėsime . skirstinio kvantiliai yra pateikiami lentelėse ir skaičiuoklėse statistine funkcija.
n
10
50
100
0 30 60 90 120 150 180
0
0,02
0,04
0,06
0,08
0,1
21
Pav. 2.4. χ2 skirstinio tankis.
2.3.2 Stjudento t skirstinys
Sakykime X,X1,X2,...,Xn – nepriklausomi standartinį normalųjį skirstinį turintys atsitiktiniai dydžiai. Tada atsitiktinis dydis
turi Stjudento arba t skirstinį su n laisvės laipsnių (Pav. 2.5). tn vidurkis lygus 0, o dispersija lygi . tn skirstinio α lygmens kvantilį žymėsime tα(n). t skirstinio kvantiliai yra pateikiami
lentelėse ir skaičiuoklėse statistine funkcija.
n
2
10
100
-8 -4 0 4 8
0
0,1
0,2
0,3
0,4
Pav. 2.5. Stjudento skirstinio tankis.
2.3.3 Fišerio skirstinys
Sakykime X1,X2,...,Xm,Y1,Y2,...,Yn – nepriklausomi standartinį normalųjį skirstinį turintys atsitiktiniai dydžiai. Tada atsitiktinis dydis
turi Fišerio skirstinį (F skirstinį) su m ir n laisvės laipsnių (Pav. 2.6). F skirstinio α lygmens kvantilį žymėsime Fα(m,n). F skirstinio kvantiliai yra pateikiami lentelėse ir skaičiuoklėse statistine funkcija.
22
m, n
5, 5
30, 30
100, 100
0 1 2 3 4 5
0
0,3
0,6
0,9
1,2
1,5
1,8
2,1
Pav. 2.6. Fišerio skirstinio tankis.
2.4 DISKREČIŲJŲ SKIRSTINIŲ PAVYZDŽIAI.
2.4.1 Binominis skirstinys
Sakykime atliekamas eksperimentas, kurio metu galimos tik dvi baigtys: “sėkmė” ir “nesėkmė”. Sėkmės tikimybė lygi p. Atliekame n nepriklausomų eksperimentų. Sėkmių skaičius yra atsitiktinis dydis ir vadinamas binominiu atsitiktiniu dydžiu. Binominio ats. d. X skirstinys priklauso nuo dviejų parametrų – p ir n. Tai žymima X ~ B(n,p). Tikimybė, kad binominis ats. d. įgis reikšmę, lygią k, yra
.
Binominio atsitiktinio dydžio vidurkis lygus np, o dispersija np(1 – p).
2.4.2 Puasono skirstinys
Šis skirstinys dar vadinamas retų įvykių skirstiniu. Puasono ats. d. X su parametru > 0 įgyja neneigiamas sveikas reikšmes su tikimybėmis (Pav. 2.7):
Puasono skirstinio vidurkis ir dispersija lygūs λ. Jei X nusako įvykių skaičių, tuomet – vidutinis įvykių skaičius.
23
5
10
20
0 10 20 30 40
0
0,03
0,06
0,09
0,12
0,15
0,18
Pav. 2.7. Puasono skirstinys.
24
3 PASIKLIAUTINIEJI INTERVALAI
3.1 PARAMETRŲ PASIKLIAUTINIEJI INTERVALAI
Apskaičiuotos atskiros imties charakteristikos nerodo šių charakteristikų įvertinimo tikslumo
bei jų patikimumo. Skirtumas tarp tikrųjų populiacijos ir turimų imties atitikmenų rodo
įvertinimo tikslumą. Tikimybė, jog šis skirtumas ne didesnis už fiksuotą tikslumą, yra įvertinimo
patikimumas. Statistinio įvertinimo tikslumą ir patikimumą nustato vadinamieji pasikliautinieji
intervalai (confidence intervals).
Jeigu turime imtį x1,x2,...,xn ir norime įvertinti populiacijos charakteristiką , tai šios
charakteristikos pasikliautinasis intervalas, esant patikimumui Q, yra
. (3.)
Čia Qvirš – Qap yra įvertinimo tikslumas, o šio įvykio tikimybė P – jo patikimumas. Patikimumas Q, dar vadinamas pasikliovimo lygmeniu (confidence level), rodo, kiek vidutiniškai kartų ieškomoji charakteristika patenka į nurodytą intervalą. Tradiciniai pasikliovimo lygmenys Q = 0,9; 0,95; 0,99. Kartais Q pateikiamas procentais. Nuo Q parinkimo priklauso pasikliovimo intervalų ilgis. Kuo Q artimesnis vienetui, tuo pasikliautinasis intervalas platesnis (Pav. 3.8).
Pav. 3.8. Pasikliautinieji intervalai su skirtingais pasikliovimo lygmenimis Q.
Matematinės statistikos metodais įrodoma, kad generalinės aibės, turinčios normalųjį
pasiskirstymą, pasikliautinasis vidurkio µ intervalas yra:
. (3.)
Q = 0,90
Q = 0,95
Q = 0,99
25
Dydis yra imties vidurkio vidutinis kvadratinis nuokrypis. Jis vadinamas šio vidurkio
vidutine kvadratine paklaida ir žymimas . Tada:
.
Koeficientas t yra Studento su n – 1 laisvės laipsnių kvantilis. Jis surandamas iš
Studento skirstinio lentelių ir priklauso nuo pasikliautinumo lygmens Q ir nuo laisvės laipsnių
skaičiaus f, kuris yra lygus n – 1. Pavyzdžiui, jeigu n = 20, Q = 0,99, tai t = 2,85.
Generalinės aibės, turinčios normalųjį pasiskirstymą, pasikliautinasis dispersijos
intervalas yra:
, (3.)
kur ir – skirstinio su n – 1 laisvės laipsnių lygmens kvantiliai,
.
Pavyzdyje Pavyzdys 1.2 pateiktiems duomenims SPSS pagalba paskaičiuosime populiacijos
vidurkio pasikliautinąjį intervalą. Meniu juostoje reikia pasirinkus Analyze → Descriptive
statistics → Explore atsiranda langas, kuriame pasirenkame norimą analizuoti kintamąjį.
Pastarajame lange pasirinkus Statistics reikia pažymėti Desriptives. Lauke Confidence Interval
for Mean galima pasirinkti pasikliautinojo intervalo ilgį.
Gauti rezultatai pateikiami tokioje rezultatų lentelėje.
Lentelė 3.5. Vidurkio pasikliautinasis intervalas.
26
Descriptives
65,6467 2,38007
60,9436
70,3497
64,4593
61,0000
849,707
29,14973
1,00
157,00
156,00
27,00
,799 ,198
,401 ,394
Mean
Lower Bound
Upper Bound
95% ConfidenceInterval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
pajamosStatistic Std. Error
Iš gautų rezultatų matyti, kad populiacijos vidurkio pasikliautinasis 95% intervalas yra
.
Žemiau lentelėje pateikiami parametrų pasikliautinieji intervalai priklausomai nuo skirstinio.
Lentelė 3.6. Pasikliautinieji intervalai
Skirstinys Pasikliautinasis intervalas
X~N(,2)
- nežinomas, 2- žinoma,
X~N(,2)
- žinomas, 2- nežinoma ,
X~N(,2)
- nežinomas, 2- nežinoma
,
,
X~P()
- nežinomas ,
3.2 IMTIES TŪRIO PARINKIMAS
Planuojant tyrimus, labai svarbu žinoti reikiamą minimalų tyrimų skaičių, kad būtų galima
gauti statistiškai patikimas išvadas. Šis skaičius (imties tūris) apskaičiuojamas, pasinaudojant
populiacijos charakteristikų pasikliautinaisiais intervalais.
Kaip jau žinoma, populiacijos pasikliautinasis vidurkio intervalas yra:
27
.
Tarkime, kad mus tenkina vidurkio įvertinimo tikslumas , t.y.
,
čia:
,
arba:
.
Čia n – stebėjimų skaičius (imties tūris), Q – pasikliautinumo lygmuo, z – normaliojo
skirstinio N(0,1) kvantilis, s2 – imties dispersija, – populiacijos vidurkio įvertinimo
tikslumas (numatyta maksimali (absoliutinė) paklaida).
Jeigu nagrinėjama populiacija yra baigtinė, t.y. turi N elementų, tai reikiamas minimalus
imties tūris apskaičiuojamas iš formulės:
.
Kai N pakankami didelis, pastaroji formulė sutampa su ankstesniąja.
28
4 HIPOTEZIŲ TIKRINIMAS
4.1 STATISTINĖS HIPOTEZĖS
Bet kokią prielaidą apie stebimojo atsitiktinio dydžio arba kelių atsitiktinių dydžių pasiskirstymą vadiname statistine hipoteze. Keletas statistinių hipotezių pavyzdžių:
1. Ligonių, sergančių liga X, cholesterolio kiekis kraujyje padidėjęs.
2. Kolegijose besimokančių mokinių skaičius yra lygus 26.
3. Studentų vidutinis semestro vidurkis yra 7.
Darant prielaidas, kad nagrinėjamo kintamojo skirstinys priklauso nuo nežinomų parametrų, dalis statistinių hipotezių perfrazuojamos į hipotezes apie kintamojo teorinio skirstinio parametrus. Priimdami ar atmesdami hipotezes yra remiamasi savo tyrimų duomenimis.
Darant prielaidas apie kintamojo skirstinį, hipotezes galima suvesti į hipotezes apie kintamojo skirstinio parametrus. Pavyzdžiui, individo cholesterolio kiekis priklauso nuo įvairių individo savybių – amžiaus, mitybos, biologinių savybių ir t.t. Todėl daroma prielaida, kad cholesterolio kiekis kraujyje – atsitiktinis dydis, turintis tam tikro pavidalo skirstinį su vidurkiu m. Tai yra cholesterolio kiekio (tiriamo kintamojo) statistinis modelis. Vidurkis m yra cholesterolio skirstinio parametras. Šiuo modeliu aiškinant cholesterolio svyravimus, hipotezė „susirgimas X padidina cholesterolio kiekį“ suprantama „ligonių, sergančių liga X, cholesterolio skirstinio vidurkis didesnis, nei sveikų ligonių cholesterolio skirstinio vidurkis“. Matematiškai šią hipotezę formuluojame: m > m0, kur m0 – cholesterolio kiekio norma. Jei hipotezė pasitvirtino, sakoma „sergančių liga X cholesterolio kiekis reikšmingai didesnis už normą“. Aprašant statistines išvadas, posakis „reikšmingai didesnis“ suprantamas kaip „kintamojo teorinio skirstinio vidurkis yra didesnis“. Frazė „vidurkis didesnis“ suprantama, kad yra didesnė paskaičiuota kintamojo imties vidurkio reikšmė, o neturima galvoje išvados apie kintamojo teorinio skirstinio vidurkių palyginimą.
Taip pat yra nagrinėjamos hipotezės, nesusietos su skirstinio parametrais. Tai hipotezės apie imties skirstinį (dažniausiai skirstinio normališkumą), dviejų ar daugiau imčių skirstinių vienodumą ar dviejų ar daugiau kintamųjų nepriklausomumą. Tokio tipo hipotezių pavyzdys gali būti: „kolegijose mokosi daugiau vaikinų nei merginų“.
4.2 NULINĖ HIPOTEZĖ IR ALTERNATYVA
Tikrinant statistines hipotezes apibrėžiama nulinė hipotezė bei jai alternatyvioji hipotezė.
H0 – nulinė hipotezė – hipotezė apie nežinomo parametro (kelių nežinomų parametrų) reikšmę arba skirstinį, kurią galima patvirtinti arba atmesti;
H1 – alternatyva (alternatyvioji hipotezė).
Keletas nulinės hipotezės ir alternatyviosios hipotezės apie parametro m reikšmes pavyzdžių:
(4.)
29
(4.)
(4.)
Alternatyvos ir yra vadinamos vienpusėmis, o alternatyva – vadinama dvipuse alternatyva.
4.3 HIPOTEZIŲ TIKRINIMAS
Hipotezių tikrinimui naudojami statistiniai kriterijai. Jie yra imties funkcijos. Priklausomai nuo statistinio kriterijaus reikšmės nulinę hipotezę priimame arba atmetame. Kriterijaus reikšmių, kurioms esant nulinę hipotezę atmetame, aibė vadinama kritine sritimi. Kritine sritimi gali būti aibės {t: t > C}, {t: t < C}, {t: |t| > C}. Taškas C, ribojantis atmetimo sritį, vadinamas kritine reikšme.
Tikrinant hipotezes galima padaryti dviejų rūšių klaidas. Galima atmesti hipotezę, nors ji yra teisinga. Tokia klaida vadinama I rūšies klaida. Šios klaidos tikimybė žymima α. Taip pat galima priimti hipotezę, nors ji iš tikrųjų yra klaidinga. Tai II rūšies klaida. II rūšies klaidos tikimybė žymima β. Statistinio kriterijaus taikymo rezultatai pateikti Lentelė 4.7.
Lentelė 4.7. Statistinio kriterijaus taikymo rezultatai
H0 teisinga H0 klaidinga
atmetame H0 I rūšies klaida teisingas sprendimas
neatmetame H0 teisingas sprendimas II rūšies klaida
Statistinis kriterijus tuo geresnis, kuo mažesnės abiejų rūšių klaidų tikimybės. Praktiškai neįmanoma sudaryti kriterijaus, kad abiejų rūšių klaidų tikimybės būtų lygios nuliui. Todėl dažniausiai parenkamas mažas teigiamas skaičius α ir nagrinėjami tik tokie statistiniai kriterijai, kurių I rūšies klaidos tikimybė lygi α. α skaitinės reikšmės gali būti 0,1; 0,5; 0,01. Dažniausiai naudojama α = 0,05. Tikimybė α vadinama reikšmingumo lygmeniu (significance level).
Statistiniai kriterijai (Tn) sudaromi taip, kad esant teisingai nulinei hipotezei, turėtų žinomą skirstinį (standartinį normalųjį, , Stjudento, Fišerio), nepriklausantį nuo kintamojo skirstinio charakteristikų (nebent tik nuo imties tūrio n), be to II rūšies klaidos tikimybė būtų minimali esant fiksuotam reikšmingumo lygmeniui α (I rūšies klaidos tikimybei).
Tikrinant hipotezes statistinių paketų pagalba, skaičiuojamos statistinio kriterijaus Tn konkreti reikšmė tn ir jos vienpusės (one-sided) ar dvipusės (two-sided, 2-tailed) p reikšmės. p reikšmės apibrėžiamos tokiu būdu:
30
(4.)
Jei statistinis kriterijus, esant teisingai nulinei hipotezei turi χ2 arba Fišerio skirstinį, skaičiuojamos tik vienpusės p reikšmės p = P{Tn ≥ tn |H0}. Standartinio normaliojo ar Stjudento skirstinio atveju skaičiuojamos tiek vienpusės, tiek dvipusės p reikšmės.
Jei statistinio kriterijaus p reikšmė mažesnė nei reikšmingumo lygmuo α, tuomet statistinio kriterijaus reikšmė patenka į atmetimo sritį. Tokiu atveju nulinę hipotezę atmetame ir priimame alternatyvą, priešingu atveju nulinei hipotezei neprieštaraujame.
4.4 HIPOTEZĖS APIE NORMALIOJO SKIRSTINIO VIDURKĮ TIKRINIMAS
Tarkime, kad mūsų nagrinėjamas kintamasis turi normalųjį skirstinį su nežinomais parametrais – vidurkiu ir dispersija. Tikrinama hipotezė apie vidurkio lygybę skaičiui. Šios hipotezės tikrinimui naudojamas kriterijus remiasi prielaida, kad kintamojo skirstinys normalusis.
t kriterijus vienai imčiai (one sample t – test). Sakykime, tikriname nulinę hipotezę H0: µ = m0 (tiriamo kintamojo skirstinio vidurkis µ lygus konkrečiam skaičiui m0; pvz. „studentų semestro vidurkis lygus 7,2“). Alternatyvos šiai nulinei hipotezei gali būti H1: µ > m0 ; H1: µ < m0; H1: µ ≠ m0. H0 tikrinimui naudojamas t kriterijus
. (4.)
Esant teisingai nulinei hipotezei, kriterijus t turi Stjudento skirstinį su (n – 1) laisvės laipsniu. Priklausomai nuo naudojamos alternatyvos, yra skirtingos kritinės sritys (Lentelė 4.8).
Lentelė 4.8. Nulinės hipotezės priėmimo ir atmetimo sritys.
Alternatyva H1 H0 atmetama, jeigu H0 neatmetama, jeigu
m0 |t| > t/2 (n1) |t| ≤ t/2 (n1)
> m0 t > t (n1) t ≤ t (n1)
< m0 t < t (n1) t ≥ t (n1)
Statistiniuose paketuose pateikiama t kriterijaus dvipusė p reikšmė. Kaip jau minėta, jei p reikšmė mažesnė už pasirinktą reikšmingumo lygmenį, H0 atmetame ir laikome, kad yra teisinga dvipusė alternatyva. Tikrinant H0 su vienpuse alternatyva, H0 atmetame, jei p/2 mažesnė už parinką reikšmingumo lygmenį α.
31
Pavyzdys 4.4. Turime 1989 m. JAV namų ūkių duomenis (Pavyzdys 1.2). SPSS programos
pagalba patikrinsime hipotezę, kad „1989 m. namų ūkių vidutinės pajamos buvo 80 tūkst.
dolerių“. Alternatyvioji hipotezė – vidutinės namų ūkių pajamos nėra lygios 80 tūkst. dolerių
Meniu juostoje pasirenkame Analyze → Compare Means → One–Sample T Test...
Paskui pasirenkame kintamąjį Pajamos, lauke Test Value įvedame 80 ir spaudžiame OK.
Gauti rezultatai pateikiami tokiose lentelėse
Lentelė 4.9. Kintamojo pajamos aprašomosios statistikos.
32
One-Sample Statistics
150 65,6467 29,14973 2,38007pajamosN Mean Std. Deviation
Std. ErrorMean
Lentelė 4.10. Nulinės hipotezės tikrinimo rezultatai.
One-Sample Test
-6,031 149 ,000 -14,35333 -19,0564 -9,6503pajamost df Sig. (2-tailed)
MeanDifference Lower Upper
95% ConfidenceInterval of the
Difference
Test Value = 80
Lauke t yra pateikiama t statistika, kuri lygi –6,301. Lauke Sig. (2–tailed) pateikiama gauta p reikšmė, kuri lygi 0. Kadangi p = 0 < 0,05 = α, tai nulinė hipotezė „1989 m. namų ūkių vidutinės pajamos buvo 80 tūkst. dolerių“ yra atmetama. Tai reiškia, kad 1989 m. JAV namų ūkių vidutinės pajamos nebuvo lygios 80 tūkst. dolerių.
4.5 DVIEJŲ POPULIACIJŲ VIDURKIŲ PALYGINIMAS
Dažnai yra būtinybė palyginti dviejų populiacijų vidurkius. Tokios situacijos pavyzdžiai gali būti tokie: „vaikinų ir merginų semestro vidurkiai yra lygūs“, „išlaidos buities ir maisto prekėms yra lygios kitoms išlaidoms“ ir pan. Laikant kad tiriamo kintamojo skirstiniai abiejose populiacijose yra normalieji, populiacijų palyginimas suvedamas į atitinkamo kintamojo vidurkių palyginimą. Dviejų normalųjį skirstinį turinčių populiacijų kintamųjų vidurkiams palyginti naudojamas nepriklausomų imčių Stjudento t kriterijus (t-test for independent samples).
Sakykime, norima palyginti dviejų populiacijų X ir Y kintamojo, turinčio normalųjį skirstinį, vidurkius µX ir μY. Šiam tikslui suformuluojama nulinė hipotezė: H0: µX = µY su vienpuse ar dvipuse alternatyva.
Nulinės hipotezės tikrinimui naudosime dviejų imčių duomenis: imties iš X populiacijos x1,x2,...,xn ir imties iš Y populiacijos y1,y2,...,ym. Kaip jau minėta, kintamojo skirstinys X ir Y populiacijose normalusis su vidurkiu µX ir µY atitinkamai. Kriterijus H0 hipotezės tikrinimui priklausys nuo to, ar populiacijų dispersijos lygios, ar ne.
4.5.1 Populiacijų dispersijos lygios
Tarkime, X ~ N(µX,σ2), Y ~ N(µY,σ2) (Dispersijos nežinomos, bet lygios). Tuomet hipotezės apie vidurkių lygybę tikrinimui naudojamas t kriterijus:
, (4.)
33
kur ir – imčių vidurkiai, – apjungta dispersija: , ir
– imčių dispersijos, n ir m – imčių didumai. Jei teisinga nulinė hipotezė, tuomet kriterijus t turi Stjudento skirstinį su (n + m – 2) laisvės laipsnių. Nulinės hipotezės kritinės sritys bei sprendinio priėmimas remiantis t kriterijumi pateiktos lentelėje Lentelė 4.11.
Lentelė 4.11. Nulinės hipotezės priėmimo ir atmetimo sritys.
Alternatyva H1 H0 atmetama, jeigu H0 neatmetama, jeigu
X Y |t| > t/2 (n+m2) |t| ≤ t/2 (n+m2)
X > Y t > t (n+m2) t ≤ t (n+m2)
X < Y t < t (n+m2) t ≥ t (n+m2)
4.5.2 Populiacijų dispersijos nelygios:
Tarkime, X ~ N(µX, ), Y ~ N(µY, ) (Dispersijos nežinomos ir nelygios). Tuomet hipotezės apie vidurkių lygybę tikrinimui naudojamas toks t kriterijus:
, (4.)
kur ir – imčių vidurkiai, ir – imčių dispersijos, n ir m – imčių didumai. Jei teisinga nulinė hipotezė, tuomet t skirstinys yra Stjudento su k laisvės laipsnių. k yra mažiausias sveikas skaičius, tenkinantis nelygybę: k ≤ ( .Nulinės hipotezės kritinės sritys bei sprendinio priėmimas remiantis t kriterijumi pateiktos lentelėje
Lentelė 4.12. Nulinės hipotezės priėmimo ir atmetimo sritys.
Alternatyva H1 H0 atmetama, jeigu H0 neatmetama, jeigu
X Y |t| > t/2 (k) |t| ≤ t/2 (k)
X > Y t > t (k) t ≤ t (k)
X < Y t < t (k) t ≥ t (k)
4.5.3 Nepriklausomų imčių taikymas SPSS programa
Norint patikrinti dviejų populiacijų vidurkius, reikia meniu juostoje pasirinkti Analyze →
Compare Means → Independen–Samples T Test
34
Pasirodžius Independen–Samples T Test langui lauke Test Variable įvedami
analizuojamą kintamąjį, kuris apima abi populiacijas. Lauke Grouping Variable kintamąjį,
kuris parodo kuriai imčiai yra priskiriama kiekviena analizuojamojo kintamojo reikšmė.
Gauti rezultatai pateikiami tokiomis dvejomis lentelėmis. Pirmoje lentelėje yra pateikiamos
kiekvienos iš imčių pagrindinės charakteristikos. Antroje lentelėje pateikiamas hipotezės apie
populiacijos vidurkių lygybę tikrinimas dviem atvejais – kai dispersijos lygios (1 eilutė) ir kai
dispersijos nelygios (2 eilutė). Šiuo atveju abi hipotezės apie populiacijų vidurkių lygybę yra
atmetamos, nes gautos p reikšmės yra mažesnės už 0,05.
Lentelė 4.13. Grupių pagrindinės aprašomosios statistikos.
35
Group Statistics
150 24,9921 6,16753 ,50358
150 33,0740 7,57646 ,61862
grupe1,00
2,00
islaidosN Mean Std. Deviation
Std. ErrorMean
Lentelė 4.14. Nulinės hipotezės tikrinimo rezultatai.
Independent Samples Test
1,392 ,239 -10,132 298 ,000 -8,08193 ,79767 -9,65171 -6,51216
-10,132 286,218 ,000 -8,08193 ,79767 -9,65197 -6,51189
Equal variancesassumed
Equal variancesnot assumed
islaidosF Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
36
5 KORELIACINĖ IR REGRESINĖ ANALIZĖ
Realiame pasaulyje daugelis reiškinių yra tarpusavyje susiję, todėl yra nustatinėjamos vieno reiškinio priklausomybės formos nuo kito. Tačiau dažnai negalima vienareikšmiškai nusakyti tarp jų egzistuojančių ryšių, kadangi paprastai vieną požymį veikia ne vienas, o keletas faktorių, pavyzdžiui, žmogaus išlaidos maistui priklauso ne tik nuo maisto kainų, bet ir nuo jo pajamų, šeimos dydžio, gyvenamos vietos ir pan. Vienodai maistui išleidžiantys asmenys gali gauti labai skirtingus darbo užmokesčius. Tokio pobūdžio ryšiai yra vadinami tikimybiniais. Praktikoje labai svarbu yra mokėti jį įvertinti. Pati paprasčiausia kiekybinė ryšio charakteristika yra koreliacijos koeficientas (coefficient of correlation). Jis yra žymimas raide ir įgyja reikšmes iš intervalo [–1; 1]. Jei koreliacijos koeficientas lygus nuliui, tai reiškia, kad nėra jokio ryšio tarp nagrinėjamų požymių. Jeigu koreliacijos koeficientas yra lygus 1, tai reiškia kad nagrinėjamų požymių egzistuoja teigiama (neigiama) tiesinė funkcinė priklausomybė.
5.1 KIEKYBINIŲ KINTAMŲJŲ TARPUSAVIO PRIKLAUSOMYBĖS ANALIZĖ
Tarkime, kad turime du kiekybinis dydžius X ir Y. Ir mums reikia nustatyti, ar šie dydžiai susiję, ar ne. Išmatuojame n kartų šiuos kintamuosius. Tarkime, kad matavimo rezultatai yra skaičių poros (x1, y1), (x2, y2),...,(xn, yn). Tada imties koreliacijos koeficientas r, dar vadinamas Pirsono koreliacijos koeficientu, yra skaičiuojamas pagal formulę
. (5.)
Reikia pažymėti, kad Pirsono koreliacijos koeficientas parodo tik tiesinio ryšio stiprumą.
Taip pat kintamųjų tiesinei priklausomybei vertinti dar naudojami Spirmeno ir Kendalo koreliacijos koeficientai. Skirtingai nei Pirsono koreliacijos koeficientas, Spirmeno ir Kendalo koreliacijos koeficientai skaičiuojami naudojant ne išmatuotas kintamųjų reikšmes, bet jų rangus – eilės numerį variacinėje eilutėje. Todėl Spirmeno ir Kendalo koreliacijos koeficientai vadinami ranginiais. Kurį koreliacijos koeficientą panaudoti sprendžiama remiantis turimu kintamųjų modeliu.
Sakoma, kad tarp kintamųjų yra:
labai silpnas ryšys, jei |r| ≤ 0,3;
silpnas ryšys, jei –0,5 < r ≤ –0,3 arba 0,3 < r ≤ 0,5;
vidutinio stiprumo ryšys, jei –0,7 < r ≤ –0,5 arba 0,5 < r ≤ 0,7;
stiprus ryšys, jei –0,9 < r ≤ –0,7 arba 0,7 < r ≤ 0,9;
labai stiprus ryšys, jei –1,0 < r ≤ –0,9 arba 0,9 < r ≤ 1,0.
Ryšio tarp kintamųjų glaudumo matui naudojamas ir koreliacijos koeficiento kvadratas r2, dar vadinamas determinacijos koeficientu. Kaip jau minėjome, koreliacijos koeficientams skaičiuoti naudojamos imties reikšmės – atsitiktinių dydžių realizacijos. Todėl koreliacijos koeficientai yra
37
atsitiktiniai dydžiai, turintys tam tikrą skirstinį, ir remiantis vien koreliacijos koeficiento reikšme negalime daryti išvadų apie kintamųjų tarpusavio priklausomybę. Turint nedaug kintamųjų matavimų, pavyzdžiui, 3 ar 4, didelė tikimybė, kad jie plokštumoje išsidėstys arti tiesės.
Galima tvirtinti, kad kintamieji X ir Y yra tiesiškai priklausomi, jei koreliacijos koeficientas tarp jų reikšmingai skirsis nuo nulio. Todėl būtina patikrinti nulinę hipotezę H0: = 0 su viena iš alternatyvų: vienpusėmis H1: > 0 arba H1: < 0; arba dvipuse H1: ≠ 0. Vienpusė alternatyva H1: > 0 apibūdinama taip: „tarp kintamųjų yra reikšminga teigiama koreliacija“. Vienpusė alternatyva H1: < 0 apibūdinama taip: „tarp kintamųjų yra reikšminga neigiama koreliacija“. Dvipusė alternatyva apibūdinama taip: „koreliacijos koeficientas reikšmingai skiriasi nuo nulio“ arba „tarp kintamųjų yra reikšminga koreliacija“.
Hipotezei H0 tikrinti sudaromi atitinkami statistiniai kriterijai, priklausantys nuo paskaičiuoto koreliacijos koeficiento r ir nuo tirtų individų skaičiaus n. Koreliacijos koeficientus galima paskaičiuoti statistinio paketo SPSS pagalba. Kaip ir visų statistinių hipotezių tikrinimo atveju, pakete pateikiama kriterijaus reikšmė bei jo atitinkama dvipusė p reikšmė. Priklausomai nuo šios p reikšmės hipotezę apie koreliacijos koeficiento lygybę nuliui atmetame arba jai neprieštaraujame. Jei nulinę hipotezę atmetame, sakoma, kad „tarp kintamųjų X ir Y yra reikšminga koreliacija“.
Hipotezė apie Pirsono koeficiento r lygybę nuliui (H0: r = 0) tikrinama naudojant t kriterijų:
. (5.)
Jeigu teisinga nulinė hipotezė, kad = 0, tai t turi asimptotinį Stjudento skirstinį su (n – 2) laisvės laipsnių. SPSS pakete pateikiama koreliacijos koeficiento reikšmė ir t kriterijaus dvipusė p reikšmė (Pavyzdys 5.5). H0 priėmimo ar atmetimo taisyklė su pasirinktu reikšmingumo lygmeniu α priklausomai nuo alternatyvos yra pateikiama pateikta Lentelė 5.15.
Lentelė 5.15. Sprendinio apie koreliacijos koeficiento lygybę nuliui priėmimas.
Alternatyva H1 H0 atmetama, jeigu H0 neatmetama, jeigu
0 |t| > t/2 (n2) |t| ≤ t/2 (n2)
> 0 t > t (n2) t ≤ t (n2)
< 0 t < t (n2) t ≥ t (n2)
Pavyzdys 5.5. Turime 1989 m. JAV namų ūkių metinių pajamas (tūkst. dolerių), išlaidų
buičiai ir maistui procentą bendrose išlaidose ir kitų išlaidų procentą bendrose išlaidose.
Paskaičiuosime Pirsono, Kendalo ir Spirmeno koreliacijos koeficientus tarp šių faktorių,
įvertinsime koreliacijos koeficientų reikšmingumą.
Pradžioje SPSS programoje pasirenkame programų juostoje Analyze → Correlate →
Bivariate.
38
Toliau pasirinkę norimus analizuoti kintamuosius pažymime norimus paskaičiuoti koreliacijos
koeficientus: Pearson, Kendall‘s tau-b ir Spearmen. Norėdami tikrinti dvipusę alternatyvą
pažymime punktą Two-tailed.
Gauti rezultatai pateikiami tokiose lentelėse. Lentelė 5.16 pateikia paskaičiuotus Pirsono
koreliacijos koeficientus tarp visų tiriamų kintamųjų ir šių koreliacijų reikšmingumą.
39
Lentelė 5.16. Pirsono koreliacijos koeficientai.
Correlations
1 ,461** -,196*
,000 ,016
150 150 150
,461** 1 -,090
,000 ,272
150 150 150
-,196* -,090 1
,016 ,272
150 150 150
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
islaidos_buiciai_proc
islaidos_ne_buiciai_proc
pajamos
islaidos_buiciai_proc
islaidos_ne_buiciai_proc pajamos
Correlation is significant at the 0.01 level (2-tailed).**.
Correlation is significant at the 0.05 level (2-tailed).*.
Pavyzdžiui, koreliacija tarp pajamos ir išlaidų buityje yra –0,196. Tai yra labai silpna
neigiama koreliacija, tačiau reikšmingai skiriasi nuo nulio, kadangi gauta p-reikšmė yra mažesnė
už 0,05 ir mes galime atmesti nulinę hipotezę apie koreliacinio ryšio nebuvimą.
Tuo tarpu Lentelė 5.17 pateikia paskaičiuotus Kendalo ir Spirmeno koreliacijos koeficientus
tarp išranguotų duomenų. Kaip matyti iš lentelės, koreliacijos tarp pajamų ir kitų išlaidų abiem
atvejais yra lygios nuliui, nes atitinkamai gautos p-reikšmės yra pakankami didelės.
Lentelė 5.17. Kendalo ir Spirmeno koreliacijos koeficientai.
Correlations
1,000 ,280** -,169**
. ,000 ,003
150 150 150
,280** 1,000 -,038
,000 . ,501
150 150 150
-,169** -,038 1,000
,003 ,501 .
150 150 150
1,000 ,377** -,246**
. ,000 ,002
150 150 150
,377** 1,000 -,051
,000 . ,536
150 150 150
-,246** -,051 1,000
,002 ,536 .
150 150 150
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
islaidos_buiciai_proc
islaidos_ne_buiciai_proc
pajamos
islaidos_buiciai_proc
islaidos_ne_buiciai_proc
pajamos
Kendall's tau_b
Spearman's rho
islaidos_buiciai_proc
islaidos_ne_buiciai_proc pajamos
Correlation is significant at the 0.01 level (2-tailed).**.
40
5.2 KIEKYBINIŲ KINTAMŲJŲ REGRESINĖ ANALIZĖ
Dažniausiai ne visada užtenka žinoti, koks yra ryšys tarp dviejų nagrinėjamų požymių, kadangi koreliacijos koeficientas parodo tik tiesinio ryšio stiprumą, bet neparodo šio ryšio pobūdžio. Todėl dažnai duomenų analizė yra papildoma regresine analize, kurios pagrindinis tikslas – nustatyti statistinį modelį, kurio pagalba vieno kintamojo reikšmes galima būtų prognozuoti kito kintamojo reikšmes.
Tarkime, turime du intervalinius kintamuosius X ir Y. Tada bendriausias tiesinis tikimybinis modelis, siejantis dydžius X ir Y, atrodo taip:
Y = A + BX + e, (5.)
Čia a ir b yra nežinomos konstantos, e – atsitiktinė paklaida. Dažniausia atsitiktinės paklaidos
atsiradimo priežastis yra matavimo paklaidos. Pavyzdžiui, šeimos išlaidų maistui duomenys
sudaromi apklausų dalyviams užpildant anketas, kurios, kaip manoma, pildomos kiekvieną
dieną. Aišku, čia gali būti tam tikrų paklaidų, kadangi anketos gali būti pildomos ne kiekvieną
dieną, o, tarkim, tik kartą per mėnesį..
Šalia tiesinės regresijos dažnai dar yra nagrinėjamos ir netiesinės regresijos modeliai. Keletas pavyzdžių:
1. (lygiašakė hiperbolė);
2. (laipsninė priklausomybė);
3. (rodiklinė priklausomybė);
4. (eksponentinė priklausomybė).
Turint regresinį modelį, svarbiausias uždavinys yra įvertinti modelio parametrus a ir b.
Parametrų A ir B įverčiai a ir b turi būti parinkti taip, kad funkcijos reikšmės
taškuose xi būtų kiek galima arčiau yi reikšmių.
Tegul mūsų intervaliniai kintamieji yra (x1,y1), (x2,y2),...,(xn,yn). Įverčiai a ir b randami
mažiausiųjų kvadratų metodo (MKM) pagalba minimizuojant
SSE = . (5.)
Pradžioje paskaičiuojamos dalinės išvestinės
41
Iš pastarosios lygčių sistemos gauname
Taigi, SSE sumą minimizuoja
(5.)
Tuo būdu, ieškoma regresijos tiesės lygtis yra tokio pavidalo:
. (5.)
Nagrinėjamų kintamųjų tarpusavio priklausomybės stiprumą regresinėje analizėje matuoja
determinacijos koeficientas. Kiekvieną skirtumą yi ir galima išskaidyti tokiu būdu:
, (5.)
kur yra itoji liekamoji paklaida ir yra randama iš lygybės:
42
Pakėlę ... lygybės abi puse kvadratu, susumavę ir atlikę keletą aritmetinių veiksmų, gauname
tokią lygybę:
, (5.)
arba
SST = SSE + SSR,
kur SST visa nuokrypių kvadratų suma, SSE liekamųjų paklaidų nuokrypių kvadratų suma,
SSR regresijos nuokrypių kvadratų suma. Determinacijos koeficientu yra vadinamas santykis
, (5.)
kurį galima būtų interpretuoti taip:
.
Kartais naudojamas pataisytasis determinacijos koeficientas (adjusted R Square), kuris
leidžia atsižvelgti į imties didumą ir nepriklausomų kintamųjų skaičių (todėl jis svarbesnis
daugialypėje regresinėje analizėje). Jis tiesiogiai susijęs su determinacijos koeficientu ir
paskaičiuojamas iš lygybės:
.
43
Praktikoje dažniausiai reikalaujama, kad determinacijos koeficientas būtų nemažesnis už 0,25, nes kitaip labai abejotina, ar tiesinės regresijos modelis yra tinkamas.
Pavyzdys 5.6. Ištirkime priklausomybę tarp pajamų ir išlaidų maisto ir buities prekėms. Kaip
nepriklausomą kintamąjį (x) imkime pajamas, o priklausomą (y) – išlaidas.
Pradžioje meniu juostoje pasirenkame Analyze → Regression → Linear.
Atsiradus langui Linear Regression lauke Dependent įkeliame kintamąjį, kurį laikysime priklausomu kintamuoju, o lauke Indenpendent kintamąjį, kurį laikysime nepriklausomu kintamuoju. Lauke Method galima pasirinkti regresinės analizės vertinimo metodą. Kadangi regresija susideda tik iš dviejų kintamųjų, tai pasirenkame Enter. Kiti metodai daugiau taikytini daugialypėje regresijoje.
44
Pasirinkus lauką Statistics, galima paskaičiuoti įvairias charakteristikas.
Estimates - regresijos koeficientai
Confidence intervals - pasikliautinieji intervalai
Covariance matrix - kovariacinės ir koreliacinės matricų skaičiavimai
Model fit – determinacijos koeficientai, ANOVA lentelėje atvaizduojamos kvadratų sumos,
vidurkių kvadratai, patikrinamos hipotezės pasinaudojant F-kriterijumi ir kt.
Descriptives – aprašomosios statistikos: vidurkiai, standartiniai nuokrypiai, koreliacinės
matricos ir kt.
45
Part and partial correlations – dalinės koreliacijos koeficientų skaičiavimas, t – testas ir kt.
Colinearity diagnostics – tikrina multikolinearumą
Gauti regresijos rezultatai atrodo taip:
Lentelė 5.18. Koreliacijos ir determinacijos koeficientai.
Model Summaryb
,196a ,039 ,032 6,06800 1,939Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Durbin-Watson
Predictors: (Constant), pajamosa.
Dependent Variable: islaidos_buiciai_procb.
Iš pastarosios lentelės gauname koreliacijos koeficientą (R), determinacijos koeficientą (R
Square), pataisytą determinacijos koeficientą (Adjusted R Square). Kaip matyti, šie koeficientai
yra pakankami maži, todėl galima spręsti, kad koreliacija tarp kintamųjų yra labai silpna.
Lentelė 5.19. Dispersinės analizės rezultatai.
ANOVAb
218,257 1 218,257 5,928 ,016a
5449,460 148 36,821
5667,717 149
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), pajamosa.
Dependent Variable: islaidos_buiciai_procb.
Pastaroji lentelė rodo, kad priklausomas kintamasis yra išlaidos maisto ir buities prekėms
(po lentele b punktas), o nepriklausomas – pajamos (a punktas). Stulpelyje Sum of Squares
pateiktos nuokrypių sumos SSR, SSE ir SST. Stulpeliuose F (F statistika) ir Sig. (p reikšmė)
pateiktos hipotezės, kad visi regresijos parametrai yra lygūs nuliui (labiau taikytina daugialypėje
regresijoje). Kadangi gauta p reikšmė mažesnė už 0,05, tai atmetame nulinę hipotezę ir sakome,
kad bent vienas iš koeficientų nelygus nuliui.
Lentelė 5.20. Regresijos rezultatai.
46
Coefficientsa
27,718 1,224 22,641 ,000
-4,2E-002 ,017 -,196 -2,435 ,016
(Constant)
pajamos
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: islaidos_buiciai_proca.
Pastarojoje lentelėje pateikti regresinės analizės rezultatai. Stulpelyje B pateikti gauti parametrų
A ir B įverčiai. Stulpeliuose t ir Sig. pateiktas hipotezių apie atitinkamų parametrų lygybę nuliui
tikrinimas: t statistika ir p–reikšmė. Kadangi gautos p reikšmė mažesnės už 0,05, tai atmetame
nulines hipotezes ir sakome, kad abu koeficientai atskirai yra nelygūs nuliui. Vadinasi, jie yra
statistiškai reikšmingi.
47
6 LITERATŪRA
1. V.Čekanavičius, G.Murauskas. Statistika ir jos taikymai. I. Vilnius: TEV, 2000. 240 p.
2. V.Čekanavičius, G.Murauskas. Statistika ir jos taikymai. II. Vilnius: TEV, 2002. 272 p.
3. D.C.Montgomery, G.C.Runger, N.F.Hubele. Engineering statistics. 3rd edition. ISBN:0-
471-44854-0,©2004, 480 pages.
48
7 PRIEDAI
7.1 HISTOGRAMOS REDAGAVIMAS
1. Norint redaguoti histogramą, reikia du kartus spustelėti paveiksliuką
2. Pažymėjus histogramos stulpelius, galima pasirinkti histogramos parametrus
49
3.
Meniu Histogram Options galimi tokie pasirinkimai:
Display normal curve – braižoma normalioji kreivė;
Anchor First Bin – Pirmojo grupavimo intervalo apatinis rėžis:
Automatic – Automatiškai parenkamas programos,
Custom value for anchor: – laisvai pasirenkamas apatinis rėžis,
Bin Sizes – Grupavimo intervalai:
Automatic – Automatiškai parenkamas programos,
Custom – Pasirinkimai:
Number of intervals – Nurodoma į kiek intervalų sugrupuoti duomenis,
Intervals width – Nurodomas intervalų plotis
50
7.2 APRAŠOMŲJŲ STATISTIKŲ SKAIČIAVIMAS EXCEL SKAIČIUOKLE
1. Įsitikinkite, ar meniu punkte Tools yra punktas Data Analysis. Jeigu šio punkto nėra, vadinasi
duomenų analizės komponentas nėra įtrauktas į meniu. Tam kad jį įtrauktume reikia pasirinkiti
meniu punktą Tools/Add-ins... ir pažymėti Analysis ToolPak ir paspausti OK – dabar Data
Analysis punktas bus įrauktas į Jūsų Excel programos Tools meniu.
2. Duomenų padėties ir sklaidos charakteristikas skaičiuojame Tools → Data Analysis lange
pasirenkant punktą Descriptive Statistics (aprašomosios statistikos). Naujame lange matome
nemažai punktų, kuriuos galime pasirinkti analizei.
Pateikiame kiekvieno punkto paaiškinimą:
Input Range – nurodoma duomenų sritis, kuriai bus taikomi skaičiavimai;
The Grouped by – kompiuteriui nurodome kaip yra pateikiami duomenys: stulpeliu ar eilute;
Labels in First Row – pažymime, jeigu failo pirmoje eilutėje yra stulpelių pavadinimai;
Summary statistics – pažymėjus šį laukelį, parinktiems duomenims bus paskaičiuotos aprašomosios statistikos;
Parinkus visus norimus punktus, spaudžiate OK ir rezultatai bus įrašyti parinktoje vietoje.
3. Prieš braižant histogramą reikia atlikti keletą papildomų skaičiavimų.
51
a) nustatyti grupavimo intervalų skaičių: k = ROUND( 1 + 3,222·lg (n); 0 ) ( n – imties tūris);
b) apskaičiuoti grupavimo intervalo plotį: = ROUNDUP( (Max – Min) / k; 2 );
c) surasti grupavimo intervalų kraštinius taškus: c0 = ROUNDDOWN( Min; 2 ); c1 = c0 + ; c2 = c1 + ; ...; ck = ck-1 + ( ck turi būti didesnis už Max).
4. Duomenų histograma yra braižoma Tools → Data Analysis lange pasirinkus punktą
Histogram. Naujame lange matome nemažai punktų, kuriuos galime pasirinkti analizei.
Pateikiame kiekvieno punkto paaiškinimą:
Input Range – duomenų intervalas Excel lentelėje;
Bin Range – histogramos intervalų rėžių ląstelės Excel lentelėje. Šis laukas nėra privalomas: Excel paskaičiuos intervalus pats, jeigu jie nėra nurodyti. Tačiau rezultatai bus tikslesni, jeigu patys nurodysite intervalų galus, kurių pavyzdys pateiktas B stulpelyje;
Output range – nurodoma vieta esamame lape, kur įrašyti rezultatus;
Pareto (sorted histogram) – pažymėjus šią opciją histogramos intervalai būtų surūšiuoti pagal į juos duomenų skaičių (mums nereikia);
Cumulative percentage – brėžia sukauptų dažnių kreivę (t.y. pasiskirstymo funkciją);
Chart Output – brėžia histogramą.
Parinkus visus norimus punktus, spaudžiate OK ir rezultatai bus įrašyti parinktoje vietoje.
52
7.3 PASIKLIAUTINŲJŲ INTERVALŲ IR HIPOTEZIŲ TIKRINIMAS EXCEL SKAIČIUOKLE
1. Vidurkio pasikliautinąjį intervalą skaičiuojame Tools → Data Analysis lange pasirinkus
punktą Descriptive Statistics ir pažymėjus Confidence Level for Mean.
Parinkus visus norimus punktus, spaudžiate OK ir rezultatai bus įrašyti parinktoje vietoje.
2. Hipotezių tikrinimas atliekamas Tools → Data Analysis lange pasirinkus vieną iš 4 punktų:
53
t-Test: Paired Two Sample for Means – Stjudento t-testas dviejų porinių imčių
vidurkiams.
t-Test: Two-Sample Assuming Equal Variances – Stjudento t-testas, kai populiacijų dispersijos yra lygios ir nežinomos.
t-Test: Two-Sample Assuming Unequal Variances – Stjudento t-testas, kai populiacijų dispersijos skiriasi ir nežinomos.
z-Test: Two Sample for Means - z-testas dviejų imčių vidurkių palyginimui, kai populiacijų dispersijos žinomos.
3. Šiame darbe jums prireiks tokių Excel komandų:
NORMSINV(α) – skaičiuoja standartinio normaliojo skirstinio (1 – α) lygmens kvantilį. Skaičiavimams imamas modulį.
TINV(*;n) - skaičiuoja Stjudento skirstinio su n laisvės laipsnių (1 – α) lygmens kvantilį. Pirmame laukelyje rašomas skaičius, lygus (1 - pasikliovimo lygmuo); antrame - imties tūris.
CHIINV(*;n) - skaičiuoja Chi kvadratu skirstinio su n laisvės laipsnių (1 – α) lygmens kvantilį. Pirmame laukelyje rašomas skaičius, lygus (1 - pasikliovimo lygmuo); antrame - imties tūris.
54
7.4 TIESINĖS REGRESIJOS SKAIČIAVIMAS EXCEL SKAIČIUOKLE
Regresiją skaičiuojame Tools → Data Analysis lange pasirinkus punktą Regression.
Parinkus visus norimus punktus, spaudžiate OK ir rezultatai bus įrašyti parinktoje vietoje.
55