Post on 13-Mar-2021
KAUNO TECHNOLOGIJOS UNIVERSITETAS
FUNDAMENTALIŲJŲ MOKSLU FAKULTETAS
TAIKOMOSIOS MATEMATIKOS KATEDRA
P160D003 TAIKOMOSIOS STATISTIKOS METODAI IR PROGRAMINĖS
PRIEMONĖS
STATISTINĖS GALIOS ANALIZĖ
Referatas
Atliko: dokt. Aleksejus Michalkovič
Priemė: doc. V. Janilionis
KAUNAS, 2010
TurinysPirmos ir antros rūšies klaidos.........................................................................................................................................3
Statistinė galios analizė...................................................................................................................................................4
Programinė statistinės galios analizės realizacija SAS pakete.....................................................................................5
Tiesinės regresijos analizė...........................................................................................................................................6
Dispersinė analizė.....................................................................................................................................................12
Išvados..........................................................................................................................................................................24
LITERATŪRA..............................................................................................................................................................25
2
Pirmos ir antros rūšies klaidos
Vienas iš svarbiausių statistikos uždavinių yra hipotezės tikririnimas. Taikant tam tikrą statistinį
kriterijų duotajai imčiai priklausomai nuo hipotezės tipo yra pasirenkama tinkama statistika ir pagal šios
statistikos reikšmę yra daroma išvada apie hipotezės H 0 teisingumą. Tačiau dėl imties baigtinumo bei
statistikos reikšmės atsitiktinumo gautos išvados negali būti kategoriškos. Tikrinant hipotezę yra galimos
šios keturios situacijos:
H 0 buvo priimta H 0 buvo atmesta
H 0 teisinga Išvada buvo teisinga Pirmos rūšies klaida
H 0 klaidinga Antros rūšies klaida Išvada buvo teisinga
Matome, kad tikrinant hipotezę galime padaryti dviejų rūšių klaidas. Pirmos rūšies klaida yra
gaunama, kai hipotezę H 0 atmetame, nors ji buvo teisinga. Šios klaidos tikimybę žymime α. Antros rūšies
klaida gaunama, kai hipotezę H 0 priimame, nors ji buvo klaidinga. Šios klaidos tikmybę žymime β.
Paprastai tikrinant hipotezę yra fiksuojama pirmos rūšies klaidos tikimybė α. Tokiu atvėju dydis
(1−α) yra vadinamas kriterijaus reikšmingumo lygmeniu, o pats kriterijus yra vadinamas reikšmingumo
kriterijumi. Nagrinėkime tokį pavyzdį:
Pavyzdys: Tarkime, kad atsitiktinis dydis X yra pasiskirstęs pagal normalųjį skirstinį N (7 ;1 ).
Tikrinkime tokią hipotezę:
H 0 : μ=4H a: μ≠ 4
Fiksuojame pirmos rūšies klaidos tikimybę α=0,05. Tada kritinė sritis yra tokia:
3
Kritinė sritis
Kritinės reikšmės yra 2,04 ir 5,96. Taigi, jei statistikos
Zn=(X−4)√n
12
reikšmė priklauso intervalui (2,04 ;5,96 ), hipotezė H 0 nėra atmetama, nors ši hipotezė yra klaidinga.
Taigi tokiu atvėju yra gaunama antros rūšies klaida.
Matome, kad jei tikrindami hipotezė statistikos Zn reikšmė priklauso oranžinei sričiai, tai gaunama
antros rūšies klaida.
Iš šio pavyzdžio matome, kad norint gauti statistiškai patikimus rezultatus, reikia atsižvelgti ir į
antros rūšies klaidos tikimybę.
Šiame darbe nagrinėsime svarbią statistikos sąvoką, kuri yra susijusi su antros rūšies klaidos
tikimybe – statistinę galią. Taip pat paaiškinsime statistinės galios analizės tipus ir jų tikslus bei apžvelgsime
statistinio paketo SAS procedūrą power, kuri yra skirta statistinės galios analizei atlikti. Nagrinėsime
tiesinės regresijos bei dispersinės analizės atvėjus.
Statistinė galios analizė
Statistine galia vadinamas dydis (1−β ). Statistinė galia yra tikimybė, kad klaidinga hipotezė H 0 bus
atmesta. Šį dydį galima interpretuoti ir kitaip:
Statistinė galia yra kriterijaus savybė aptikti poveikį, jei šis poveikis egzistuoja;
Statistinė galia yra tikimybė, kad bus padaryta išvada apie reiškinio egzistavimą.
4
Laikoma, kad kriterijus yra statistiškai galingas, jeigu jo statistinė galia yra didesnė už 0,8.
Yra du statistinės galios analizės tipai: apriorinė ir aposteriorinė. Apriorinės analizės tikslas yra
apskaičiuoti koks turi būti imties dydis, kad kriterijaus statistinė galia būtų lygi fiksuotam dydžiui.
Aposteriorinės analizės tikslas yra nustatyti kokia yra statistinė kritarijaus galia, kai yra fiksuotas imties
dydis.
Statistinė galia priklauso nuo šių keturių pagrindinių faktorių:
1. Statistinis kriterijus – kai kurių statistinių kriterijų galia yra didesne, nei kitų;
2. Tiriamų poveikių skaičius – kuo šis skaičius mažesnis, tuo didesnė galia;
3. Imties dydis – kuo šis skaičius didesnis, tuo didesnė galia;
4. Reikšmingumo lygmuo – kuo šis skaičius didesnis, tuo didesnė galia.
Finansine prasme labai svarbu yra nustatyti tinkamą imties dydį, nes per mažos imties rezultatais
galima suabėjoti (kriterijus nėra pakankamai galingas), o didelė imtis reikalauja ne tik laiko, bet ir didelių
finansų sąnaudų. Be to kai statistinė kriterijaus galia yra artima vienetui gali nutikti ir taip, kad net pats
trivialiausias poveikis gali būti neteisingai interpretuotas kaip reikšmingas, o tai reiškia, kad hipotezė H 0
beveik visada būtų atmetama.
Pavyzdys: Sakykime, nagrinėjame hipotezę apie diviejų imčių vidurkių lygybę, kai imčių dydžiai
yra 1 000 000. Tokiu atvėju kriterijaus galia yra per didelė ir net menkiausias skirtumas tarp vidurkių iš
karto reikštų, jog hipotezė H 0 būtų atmesta.
Praktikoje dažnai yra atliekami dviejų tipų tytimai: kai hipotezės H 0 priėmimas patvirtina teoriją
(angl. Accept-Support) ir kai teorijos rezultatus patvirtina hipotezės H 0 atmetimas (angl. Regect-Support).
Kaip bebūtų keista, pirmuoju atvėjų didelė statistinė galia ypač neigiamai įtakoja tyrimą, nes teorija gali būti
paneigta, nors ji beveik idealiai atitinka duomenis. Antruoju atvėju trivialūs poveikiai tampa reikšmingi.
Statistinės galios analizė yra realizuota statistinio paketo SAS procedūrose power ir glmpower.
Šiame darbe nagrinėsime tik pirmąją procedūrą.
Programinė statistinės galios analizės realizacija SAS pakete
Statistinės galios analize realizuoja SAS procedūra proc power. Jos sintaksė yra:
PROC POWER < options > ;MULTREG < options > ;ONESAMPLEFREQ < options > ;
5
ONESAMPLEMEANS < options > ;ONEWAYANOVA < options > ;PAIREDMEANS < options > ;TWOSAMPLEMEANS < options > ;PLOT < plot-options > < / graph-options > ;
Matome, kad procedūrą power sudaro šios dalys:
Procedūros iškvietimo sakinys PROC POWER < options >, kuris turi vienintelę opciją
plotonly. Ši opcija reiškia, kad bus rodomi tik grafiniai rezultatai;
Analizių iškvietimo sakiniai:
Sakinys Analizė
MULTREG < options >Tiesinės regresijos vieno arba kelių koeficientų
analizė
ONESAMPLEFREQ < options > Binominio skirstinio parametro analizė
ONESAMPLEMEANS < options >
Stjudento t-kriterijaus apie vidurkį, pasikliautinujų
intervalų ir ekvivalentumo analizė
ONEWAYANOVA < options >Vienfaktorinė dispersinė analizė. Atliekama
bendrojo F-kriterijaus analizė bei kontrastų analizė
PAIREDMEANS < options >Stjudento t-kriterijaus apie skirtumų vidurkį,
pasikliautinujų intervalų ir ekvivalentumo analizė
TWOSAMPLEMEANS < options
>Stjudento t-kriterijaus apie vidurkių lygybę,
pasikliautinujų intervalų ir ekvivalentumo analizė
Bent vienas iš šių sakinių turi būti panaudotas;
Sakinys PLOT < plot-options > < / graph-options >, kuris analizės rezultatus vaizduoja
grafiškai.
Tiesinės regresijos analizė
Tarkime turime modelį:
Y=β0+β1 X1+…+βn Xn
Tikriname hipotezę
H 0 : β j1=0 , β j2
=0 , …, β jk=0 , ji∈ (1 ,2 ,…, n )
6
kai alternatyva yra, kad bent vienas koeficientas nelygus 0.
Taikant procedūrą proc power tiesinės regresijos iškvietimo sakinys yra MULTREG < options >. Šis sakinys turi šias opcijas:
TEST – ši opcija leidžia pasirinkti kriterijų. SAS pakete ši opcija turi vienintelę reikšmę –
type3.
ALPHA – reikšmingumo lygmuo. Reikšmė pagal nutilėjimą – 0,05.
NFULLPREDICTORS, NTESTPREDICTORS, NREDUSEDPREDICTORS – kintemieji
NFULLPREDICTORS ir NTESTPREDICTORS nurodo atitinkamai bendrą poveikių skaičių
ir analizuojamų poveikių skaičių, o NREDUSEDPREDICTORS = NFULLPREDICTORS –
NTESTPREDICTORS. Vienu metu gali būti panaudoti tik du kintamieji.
NFRACTIONAL – opcija nurodo, kad imties dydis bus vaizduojamas trupmeniniu pavidalu.
NOINT – nurodo, kad modelis neturi susikirtimų. Pagal nutilėjimą modelis turi susikirtimus.
PARTIALCORR – dalinė koreliacija tarp analizuojamų ir neanalizuojamų poveikių.
RSQUAREFULL, RSQUAREREDUCED, RSQUAREDIFF – kintamieji RSQUAREFULL
ir RSQUAREREDUCED parodo kokią dalį sklaidos apie vidurkį paaiškina atitinkamai
bendras modelis ir redukuotas modelis. Kintamasis RSQUAREDIFF = RSQUAREFULL –
RSQUAREREDUCED. Vienu metu gali būti naudojami tik du kintamieji. Taip pat šie
kintamieji negali buti naudojami vienu metu su PATRIALCORR kintamuoju.
NTOTAL – imties dydis.
POWER – statistinė galia.
OUTPUTORDER – opcija nurodo kokia tvarka bus atspausdinami rezultatai. Ši opcija turi 3
reikšmes: INTERNAL (reikšmė pagal nutilėjimą), SYNTAX (spasdinimas pagal sintakse) ir
REVERSE (atvirkščias spausdinimas).
Štai paprastas procedūros proc power taikymo tiesinės regresijos analizei pavyzdys:
proc power;multreg test = type3nfullpredictors = 7ntestpredictors = 3partialcorr = 0.1ntotal = 1000power = .;run;
Matome, kad modelį sudaro 7 poveikiai, yra analizuojami 3 poveikiai, dalinė koreliacija yra 0,1,
imties dydis – 1 000, o statistinė galia yra nežinoma. Procedūros rezultatas yra toks:
7
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 3Partial Correlation 0.1Total Sample Size 1000Model Random XAlpha 0.05
Computed PowerPower
.761
Matome, kad statistinė galia yra 0,761.
Ryšį taip kintamųjų taip pat galima nurodyti naudojant bet kokią kintamųjų RSQUAREFULL,
RSQUAREREDUCED, RSQUAREDIFF porą. Pasirinksime pirmuosius du kintamuosius. Tada sintaksė yra
tokia:
proc power;multreg test = type3nfullpredictors = 7ntestpredictors = 3rsquarefull = 0.8012rsquarereduced = 0.7985ntotal = 1000power = .;run;
Matome, kad bendrasis modelis paaiškina 80,12% sklaidos apie vidurkį, redukuotas modelis –
79,85% sklaidos pie vidurkį. Procedūros rezultatas yra:
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 3R-square of Full Model 0.8012R-square of Reduced Model 0.7985Total Sample Size 1000Model Random XAlpha 0.05
Computed PowerPower0.882
Padidinkime imties dydį. Tarkime imtis turi 1500 stebėjimų. Tada turime tokį rezultatą:
Fixed Scenario ElementsMethod Exact
8
Number of Predictors in Full Model 7Number of Test Predictors 3Partial Correlatio 0.1Total Sample Size 1500Model Random XAlpha 0.05
Computed PowerPower0.918
Taigi statistinė galia yra 0,918. Kadangi šiuo atvėju galia yra pakankamai didelė, toks imties dydis
gali būti per didelis.
Pakeiskime reikšmingumo lygmenį. Tarkime α=0,01. Turime rezultatą:
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 3Alpha 0.01Partial Correlation 0.1Total Sample Size 1000Model Random X
Computed PowerPower0.541
Matome, kad statistinė galia sumažėjo.
Tarkime, kad analizuojamų poveikių skaičius yra 6. Tuomet turime tokį rezultatą:
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 6Partial Correlation 0.1Total Sample Size 1000Model Random XAlpha 0.05
Computed PowerPower0.644
Matome, kad šiuo atvėju statistinė galia yra 0,644.
SAS paketas taip pat leidžia atlikti apriorinę statistinės galios analizę. Tarkime, kad modelio
statistinė galia yra 0,8. Raskime koks tokiu atvėju turi būti imties dydis. Sitaksė yra tokia:
proc power;multreg test = type3nfullpredictors = 7ntestpredictors = 3partialcorr = 0.1
9
ntotal = .power = 0.8;run;
Gauname tokį rezultatą:
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 3Partial Correlation 0.1Nominal Power 0.8Model Random XAlpha 0.05
Computed N TotalActual Power N Total
0.800 1091
Matome, kad modelis yra statistiškai galingas, jeigu stebėjimų skaičius yra didesnis, negu 1091. Šį
skaičių galima patikslinti panaudojus opciją NFRACTIONAL. Gauname rezultatą:
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 3Partial Correlation 0.1Nominal Power 0.8Model Random XAlpha 0.05
Computed Ceiling N TotalFractional N Total Actual Power Ceiling N Total
1090.033230 0.800 1091
Matome kad trupmeninė imties dydžio reikšmė 1090,033230 buvo suapvalinta į viršų.
Pažiurėkime, kaip pasikeis rezultatas kai modelis neturi susikirtimų. Turime rezultatą:
Fixed Scenario ElementsMethod ExactNumber of Predictors in Full Model 7Number of Test Predictors 3Partial Correlation 0.1Nominal Power 0.8Model Random XAlpha 0.05
Computed Ceiling N Total
10
Fractional N Total Actual Power Ceiling N Total1089.033230 0.800 1090
Matome, kad šiuo atvėju trupmeninė imties dydžio reikšmė buvo suapvalinta į apačią.
Kaip jau buvo minėta, SAS paketas leidžia vaizduoti rezultatus grafiškai. Pavaizduokime, kaip
statistinė galia priklauso nuo imties dydžio. Sintaksė yra tokia:
proc power plotonly;multreg test = type3nfractionalnfullpredictors = 7ntestpredictors = 3partialcorr = 0.1ntotal = .power = 0.8;plot y = power min = 0.5 max = 0.99; run;
Matome, kad rezultatai bus vaizduojami tik grafiniu pavidalu (plotonly opcija), y ašyje bus
vaizduojamos statistinės galios reikšmės rėžiuose nuo 0,5 iki 0,99. Gauname tokį rezultatą:
Dabar pavaizduokime kaip galia priklauso nuo imties dydžio, kai tiriamų poveikių skaičius kinta nuo
3 iki 5 (žingsnis – 1). Turime tokį rezultatą:
proc power plotonly;multreg test = type3nfractionalnfullpredictors = 7ntestpredictors = 3 to 5 by 1partialcorr = 0.1ntotal = .power = 0.8;plot y = power min = 0.5 max = 0.99; run;
11
Vaizduojant rezultatus grafiškai nesvarbu kokias reikšmes turi POWER ir NTOTAL kientamieji.
Svarbu tik kad bent vienas iš jų turėtų bet kokią prasmingą reikšmę (iš intervalo (0 ;1 ) galios atvėju arba
natūralusis skaičius imties dydžio atvėju).
Dispersinė analizė
Tarkime turime keturių fakultetų (informatikos, chemijos, ekonomikos ir socialinių mokslų)
matematikos testo rezultatus. Norime atsakyti į klausimą: „Ar matematikos testo rezultatų vidurkis
statistiškai skiriasi tarp fakultetų?“. Į šį klausimą galima atsakyti taikant dispersinę analizę. Tada nulinė
hipotezė yra:
H 0 : μ1=μ2=μ3=μ4
Alternatyvi hipotezė yra H a: ne visų grupių vidurkiai yra lygūs.
Kelkime kitokį klausimą: „Ar tiksliųjų mokslų (informatikos, chemijos ir ekonomikos) fakultetų
studentų matematikos testo rezultatų vidurkis statistiškai skiriasi nuo socialinių mokslų studentų?“. Tokiu
atvėju pagrindinė hipotezė yra:
H 0 :μ1+μ2+μ3
3=μ4
Alternatyvi hipotezė yra:
H a :μ1+μ2+μ3
3≠ μ4
Pastebėkime, kad nulinę hipotezę galime užrašyti ir kitaip:
12
H0 : μ4−13
μ1−13
μ2−13
μ3=0
Tokiu būdu gauname koeficientų vektorių (1 ;−13
;−13
;−13 ). Šį vektorių vadiname kontrastų
vektoriumi.
Bendruoju atvėju, tarkime turime n grupių. Tada kontrastų vektorių sudaro n narių ir jis parodo, kaip
yra susieti grupių vidurkiai. Kontrastų vektorių galima interpretuoti kaip tiriamų grupių vidurkių svorių
vektorių. Šio vektoriaus elementų suma turi būti lygi 0. Kontrastų vektoriaus ir vidurkių tiesinis darinys yra
vadinamas kontrastu.
Procedūros proc power sakinys ONEWAYANOVA < options > parodo, kad bus naudojama
dispersinė analizė. Šis sakinys turi tokias opcijas:
TEST – opcija leidžia pasirinkti koks kriterijus bus naudojamas. Opcija turi dvi reikšmes:
OVERALL_F (naudojamas Fišerio kriterijus) ir CONTRASTS (atliekama kontrastų analizė).
Pagal nutilėjimą opcijos reikšmė yra OVERALL_F.
ALPHA – reikšmingumo lygmuo. Reikšmė pagal nutilėjimą – 0,05.
GROUPMEANS – grupių vidurkių vektorius. Šis kintamasis taip pat parodo koks yra
bendras grupių skaičius.
STDDEV – paklaidų standartinis nuokrypis.
NFRACTIONAL – opcija nurodo, kad grupės arba imties dydis bus vaizduojamas
trupmeniniu pavidalu.
CONTRAST – kontrastų vektorius. Šis vektorius naudojamas tik jei yra pasirinkta kontrastų
analizė. Vektoriaus ilgis turi sutapti su vektoriaus GROUPMEANS ilgiu.
SIDES – nurodo alternatyviosios hipotezės tipą. Opcija turi 4 reikšmes: 1 (vienpusė), 2
(dvipusė), u (vienpusė ¿0), l (vienpusė ¿0). Reikšmė pagal nutilėjimą – 2. Opcija naudojama
tik jei yra pasirinkta kontrastų analizė.
NULLC – kontrasto reikšmė. Pagal nutilėjimą – 0. Kintamasis naudojamas tik jei yra
pasirinkta kontrastų analizė.
GROUPNS – grupių dydžių vektorius. Vektoriaus ilgis turi sutapti su vektoriaus
GROUPMEANS ilgiu.
GROUPWEIGTHS – grupių svorių vektorius. Šis vektorius parodo kaip imties elementai yra
pasiskirstę pagal grupes. Jeigu opcija NFRACTIONAL nebuvo įjungta, tai vektoriaus
elementai gali būti tik sveikieji skaičiai, be to bendrosios imties dydis yra proporcingas
vektoriaus elementų sumai. Vektoriaus ilgis turi sutapti su vektoriaus GROUPMEANS ilgiu.
13
NPERGROUP – kiekvienos grupės elementų kiekis. Kintamųjų GROUPWEIGTHS ir
NPERGROUP vienu metu naudoti negalima.
NTOTAL – visos imties dydis.
POWER – statistinė galia.
OUTPUTORDER – opcija nurodo kokia tvarka bus atspausdinami rezultatai. Ši opcija turi 3
reikšmes: INTERNAL (reikšmė pagal nutilėjimą), SYNTAX (spasdinimas pagal sintakse) ir
REVERSE (atvirkščias spausdinimas).
Štai paprastas procedūros proc power taikymo dispersinei analizei pavyzdis:
proc power;onewayanova test=overall_fgroupmeans = 3 | 7 | 5 stddev = 8ntotal = 200power = .;run;
Matome, kad yra atliekama Fišerio kriterijaus statistinės galios analizė. Bendroji imtis, kurią sudaro
200 elementų, yra suskaidyta į 3 grupes, o šių grupių vidurkiai yra 3, 7 ir 5. Standartinis paklaidų nuokrypis
yra 8. Statistinė galia yra nežinoma. Procedūros rezultatas yra:
The POWER Procedure
Overall F Test for One-Way ANOVAFixed Scenario Elements
Method ExactGroup Means 3 7 5Standard Deviation 8Nominal Total Sample Size 200Actual Total Sample Size 198Alpha 0.05Group Weights 1 1 1
Computed PowerPower0.725
Matome, kad buvo panaudoti tik 198 imties elementai, kurie buvo suskaidyti į 3 lygias grupes.
Apskaičiuota statistinės galios reikšmė yra 0,725.
Panaudoję opciją NFRACTIONAL gauname tokį rezultatą:
14
Fixed Scenario ElementsMethod ExactGroup Means 3 7 5Standard Deviation 8Total Sample Size 200Alpha 0.05Group Weights 1 1 1
Computed PowerPower0.729
Matome, kad šį kartą buvo panaudoti visi imties nariai. Apskaičiuota statistinės galios reikšmė yra
0,729.
Kaip jau žinome, galime nurodyti kiekvienos grupės elementų skaičių. Panaudokime kintamąjį
NPERGROUP. Šiam kintamajam priskirkime reikšmę 66. Be to naudosime opciją NFRACTIONAL.
Procedūros rezultatas yra:
Fixed Scenario ElementsMethod ExactGroup Means 3 7 5Standard Deviation 8Sample Size Per Group 66.6Alpha 0.05
Computed PowerPower0.729
Matome, kad rezultatas sutampa su antrojo bandymo rezultatu.
Panaudokime vektorių GROUPNS. Šiuo atvėju galėsime kiekvienos grupės dydį atskirai. Tegu
pirmąją grupę sudaro 80 narių, antrąją – 50 narių, o trečiąją – 70. Sintaksė yra tokia:
proc power;onewayanova test=overall_fgroupmeans = 3 | 7 | 5 stddev = 8groupns = (80 50 70)power = .;run;
Gauname tokį rezultatą:
Fixed Scenario ElementsMethod ExactGroup Means 3 7 5Standard Deviation 8Group Sample Sizes 80 50 70Alpha 0.05
Computed PowerPower0.701
15
Opcija NFRACTIONAL taip pat leidžia naudoti trupmenines dydžių reikšmes. Nuo šiol visus
rezultatus skaičiuosime naudojant šią opciją.
Grupių dydžius taip pat galima keisti naudojant svorių vektorių GROUPWEIGTHS. Tegu grupių
dydžių santykis yra 3:2:2. Turime tokį rezultatą:
Fixed Scenario ElementsMethod ExactGroup Means 3 7 5Standard Deviation 8Group Weights 3 2 2Total Sample Size 200Alpha 0.05
Computed PowerPower0.747
Matome, kad statistinė galia šiuo atvėju yra 0,747.
Atlikime apriorinę statistinės galios analizę. Tarkime, kad modelio statistinė galia yra 0,8. Raskime
koks tokiu atvėju turi būti bendros imties dydis. Sitaksė yra tokia:
proc power;onewayanova test=overall_fnfractionalgroupmeans = 3 | 7 | 5 stddev = 8ntotal = .power = 0.8;run;
Procedūros rezultatas yra toks:
Fixed Scenario ElementsMethod ExactGroup Means 3 7 5Standard Deviation 8Nominal Power 0.8Alpha 0.05Group Weights 1 1 1Computed Ceiling N Total
Fractional N Total Actual Power Ceiling N Total234.254378 0.801 235
Matome, kad trupmeninis imties dydis yra 234,254378. Šis dydis buvo suapvalintas į viršų.
SAS paketas taip pat leidžia surasti koks turi būti kiekvienos grupės dydis, kai yra nustatyta tam tikra
statistinės galios reikšmė. Tokiu atvėju sintaksė yra:
proc power;onewayanova test=overall_fnfractionalgroupmeans = 3 | 7 | 5
16
stddev = 8npergroup = .power = 0.8;run;
Procedūros rezultatas yra:
Fixed Scenario ElementsMethod ExactGroup Means 3 7 5Standard Deviation 8Nominal Power 0.8Alpha 0.05
Computed Ceiling N Per GroupFractional N Per Group Actual Power Ceiling N Per Group
78.084793 0.805 79Matome, kad buvo apskaičiuotas kiekvienos grupės dydis. Trupmeninė reikšmė 78,084793 buvo
suapvalinta į viršų.
SAS paketas taip pat leidžia atlikti kontrastų analizę. Štai paprastas šio atvėjo pavyzdys:
proc power;onewayanova test = contrastcontrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8ntotal = 200power = .;run;
Matome, kad šiuo atvėju tikrinsime nulinę hipotezę:
H 0 :−0,5 μ1+μ2−0,5 μ3=0Alternatyvioji hipotezė yra H a :−0,5μ1+μ2−0,5 μ3≠ 0. Šios procedūros
rezultatas yra:
The POWER Procedure
Single DF Contrast in One-Way ANOVAFixed Scenario Elements
Method ExactContrast Coefficients -0.5 1 -0.5Group Means 3 7 5Standard Deviation 8
17
Nominal Total Sample Size 200Actual Total Sample Size 198Number of Sides 2Null Contrast Value 0Alpha 0.05Group Weights 1 1 1
Computed PowerPower0.697
Matome, kad buvo panaudoti 198 bendros imties elementai. Šie elementai buvo padalinti į 3 lygias
grupes (group weigths vektorius). Nulinės hipotezės tipas yra dvipusė, kontrasto reikšmė pagal nutilėjimą
yra 0. Apskaičiuota statistinė galia yra 0,697.
Pakeiskime kontrasto reikšmę. Tarkime, kad kontrastas yra lygus 8. Tokiu atvėju nulinė hipotezė yra:
H 0 :−0,5 μ1+μ2−0,5 μ3=8
Turime tokią sintaksę:
proc power;onewayanova test = contrastcontrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8nullc = 8ntotal = 200power = .;run;
Procedūros rezultatas yra toks:
Fixed Scenario ElementsMethod ExactContrast Coefficients -0.5 1 -0.5Null Contrast Value 8Group Means 3 7 5Standard Deviation 8Nominal Total Sample Size 200Actual Total Sample Size 198Number of Sides 2Alpha 0.05Group Weights 1 1 1
Computed PowerPower0.985
Matome, kad ši kontrasto reikšmė yra nepalanki ir gali kelti problemų analitikui, nes tokiu atvėju
statistinė galia yra 0,985.
Pakeiskime alternatyviosios hipotezės tipą. Tegu šį kartą hipotezė būna vienpusė. Tada turime tokią
sintaksę:
18
proc power;onewayanova test = contrastsides = 1contrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8ntotal = 200power = .;run;
Gauname tokį rezultatą:
Fixed Scenario ElementsMethod ExactContrast Coefficients -0.5 1 -0.5Number of Sides 1Group Means 3 7 5Standard Deviation 8Nominal Total Sample Size 200Actual Total Sample Size 198Null Contrast Value 0Alpha 0.05Group Weights 1 1 1
Computed PowerPower0.798
Matome, kad šiuo atvėju statistinė galia yra didesnė, negu pirmuoju atvėju. Tokį patį rezultatą
gautume vietoj 1 įrašę reikšmę u (t.y vienpusė hipotezė H a :−0,5 μ1+μ2−0,5 μ3>0). Tačiau įrašę reikšmę l
(t.y vienpusė hipotezė H a :−0,5 μ1+μ2−0,5μ3<0) gauname tokį rezultatą:
Fixed Scenario ElementsMethod ExactContrast Coefficients -0.5 1 -0.5Number of Sides LGroup Means 3 7 5Standard Deviation 8Nominal Total Sample Size 200Actual Total Sample Size 198Null Contrast Value 0Alpha 0.05Group Weights 1 1 1
Computed PowerPower<.001
Be to procedūros vykdymo metu gaunamas toks pranešimas:
WARNING: The effect is in the opposite direction from the alternative hypothesis
in one of the scenarios in the output table.
19
Šis pranešimas reiškia, kad alternatyviosios hipotezės tipas buvo pasirinktas neteisingai. Matome,
kad statistinė galia šiuo atvėju yra mažesnė už 0,001. Taigi kintamajam SIDES priskirius reikšmę 1
programa pasirinko alternatyvią hipotezę H a :−0,5 μ1+μ2−0,5 μ3>0.
Atlikime apriorinę statistinės galios analizę. Tegu šio parametro reikšmė yra 0,8. Raskime visos
imties dydį. Taip pat panaudosime opciją NFRACTIONAL. Turime tokią sintaksę:
proc power;onewayanova test = contrastnfractionalcontrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8ntotal = .power = 0.8;run;
Turime tokį rezultatą:
Fixed Scenario ElementsMethod ExactContrast Coefficients -0.5 1 -0.5Group Means 3 7 5Standard Deviation 8Nominal Power 0.8Number of Sides 2Null Contrast Value 0Alpha 0.05Group Weights 1 1 1
Computed Ceiling N TotalFractional N Total Actual Power Ceiling N Total
253.106387 0.801 254Matome, kad apskaičiuotas bendros imties dydis yra 254. Tokiu atvėju statistinės galios reikšme jau
yra 0,801>0,8.
Taip pat galime rasti koks turi buti kiekvienos grupės dydis kai yra fiksuota statistinės galios
reikšmė. Tokiu atvėju sintaksė yra:
proc power;onewayanova test = contrastnfractionalcontrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8npergroup = .power = 0.8;run;
Procedūros rezultatas yra:
Fixed Scenario ElementsMethod Exact
20
Fixed Scenario ElementsContrast Coefficients -0.5 1 -0.5Group Means 3 7 5Standard Deviation 8Nominal Power 0.8Number of Sides 2Null Contrast Value 0Alpha 0.05Computed Ceiling N Per Group
Fractional N Per Group Actual Power Ceiling N Per Group84.368796 0.803 85
Kaip ir tiesinės regresijos atvėju gautus rezultatus galima pavaizduoti grafiškai. Pirmiausia
pavaizduokime rezultatus grafiškai, kai atliekama Fišerio kriterijaus statistinės galios analizė.
Nubraižykime, kaip statistinė galia priklauso nuo visos imties dydžio kai standartinis nuokrypis kinta
nuo 8 iki 10 (žingsnis – 1). Sintaksė yra tokia:
proc power plotonly;onewayanova test=overall_fnfractionalgroupmeans = 3 | 7 | 5 stddev = 8 to 10 by 1npergroup = .power = 0.8;plot y = power min = 0.5 max = 0.99; run;
Gauname tokį rezultatą:
SAS paketas leidžia nubraižyti ne tik statistinės galios priklausomybę nuo visos imties dydžio, bet ir
nuo kiekvienos grupės dydžio. Nubraižykime šią priklausomybę kai standartinis nuokrypis kinta nuo 8 iki
10 (žingsnis – 1). Tada turime tokią sintaksę:
proc power plotonly;onewayanova test=overall_fnfractionalgroupmeans = 3 | 7 | 5
21
stddev = 8 to 10 by 1npergroup = .power = 0.8;plot y = power min = 0.5 max = 0.99; run;
Procedūros rezultatas yra toks:
Dabar pavaizduokime kontrastų analizės rezultatus grafiškai.
Nubraižykime statistinės galios priklausomybę nuo bendro imties dydžio kai kontrasto reikšmė kinta
nuo 6 iki 8 (žingsnis – 1). Sintaksė yra tokia:
proc power plotonly;onewayanova test = contrastnfractionalcontrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8nullc = 6 to 8 by 1ntotal = .power = 0.8;plot y = power min = 0.5 max = 0.99;run;
Turime tokį rezultatą:
22
Nubraižykime statistinės galios priklausomybę nuo grupės dydžio kai kontrasto reikšmė keičiasi nuo
6 iki 8, o standartinis nuokrypis kinta nuo 8 iki 10 (žingsnis – 1). Naudosime vienpusę alternatyvią hipotezę.
Sintaksė yra tokia:
proc power plotonly;onewayanova test = contrastnfractionalsides = 1contrast = (-0.5 1 -0.5)groupmeans = 3 | 7 | 5stddev = 8 to 10 by 1nullc = 6 to 8 by 1npergroup = .power = 0.8;plot y = power min = 0.5 max = 0.99;run;
Šios procedūros rezultatas yra:
23
Išvados
Statistinės galios analizė yra svarbi bet kokios statistinės hipotezės tikrinimo dalis. Šios analizės
tikslas yra užtikrinti, kad antros rūšies klaidos tikimybė būtų kuo mažesnė. Iš kitos pusės statistinė galia
neturi būti artima vienetui, nes tokiu atvėju nulinė hipotezė beveik visada bus atmetama.
SAS paketas efektyviai atlieka statistinės galios analize. Šio paketo procedūra proc power yra
pakankamai lanksti, parametrų, leidžiančių efektyviai aprašyti duomenis, įvairovė yra pakankamai didelė.
Taip pat yra kėli naudingi kintamieji, kurie leidžia patikslinti procedūros rezultatus, pavyzdžiui
NFRACTIONAL.
Vartototojas gali lengvai pereiti nuo aposteriorinės statistinės galios analizės prie apriorinės ir
atvirkščiai. Vienas iš procedūros privalumų yra tai, kad tam yra reikalingi minimalūs programinio kodo
pataisymai.
Tiesinės regresijos atvėju vartotojas gali pasirinkti vieną iš tryjų skirtingų būdų analizuojamiems ir
neanalizuojamiems poveikiams aprašyti. Taip pat vienas iš privalumų yra tas, jog galima nurodyti, ar
modelis turi susikirtimų.
Dispersinės analizės atvėju atliekant kontrastų statistinės galios analizę vienas iš privalumų yra tas,
kad galima pakeisti alternatyviosios hipotezės tipą. Vienpusės hipotezės atvėju programa gali pati pasirinkti
tinkamą alternatyvią hipotezę, tačiau tai gali padaryti ir pats vartotojas. Atliekant apriorinę statistinės galios
analizę vartotojas taip pat turi teisę pasirinkti, ar bus nustatomas visos imties dydis, ar kiekvienos grupės
atskirai. Be to atliekant aposteriorinę analizę vartotojas gali aprašyti kaip visą imtį, taip ir kiekvieną grupę
atskirai. Grupėms aprašyti yra skirti net 3 skirtingi būdai.
Gautus rezultatus taip pat galima vaizduoti grafiškai, t.y galima nubraižyti statistinės galios
priklausomybę nuo esminio parametro – imties dydžio. Procedūra taip pat leidžia vaizduoti šią
priklausomybę kai vienas iš parametrų kinta tam tikru žingsniu.
24
LITERATŪRA
1. Park, Hun Myoung. 2008. Hypothesis Testing and Statistical Power of a Test. Working Paper. The
University Information Technology Services (UITS) Center for Statistical and Mathematical
Computing, Indiana University.
2. http://support.sas.com/rnd/app/papers/power.pdf
3. http://www2.sas.com/proceedings/sugi29/195-29.pdf
25