pedagoska statistika

PEDAGOKA STATISTIKA

Skripta

doc.dr.sc. Andreja Bubi

Filozofski fakultet

Sveuilite u Splitu

ak.god. 2012/2013

Sadraj

SADRAJ

KLJUNI SIMBOLI

KLJUNE FORMULE

1. OSNOVNI POJMOVI U STATISTICI

1.1. Skale mjerenja

1.2. Uzorkovanje

2. DESKRIPTIVNA STATISTIKA

2.1. Organizacija prikupljenih podataka i prikazivanje rezultata

2.1.1. Grupiranje rezultata u razrede

2.1.2. Tablino i grafiko prikazivanje rezultata

2.2. Mjere sredinjih vrijednosti

2.2.1. Aritmetika sredina

2.2.2. Centralna vrijednost

2.2.3. Ostale mjere sredinjih vrijednosti

2.3. Mjere rasprenja rezultata

2.3.1. Raspon rezultata

2.3.2. Varijanca

2.3.3. Standardna devijacija

2.3.4. Koeficijent varijabilnosti

2.3.5. Ostale mjere rasprenja

2.4. Distribucije rezultata

2.4.1. Normalna distribucija

2.5. Poloaj rezultata u skupini

2.5.1. z-vrijednosti

2.5.2. Centili i decili

3. INFERENCIJALNA STATISTIKA

3.1. Pogreke mjerenja

3.2. Procjena parametara

3.3. Testiranje hipoteza

4. OSNOVNI STATISTIKI POSTUPCI I ANALIZE

4.1. Odabir prikladne statistike analize

4.2. t-test

4.3. Korelacija

4.4. hi-kvadrat test

5. ZADACI ZA VJEBANJE

6. PREPORUENA LITERATURA

PRILOG: STATISTIKE TABLICE

Kljuni simboli

1

KLJUNI SIMBOLI

Openito

- suma (zbroj) svih rezultata

x - simbol za apsolutnu vrijednost od x (npr. 1 =1 ili 1 =1 )

Nx - Simbol (x) koji se nalazi uz glavni (N) oznaava podskup na koji se glavni simbol odnosi

x simbol za svaki pojedinani rezultat / podatak

N ukupan broj podataka / izmjerenih vrijednosti

n broj podataka / izmjerenih vrijednosti u nekom podskupu ili uzorku

Grupiranje i organizacija rezultata

f frekvencija rezultata (u razredu); ima isto znaenje kao i n

rf relativna frekvencija

kf kumulativna frekvencija

rkf relativna kumulativna frekvencija

i - interval razreda kod grupiranja rezultata

TR totalni raspon rezultata

Rx poloaj neke vrijednosti u skupu podataka (najee se koristi Rc za poloaj centralne vrijednosti)

Sredinje vrijednosti

X - aritmetika sredina

Za oznaavanje aritmetike sredine esto se koristi i M (eng. mean aritmetika sredina);

aritmetika sredina razreda moe se oznaiti i kao m

Ukoliko se radi o aritmetikoj sredini populacije najee se koristi simbol

C centralna vrijednost / medijan

D dominantna vrijednost / mod

G geometrijska sredina

H harmonina sredina

Mjere rasprenja

s (sd) - standardna devijacija

s2 (sd

2) varijanca

Ukoliko se radi o populacijskoj vrijednosti (standardnoj devijaciji i varijanci populacije) onda

se najee koriste simboli i 2

V koeficijent varijabilnosti

Q poluinterkvartilno rasprenje / interkvartilni raspon

Poloaj rezultata u grupi

z z-vrijednost

Kljuni simboli

2

Testiranje hipoteza

Xs - pogreka aritmetike sredine

ps - pogreka proporcije

t vrijednost t-testa

- razlika izmeu 2 uzorka

r - Pearsonov koeficijent korelacije

df (ili ss) stupnjevi slobode (eng. degrees of freedom)

p vjerojatnost sluajne pojave neke vrijednosti

Kod kategorijalnih varijabli:

2 - hi-kvadrat test

k broj kategorija unutar jedne varijable (npr. spol: k=2 (muki i enski))

p proporcija podataka jedne kategorije; q proporcija podataka druge kategorije (q=1-p)

fo - opaene frekvencije

ft - teoretske frekvencije

Osim ovih, u statistici se koristi i mnotvo drugih mjera i simbola koje moete pronai u statistikoj literaturi (neke

preporuke za daljnje itanje navedene su i u ovoj skripti).

Kljune formule

3

KLJUNE FORMULE

Deskriptivna statistika

Aritmetika sredina N

xX

Poloaj centralne vrijednosti 5,0

2

NRc

Raspon Raspon = xmax xmin

Standardna devijacija N

Xxs

2)(

(populacija)

1

)( 2

N

Xxs

(uzorak)

Varijanca

N

Xxs

2

2)(

(populacija)

1

)( 22

N

Xxs

(uzorak)

Koeficijent varijabilnosti 100X

sV

Poloaj rezultata u skupini

z-vrijednost

s

Xxz

decil 10xN

rangd

centil 100xN

rangc

Kljune formule

4

Procjena parametara

Pogreka aritmetike sredine N

ssX

Procjena aritmetike sredine populacije

X 2.58 X

s (uz 99% sigurnosti)

X 1.96X


Pogreka proporcije N

pxqs p

Procjena proporcije u populaciji

p 2.58 ps (uz 99% sigurnosti)


Testovi

t-test: osnovna formula

st

t-test za velike (N 30) nezavisne uzorke

22

21

21 Xss

XXt

X

;

df=(N1-1) + (N2-1)

t-test za velike (N 30) zavisne uzorke 2121

222

21

XXX

srsss

XXt

X

;

df=N-1

hi-kvadrat test

t

to

f

ff 22 )( ;

df=k-1 ili df=(k1 -1) (k2-1)

Legenda: Vidi Kljuni simboli

Osnovni pojmovi u statistici

5

1. OSNOVNI POJMOVI U STATISTICI

Statistika je znanstvena disciplina (grana primijenjene matematike) koja se bavi

prikupljanjem, obradom, interpretacijom i prezentacijom podataka, a ima primjenu u gotovo

svim znanostima. Iako statistiku primijenjenu u razliitim znanostima ne treba nuno

oznaavati posebnim imenima, ponekad se moe susresti i takva praksa (npr. njezina

primjena u pedagokim i ostalim obrazovnim znanostima ponekad se naziva pedagoka

statistika).

Prednosti koritenja statistike ukljuuju veu preciznost u opisivanju pojava;

sreivanje podataka u smislenom i pogodnom obliku; uoavanje zakonitosti;

prognozu mogueg kretanja neke pojave i pronalaenje uzrono-posljedinih veza.

Nedostaci koritenja statistike ukljuuju povremenu nemogunost kvantifikacije svih

pojava koje nas zanimaju; rad s nepreciznim pokazateljima (npr. brojane ocjene);

nesavjesne pojedince; neispravne interpretacije ispravnih rezultata te precjenjivanje /

pretjeranu generalizaciju dobivenih zakljuaka. Zbog ovih nedostataka treba naglasiti

kako je uvijek vano provjeravati i nadograivati znanja dobivena provedbom

istraivanja i primjenom statistikih postupaka.

Statistike metode se koriste u dvije osnovne svrhe: (1) kako bi se opisala i analizirala

mjerena pojava na razini prikupljenih podataka ime se bavi deskriptivna statistika te (2)

kako bi se na temelju podataka dobivenih mjerenjem na uzorku generaliziralo, odnosno

zakljuivalo o stanju u iroj populaciji to omoguuju metode inferencijalne statistike.

Stoga, prvi koraci statistike obrade ukljuuju deskriptivne analize kojima je cilj opisati

izmjereni skup podataka navoenjem frekvencija, mjera sredinjih vrijednosti (vrijednosti koje

reprezentiraju taj skup) i pripadajueg rasprenja (mjere koja nam pokazuje koliko sredinja

vrijednost dobro reprezentira spomenuti skup), te ga grafiki ili tablino prikazati. Nakon toga

moemo se u daljnjim analizama koristiti brojnim postupcima inferencijalne statistike koje

meusobno razlikujemo s obzirom na vrstu modela koje koriste (parametrijske ili

neparametrijske metode), broj varijabli koje uzimaju u obzir (univarijantne, bivarijantne ili

multivarijantne tehnike) te osobine uzorka i izmjerenih podataka. Na kraju treba naglasiti da

odabir prikladne statistike metode u istraivanju prvenstveno ovisi o istraivakom pitanju

na koje elimo odgovoriti.

Prije nego to se detaljnije usmjerimo na statistiku, potrebno je vrlo kratko navesti i

osnovne metodoloke pojmove koje emo koristiti u ovoj skripti. Savjetujemo vam da o

metodologiji provoenja znanstvenih istraivanja vie nauite iz preporuene literature jer se

radi o znanjima koja trebate savladati prije poetka planiranja i provoenja istraivanja.


6

Osnovni pojam u statistici je varijabla koja se odnosi na bilo koji proces ili pojavu koji

moemo opaati i mjeriti unutar istraivanja. Varijabla je osobina koja moe poprimiti razliite

vrijednosti (za razliku od konstante koja uvijek ima jednaku vrijednost), pa ovaj pojam

koristimo za skup podataka iste vrste, npr. spol, dob ili zadovoljstvo ivotom. U

(eksperimentalnim) istraivanjima razlikujemo dvije vrste varijabli, nezavisne i zavisne.

Nezavisna varijabla je ona varijabla koju manipuliramo i iji nas utjecaj na mjerenu pojavu

zanima. Za razliku od toga, zavisna varijabla je varijabla ije promjene pratimo, odnosno

varijabla koju mjerimo. U istraivanjima nas esto zanima utjecaj nezavisne na zavisnu

varijablu: npr. ako istraivanjem elimo ispitati kako najavljivanje testova utjee na uspjeh

uenika, onda nam nain najave testa predstavlja nezavisnu, a uspjeh na testu uenika

zavisnu varijablu. Svaki od uenika koji sudjeluju u naem istraivanju pritom predstavlja

jednog ispitanika ili sudionika istraivanja. Tijekom ovakvo osmiljenog istraivanja za

svakog od naih ispitanika prikupit emo po jedan rezultat na nezavisnoj (nain na koji je

najavljen test), te jedan na zavisnoj varijabli (ocjenu ili bodove na testu).

Dakako, u istraivanjima je mogue mjeriti i vie od jedne zavisne i nezavisne

varijable. Na primjer, uz spomenute podatke, o svakom ueniku moemo prikupiti i druge

informacije (npr. zabiljeiti njihov spol, dob, razred i slino) koje onda predstavljaju dodatne

varijable u istraivanju.

Prilikom mjerenja ciljanih varijabli na nekom uzorku uvijek se izlaemo odreenim

pogrekama o kojima e kasnije biti vie rijei. Statistike metode nam pomau nositi se s

ovim pogrekama, i to onima koje nisu posljedica sustavnih pristranosti. Naime, u

istraivanjima uvijek polazimo od pretpostavke da svaki mjereni rezultat predstavlja

(jednostavnu linearnu) kombinaciju konstantnih faktora ili pravih rezultata mjerenja

(vrijednost koja nas zanima) i sluajnih varijacija, takozvanih nesistematski varijabilnih

faktora (neki od njih poveavaju, a neki smanjuju mjerene vrijednosti; njihov ukupni zbroj je

0). Na primjer, ako u skupini uenika mjerimo vrijeme potrebno za rjeavanje zadatka, osim

prave vrijednosti mjerenja (stvarno vrijeme potrebno za rjeavanje) na dobivene rezultate

mogu djelovati i neki sluajni faktori (npr. kod nekih uenika neoekivana buka moe

produiti rjeavanje, dok neki uenici mogu nauti tono rjeenje i stoga neopravdano imati

krai izmjereni rezultat).

Rezultati unutar svake ispitane varijable mogu biti izmjereni na razliitim skalama ili

ljestvicama, o emu emo detaljnije neto rei u sljedeem dijelu. Nakon toga kratko emo

se osvrnuti i na naine odabira uenika koji sudjeluju u naem istraivanju, odnosno

uzorkovanje.


7

1.1. SKALE MJERENJA

Nominalnu skalu mjerenja pronalazimo kod varijabli koje su kategorijalne ili kvalitativne,

odnosno onih varijabli kod kojih ispitanike moemo razlikovati prema nekoliko kategorija

meu kojima ne postoji nikakav prirodni slijed (nema kriterija prema kojemu bi se vrijednosti

mogle odrediti kao vee od ili manje od drugih). Stoga nominalna skala ne predstavlja

pravu skalu mjerenja, ve imenovanje nominalnih obiljeja varijable. Na primjer, zavrena

srednja kola predstavlja kategorijalnu varijablu koju moemo kodirati na sljedei nain: 1-

gimnazija, 2 - struna kola, 3 - tehnika kola i 4 - umjetnika ili sportska kola

Kao to je vidljivo u primjeru, pripadnost razliitim kategorijama ove varijable vezuje

se uz odreenu brojanu vrijednost, ali ona je potpuno proizvoljno odreena. S obzirom na

broj kategorija koje se unutar varijable mogu odrediti, razlikujemo binarne (dihotomne)

varijable koje imaju samo dvije, te multikategorijalne varijable koje imaju vie kategorija.

S obzirom na osobitosti nominalnih skala, u analizi rezultata na tim skalama

dozvoljeno je koristiti samo ogranieni broj statistikih analiza i postupaka: dominantnu

vrijednost (ne i aritmetiku sredinu), proporcije, hi-kvadrat test i neke druge vrste analiza koje

se temelje na frekvencijama.

Kod ordinalnih (rangovnih ili ljestvinih) skala mjerena varijabla ima vrijednosti koje se

niu prema odreenom redoslijedu koji reflektira izraenost mjerenog svojstva. Meutim,

ovdje redoslijed vrijednosti reflektira relativne razlike mjerenja (poredak) bez tonog stupnja

tih razlika. Primjer ordinalne skale je zavrni poredak sportaa na natjecanjima pobjednik

koji dobije zlatnu medalju ima najbolji rezultat na natjecanju; onaj koja dobije srebrnu medalju

je drugi, a bronanu trei po uspjehu. Meutim, rang predstavlja relativno grubo odreenje

poloaja jer nam ne govori nita o pravom rezultatu pojedinca stoga ne moemo tvrditi da

je sporta sa srebrnom medaljom bolji od onoga s bronanom jednako onoliko koliko je

pobjednik natjecanja bolji od njega.

S obzirom na karakteristike ordinalnih skala, u obradi podataka na ovim skalama se

najee koristi centralna vrijednost, rang korelacija i drugi postupci koji se temelje na

rangovima, te neki oblici neparametrijskih metoda za testiranje hipoteza.

Metrike ili kvantitativne skale vezuju se uz varijable kojima moemo pridruiti realne

brojeve i na njima koristiti matematike operacije. Njihove vrijednosti mogu biti

diskontinuirane (diskretne ili meusobno razdvojene) ili kontinuirane. Diskontinuirane

varijable su one koje mogu poprimiti konaan broj svojstava; one se zapisuju iskljuivo

cjelobrojno, npr. broj izlazaka na ispit. Kontinuirane varijable, za razliku od toga, mogu

poprimiti bilo koju vrijednost unutar nekog intervala i mogu se zapisivati i decimalnim


8

brojevima, npr. duina, teina, itd. Openito kod metrikih varijabli jednake razlike u

brojevima na skali predstavljaju jednake razlike u promatranom svojstvu dakle, dvije osobe

koje imaju 55 i 57 kilograma jednako se meusobno razlikuju po teini kao i osobe koje imaju

74 i 76 kilograma.

Dvije su osnovne vrste metrikih skala - intervalne i omjerne. Intervalne skale su one

metrike skale koje ne posjeduju apsolutnu ve samo relativnu nulu, kao to je sluaj sa

skalom temperature mjerenom u stupnjevima Celsiusa. Dakle, kod njih su poloaj nule i

mjerne jedinice odreeni dogovorno. Stoga kod ovih skala nije mogue koristiti omjere: npr.

nije mogue rei da je temperatura od 25C dvaput hladnija od 50C (iako vrijedi da je razlika

izmeu 75 i 50C jednaka onoj od 50 i 25C). Kod omjerne (odnosne) skale jednake razlike

brojeva takoer predstavljaju jednake razlike mjerenog svojstva. Uz to, kod ovih skala postoji

i apsolutna nula, te je stoga ovdje doputeno koristiti omjere. Primjeri omjerne skale su visina

uenika ili vrijeme.

Kod rezultata izmjerenih na metrikim skalama mogue je koristiti najvei broj

statistikih analiza, ukljuujui i iroki spektar parametrijskih postupaka (ako su zadovoljeni i

ostali uvjeti za njihovo koritenje). Iako za odabir prikladne statistike analize nije svejedno

imamo li podatke na intervalnoj ili omjernoj skali mjerenja, u praktinim se situacijama rijetko

postavlja vrlo stroga razlika izmeu tih skala.


9

1.2. UZORKOVANJE

Uzorkovanje je postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji e

sudjelovati u nekom istraivanju. Populaciju ine svi mogui lanovi neke skupine s

odreenim znaajkama (ponekad se naziva i statistiki skup). Uzorak je dio populacije na

kojem provodimo istraivanje (dio statistikog skupa).

Na primjer, ukoliko nas zanima ranije opisano pitanje o utjecaju najave testova na

uspjeh uenika, cilj nam je provesti istraivanje ije emo rezultate moi podijeliti s kolegama

u drugim kolama i donijeti zakljuke koji e biti korisni za osmiljavanje buduih strategija

organizacije nastave. Meutim, u svom istraivanju gotovo sigurno neemo moi ukljuiti sve

uenike na koje e se odnositi doneseni zakljuci, ve emo umjesto toga odabrati malu

skupinu uenika i na njoj provesti mjerenje. Openito smo u istraivanjima gotovo uvijek

usmjereni na mjerenje uzoraka jer je ponekad populaciju nemogue, preskupo ili presloeno

izmjeriti, a ponekad tako neto ne bi imalo smisla raditi (npr. ako mjerenjem unitavamo

elemente skupa).

Nain odabira uzorka reflektira nae ciljeve i elju za kasnijom generalizacijom

zakljuaka; naalost, taj je izbor uvijek ogranien praktinim mogunostima. Vano je

naglasiti da nam je kod odabira uzorka cilj odabrati onu skupinu ispitanika koja to bolje

reprezentira populaciju kojoj pripada jer nam to omoguuje bolje zakljuivanje i predvianje

pojava. Na temelju toga koliko dobro uzorak predstavlja ciljanu populaciju, mogue je odrediti

njegovu reprezentativnost za ciljanu populaciju, odnosno njegov stupanj pristranosti.

Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloeni odreenim

pogrekama mjerenja o kojima e kasnije biti vie rijei.

S obzirom na osobine uzorka na kojem provodimo istraivanje, razlikujemo nekoliko

temeljnih vrsta uzoraka (osim ovih, postoje i drugi naini odabira uzoraka o kojima moete

vie saznati u dodatnoj literaturi):

o SLUAJNI - Uzorak kod kojeg svaki lan populacije ima jednaku vjerojatnost biti

odabran (odabir se vri uz pomo npr. tablica sluajnih brojeva). Sluajni uzorak

je obino i reprezentativan za populaciju, dok za one uzorke kod kojih neki lanovi

imaju veu vjerojatnost da budu odabrani kaemo da su pristrani.

o SISTEMATSKI Uzorak kod kojeg se lanovi populacije biraju uz pomo nekog

pravilnog algoritma (npr. svaki peti uenik u imeniku). Vrlo esto je ovaj uzorak

takoer reprezentativan za populaciju, to dakako ovisi o koritenom algoritmu.

o STRATIFICIRANI Uzorak koji pokuava zadrati strukturu populacije za koju

znamo da se sastoji od odreenih slojeva. Pritom se lanovi svakog sloja biraju


10

po principu sluajnog uzorka (npr. ako u nekoj koli imamo 25% uenika iz

manjinskih skupina, isti postotak tih uenika moemo zadrati i u uzorku)

o KVOTNI - Uzorak se bira tako da se odrede stratumi ili skupine (npr. skupine

uenika s razliitim opim uspjehom), a istraiva po svom slobodnom izboru iz

svakog predvienog stratuma odabere definiran broj ispitanika (npr. po 30

uenika s izvrsnim, vrlo dobrim, dobrim, dovoljnim i nedovoljnim uspjehom)

o PRIGODNI Uzorak koji se ne moe unaprijed odrediti, ve se ispituju oni

pojedinci koji su istraivau dostupni, odnosno osobe koje zateknemo na

eljenom mjestu u trenutku mjerenja (npr. studenti koji se trenutno nalaze na

nekoj studijskoj grupi).

Odabir uzorka predstavlja vrlo vaan dio svakog istraivanja koji jako moe utjecati

na kvalitetu dobivenih podataka te je na njega stoga posebno usmjeriti posebnu panju.

Osim odabira vrste uzorka i naina biranja ispitanika, vano je odrediti i broj ispitanika koje

elimo ispitati. Prilikom odreivanja veliine uzorka treba prije svega uzeti u obzir

varijabilnost pojave koju mjerimo (ako varijabilnost ne postoji i sve osobe imaju jednako

izraeno svojstvo, dovoljan nam je 1 ispitanik; ako je pojava jako varijabilna potrebno nam je

mnogo ispitanika) i eljenu preciznost koju bismo htjeli postii prilikom mjerenja (ako elimo

veu preciznost i manju pogreku mjerenja, u istraivanje emo ukljuiti vie ispitanika). U

nekim situacijama kod odabira veliine uzorka treba uzeti u obzir i veliinu populacije,

frekvenciju ciljane pojave u populaciji, planirane analize rezultata i mogui otpad, odnosno

naputanje istraivanja od strane odabranih ispitanika.

Organizacija i prikazivanje podataka

11

2. DESKRIPTIVNA STATISTIKA

Jednom kad ste prikupili odreene podatke potrebno ih je organizirati, prikazati i statistiki

obraditi. Metode deskriptivne statistike omoguuju nam upravo takvu organizaciju, opis i

osnovnu analizu prikupljenih podataka.

2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE REZULTATA

Organizacija podataka prije svega ukljuuje kodiranje, odnosno kvantificiranje svih varijabli, i

njihovo unoenje u odabrani program za statistiku obradu. Kod nekih varijabli je taj proces

jednostavan jer su izmjerene na metrikim skalama, pa podatke samo trebamo unijeti u

prikladni statistiki program (npr. ako smo zadovoljstvo ivotom mjerili na skali od 1 do 5,

rezultate ispitanika ve imamo u brojanoj formi).

Neto je sloeniji proces kodiranja varijabli koje nisu unaprijed kvantificirane, odnosno

pretvaranja onih vrijednosti koje su jo uvijek prikazane opisno u brojeve (npr. spol ispitanika

ne moete uzeti u obzir u analizi ukoliko ga nekako (proizvoljno) brojano ne odredite, na

primjer kodu muki moemo dodijeliti broj 1, a kodu enski broj 2). Uz to, prilikom

kodiranja dobro je razmisliti kako ete rijeiti situacije u kojima neki podaci nedostaju jer npr.

ispitanik nije dao podatke ili su vam napisani odgovori neitljivi. Pritom trebate odluiti kako

ete te podatke kodirati (najee je dobro dodati dodatan kod, odnosno brojanu vrijednost

koja predstavlja kategoriju nema odgovora) i kako ete ih kasnije tretirati u sloenijim

analizama.

Nakon toga, ovisno o vrsti i broju izmjerenih podataka, mogue je grupirati podatke

u razrede.

2.1.1. Grupiranje prikupljenih rezultata u razrede

Nakon to smo prikupili eljene podatke, cilj nam je organizirati definirane vrijednosti tako da

ih to lake moemo predoiti, vidjeti oblik distribucije rezultata i prije statistike analize

provjeriti pogodnost primjene odreenih statistikih analiza. Dakle, svaka bi statistika

analiza trebala zapoeti grafikim prikazom rezultata. esto nam to prikazivanje, kao i daljnju

statistiku analizu, olakava grupiranje rezultata.

Kako grupirati rezultate?

Proces grupiranja rezultata moe se opisati kao slijed nekoliko koraka:

1. Odrediti u koliko razreda elimo grupirati rezultate.


12

2. Odrediti raspon unutar svakog razreda, tzv. interval razreda. Interval razreda rauna

se po formuli:

interval = totalni raspon / broj razreda.

Totalni raspon ukljuuje ukupan broj rezultata, kojeg izraunamo kao razliku najveeg

i najmanjeg rezultata uveanu za 1 (TR = (xmax xmin) +1)).

Nakon to smo izraunali vrijednost intervala razreda, dobiveni omjer moe se

zaokruiti na veu vrijednost (nikada manju) ime osiguravamo da nam svi izmjereni

rezultati uu u predviene razrede.

3. Odrediti donju i gornju granicu svakog razreda. U pravilu se granice razreda odreuju

tako da preciznou odgovaraju mjerenim podacima (npr. ako imamo rezultate koji su

u formatu cijelih brojeva, onda i granice razreda odreujemo kao cijele brojeve). Osim

toga, mogue je odrediti i tzv. pravu gornju i pravu donju granicu razreda o kojima

moete vie saznati u preporuenoj literaturi.

4. Prikazati distribuciju rezultata, odnosno odrediti frekvenciju rezultata u svakom

razredu. Frekvencija (uestalost) nekog podatka je broj pojavljivanja tog podatka

npr. u skupini rezultata 1, 1, 2, 2, 2, 3 broj 1 ima frekvenciju 2, broj 2 frekvenciju 3, a

broj 3 frekvenciju 1. Osim ove frekvencije, za svaki podatak mogue je izraunati i

relativnu frekvenciju koja predstavlja omjer obine frekvencije i ukupnog broja

podataka (npr. relativna frekvencija broja 2 u prethodnom primjeru je 3/6, odnosno

0.5), te postotak koji predstavlja omjer obine frekvencije i ukupnog broja podataka

pomnoen sa 100. Zbroj relativnih frekvencija svih rezultata iznosi 1, a postotaka 100.

Kod grupiranja rezultata neke korake i vrijednosti odreujemo samostalno, odnosno

proizvoljno (npr. broj razreda u koje elimo grupirati podatke).

Kod ovih koraka mogue je, a ponekad i nuno, slijediti nekoliko preporuka za

grupiranje rezultata:

Intervali razreda (kvantitativne kategorije) se ne bi smjeli preklapati, odnosno svaki

izmjereni podatak mora biti smjeten u jedan (i samo jedan) razred.

Svi intervali razreda bi trebali biti jednake veliine.

Treba preferirati neparan broj razreda.

Broj razlika je provizoran, ali najbolji je u rasponu od 5-15.

to je broj mjerenja manji i broj razreda treba biti manji, i obrnuto.

Ako je mogue, treba izbjegavati distribucije s praznim razredima.

U odabiru broja razreda treba se sluiti pokuajima, te uzeti onaj broj razreda koji

daje najbolju distribuciju.


13

Primjer grupiranja rezultata

Ovo je popis skupa originalnih rezultata nekog mjerenja (N=40).

85 80 65 84 88 80 93 86

92 79 70 87 62 86 90 78

77 94 77 91 71 82 75 80

68 71 80 73 71 79 79 76

73 67 81 69 78 81 73 83

elimo grupirati rezultate i za to odabiremo broj od 5 razreda; taj broj je opravdan s

obzirom na to da elimo neparan broj razreda te da imamo relativno mali broj izmjerenih

podataka.

Zatim izraunavamo interval razreda koji predstavlja omjer totalnog raspona

(raunamo ga kao ukupni broj rezultata (94-62=)+1=32+1=33) i broja razreda (proizvoljno

smo odluili da to bude 5). Dakle, raunamo 33/5=6.6. To emo zatim zaokruiti na 7.

Sljedei korak je odreivanje gornjih i donjih granica pojedinanih razreda. Kod

odabira poetne vrijednosti, odnosno donje granice prvog razreda kreemo od 61; iako se

radi o broju koji je manji od najmanje izmjerene vrijednosti biramo ga zbog prethodnog

zaokruivanja vrijednosti. S obzirom na to da nam je interval razreda 7, gornja granica prvog

razreda mora biti 67 to omoguuje da se u njemu nae 7 moguih rezultata (61, 62, 63, 64,

65, 66 i 67). Na isti nain moemo odrediti donje i gornje granice svakog sljedeeg razreda.

Nakon to smo odredili granine vrijednosti pojedinanih razreda, trebamo smjestiti

rezultate u razrede, odnosno odrediti frekvenciju rezultata unutar svakog od njih. Za tu svrhu

moemo koristiti pomonu tablicu koja je dolje prikazana. Prilikom popunjavanja tablice

idemo rezultat po rezultat i oznaavamo koje smo rezultate uvrstili u tablicu. U donjoj tablici

prikazani su rezultati grupiranja rezultata iz prethodnog primjera.

Pomona tablica za grupiranja rezultata u razrede

Razred Granice

razreda Frekvencija

Ukupni broj

rezultata

1. 61-67 III 3

2. 68-74 IIII 9

3. 75-81 15

4. 82-88 III 8

5. 89-95 5


14

2.1.2. Tablino i grafiko prikazivanje podataka

Podatke moete prikazati grafiki i tablino. Nema previe smisla prikazivati iste podatke i

tablino i grafiki pa se, ovisno o ciljevima i preglednosti prikaza, treba odluiti za jednu od

ovih metoda.

I. Tablino prikazivanje podataka

Nekoliko je smjernica koje treba potivati prilikom tablinog prikazivanja podataka.

Svaka tablica mora imati redni broj i naslov.

Naslov mora biti kratak i jasan, a tablica samo-pojanjavajua. Ukoliko je potrebno,

ispod tablice se moe dodati i Legenda koja pojanjava eventualne skraenice ili

informacije koje inae iz same tablice ne bi bile jasne. Dodatna pojanjenja moraju biti

naznaena uz tablicu, ne u tekstu. Na temelju naslova, legende i onoga to se u tablici

nalazi, itatelj mora biti u mogunosti razumjeti sadraj tablice.

Naslov tablice nalazi se iznad tablice, i moe biti centriran. Tekst Tablica br. se moe

napisati u italic stilu, a sam naslov tablice u obinom tekstu. Openito, stil pisanja naslova

tablice (font, prored) moe se razlikovati od ostatka teksta.

Stupce i retke treba jasno i saeto oznaiti.

Vrijednosti u redovima ili pak stupcima treba logiki poredati (npr. logino je da se najprije

prikae aritmetika sredina, pa onda standardna devijacija, a ne obrnuto).

Treba izbjegavati okomite crte u tablicama, a vodoravnima treba odvajati tek zaglavlje i

podnoje tablice od ostalog dijela tablice, ili pak neke cjeline tablice meusobno.

Najee je uputno prikazane vee brojeve razloiti u skupove po 3 znamenke (npr.

umjesto 457635 napisati 457 635).

Kad god je to mogue, u tablicama je uputno prikazati originalne, mjerene podatke.

Ako se neki podatak iz tablice eli istaknuti, to se moe uiniti zvjezdicom (npr. statistika

znaajnost) i to dodatno komentirati.

Tablicu se u tekstu navodi njezinim rednim brojem (npr. vidi Tablicu 3; ili u Tablici 3

nalaze se rezultati...).

Tablica treba biti centrirana na stranici.

Vane napomene: U organizaciji tablinog prikaza treba biti fleksibilan, i uskladiti je s

ciljevima prikazivanja. Takoer, ovisno o tome gdje se tablica prikazuje, ona se mora / moe

formatirati, odnosno organizirati i prikazati u skladu s relevantnim konvencijama, npr.

pravilima asopisa u kojima elimo objaviti rezultate. Isto vrijedi i za grafiko prikazivanje

rezultata.


15

Primjer tablica organiziranih prema gornjim naputcima

Tablica 1

Aritmetike sredine ( X ) i standardne devijacije (s) rezultata dobivenih primjenom skala depresivnosti i

zadovoljstva ivotom kod studenata i studentica pedagogije i povijesti.

Skale

Spol ispitanika

Studenti

pedagogije

Studenti povijesti

X s X s

Depresivnost m 75 11.2 77 14.1

83 13.3 82 15.2

svi 82 12.5 80 14.6

Zadovoljstvo

ivotom

m 55 17.5 71 14.5

64 18.2 62 14.6

svi 58 18.0 66 14.4

Tablica 2

Broj studenata i studentica upisanih na studijske grupe Pedagogija i Povijest u akademskoj godini

2000/2001.

Spol studenata

Studijska grupa

Ukupno

Pedagogija Povijest

enski 29 16 45

Muki 1 14 15

Ukupno 30 30 60


16

II. Grafiko prikazivanje podataka

Grafiko prikazivanje rezultata omoguuje jasno i cjelovito zahvaanje odnosa koji postoje

meu podacima. Stoga je ono korisno ne samo za razumijevanje dobivenih rezultata, ve se

moe koristiti ak i za procjenjivanje onih vrijednosti koje mjerenjem nisu izravno utvrene

(interpolacija i ekstrapolacija). Grafiko prikazivanje rezultata je naroito vano za otkrivanje

neke posebne ili neoekivane karakteristike rezultata, te nam olakava usporedbu razliitih

vrijednosti, trendova i odnosa meu rezultatima.

Openita preporuka prilikom grafikog prikazivanja jest to jasnije i jednostavnije prikazati

dobivene rezultate. Kako biste u tome uspjeli, moete slijediti nekoliko jednostavnih principa:

Svaki grafiki prikaz mora imati redni broj i naslov. Pri oznaavanju, graf se naziva

Slika br., nakon ega slijedi kratak i jasan naslov. Stil pisanja naslova je slian

onome kod tablica (Slika br. Naslov)

Redni broj i naslov grafikog prikaza (slike) nalaze se ispod grafikog prikaza.

Navoenje grafikog prikaza u tekstu ini se preko rednog broja slike (pr. vidi Sliku 1).

U najveem broju sluajeva, grafikom prikaz treba dodati Legendu koja sadri

objanjenja potrebna za razumijevanje prikaza.

Grafiki prikaz treba biti jasan i itljiv treba paziti prilikom odabira boja razliitih

kategorija, veliine i itljivosti fonta na slici, i sl.

Grafiki prikaz treba biti centriran na stranici.

Postoje razliite vrste grafikih prikaza podataka koje moemo koristiti, ovisno o vrsti

podataka kojeg imamo i cilju njihovog prikazivanja. Meu njima najee koristimo:

Kruni dijagram (torta-dijagram; pie-chart)

jednostavan, dobar za deskripciju podataka

ukljuuje prikaz kategorije i pripadajuih postotaka koji mogu biti prikazani

unutar dijagrama ili u posebnoj legendi (ovisi o broju kategorija i preglednosti)

Primjer grafikog prikaza kruni dijagram:

Slika 1. Uspjeh studenata I. godine na ispitu iz Pedagoke psihologije. Prikazan je postotak studenata koji su na ispitu dobili pojedinane ocjene.


17

Dijagram u obliku stupaca / stupasti dijagram

prikazuje odnos izmeu neke kvalitativne varijable i njezine frekvencije

sastoji se od pravokutnika u kojima povrina (i visina) svakog pravokutnika

odgovara frekvenciji svake kategorije

osi dijagrama su sljedee: apscisa (x) kategorija; ordinata (y) najee

frekvencija

Histogram

predstavlja stupasti dijagram s kontinuiranim varijablama

sastoji se od pravokutnika u kojima povrina (i visina) svakog pravokutnika

odgovara frekvenciji svakog intervala

osi dijagrama su sljedee: apscisa (x) vrijednost mjerenja; ordinata (y)

najee frekvencija

Poligon frekvencija

prikazuje odnos izmeu neke varijable i njezine frekvencije

predstavljen je linijom koju definiraju toke ija visina pokazuje frekvenciju

svakog intervala

histogram se lako moe transformirati u poligon frekvencija ukoliko se na

sredinu gornje linije svakog pravokutnika postavi toka koja onda predstavlja

osnovu za izradu poligona.

Pri konstrukciji stupastog dijagrama, histograma i poligona frekvencija treba voditi

rauna o:

odnosu duine apscise i ordinate (duina ordinate je oko 2/3 duine apscise)

prekidanju apscise ili ordinate

oznaavanju jedinica na osima (nije potrebno oznaavati sve izmjerene

vrijednosti, ve nanositi uporine vrijednosti, obino cijele brojeve)

organizaciji ordinate: kod ovih grafikih pristupa na osi y najee se nalazi

frekvencija, iako se ponekad mogu koristiti i postotci ili relativne frekvencije

optimalnoj organizaciji: pomou ovih grafikih prikaza moe se prikazati i vie

od jedne distribucije. Pritom treba biti paljiv u organizaciji grafa i ne zaboraviti

u njega ukljuiti jasnu legendu.

Isti ili slini principi vrijede i za grafike prikaze koji opisuju odnos dviju varijabli,

odnosno pokazuju kako se mijenja jedna pod utjecajem druge varijable. Pritom se

naelno na os x nanosi nezavisna, a na os y zavisna varijabla.


18

Primjer grafikog prikaza histogram frekvencija:

Slika 2. Prosjene ocjene na kraju kolske godine kod skupine od 60 uenika i 60 uenica treih

razreda podrune kole X.

Primjer grafikog prikaza poligon frekvencija:

Slika 3. Prosjene ocjene na kraju kolske godine kod skupine od 60 uenika i 60 uenica treih

razreda podrune kole X.

Mjere sredinjih vrijednosti i rasprenja

19

2.2. MJERE SREDINJIH VRIJEDNOSTI

Raunanje sredinje vrijednosti predstavlja jednu od najeih statistikih analiza koju

koristimo kako bismo kratko i zorno prikazali odreeni skup podataka. Raunanjem sredinje

vrijednosti cijeli skup zamjenjujemo jednom vrijednou za koju smatramo da ga dobro

reprezentira, te stoga moramo biti jako paljivi prilikom odabira prikladne mjere.

2.2.1. Aritmetika sredina

Aritmetika sredina ( X ) predstavlja jednu od najee koritenih mjera sredinjih vrijednosti.

Ona se smatra najboljim pokazateljem prave vrijednosti mjerenja, i jedina je vrijednost koju je

opravdano koristiti u sloenijim obradama podataka. Aritmetika sredina odreuje se tako da

se sve vrijednosti u nekom skupu rezultata zbroje, a zatim se taj zbroj podijeli s ukupnim

brojem rezultata.

N

xX

N broj rezultata sigma, simbol za zbroj

x svaki pojedinani rezultat mjerenja

Meutim, aritmetiku sredinu nije opravdano koristiti uvijek, ve samo u onim

situacijama u kojima su ispunjeni neki uvjeti. Naime, s obzirom na to da na vrijednost

aritmetike sredine djeluje svaki rezultat svojom veliinom, kod raunanja aritmetike sredine

veliki problem predstavlja postojanje ekstremnih vrijednosti, odnosno rezultata koji jako

odstupaju od veine izmjerenih vrijednosti unutar jednog skupa. Openito, to su rezultati

homogeniji, aritmetika sredina bolje reprezentira te podatke.

Aritmetika sredina predstavlja teite rezultata, jer je zbroj odstupanja pojedinanih

rezultata od aritmetike sredine jednak 0, dok je zbroj kvadrata tih odstupanja manji od

zbroja kvadrata odstupanja od bilo koje druge vrijednosti u nekom skupu podataka.

Aritmetiku sredinu dozvoljeno je koristiti samo kada su ispunjeni sljedei uvjeti:

o postoje pravi mjerni podaci koji su tono odreeni

o izmjeren je dovoljan broj podataka (zbog stabilnosti)

o distribucija rezultata je simetrina.

Primjer raunanja aritmetike sredine:

Mjerenjem smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Izraunajte

aritmetiku sredinu.

4,415

66876655444433322

NX


20

2.2.2. Centralna vrijednost (medijan)

Za razliku od aritmetike sredine, centralna vrijednost (C) nije izraunata vrijednost, ve

vrijednost poloaja. Naime, centralna vrijednost predstavlja onaj rezultat koji se u nizu

rezultata poredanih po veliini nalazi tono po sredini. Na nju ne utjeu vrijednosti pojedinih

rezultata ve samo njihov broj, te je stoga pogodna za koritenje u situacijama kada se u

skupu podataka moe pronai nekoliko ekstremnih rezultata.

Prilikom odreivanja centralne vrijednosti najprije je potrebno odrediti poloaj te

vrijednosti u nizu rezultata poredanih po veliini. Pritom se koristi formula:

5,02

NRc

N broj rezultata

Nakon to smo odredili poloaj centralne vrijednosti, moramo odrediti i njezinu

vrijednost. Ukoliko pred sobom imamo neparni broj rezultata, onda samo trebamo oitati onu

vrijednost koja se nalazi na rednom poloaju kojeg smo izraunali u prethodnoj formuli. Ako

se radi o parnom broju rezultata, onda je centralna vrijednost jednaka prosjeku dviju

susjednih vrijednosti. Npr. ako imamo pet rezultata centralna vrijednost je ona koja se nalazi

na treem mjestu, a ako ih imamo etiri onda se radi o prosjeku (aritmetikoj sredini)

rezultata koji se nalaze na drugom i treem mjestu.

Primjer raunanja centralne vrijednosti:

Mjerenjem smo dobili sljedee rezultate: 7, 8, 4, 2, 3, 3, 3, 4, 2, 5, 4, 4, 5, 6, 6. Izraunajte

centralnu vrijednost.

Najprije treba poredati rezultate po veliini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8.

85,02

15Rc ; C = 4

2.2.3. Dominantna vrijednost (mod)

Dominantna vrijednost (D) predstavlja onu vrijednost koja meu rezultatima dominira

estinom pojavljivanja, dakle onu vrijednost koja ima najveu frekvenciju. Na nju utjee samo

broj, ali ne i vrijednost pojedinanih rezultata. Stoga se preporuuje koristiti ju ako imamo

velik broj rezultata od kojih su neki ekstremni, te ako samo jedna vrijednost dominira

estinom. Naime, esto se dogaa da skupina rezultata nema samo jednu, ve vie

vrijednosti s jednakom frekvencijom. U sluaju da npr. distribucija ima dva ili vie jednakih

vrhova tada se oitaju dvije ili vie dominantnih vrijednosti, te govorimo o bimodalnim ili


21

multimodalnim distribucijama. Iako dominantna vrijednost predstavlja najslabiju mjeru

sredinjih vrijednosti, u nekim situacijama i ona moe biti informativna i korisna.

Primjer raunanja dominantne vrijednosti:

Mjerenjem smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

dominantnu vrijednost.

D = 4

2.2.4. Ostale mjere sredinjih vrijednosti

Osim gore spomenutih, ponekad se mogu koristiti i druge mjere sredinjih vrijednosti. One

ukljuuju harmoninu i geometrijsku sredinu koje se mogu koristiti samo kod omjernih skala

mjerenja.

Harmonina sredina se koristi kada elimo izraunati prosjeke nekih odnosa (npr.

prosjeni km/h, broj slova u minuti), a smije se raunati ako broj nije negativan ili nula.

Geometrijska sredina se preteno koristi kao prosjena mjera brzine nekih

promjena, te se takoer smije raunati ako broj nije negativan ili nula.

Vana napomena: U nekim skupovima mogue je izraunati vie od jedne mjere sredinjih

vrijednosti, najee aritmetiku sredinu, centralnu vrijednost i dominantnu vrijednost. Ako to

napravimo, usporedba ovih vrijednosti neto nam moe rei i o obliku distribucije rezultata, o

emu e biti govora malo kasnije.


22

2.3. MJERE RASPRENJA REZULTATA

Kao to smo opisali u prethodnom poglavlju, unutar deskriptivne statistike mogue je cijeli

skup podataka zamijeniti jednom, sredinjom vrijednou koja ga najbolje reprezentira. Ta

nam vrijednost, meutim, ne govori nita o tome koliko taj podatak dobro reprezentira

izmjerene podatke (npr. sredinja vrijednost 4 bolje reprezentira skup 3 3 4 4 4 4 4 5 5

nego skup 1 1 2 2 3 4 5 6 6 7 7). Tu nam informaciju nudi neka od mjera rasprenja

(razlikovanja) rezultata koje emo sada opisati.

2.3.1. Raspon rezultata

Raspon podataka poredanih prema veliini predstavlja razliku najveeg i najmanjeg podatka.

Raspon = xmax xmin

Kao to je uoljivo, raspon rezultata poiva na samo dvije vrijednosti rezultata te je

stoga jako osjetljiv na ekstremne rezultate. Osim toga, raspon najee raste s porastom

broja mjerenja (rezultata), te predstavlja vrlo nesigurnu mjeru rasprenja rezultata.

Primjer raunanja raspona rezultata:

Mjerenjem smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

raspon rezultata.

Raspon = 8 - 2 = 6

2.3.2. Varijanca

Varijanca (s2) predstavlja jednu od informativnijih mjera rasprenja rezultata koja se smije

raunati samo uz aritmetiku sredinu. Varijanca predstavlja prosjek sume kvadriranih

odstupanja svakog rezultata od aritmetike sredine; dakle, rauna se tako da izraunamo

razliku izmeu svakog rezultata i aritmetike sredine, zatim te razlike kvadriramo i zbrojimo,

te na kraju zbroj podijelimo s ukupnim brojem rezultata.

N

Xxs

2

2)(

x svaki pojedinani rezultat mjerenja X - aritmetika sredina

N broj rezultata

Kao to je vidljivo iz formule, kod raunanja varijance vea odstupanja kvadriranjem

dolaze vie do izraaja, te se na taj nain kanjava postojanje ekstremnih rezultata u


23

mjerenju. Openito, varijanca se kao samostalna vrijednost ne koristi esto, iako je ona vrlo

korisna prilikom provoenja nekih drugih statistikih analiza.

Vano je naglasiti da se gore napisana formula za varijancu naelno koristi kada radimo

s podacima iz cijele populacije. Ukoliko su nai podaci dobiveni mjerenjem uzorka, preciznije

je koristiti modificiranu formulu:

1

)( 22

N

Xxs

Primjer raunanja varijance:

Mjerenjem (na vrlo maloj populaciji) dobili smo sljedee rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

varijancu dobivenih rezultata.

Najprije odreujemo aritmetiku sredinu rezultata, a zatim varijancu:

37

214433322

NX

57.07

4

7

)34()34()33()33()33()32()32( 22222222

s

2.3.4. Standardna devijacija

Standardna devijacija (s) usko je povezana s varijancom. Ona predstavlja drugi korijen iz

vrijednosti varijance, odnosno drugi korijen iz prosjeka sume kvadriranih odstupanja. Kao i

varijanca, standardna devijacija rauna se samo uz aritmetiku sredinu. I kod ove vrijednosti

postoje dvije formule jednu koristimo kad imamo rezultate mjerene na populaciji, a drugu

ukoliko su rezultati dobiveni na uzorku.

Mjerenje na populaciji Mjerenje na uzorku

N

Xxs

2)(

1

)( 2

N

Xxs

x svaki pojedinani rezultat mjerenja

X - aritmetika sredina N broj rezultata

Standardna devijacija je najee koritena mjera rasprenja koju uvijek treba navesti uz

aritmetiku sredinu. Najjednostavnije reeno, to je vrijednost koja oznaava tipinu, ili

prosjenu razliku izmeu pojedinanih rezultata i aritmetike sredine nekog skupa. to je

standardna devijacija manja, to nam aritmetika sredina bolje reprezentira dobivene rezultate

jer se oni u prosjeku manje razlikuju od nje.

Ako poznajemo ove dvije vrijednosti za neki skup rezultata, moemo rekonstruirati jo

neke podatke o njemu, o emu e biti rijei u iduem poglavlju.


24

Primjer raunanja standardne devijacije:

Mjerenjem (na vrlo maloj populaciji) dobili smo sljedee rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

standardnu devijaciju dobivenih rezultata.

Najprije odreujemo aritmetiku sredinu rezultata, a zatim standardnu devijaciju:

37

214433322

NX

75.057.07

4

7

)34()34()33()33()33()32()32( 2222222

s

2.3.5. Koeficijent varijabilnosti

Kada su nam za dva skupa podataka poznate dvije aritmetike sredine i standardne

devijacije, rezultati su potpuno definirani. No, ukoliko nas zanima koji od ta dva skupa

rezultata vie varira, nije nam doputeno jednostavno usporediti njihove standardne

devijacije.

Umjesto toga, trebamo izraunati drugu, standardiziranu mjeru rasprenja koju

nazivamo koeficijent varijabilnosti (V). Ovaj koeficijent koristimo kada elimo znati koja od

dvije skupine rezultata relativno vie varira, odnosno ako nas zanima u kojem svojstvu neka

skupina varira vie, a u kojem manje ili koja od ispitanih grupa varira vie, a koja manje u

istom svojstvu.

100X

sV

s standardna devijacija X - aritmetika sredina

Primjer raunanja koeficijenta varijabilnosti:

Mjerenjem (na vrlo maloj populaciji) smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

koeficijent varijabilnosti dobivenih rezultata.

Najprije raunamo aritmetiku sredinu i standardnu devijaciju rezultata. Te emo

vrijednosti uvrstiti u formulu za koeficijent varijabilnosti.

37

214433322

NX

75.057.07

4

7

)34()34()33()33()33()32()32( 2222222

s

%2510025.01003

75.0 xV


25

2.3.6. Ostale mjere rasprenja

Osim gore spomenutih, ponekad se mogu koristiti i druge mjere rasprenja rezultata.

Jedna od tih mjera koja nam moe biti od koristi naziva se poluinterkvartilno

rasprenje, odnosno interkvartilni raspon. Ova se mjera rauna uz centralnu vrijednost, na

rezultatima poredanim po veliini. Odreuje se kao razlika izmeu rezultata koji se nalazi na

granici treeg ili gornjeg kvartila (rezultat koji razdvaja 75% najmanjih rezultata od onih veih)

i onoga koji se nalazi na granici prvog ili donjeg kvartila (rezultat koji razdvaja 25% najmanjih

podataka od ostalih). Vie o raunanju poluinterkvartilnog rasprenja saznajte u dodatnoj

literaturi.

Osim spomenutih, postoje i druge mjere rasprenja, npr. indeks srednjeg

odstupanja s kojim ete se rijetko susretati.

Distribucije rezultata

26

2.4. DISTRIBUCIJE REZULTATA

Distribuciju rezultata ine sve uestalosti, odnosno pojedinani rezultati i njihove

frekvencije unutar nekog skupa podataka. Kao to ve znate, postoji veliki broj razliitih

oblika distribucija od kojih smo neke ve spominjali. Kratak pregled nekih oblika distribucija

prikazan je ovdje:

Kvadratina / uniformna

U - distribucija Bimodalna Normalna

2.4.1. Normalna distribucija

Normalna distribucija predstavlja temeljni oblik distribucije koji u statistici ima

neobino veliku vanost. Ona predstavlja osnovu za razumijevanje pojmova statistike

vjerojatnosti. Ponekad se, prema njemakom matematiaru C. Gaussu, naziva i Gaussova

krivulja. Njezine temeljne osobine su zvonolik oblik, simetrinost i asimptotsko pribliavanje

apscisi.

Veliki broj pojava i osobina (ne sve!) u prirodi distribuira se normalno. Slino tome, u

istraivanjima koja se provode na uzorcima takoer je esto mogue oekivati ovu

distribuciju, i to onda kada su ispunjeni sljedei uvjeti:

ako se osobina koju mjerimo zaista distribuira normalno u populaciji

ako imamo dovoljno velik broj mjerenja

ako su svi izmjereni rezultati dobiveni koritenjem iste metode i prikupljeni u istim

uvjetima

ako je skupina koju mjerimo homogena po svim osobinama, osim one koju

mjerimo (po kojoj je heterogena).


27

Openito, kada u nekom istraivanju izmjerimo odreeno svojstvo i prikaemo

rezultate, vrlo rijetko e se dogoditi da su oni distribuirani u obliku idealne normalne

distribucije. Naime, ee emo imati priliku susresti se s nekim manjim varijacijama, meu

kojima su osnovne razlike u irini i simetriji distribucije.

Vezano uz varijacije u irini, razlikujemo leptokurtine (uske, visoke distribucije kod

kojih se veina rezultata grupira oko aritmetike sredine) i platikurtine (iroke distribucije u

kojima ima relativno puno rezultata koji se razlikuju od aritmetike sredine) distribucije. Na

slici su prikazane tri takve distribucije koje se meusobno razlikuju po irini, odnosno

statistiki gledano, prema rasprenju rezultata:

Osim po irini, distribucije esto razlikujemo i prema stupnju simetrije. Kao to je

spomenuto ranije, prava normalna distribucija je potpuno simetrina te su stoga kod nje sve

mjere sredinjih vrijednosti (aritmetika sredina, centralna i dominantna vrijednost)

meusobno jednake. Za razliku od toga, kod asimetrinih distribucija to nije sluaj.

Pogledajte na slici odnos pojedinanih sredinjih vrijednosti kod pozitivno asimetrine

(distribucija kod koje postoji vie ekstremnih rezultata viih vrijednosti) i negativno

asimetrine (distribucija kod koje postoji vie ekstremnih rezultata niih vrijednosti)

distribucije.

Simetrina Pozitivno asimetrina Negativno asimetrina

X =C=D

D C X

X C D

Openito, ukoliko distribucija rezultata izmjerenih na nekom uzorku znaajno odstupa

od normalne, to moe biti indikator da se mjerena pojava ni u populaciji ne distribuira

normalno. S druge strane, jednako esto ili ee nam to moe ukazivati na pogreke u

odabiru uzorka, odnosno postojanju nekih pristranosti u mjerenju (djelovanja sistematskih

faktora na dobivene rezultate). Na primjer, ukoliko na testu matematike veliki broj djece

0

5

10

15

20

5 10 15 20 25 30 35 10152025303540


28

dobije ocjene vrlo dobar i izvrstan (dakle, ako je distribucija negativno asimetrina), to nam

moe ukazivati na to da je test bio prelagan.

Vano je napomenuti da je u istraivanjima vano provjeriti oblik distribucije osim

subjektivno (preko grafikih prikaza), to se moe objektivno napraviti koritenjem testova za

provjeru asimetrije i zaobljenosti, primjerice Kolmogorov-Smirnov testom koji se u praksi

esto koristi. Ako izmjerena distribucija rezultata nije normalna, treba izbjegavati koritenje

parametrijskih metoda analize koje se inae koriste kod normalno distribuiranih rezultata, jer

to moe dovesti do pogrenih zakljuaka.

Normalna distribucija je u praksi jako vana jer predstavlja osnovu za izraunavanje

vjerojatnosti odreenog rezultata u nizu mjerenja. To moemo lako napraviti za bilo koje

mjerenje ukoliko nam je poznata aritmetika sredina i standardna devijacija rezultata koji se

normalno distribuiraju.


29

2.5. POLOAJ REZULTATA U SKUPINI

Ukoliko smo u nekoliko istraivanja izmjerili jednu ili vie pojava i elimo usporediti

pojedinane rezultate tih mjerenja, to ne moemo napraviti samo usporedbom mjerenih

vrijednosti jer one mogu npr. biti izmjerene na razliitim skalama. Stoga je potrebno rezultate

standardizirati, odnosno pretvoriti ih u neki standardni oblik. Pritom najee koristimo tzv.

z-vrijednosti.

2.5.1. z-vrijednosti

Logika z-vrijednosti temelji se na razlikama rezultata od aritmetike sredine skupine

kojoj pripadaju. Dakle, odreuje se odstupanje svakog rezultata od aritmetike sredine koje

onda izraavamo na standardizirani nain. Pri tom koristimo univerzalne jedinice koje se

mogu meusobno usporeivati. To su jedinice standardne devijacije.

s

Xxz

x-svaki pojedinani rezultat s standardna devijacija X - aritmetika sredina

Pretvaranjem distribucije izmjerenih vrijednosti u onu z-vrijednosti dobijemo novu

distribuciju ija je aritmetika sredina 0, a standardna devijacija 1. Openito, unutar cijele

normalne distribucije uvijek se nalazi isti postotak rezultata, a to isto moemo rei i za

pojedine dijelove te distribucije. Kod normalne distribucije se tako praktino svi rezultati

(99.9%) nalaze u rasponu aritmetika sredina 3 standardne devijacije. Unutar granice

aritmetika sredina 2 standardne devijacije nalazi se vie od 95%, a unutar granice

aritmetika sredina 1 standardne devijacije 68% rezultata.

Osim toga, kod normalne distribucije je mogue izraunati toan postotak (broj

rezultata) dobivenih u nekom rasponu u distribuciji; to inimo pomou formule za

izraunavanje z-vrijednosti i Statistikih tablica, odnosno tablica koje nam za svako


30

standardizirano odstupanje (z) pokazuju povrinu ispod normalne distribucije (Tablica u

prilogu: Povrine ispod normalne krivulje).

Na temelju gore navedenog postupka, u nekoj distribuciji moemo odrediti npr. toan

poloaj rezultata u nekoj skupini, broj ispitanika koji su postigli rezultate vee ili manje od

neke vrijednosti, broj ispitanika koji je postigao rezultat unutar odreenog raspona, itd. Pri

izraunavanju tih vrijednosti, vano je paljivo pratiti organizaciju tablice, te prije samog

izrauna grafiki prikazati problem koji se pokuava rijeiti.

Vano je naglasiti da je uz pomo z-vrijednosti mogue i kombinirati rezultate dvaju ili

vie testova, npr. zbrojiti z-vrijednost pojedinca na nekoliko testova kako bi se odredio njegov

ukupni / prosjean uspjeh u skupini.

Primjer raunanja z-vrijednosti:

Mjerenjem nekog uzorka dobili smo skup od 600 normalno distribuiranih rezultata ija

je aritmetika sredina 100, a standardna devijacija 10. Odredite koja je vjerojatnost da je neki

rezultat vei ili jednak od rezultata 103.

3.010

3

10

100103

s

XXz

U Statistikim tablicama za vrijednost z=0.3 moemo iitati eljeni rezultat. Dakle,

vjerojatnost da je neki rezultat vei ili jednak 103 je 0.382.


31

2.5.2. Centili i decili

Osim z-vrijednosti, postoje i drugi naini odreivanja poloaja rezultata u skupini drugih

rezultata. Vrlo esto se koriste skale centila i decila, naroito kod distribucija koje nisu

distribuirane normalno. Logika njihovog koritenja slina je ranije spominjanom raunanju

kvartila kod kojih se niz rezultata dijeli na etiri jednaka dijela (granica drugog kvartila je

centralna vrijednost). Slino tome, kod decila se odreuju granice koje dijele niz rezultata

poredanih po veliini u skupine od po 10% rezultata, dok se kod centila radi o skupinama od

po 1% rezultata. To se moe napraviti uz pomo z-vrijednosti jer se u normalnoj distribuciji

za ciljani granini postotak rezultata moe odrediti z-vrijednost uz koju se on vezuje, a zatim i

originalni izmjereni rezultat.

Meutim, jo je jednostavnije odrediti decile ili centile pomou bruto vrijednosti. Na

primjer, kod odreivanja decila najprije je potrebno rezultate poredati po veliini. Nakon toga,

odreuju se gornje granine vrijednosti decila kojih ima 9. Prva granica odvaja prvih 10%

ispitanika, druga prvih 20%, itd. Granica 5. decila je centralna vrijednost.

Raunski decil u kojem se nalazi neki rezultat moemo izraunati pomou formule:

10xN

rangd

Prema istoj logici, raunski se centil u kojem se nalazi neki rezultat moe izraunati pomou

formule:

100xN

rangc

Kao to je spomenuto, ove se skale esto koriste kada nije opravdano koristiti z-

vrijednosti ili kad se rezultati ele prikazati nestatistiarima. Iako korisne, ove skale imaju

svojih ogranienja jer su grube, neaditivne i neekvidistantne, te se stoga u sloenijim

analizama ne koriste.

Inferencijalna statistika

32

3. INFERENCIJALNA STATISTIKA

Metode inferencijalne statistike omoguuju nam da na temelju podataka dobivenih

mjerenjem na uzorku generaliziramo, odnosno donosimo zakljuke o stanju u iroj populaciji.

Unutar inferencijalne statistike kljuno je poznavati osnove uzorkovanja koje, kao to je

objanjeno u prikazu Deskriptivne statistike, predstavlja postupak formiranja uzorka iz

populacije, odnosno odabira ispitanika koji e sudjelovati u nekom istraivanju. Populaciju

ine svi mogui lanovi neke skupine s odreenim znaajkama (ponekad se naziva i

statistiki skup). Uzorak je dio populacije na kojem provodimo istraivanje (dio statistikog

skupa).

Openito smo u istraivanjima gotovo uvijek usmjereni na mjerenje uzoraka jer je

ponekad populaciju nemogue, preskupo ili presloeno izmjeriti, a ponekad tako neto ne bi

imalo smisla raditi (npr. ako mjerenjem unitavamo elemente skupa). Nain odabira uzorka

reflektira nae ciljeve i elju za kasnijom generalizacijom zakljuaka; naalost, taj je izbor

uvijek ogranien praktinim mogunostima. Vano je naglasiti da nam je kod odabira uzorka

cilj odabrati onu skupinu ispitanika koja to bolje reprezentira populaciju kojoj pripada jer

nam to omoguuje bolje zakljuivanje i predvianje pojava. Na temelju toga koliko dobro

uzorak predstavlja ciljanu populaciju, mogue je odrediti njegovu reprezentativnost za

ciljanu populaciju. Prilikom organizacije mjerenja mogue je izabrati razliite vrste uzoraka,

pri emu se esto koristi sluajni uzorak, odnosno uzorak kod kojeg svaki lan populacije ima

jednaku vjerojatnost biti odabran (odabir se vri uz pomo npr. tablica sluajnih brojeva).

Sluajni uzorak je obino i reprezentativan za populaciju, dok za one uzorke kod kojih neki

lanovi imaju veu vjerojatnost da budu odabrani kaemo da su pristrani.

Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloeni odreenim

pogrekama mjerenja koje trebamo uzeti u obzir prilikom interpretacije i koritenja rezultata.

S obzirom na to, kada na temelju uzorka elimo zakljuivati o stanju u populaciji (npr.

predvidjeti izraenost neke osobine u populaciji ili provjeriti postojanje razlika meu

grupama), tu pogreku moramo uzeti u obzir. Kako mi kod samog mjerenja nikad ne

moemo znati veliinu pogreke koja se vezuje upravo uz to mjerenje, kao ni pravo stanje u

populaciji, u praksi sve zakljuke donosimo s odreenom vjerojatnou ili uz odreeni

stupanj sigurnosti. Drugim rijeima, uz nae se zakljuke uvijek vee mogunost pogreke;

veliinu te pogreke izraavamo tako to uz dobiveni rezultat uvijek navodimo i vjerojatnost

javljanja te pogreke, koju nazivamo i razinom rizika unutar istraivanja.

Sam istraiva odreuje eljeni stupanj sigurnosti na kojem eli temeljiti svoje

zakljuke: najee se pritom odluuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili


33

99% (razinu rizika od 1%). Odabrana razina rizika pritom odraava vjerojatnost pogreke

prilikom procjene: ukoliko se odluimo za razinu rizika od 1%, moemo pretpostaviti da emo

kod napravljene procjene pogrijeiti u 1% sluajeva, odnosno u jednoj od sto napravljenih

procjena.

Razliite postupke i analize unutar inferencijalne statistike meusobno razlikujemo s

obzirom na vrstu modela koje koriste (parametrijske ili neparametrijske metode), broj varijabli

koje uzimaju u obzir (univarijantne, bivarijantne ili multivarijantne tehnike) te osobine uzorka i

izmjerenih podataka. Pritom treba posebno naglasiti da odabir prikladne statistike metode u

istraivanju prvenstveno ovisi o istraivakom pitanju na koje elimo odgovoriti.


34

3.1. POGREKE MJERENJA

Ako bismo iz neke populacije izvadili veliki broj uzoraka jednake veliine i za svaki od njih

odredili prosjene vrijednost, aritmetike sredine tih uzoraka meusobno bi se razlikovale

iako svi ti uzorci dolaze iz iste populacije (i nju predstavljaju). Ukoliko bismo sve te

aritmetike sredine uzoraka grafiki prikazali, vidjeli bismo da e se aritmetike sredine

populacije grupirati oko prave aritmetike sredine populacije, a njihova e distribucija

nalikovati normalnoj. to su izmjereni uzorci vei, to e distribucija njihovih aritmetikih

sredina biti slinija normalnoj i imati manju standardnu devijaciju. tovie, ak i ako

distribucija populacije nije normalna, kod velikih uzoraka (esto N>30) e distribucija

aritmetikih sredina biti normalna. To nazivamo teoremom centralne granice.

Slika 1. Primjeri distribucije rezultata u populaciji (slike u retku 1), te distribucije aritmetikih

sredina uzoraka razliite veliine (slike u retcima 2-4)

Dakle, moemo zakljuiti kako aritmetika sredina velikog broja uzoraka nee tono

odgovarati pravoj aritmetikoj sredini populacije, ve e se od nje vie ili manje razlikovati.

Isto vrijedi i za ostale karakteristike uzorka, npr. standardnu devijaciju ili proporcije.

Pogreka uzorka predstavlja upravo tu razliku izmeu vrijednosti dobivenih mjerenjem

uzorka i stvarnog stanja u populaciji. Razlozi zbog kojih dolazi do pogreaka mjerenja

ukljuuju: nesluajnost uzorka ili selektivni otpad ispitanika, netone i/ili neiskrene odgovore,

nejasna pitanja, pogrean unos/kopiranje podataka i sl. Pogreka uzorka bit e vea kod

manjih uzoraka koji slabije reprezentiraju populaciju iz koje potjeu.

Formula za raunanje pogreke aritmetike sredine N

ssX s - standardna devijacija

N- broj ispitanika

p proporcija jedne kategorije

q proporcija druge kategorije Formula za raunanje pogreke

proporcije N

pxqs p


35

Primjer odreivanja pogreke aritmetike sredine:

U skupini od 64 uenika izmjerena je prosjena visina od 155 cm, uz standardnu devijaciju 8.

Izraunajte pogreku aritmetike sredine ovog uzorka.

18

8

64

8

Xs

Primjer odreivanja pogreke proporcije:

U skupini od 64 ukupno upisanih studenta jedne generacije, njih je 58 uspjeno upisalo sljedeu

akademsku godinu. Izraunajte pogreku proporcije u ovom uzorku.

p = 58/64 = 0.91

q = 1-0.91 = 0.09

035.0001.064

082.0

64

09.091.0

xs p


36

3.2. PROCJENA PARAMETARA

Ukoliko na nekom uzorku izmjerimo odreenu vrijednost, npr. aritmetike sredine, i na

temelju toga elimo odrediti stvarnu aritmetiku sredinu populacije, preporuljivo je

prognozirati ne samo jednu, ve raspon vrijednosti. To radimo zato jer se uz vrijednosti

izmjerene na uzorku uvijek vee odreena pogreka koju pokuavamo neutralizirati

koritenjem manje preciznih zakljuaka i navoenjem stupnja uvjerenja u te zakljuke.

Proces odreivanja raspona u kojem se, uz odreenu sigurnost (rizik), nalazi

vrijednost u populaciji ili parametar populacije naziva se procjena parametara. Parametar

se pritom moe odnositi na npr. aritmetiku sredinu, proporciju, ili rasprenje unutar uzorka.

Za procjenu parametra potrebno je znati vrijednost uzorka i pogreku koja se vee uz

vrijednost uzorka.

U praksi se procjena parametara najee radi za aritmetiku sredinu (kod podataka

na intervalnim i omjernim skalama mjerenja), te proporcije (kod podataka na nominalnoj skali

mjerenja). Pritom se koriste formule za raunanje pripadajuih pogreaka uzoraka s kojima

smo se ve upoznali. Nakon to smo izraunali pogreku uzorka, tu mjeru moemo koristiti

za procjenu intervala pouzdanosti. Taj interval oznaava raspon u kojem se, uz odreeni

stupanj sigurnosti kojeg odabire sam istraiva, nalazi prava vrijednost populacije. Kod

odreivanja intervala pouzdanosti uvijek kreemo od vrijednosti uzorka te irimo taj interval

tako da od te vrijednosti oduzimamo i dodajemo jednaku vrijednost prema formuli:

Procjena aritmetike sredine populacije

X 2.58X


X 1.96X


Procjena proporcije u populaciji



Primjer odreivanja intervala pouzdanosti aritmetike sredine:

Deklarirana teina konzerve tunjevine nekog proizvoaa je 250 grama. Inspekcija je to provjerila tako

da je izmjerila teinu na uzorku od 500 konzervi i pritom odredila da aritmetika sredina iznosi 247, a

standardna devijacija 15 grama. Da li je deklaracija na konzervama tona?

67.0500

15

Xs

Procjena uz 1% rizika da je prava prosjena teina u ovom rasponu:

247 2.58 x 0.67=247 1.73 (245.3 do 248.7)

Uz stupanj sigurnosti od 99%, moemo zakljuiti da deklarirana teina ne spada u izraunati raspon,

dakle deklaracija proizvoaa nije tona.


37

3.3. TESTIRANJE HIPOTEZA

Testiranje hipoteza predstavlja sistematski proces kojim provjeravamo potvruju li podaci

prikupljeni unutar odreenog istraivanja testirane znanstvene teorije i hipoteza. Testiranje

hipoteza provodi se kroz nekoliko koraka koji zapoinju postavljanjem hipoteze koja

predstavlja odgovor na postavljeno istraivako pitanje, nastavljaju se odabirom i

provoenjem prikladne statistike analize, a zavravaju odlukom o valjanosti postavljene

hipoteze.

Postupkom testiranja hipoteza moemo, na primjer, provjeriti:

oblik distribucije frekvencija: najee to radimo kako bismo odredili da li je neka

distribucija normalna ili ne.

pripada li uzorak odreenoj populaciji. Na primjer, ukoliko u skupini nadarene djece

primijenimo test inteligencije, moemo usporediti dobivenu vrijednost s prosjenom

vrijednosti za koju nam je poznato da vrijedi u populaciji (u sluaju inteligencije je to

100), i zatim odrediti da li se nadareni svojom inteligencijom istiu u usporedbi s

drugom djecom njihove dobi.

pripadaju li dva ili vie uzoraka istoj populaciji, odnosno postoji li statistiki znaajna

razlika izmeu dviju ili vie skupina podataka. Na primjer, na ovaj nain moemo

provjeriti da li se uenici razliitog socioekonomskog statusa razlikuju po ocjenama iz

nekog predmeta.

povezanost dviju ili vie varijabli. Na primjer, moemo provjeriti da li je koliina

domaeg rada kojeg uenici trebaju napraviti tijekom semestra povezana s koliinom

znanja koju steknu iz nekog predmeta

1. KORAK: Postavljanje hipoteze

Znanstvena istraivanja predstavljaju sustavne naine provjere postavki odreenih

znanstvenih teorija ili odgovaranja na neka praktina pitanja. Na poetku istraivakog

procesa nuno je postaviti odreenu hipotezu koja e se unutar istraivanja provjeriti. Vano

je razlikovati dvije vrste hipoteza: istraivake hipoteze koje odraavaju teorijska ili

istraivaeva uvjerenja o oekivanim rezultatima, te nul ili nulte hipoteze (H0) koje

predstavljaju statistike hipoteze u koje sam istraiva ne mora vjerovati, ali ih treba postaviti

kako bi ih provoenjem statistikih analiza provjerio.

Na primjer, zamislite da radite u srednjoj koli, i imate dojam da djeca iz bogatijih

obitelji bolje usvajaju gradiva iz tehnikih i znanstvenih predmeta od djece iz siromanijih

obitelji. ini vam se da je to moda vezano uz veu dostupnost knjiga i informatike

tehnologije kod djece iz bogatijih obitelji, te razmiljate o tome da ravnatelju predloite

otvaranje informatike radionice koja bi djeci bila stalno dostupna, i u kojoj bi i oni siromaniji


38

imali stalan pristup informacijama vanim za uenje. Meutim, prije toga elite svoju sumnju i

provjeriti, te organizirate istraivanje u kojem ete provjeriti postoji li povezanost izmeu

ekonomskog statusa obitelji djeteta i uspjeha u odabranim predmetima. Pritom je vaa

istraivaka hipoteza afirmativna, odnosno vi smatrate da veza izmeu tih dviju varijabli

postoji. tovie, vaa je istraivaka hipoteza direktivna, odnosno ona ukljuuje

pretpostavljeni smjer povezanosti: smatrate da djeca iz bogatijih obitelji imaju vee ocjene iz

odabranih obitelji. Za razliku od toga, nedirektivna hipoteza bi bila ona kod koje istraiva

nema pretpostavke o smjeru efekta, ali pretpostavlja da nekakav efekt postoji. Na primjer, u

istraivanju povezanosti dobi nastavnika i uspjeha uenika istraiva moe imati nedirektivnu

istraivaku hipotezu jer nije siguran da li e za uspjeh uenika biti presudno (vee i bolje)

iskustvo starijih nastavnika ili (vea) pristupanost i motivacija mlaih nastavnika.

Za razliku od istraivake hipoteze koja odraava stvarna oekivanja i uvjerenja

istraivaa, nul-hipoteza je statistika hipoteza koja pretpostavlja nepostojanje znaajnih

efekata, npr. nepostojanje razlika izmeu skupina ispitanika, nepostojanje korelacije izmeu

varijabli i slino. Nul-hipotezu testiramo koritenjem statistikih analiza, nakon ega tu

hipotezu moemo odbaciti ukoliko dobijemo statistiki znaajan efekt, odnosno prihvatiti ako

ne pokaemo statistiki znaajan rezultat.

Primjer nul-hipoteze:

H0: Ne postoji statistiki znaajna razlika izmeu djeaka i djevojica u verbalnoj

inteligenciji.

2. KORAK: Odabir prikladne statistike analize i razine statistike znaajnosti

Nakon to smo postavili hipotezu, trebamo odabrati prikladnu statistiku analizu kojom emo

odgovoriti na postavljeno istraivako pitanje. Pritom odabir statistikih testova i analiza u

istraivanju ovisi o nekoliko initelja:

postavljenom istraivakom pitanju

vrsti i veliini ispitanog uzorka

karakteristikama prikupljenih podataka (osobinama i broju koritenih varijabli;

skalama mjerenja; distribuciji dobivenih rezultata).

Jedan od najvanijih imbenika koje trebamo odrediti prilikom odabira prikladne

statistike analize je vrsta uzoraka koje smo imali u istraivanju. Naime, ukoliko naim

istraivanjem elimo provjeriti razlikuju li se dvije razliite skupine ispitanika koje smo

izmjerili, onda meu podacima imamo dva nezavisna skupa, ili dva nezavisna uzorka

podataka koje moramo usporediti. Ukoliko nas, meutim, zanima razlika izmeu uspjeha

jedne te iste skupine ispitanika na dva testa ili dvije situacije, onda nau analizu provodimo

na dva meusobno zavisna skupa podataka, odnosno na zavisnim uzorcima.


39

3. KORAK: Provedba statistike analize i odreivanje granice odbacivanja nulte

hipoteze

Nakon odabira prikladne statistike analize, moemo krenuti u samo izraun kod kojeg

koristimo standardne procedure opisane u udbenicima iz Statistike. Openito je lako pronai

informacije o tome kako provesti statistiku analizu jednom kad je odabrana, a uz to veliki dio

izrauna najee moemo prepustiti programima za statistiku analizu podataka.

Vano je spomenuti da se provedba velikog broja statistikih analiza temelji na

usporedbi uzorka kojeg smo izmjerili s tzv. usporednim uzorkom, odnosno distribucijom

podataka kod koje vrijedi nul-hipoteza, odnosno kod koje nema statistiki znaajnog efekta

kojeg ispitujemo. Unutar te usporedne distribucije odreuje se kritini rezultat kod kojeg bi

nul-hipotezu trebalo odbaciti; ta vrijednost predstavlja rezultat koji bi se u teoriji (i praksi)

mogao dobiti ak i ukoliko nul-hipoteza zaista vrijedi, ali je taj ishod malo vjerojatan. Dakle,

kod testiranja hipoteza uvijek radimo s vjerojatnostima i nikad nismo apsolutno sigurni u

dobiveni zakljuak. Nakon to smo odredili kritini rezultat unutar usporednog uzorka, ovaj se

usporeuje s vrijednosti statistikog testa kojeg smo dobili unutar provedenog istraivanja.

Treba naglasiti da odreivanje kritinog rezultata unutar usporedne distribucije ovisi i

o eljenom stupnju sigurnosti na kojem istraiva eli temeljiti svoje zakljuke. Naime, kao

to je ranije objanjeno kod procjene parametara, istraiva sam odreuje tu razinu, i to tako

da se pritom najee odluuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili 99%

(razinu rizika od 1%).

4. KORAK: Odluka o prihvaanju ili odbacivanju nul-hipoteze

Usporedbom rezultata dobivenog provedbom statistike analize i unaprijed odreene kritine

razine rezultata donosi se odluka o prihvaanju ili odbacivanju nul-hipoteze. Spomenuta

kritina rezultata moe se odrediti koritenjem Statistikih tablica za prikladni statistiki test

unutar kojih se moe oitati granina vrijednost koja se vee uz broj stupnjeva slobode

(eng. degrees of freedom) koje smo imali u uzroku (kod svakog testa postoji posebna


40

formula pomou koje se oni raunaju). Ukoliko je rezultat dobiven provedbom odabranog

testa manje ekstreman od kritine vrijednosti koju smo oitali u tablicama, zakljuujemo da

nul-hipoteza vrijedi i da ne postoji statistiki znaajan efekt. Ukoliko, meutim, dobiveni

rezultat bude toliko ekstreman da se odbaci nul-hipoteza, smatra se da je rezultat dosegao

statistiku znaajnost. Prilikom donoenja tih zakljuaka nikad ne moemo biti apsolutno

sigurni da smo u pravu, jer uvijek baratamo s vjerojatnostima. Stoga je vano napomenuti:

ak i ako odbacimo nul-hipotezu to ne znai da je alternativna, odnosno

istraivaka hipoteza potvrena (baratamo s vjerojatnostima).

Ako prihvatimo nul-hipotezu ne moemo rei da smo "dokazali nul-hipotezu".

Naime, iako dobiveni rezultati nisu dovoljno snani da odbace nul-hipotezu, to ne

znai da ona nije pogrena.

5. KORAK: Izvjetavanje o prihvaanju ili odbacivanju nul-hipoteze

Nakon to je provedena statistika analiza, treba izvjestiti o dobivenim rezultatima. To se radi

na nain da se jasno navede koriteni test, napie dobiveni rezultat provedenog testa,

ukoliko je potrebno i pripadajui stupnjevi slobode (ss ili df), te vjerojatnost sluajne

pojave dobivenog rezultata (p). Pritom se vjerojatnost p moe navesti ili kao tona

vrijednost (npr. p=0.12) ili kao relativna vrijednost (npr. p < 0.05)

Uz to se i opisno moe navesti to dobiveni rezultat govori o nul-hipotezi (da li je

prihvaamo ili odbacujemo), odnosno o statistikoj znaajnosti dobivenog efekta (da li je

statistiki znaajan ili ne). Ukoliko se razlika izmeu podataka pokae statistiki

znaajnima, moemo zakljuiti da se ona vjerojatno nije dogodila sluajno (jer je jako malo

vjerojatna). Na primjer, ako vidite p < 0.05 u nekom istraivanju, to znai da se taj rezultat

sluajno mogao pojaviti u manje od 5 od ukupno 100 sluajeva, a p < 0.01 znai da je to bilo

mogue u manje od 1 od ukupno 100 sluajeva.

Primjer navoenja dobivenih rezultata:

t=3.2, df=65, p

Osnovni statistiki postupci i analize

41

4. OSNOVNI STATISTIKI POSTUPCI I ANALIZE

Openito, statistike postupke i analize moemo podijeliti na parametrijske i neparametrijske

postupke. Parametrijski testovi vezani su uz normalnu distribuciju, te u najveem broju

sluajeva predstavljaju efikasniji odabir za analizu podataka. Naime, kao testovi koji koriste

preciznije podatke oni imaju veu snagu od neparametrijskih testova. Snaga testa pritom

predstavlja vjerojatnost odbacivanja nul-hipoteze koja nije tona ili prihvaanja one koja je

tona; to je snaga testa vea to emo vjerojatnije istraivanjem pokazati pravi efekt i rjee

emo poiniti jednu od pogreaka koje se vezuju uz statistike analize. Meutim, vano je

naglasiti da se parametrijski testovi mogu koristiti samo kada su zadovoljene osnovne

pretpostavke za njihovo koritenje (prema teorijskom okviru):

opaanja moraju biti nezavisna. Selekcija bilo koje jedinice iz populacije ne smije

utjecati na selekciju neke druge jedinice (mjerenja, ispitanika). Taj se uvjet odnosi na

sve parametrijske testove.

mjerenje mora biti uinjeno najmanje na intervalnoj ljestvici (zbog provedbe operacija

nunih pri izraunavanju aritmetike sredine i standardne devijacije). Jedini izuzetak

od ovog pravila je t-test za proporcije.

statistike jedinice (opaanja) moraju potjecati iz normalno distribuirane populacije.

Kad odreujemo dolaze li nai podaci iz normalne populacije, moemo uzeti u obzir

podatke iz ranijih mjerenja koji nam mogu biti informativni. Takoer, moemo provesti

test normaliteta distribucije podataka koje smo prikupili; u tu se svrhu najee koristi

Kolmogorov-Smirnov test (automatski ga moemo izraunati koritenjem programa

za statistiku analizu). Ukoliko imamo veliki uzorak, problem normaliteta distribucije

esto nije problem, i to zbog ranije spomenutog teorema centralne granice.

populacije (kod kojih testiramo razliku) moraju imati istu varijancu (ili u nekim

sluajevima poznat omjer varijanci).

Neparametrijski testovi su testovi koji se mogu koristiti i kada nisu zadovoljeni uvjeti

za korienje parametrijskih testova. To su testovi koje moramo koristi kod podataka na

nominalnoj ili ordinalnoj skali mjerenja. Uz to, neparametrijske testove moemo koristiti i kod

podataka na intervalnoj ili omjernoj skali (ponekad i moramo, kad je npr. N < 10). No u tom

sluaju gubimo veliki dio informacija transformirajui podatke s intervalne na ordinalnu ili pak

nominalnu skalu, te stoga ovi testovi imaju manju snagu. Neparametrijski testovi esto imaju

jednostavniju logiku koritenja te se mogu koristiti i kada:

je broj ispitanika mali, a ne postoji ekvivalentan parametrijski test

su izmjereni podaci nalaze ispod intervalne skale (ordinalne ili nominalne skale)


42

4.1. ODABIR PRIKLADNE STATISTIKE ANALIZE

Kao to je ranije spomenuto, odabir statistikih testova i analiza u istraivanju ovisi o

istraivakom pitanju, vrsti i veliini uzorka te karakteristikama izmjerenih podataka. Sve te

informacije moraju se uzeti u obzir prije provedbe statistike analize. U tablici se nalaze

faktori koji se trebaju uzeti u obzir kod izbora statistike analize i testovi koji se mogu

primijeniti u odreenoj situaciji. Ona se moe koristiti kao vodi prilikom odabira prikladne

statistike analize, iji ete detaljan postupak zatim u sluaju potrebe pronai opisan u

naprednijim statistikim udbenicima ili programima za statistiku analizu podataka.

Osobine podataka Podaci na nominalnoj

skali mjerenja

Podaci na ordinalnoj ili intervalnoj/omjernoj skali bez normalne

distribucije

Podaci na intervalnoj ili omjernoj skali mjerenja

s normalnom distribucijom Cilj

istraivanja

Usporedba jedne skupine rezultata i neke

hipotetske vrijednosti

Procjena parametara

Hi-kvadrat test* Wilcoxonov test

Procjena parametara

t-test za jedan uzorak

Usporedba dvaju nezavisnih uzoraka (dviju

razliitih skupina ispitanika)

Hi-kvadrat test (Fisherov test)

t-test za proporcije

Medijan test

Rang test

Test homogenog niza

Siegel-Tukeyev test

t-test za nezavisne uzorke*

Usporedba dvaju zavisnih uzoraka (dva skupa rezultata jedne

skupine ispitanika)

McNemarov test (hi-kvadrat test za zavisne uzorke)

Test predznaka

Wilcoxonov test ekvivalentnih parova

t-test za zavisne uzorke*

Usporedba vie od dva nezavisna uzorka (dvije

razliite skupine ispitanika)

Hi-kvadrat test* Proireni medijan test

Kruskal Wallisov test

Analiza varijance

Usporedba vie od dva zavisna uzorka (dva

skupa rezultata jedne skupine ispitanika)

Cochraneov Q

Friedmanov test

Fergusonov test monotonije trenda

Analiza varijance s ponovljenim mjerenjima

Odreenje povezanost dviju varijabli mjerenih

na jednom skupu ispitanika

Koeficijent kontingencije

Spearmanov koeficijent korelacije

Pearsonov koeficijent korelacije*

Vana napomena: nema potrebe uiti napamet testove koje u kolegiju neemo obraivati; oni koje trebate znati oznaeni su zvjezdicom.


43

4.2. t-TEST

t-test predstavlja jedan od najee koritenih parametrijskih testova koji se koriste za

testiranje statistike znaajnosti razlike izmeu dvije aritmetike sredine. Osim t-testa kojim

se testiraju razlike izmeu aritmetikih sredina, postoji i neto rjee koriteni t-test kojim se

testiraju razlike izmeu proporcija (ee se u tim sluajevima koristi hi-kvadrat test).

Temeljni uvjeti primjene t-testa izmeu dvije aritmetike sredine:

izmjereni rezultati trebaju se nalaziti barem na intervalnim skalama

izmjereni podaci trebaju se normalno distribuirati

uzorci trebaju imati podjednake varijance (ili barem broj ispitanika).

Postoje razliiti postupci za raunanje t-testa koji se meusobno razlikuje ovisno o:

vrsti uzorka: razlikujemo t-test za zavisne i t-test za nezavisne uzorke

broju ispitanika: razlikujemo t-testove za velike i male uzorke (velikim uzorcima se

najee smatraju oni s 30 i vie ispitanika)

smjeru istraivake hipoteze: razlikujemo jednosmjerni i dvosmjerni t-test.

Dvosmjernim testom se testira postojanje razlike bez obzira na smjer (u kojoj je

skupini prosjena vrijednost vea ili manja), dok se kod jednosmjernog testa i smjer

razlike uzima u obzir. Openito se dvosmjerni testovi ee koriste (i automatski su

izbor u statistikim programima).

Bez obzira na podvrstu t-testa koju odaberemo, testiranje razlika izmeu aritmetikih

sredina izvodi se na temelju razlike izmeu izmjerenih aritmetikih sredina, i standardne

pogreke razlike dviju aritmetikih sredina tih uzoraka. Osnovna formula t-testa je sljedea:

razlikepogreka

uzorkadvaivrijednostrazlikat

_

___

Na temelju ove formule razvijaju se finalne formule koje se koriste u raunanju t-testa

kod zavisnih i nezavisnih uzoraka ispitanika.

t-test za velike nezavisne uzorke

22

21

21 Xss

XXt

X

;

df=(N1 -1) + (N2-1)

X - aritmetika sredina

Xs - pogreka aritmetike

sredine

N broj ispitanika unutar

svakog uzorka

df stupnjevi slobode

t-test za velike (N 30) zavisne uzorke 2121

222

21

XXX

srsss

XXt

X

;

df=N-1


44

Kao to je vidljivo, formule za zavisne i nezavisne uzorke su vrlo sline; razlika je u

tome to se kod zavisnih uzoraka dodatno u obzir uzima korelacija izmeu rezultata svakog

ispitanika u dvije toke mjerenja (vidi Sekciju 4.3).

Kod raunanja t-testa potrebno je izraunati ne samo t-vrijednost, ve i pripadajue

stupnjeve slobode na temelju kojih e se odrediti granina vrijednost t-testa; ona se zatim

moe iitati iz Statistike tablice za t-test (Tablica u prilogu: Granine vrijednosti t uz zadani

broj stupnjeva slobode). Prilikom navoenja rezultata t-testa navodi se najprije vrijednost t-

testa (t), a zatim pripadajui stupnjevi slobode (ss ili df) i vjerojatnost sluajne pojave (p)

dobivene t-vrijednosti. Ukoliko je p-vrijednost manja od 5% (ili 1%) razliku moemo proglasiti

statistiki znaajnom (uz rizik od 5% ili 1%)

Primjer raunanja t-testa za nezavisne uzorke

Na testu znanja iz matematike u razredu od 30 djece postignut je prosjeni uspjeh od 16.5

boda uz standardnu devijaciju 1.3. Na istom testu, 35 djece iz susjednog razreda postiglo je

prosjeno 15 bodova uz standardnu devijaciju 2. Razlikuju li se dva razreda po svom uspjehu

na testu iz matematike?

Hipoteza H0 : Nema razlika izmeu dvaju razreda na testu iz matematike

Kod raunanja t-testa najprije moemo izraunati pogreke aritmetikih sredina dvaju

uzoraka, a zatim i samu vrijednost t-testa.

Prije interpretacije dobivenih rezultata trebamo odrediti graninu vrijednost t-testa koja se

odreuje na temelju stupnjeva slobode, koji u ovom sluaju iznose: df=(35-1) + (30-1)=63.

Za 99% razinu znaajnosti iz tablice se moe oitati granina vrijednost 2.66.

3.53 > 2.66 (Dobiveni t vei je od tablinog t uz 1% pogreke).

Dobiveni rezultat: t=3.53, df=63, p


45

Primjer raunanja t-testa za zavisne uzorke

Na testu znanja iz matematike u razredu od 30 djece postignut je prosjeni uspjeh od 16.5

boda uz standardnu devijaciju 1.3. Taj je isti razred na prethodnom testu iz istog predmeta

postigao u prosjeku 15 bodova uz standardnu devijaciju 2. Povezanost rezultata uenika na

dva testa iznosi 0.6. Razlikuje li se uspjeh ovih uenika u dva testa iz matematike?

Hipoteza H0 : Nema razlika izmeu rezultata skupine uenika na dva testa iz

matematike.

Prije interpretacije dobivenih rezultata trebamo odrediti graninu vrijednost t-testa koja se

odreuje na temelju stupnjeva slobode, koji u ovom sluaju iznose:

df=30-1=29

Za 99% razinu znaajnosti iz tablice se moe oitati granina vrijednost 2.76.

5.17 > 2.76 (Dobiveni t vei je od tablinog t uz 1% pogreke).

pedagoska statistika

Documents

Transcript of pedagoska statistika