1. REGRESIONA I KORELACIONA ANALIZA
Do sada smo posmatrali jednu karakteristiku (obeležje) elemenata skupa i analizirali smo
strukturu i osobine skupa po tom obeležju. Međutim, u praksi se često javlja potreba da istovremeno
pratimo dva ili više obeležja (promenljive) i da ispitamo da li između njih postoji neka tj međusobni
uticaj. Zaključivanje o tim vezama zasniva se, najčešće, na uzorku. Na osnovu uzorka se ispituje kako su
varijacije jedne pojave (ili grupe od dve ili više pojava) povezane sa varijacijama neke druge pojave.
Međutim, cilj istraživanja ne odnosi se samo na uzorak, već pre svega na osnovni skup iz kojeg je uzorak
izvučen. Na primer, možemo ispitati da li postoji veza između dve promenljive: vreme provedeno u
učenju i broja poena ostvarenih na testu, godina radnog staža i njihovih zarada i td.
Vrste kvantitativnih veza
Veza između dve promenljive X i Y postoji ako je porast vrednosti jedne od njih praćen
porastom ili smanjenjem vrednosti druge promenljive. Zavisno od smera slaganja varijacija dve
promenljive veza između njih može biti:
Direktna (pozitivna), kada sa porastom vrednosti promenljive X rastu vrednosti Y
(npr veći dohodak → veća potrošnja);
Inverzna (negativna), kada se sa porastom vrednosti X vrednosti Y smanjuju (npr
veća cena → manja tražnja).
Međusobna veza između promenljivih ne razlikuje se samo po smeru već i po jačini (intenzitetu)
kvantitativnog slaganja. Kriterijumi su:
Matematička (deterministička, funkcionalna) veza i
Statistička (stohastička) veza..
Funkcionalni ili egzaktni odnosi (veze) su postojani, izražavaju zakonitosti koje se iskazuju
analitički, formulom Y = f (X). Deterministička veza javlja se u slučaju kada jednoj vrednosti nezavisne
promenljive X, odgovara samo jedna, tačno određena vrednost zavisne promenljive Y.
Primer: površina kvadrata zavisi od njegove stranice. Ovaj odnos je funkcionalan, jer se izražava
jednačinom P=a2.
Statistički ili stohastički odnosi (veze) su slabiji od funkcionalnih. Svakoj vrednosti jedne pojave
odgovara više različitih vrednosti druge pojave. Takva odstupanja su u praksi češća. Kod stohastičkih
veza jednoj vrednosti nezavisne promenljive odgovara čitav niz mogućih vrednosti zavisne promenljive.
Svaku od tih vrednosti zavisna promenljiva može uzeti sa određenom verovatnoćom i njene ishode u
pojedinačnim situacijama ne možemo sa sigurnošću predvideti. Kako vrednost zavisne promenljive (Y)
nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju
labaviju vezu među promenljivim. Zbog neuključivanja promenljivih koje utiču na ponašanje zavisne
promenljive ili zbog slučajnih uticaja postoje neobjašnjene varijacije zavisne promenljive (Y).
Primer: zaposleni iste stručne spreme imaju različite (a ne iste) plate; domaćinstva s istim
dohotkom imaju različit (a ne isti) nivo potrošnje; sve osobe iste visine nemaju jednaku težinu i dr.
Suština stohastičkih veza koju ćemo mi razmatrati jeste da između pojedinih vrednosti nezavisne
promenljive X i prosečnih vrednosti zavisne promenljive Y (očekivane vrednosti), postoji čvrsta veza.
Prosek Y = f(X)
Ispitivanje zavisnosti u statističkoj analizi ima dva osnovna pravca:
• oblik zavisnosti koji ispituje regresiona analiza,
• jačinu zavisnosti koju određuje korelaciona analiza.
Kod regresione analize potrebno je unapred odrediti koja pojava će imati ulogu zavisne promenljive,
a koja nezavisne promenljive. Ovo utvrđujemo na osnovu teorijskih, ili empirijskih saznanja, ili
pretpostavki o prirodi analiziranih pojava.
Korelaciona analiza je skup statističkih metoda kojima se istražuje jačina veze između
posmatranih pojava. Korelacija predstavlja međusobnu povezanost obeležja posmatranih pojava.
Ako nema regresije, nema ni korelacije. Ovde nije bitno koja promenljiva je zavisna, a koja
nezavisna.
Ciljevi regresione i korelacione analize su utvrđivanja kvantitativnog slaganja varijacija izmedju
dveju ili više pojava koje se analiziraju. Prilikom istraživanja međusobnih veza između dve promenljive
primenjuju se metode proste (linearne i krivolinijske) regresione i korelacione analize, a u slučaju
posmatranja više promenljivih metode višestruke (linearne i nelinearne) regresije i korelacije.
• Neposredna korelacija je kada su pojave neposredno povezane, na pr: tražnja i cena.
• Posredna korelacija ukazuje na povezanost pojava preko nekog posrednog faktora, npr: cena naftnih
derivata (kerozina), cena avio-prevoza i cena turističkih aranžmana.
Važno je napomenuti da pomoću regresije i korelacije nismo u stanju da otkrijemo postojanje
uzročno-posledične veze između ispitivanih pojava u smislu da je jedna pojava uzrok, a druga posledica.
To možemo utvrditi drugim kvantitativnim metodama ili pomoću kvalitativne analize.
1.1 Regresiona analiza
Regresija je metod kojim se ispituje zavisnost između dve ili više promenljivih, odnosno pojava.
Cilj regresije jeste da se utvrdi priroda veze, odnosno oblik zavisnosti između posmatranih pojava. To
postižemo pomoću odgovarajućeg regresionog modela kojem se najviše približava kvantitativno slaganje
varijacija posmatranih pojava.
Regresioni model je takav statistički model koji kroz matematičke formule i niz odgovarajućih
pretpostavki najbolje opisuje kvantitativnu zavisnost između varijacija posmatranih pojava u realnosti i
pokazuje prosečno slaganje varijacija ispitivanih pojava. Pri određivanju regresionog modela razlikujemo
nekoliko koraka.
Prvi korak:
Da li uopšte postoji veza i ako postoji kog je oblika? Shodno tome razlikujemo tri oblika veze:
pravolinijske (linearne), krivolinijske (nelinearne) i prostorne (višestruke).
Pored ove tri vrste veza postoje direktne i inverzne veze. Veze kod kojih pri porastu ili opadanju
vrednosti nezavisne promenljive istovremeno odgovara porast ili opadanje zavisne promenljive nazivamo
direktnim (pozitivnim) vezama (primer: nacionalni dohodak i javna potrošnja). Veze kod kojih porast
jedne promenljive uslovljava opadanje druge promenljive nazivamo inverznim (negativnim) vezama
(primer: s porastom cene jedne marke automobila opada tražnja na tržištu za tom markom automobila).
Ukoliko se ustanovi da usled promena vrednosti jedne pojave druga promenljiva ostaje
konstantna, zaključićemo da između njih ne postoji nikakva zavisnost.
Drugi korak:
Na osnovu logičke analize nužno je unapred odrediti koja pojava ima ulogu zavisne promenljive,
a koja nezavisne promenljive. S obzirom na broj nezavisnih promenljivih u modelu, modeli regresije se
dele na modele jednostavne regresije i modele višestruke regresije.
Model jednostavne linearne regresije ima jednu zavisnu i jednu nezavisnu promenljivu, a model
višestruke regresije ima jednu zavisnu i više nezavisnih promenljivih.
Primeri modela sa dve promenljive: visina zarade - radni učinak; količina padavina - prinos
kukuruza; temperatura vazduha - broj turista; nacionalni dohodak - javna potrošnja; nacionalni dohodak -
životni standard; godine starosti - sportski rezultat.
Primeri modela sa tri promenljive: nivo obrazovanja, radno mesto - visina zarade; količina
padavina, količina đubriva - prinos pšenice itd.
Regresioni model predstavlja matematičku funkciju kojom se opisuje ta zavisnost. Opšti oblik
modela regresije je:
Y = f(x1, x2,…, xn)
Prema obliku matematičke funkcije determinističkog modela, modele regresije delimo na:
linearne i
nelinearne ( krivolinijske) modele.
Veza između promenljivih kod linearnog modela određena je linearnom funkcijom, čiji je grafik
prava linija, a veza između promenljivih kod krivolinijske regresije ima oblik neke druge matematičke
funkcije, čiji je grafik neka kriva linija.
Dakle,cilj regresione analize je da utvrdi smer, oblik i jačinu veze između analiziranih pojava.
Smer veze može biti pozitivan i negativan.
Oblik veze definisan je oblikom matematičke funkcije koja predstavlja deterministički deo
modela regresije.
Jačina veze se određuje analizom slučaja regresionog modela. Slučajnom promenljivom se
predstavljaju nesistemski uticaji, odnosno uticaji pojava koje nisu uključene u model.
U statističkoj analizi regresioni model nije sam po sebi cilj, već samo sredstvo pomoću kojeg smo
u stanju da ocenimo i predvidimo ponašanje zavisne promenljive za željene vrednosti nezavisne
promenljive.
Prva faza u analizi zavisnosti dveju slučajnih promenljivih, uobičajeno je, prikazivanje
empirijskih podataka grafički. U koordinatnom sistemu se ucrtavaju tačke određene parovima vrednosti.
Tako dobijeni dijagram se naziva dijagram raspršenosti. Zadatak u ovoj fazi nam je da pronađemo
funkciju koja približno opisuje empirijske podatke tj. da uočimo smer njihovog kretanja. To se danas
uspešno radi u različitim softverima.
Na osnovu svega navedenog možemo reći da dijagramom raspršenosti grafički prikazujemo
varijacije dve pojave u cilju sagledavanja:
a) krivolinijska veza b) krivolinijska veza
c) krivolinijska veza d) nepostojanje slaganja
1. da li između njih postoji kvantitativno slaganje,
2. ako slaganje postoji koji je njegov oblik (linearni ili krivolinijski) i
3. koji je smer slaganja (direktni ili inverzni).
1.2 Prost linearni regresioni model
Opisuje se odnos među pojavama koje imaju svojstvo da: svakom jediničnom porastu vrednosti
jedne promenljive odgovara približno jednaka linearna promena druge promenljive.
Pre nego što pređemo na model linearne regresije podsetićemo se jednačine prave linije:
Y = a + bX
Prava je u potpunosti definisana sa dva koeficijenta:
a - koji pokazuje odsečak na y-osi i
b - (koeficijent pravca) koji pokazuje tangens ugla koji zaklapa prava sa pozitivnim krakom x-
ose.
Kada je b > 0 prava pokazuje rastuću tendenciju, a kada je b < 0 prava pokazuje opadajuću tendenciju
pojave.
U modelu jednostavne linearne regresije vrednost zavisne promenljive Y je linearna kombinacija
vrednosti nezavisne promenljive X. U praksi nam je najčešće dostupan samo uzorak iz populacije koji
obuhvata sve moguće parove vrednosti X i Y.
Regresiona analiza sprovodi se na temelju n parova vrednosti promenljivih X i Y: (x1, y1), (x2, y2),
…, (xn, yn), pa se model određuje iz sistema od n jednačina:
Yi= a + bxi + εi, i = 1,2,..., n
xi - i-ta nezavisna vrednost promenljive,
Yi - i-ta zavisna promenljiva,
εi - odstupanje od funkcionalnog odnosa,
a, b - nepoznati parametri, nazivaju se regresioni parametri,
n - veličina uzorka.
Nezavisna promenljiva X naziva se često objašnjavajućom promenljivom ili faktorom, jer
pomoću nje pokušavamo da objasnimo varijacije promenljive Y.
Prost linearni regresioni model sastoji se iz dva dela:
• determinističkog (a + bxi) i
• stohastičkog (εi ).
Deterministički deo objašnjava prosečan uticaj nezavisne promenljive X na zavisnu promenljivu
Y. Parametar a predstavlja konstantni član modela i naziva se slobodnim članom, a parametar b je
regresioni koeficijent ili koeficijent nagiba.
Regresioni koeficijent (b) predstavlja prosečnu promenu zavisne promenljive Y za jedinično
povećanje nezavisne promenljive X. Parametar a– regresiona konstanta određuje „nivo“ regresione
prave. To je vrednost Y za x = 0 i predstavlja tačku u kojoj regresiona linija seče y-osu. Drugim rečima,
to je početna vrednost zavisne Y kada još uvek nije počela da deluje nezavisna X.
Kako su odnosi među pojavama stohastički, to se u modelu javlja i stohastički deo εi, koji
pokazuje odstupanje zavisne promenljive od funkcionalnog odnosa.
Kada bi odnos među promenljivim bio funkcionalan, svaka bi vrednost promenljive εi bila
jednaka nuli. To bi geometrijski značilo da sve tačke s koordinatama (xi, yi), i =1,2,...,n leže na istoj
pravoj.
Faktori koji objašnjavaju prisustvo stohastičkog člana su:
• na zavisnu promenljivu Y pored nezavisne promenljive X deluju još i mnogobrojni faktori (primer na
prodaju robe deluje ne samo cena već i faktori kao što su: lični dohodak, zaposlenost, mesto prodajnog
objekta idr.),
• prisustvo nepredviđenih faktora sa nepredvidivim dejstvom (na pr. vremenske nepogode koje utiču na
prinos i drastično mogu smanjiti ili povećati potražnju za nekim proizvodom),
• greške koje se javljaju prilikom prikupljanja statističkih podataka.
Većina navedenih faktora deluje zajedno, neki deluju u suprotnom smeru, pa je realno očekivati
da slučajna promenljiva ε u proseku ima vrednost nula. Na osnovu svega navedenog, matematički izraz
linije regresije u skupu je:
ŷi = a0 + b0 xi , i=1,2,..., N.
Linija regresije u uzorku je:
ŷi = a + bxi ,….., i=1,2,..., n.
Linija regresije u skupu i uzorku se po pravilu razlikuje jer se ocenjene vrednosti parametara a i b
razlikuju od stvarnih vrednosti parametara a0 i b0.
Ocenjeni parametri a i b su slučajne promenljive, jer od uzorka do uzorka mogu uzimati različite
vrednosti, koje unapred ne možemo predvideti. Nakon što se odabere uzorak, odgovarajuće ocenjene
vrednosti a i b su konstante.
Postavlja se pitanje:
Kako između empirijskih tačaka (na dijagramu raspršenosti) povući onu pravu liniju koja će
„najbolje“ opisati odnos pojava na temelju njihovih opaženih vrednosti?
Ta prava bi trebalo istovremeno da bude bliža svim tačkama, što bi nam dala optimalne ocene za
a i b
Kao prvo rešenje možemo uzeti da se vizuelno odabere prava koja najviše odgovara opštoj
tendenciji rasporeda tačaka.
Međutim, ovaj metod je subjektivne prirode što je istovremeno jedna njegova bitna slabost. Zbog
toga se u statističkoj analizi koriste neki drugi objektivni metodi, a najćešće se koristi metoda najmanjih
kvadrata odstupanja.
Vrednost procenjenih parametara se izračunava iz n izmerenih parova vrednosti x i y. Prema tome
i vrednosti pokazatelja se odnose samo na n izmerenih parova podataka.
Parametri procenjenog modela se određuju tako da kvadrati odstupanja izmerenih vrednosti od
procenjenih vrednosti zavisne promenljive budu što manji. Metod najmanjih kvadrata pomoću
minimiziranja sume kvadrata odstupanja empirijskih vrednosti od prilagođenih daje izbor regresionog
modela.
.
Slika 1. Stvarne vrednosti, prilagođene vrednosti, rezidual
rezidualna odstupanja su:
ei = yi − �̂�i
relativna rezidualna odstupanja su:
𝑒𝑖,𝑟𝑒𝑙 =𝑦𝑖−𝑦�̂�
𝑦𝑖.
Parametri procenjeni ovom metodom opisuju pravac za koji je zbir rezidualnih kvadrata
odstupanja minimalan.
Iz sistema
Σyi = na +Σxib
Σxi yi = Σxia +Σxi2b
se izračunavaju parametri b i a pomoću izraza:
𝒃 =∑ 𝒙𝒊𝒚𝒊−𝒏�̅��̅�
∑ 𝒙𝒊𝟐−𝒏�̅�𝟐 , 𝒂 = �̅� − 𝒃𝒙.
gde su �̅� 𝑖 �̅� sredine nezavisne i zavisne promenljive, a n veličina uzorka.
Karakteristike parametra a su:
• ako je a = 0, regresiona prava prolazi kroz koordinatni početak. To znači da ako obeležja ne mogu da
imaju negativne vrednosti polaze od nultog „nivoa“,
• ako je a > 0, regresiona prava seče ordinatnu osu iznad koordinatnog početka,
• ako je a < 0, regresiona prava seče ordinatnu osu ispod koordinatnog početka.
Karakteristike parametra b su:
• ako je b = 0, regresiona prava je paralelna sa x-osom. To znači da obeležje Y ima uvek istu vrednost i da
ne zavisi od obeležja X,
• ako je b > 0, regresiona prava raste, tj. veza je direktna,
• ako je b < 0, regresiona prava je opadajuća, tj. veza je inverzna.
Regresiona prava je analitički izraz koji u smislu proseka opisuje odnos među pojavama.
Procenjena regresiona prava je:
ŷi = a + bxi
1.3 Korelaciona analiza
Korelacionom analizom se utvrđuje postojanje i jačina statističke veze između pojava. Ona
pokazuje stepen zavisnosti između promenljivih, odnosno korelacijom se meri jačina već utvrđene
povezanosti između dve promenljive.
Za dve pojave predstavljene kvantitativnim vrednostima jačina veze se meri koeficijentom
korelacije. Ako su pojave prikazane vrednostima ranga, stepen statističke povezanosti se meri
koeficijentom korelacije ranga.
Stepen intenziteta povezanosti između promenljivih, koje su u linearnom odnosu meri se:
• kovarijansom kao apsolutnom merom intenziteta korelacije i
• koeficijentom proste linearne korelacije, kao relativnom merom intenziteta korelacione veze.
Kovarijansa
Kovarijansa je aritmetička sredina proizvoda odstupanja vrednosti promenljive X od njene
aritmetičke sredine i odstupanja vrednosti promenljive Y od njene aritmetičke sredine. Ona može uzimati
pozitivne i negativne vrednosti i zavisna je od mernih jedinica promenljivih X i Y, pa se njom prosuđuje
postojanje i smer veze, ali ne i stepen te veze.
cov(𝑋, 𝑌) =1
𝑛∑(𝑥𝑖 − �̅�)(𝑦 − �̅�).
Ona predstavlja u suštini zajedničku meru varijabilnosti, jedne i druge promenljive, pa se
matematički može predstaviti kao zbir varijansi jedne i druge promenljive:
cov(X,Y) = 1
𝑛[∑(𝑥𝑖 − �̅�)2 + ∑(𝑦𝑖 − �̅�)2].
Odakle se dobija radna formula za kovarijansu:
𝜇11 =1
𝑛∑ 𝑥𝑖 ∙ 𝑦𝑖 − �̅� ∙ �̅� .
gde je n veličina uzorka, odnosno broj koreliranih parova vrednosti.
Međutim, kovarijansa kao apsolutna mera stepena povezanosti nije pogodna za procenu, pa se
pristupa izračunavanju relativne mere tj. izračunava se: koeficijent proste linearne korelacije.
Koeficijent proste linearne korelacije
Koeficijent proste linearne korelacije ili Pearson-ov koeficijent predstavlja kovarijansu izraženu u
jedinicama standardnih devijacija obe promenljive.
Stepen veze se meri Pearsonovim koeficijentom linearne korelacije koji se dobija tako da se prvi
mešoviti moment podeli sa standardnim devijacijama promenljivih X i Y.
Izraz za koeficijent korelacije je:
𝑟 =𝜇11
𝜎𝑥∙𝜎𝑦, −1 ≤ 𝑟 ≤ 1.
U razvijenom obliku navedeni izraz ima oblik:
r =∑ 𝑥𝑖∙𝑦𝑖−𝑛∙�̅�∙�̅�
√(∑ 𝑥𝑖2−𝑛�̅�2)(∑ 𝑦𝑖
2−𝑛�̅�2)
Koeficijent proste linearne korelacije pokazuje stepen zavisnosti između promenljivih i on
određuje veličinu disperzije (rasturanja) podataka oko regresione linije.
Osobine i tumačenje vrednosti koeficijenta proste linearne korelacije su:
• Koeficijent korelacije ima vrednost koja se kreće u rasponu od −1 do +1.
• Ako promenljive nisu povezane tj. nema linearne zavisnosti, r je jednak nuli.
• Kada većim vrednostima nezavisno promenljive X, odgovaraju i veće vrednosti zavisno promenljive Y
ili obrnuto opadanjem vrednosti nezavisne X, opadaju i vrednosti zavisne Y - onda je to pozitivna korelacija
(r > 0).
• Nasuprot tome, kada većim vrednostima nezavisno promenljive X, odgovaraju manje vrednosti zavisno
promenljive Y, odnosno opadanjem vrednosti nezavisne X rastu vrednosti zavisno promenljive Y - onda je
to negativna korelacija (r < 0).
Važi opšte pravilo:
• Što je vrednost koeficijenta proste linearne korelacije po apsolutnoj vrednosti bliža jedinici, to je zavisnost
među posmatranim pojavama jača.
• Koeficijent korelacije u praksi skoro nikada nema vrednosti 1 ili −1, jer to bi značilo da između
posmatranih pojava postoji matematička, a ne statistička veza.
1.4 Reprezentativne mere linije regresije
Prva apsolutna mera odstupanja empirijskih tačaka od regresione linije naziva se standardnom
greškom regresije.
Druga mera koja se koristi kao relativni pokazatelj je koeficijent determinacije.
Da bi se utvrdile mere reprezentativnosti linije regresije potrebno je sagledati komponente
varijabiliteta zavisne promenljive. Ukupan varijabilitet jednim delom proizilazi zbog regresionog modela,
a drugi deo varijabiliteta Yi posledica je delovanja slučajne greške εi i ne može se objasniti regresionim
modelom.
Ukupno odstupanje zavisno promenljive Y mozemo tretirati kao zbir objašnjenog i neobjašnjenog
varijabiliteta.
(𝑦𝑖 − �̅�)=(𝑦�̂� − �̅�) + (𝑦𝑖 − �̂�𝑖)
Slika 2. Ukupan objašnjeni i neobjašnjeni varijabilitet
Jednakost važi kada obe strane jednakosti kvadriramo i sumiramo za sve vrednosti u uzorku.
Računa se suma kvadrata odstupanja:
∑(𝑦𝑖 − �̅�)2 = ∑(𝑦�̂� − �̅�)2 + ∑(𝑦𝑖 − �̂�𝑖)2 , i =1,2,..., n
Dobijena jednačina je jednačina analize varijanse.
Njene komponente su:
• Ukupna suma kvadrata (ukupan varijabilitet -the total sum of squares)
ST = ∑ (𝑦𝑖 − �̅�)2𝑛𝑖=1
• Objašnjena suma kvadrata (objašnjen varijabilitet ili regresiona suma -the sum of regresion due
to the linear regresion) SP je suma kvadrata odstupanja regresionih vrednosti od proseka:
SP = ∑ (𝑦�̂� − �̅�)2𝑛𝑖=1
• Suma kvadrata neobjašnjenog varijabiliteta ili rezidualna suma – residual, sum of squares errors
SR = ∑ (𝑦𝑖 − �̂�𝑖)2𝑛𝑖=1
Jednačina analize varijanse se simbolički može zapisati:
ST = SP + SR.
1. Standardna greška ocene linearne regresije
Kako su ocenjena dva parametra a i b nepristrasna, ocenjena varijansa Se2 se dobija kada se
rezidualna suma kvadrata podeli sa n-2 brojem stepeni slobode. Takva ocena se često zove rezidualnom
varijansom.
𝑆𝑒2 =
𝑆𝑅
𝑛−2=
∑ (𝑦𝑖−�̂�𝑖)2𝑛𝑖=1
𝑛−2
Standardna greška regresije (Se) predstavlja meru odstupanja uzoračkih podataka od ocenjene
linearne regresije i dobija se kao kvadratni koren iz rezidualne varijanse tj.
𝑆𝑒 = √∑ (𝑦𝑖−�̂�𝑖)2𝑛
𝑖=1
𝑛−2=√
∑ 𝑦𝑖2−𝑎 ∑ 𝑦𝑖−𝑏 ∑ 𝑥𝑖𝑦𝑖
𝑛−2 , i=1,2,….,n.
Ako je Se = 0, regresija �̂� idealno ocenjuje zavisno promenljivu Y.
2. Koeficijent determinacije, koeficijent indeterminacije (alineacije)
Ukoliko bi jednačinu analize varijanse ST = SP + SR
podelili sa ST dobili bi jednakost:
1 =𝑆𝑃
𝑆𝑇+
𝑆𝑅
𝑆𝑇
Sledi
𝑆𝑃
𝑆𝑇 = 1 −
𝑆𝑅
𝑆𝑇
Leva strana dobijene jednakosti pokazuje koliko je učešće objašnjenog varijabiliteta u ukupnom
varijabilitetu i naziva se koeficijent determinacije, i obeležava se sa r2.
Koeficijent determinacije se može računati jednostavnijom formulom pomoću ocenjene vrednosti
nagiba b:
𝑟2 = 𝑏2∑ 𝑥𝑖
2 − 𝑛�̅�2
∑ 𝑦𝑖2 − 𝑛�̅�2
Vrednost koeficijenta r2 varira i kreće se u intervalu od 0 do 1, tj.
0≤ r2 ≤ 1
Korigovani koeficijent determinacije je mera reprezentativnosti modela koja se izračunava
korigovanjem koeficijenta determinacije faktorom koji zavisi od broja stepena slobode:
�̅�2 = 1 −𝑛−1
𝑛−2(1 − 𝑟2).
Koeficijent alijenacije 1-r2, uslovljen je drugim faktorima i on predstavlja meru neobjašnjenog
varijabiliteta u ukupnom. Zbir objašnjenog (determinisanog) varijabiliteta i neobjašnjenog varijabiliteta je
uvek jednak jedinici, odnosno 100 %.
Chadockova skala ocene jačine veze između parova vrednosti dve promenljive:
r2 r Tumačenje
0 0 odsutnost veze
(0; 0,25] (0; 0,50] slaba veza
(0,25; 0,64] (0,50; 0,80] veza srednje jačine
(0,64; 1) (0,80; 1) čvrsta veza
1 1 potpuna veza
dr Slavica Dabetić
Top Related