Cursul 1. Elemente de biostatistica - Sorana-Daniela...
Transcript of Cursul 1. Elemente de biostatistica - Sorana-Daniela...
1
Cursul 1. Elemente de biostatistica
Sa ne imaginam ca studiem un numar de indivizi ai unei populatii, de exemplu studentii
din anul I, Facultatea de Medicina. (De ce? Poate din motive sociale, politice, economice,
medicale, ...) Putem lua în considerare, din multitudinea de caracteristici posibile, doar
câteva: înaltimea, greutatea, culoarea parului, numarul de membri ai familiei, nivelul
cunostintelor de anatomie, nivelul de inteligenta. Exprimând aceste caracteristici prin
variabile (unele numerice, altele nu), admitem ca prin masurare sau evaluare vom obtine
seturi de date care „umplu” tabele de date. Întrebarile esentiale care se pun de obicei sunt
urmatoarele:
– cum putem sa descriem „sintetic” datele pe care le-am obtinut?
– cum putem sa transmitem altora informatiile pertinente despre ansamblul indivizilor,
fara însa a le transmite toate datele obtinute?
La acest gen de întrebari statistica poate da un raspuns. Dar, pentru a întelege
justificarile metodelor statisticii si a le interpreta corect rezultatele, va trebui sa ne
familiarizam cu câteva distributii teoretice, dintre care cele normale sunt cele mai
cunoscute.
Continutul acestui curs este urmatorul:
1.1. Distributii continue ...........................................................................................116
1.2. Distributii normale (Gauss)...............................................................................120
1.3. Populatii si esantioane, caracteristici si variabile...............................................128
1.4. Reprezentari grafice..........................................................................................132
1.5. Statistici descriptive. Centrarea unei variabile numerice ...................................135
1.6. Statistici descriptive. Deviatia în jurul centrului................................................137
1.7. Statistici descriptive pentru variabile calitative .................................................141
1.8. Covarianta si corelatia ......................................................................................142
2
1.1. Distributii continue
În toate consideratiile anterioare au fost abordate numai distributii pentru care
variabilele aleatoare asociate lor au valori discrete, fie în numar finit – ca în cazul
distributiilor binomiale ),(b pn , fie numarabile – cazul distributiilor Poisson )(λPo .
Acestea sunt cunoscute ca distributii discrete. În cele ce urmeaza vom considera distributii
pentru care variabilele aleatoare asociate sunt capabile sa ia valori întrun domeniu continuu
(interval) de pe axa reala. Acestea sunt cunoscute ca distributii continue.
Evident, valorile unei asemenea variabile aleatoare/distributii apar ca rezultate ale unor
masuratori (de lungimi, greutati, durate de timp, temperaturi, concentratii etc.).
Întro figura din lectia anterioara au fost reprezentate, întro forma asemanatoare
histogramelor, distributiile binomiale b(15, 0.25) si b(25, 0.2). În ambele cazuri valorile
posibile ale lui k au fost plasate pe abscisa, echidistant între valoarea minima 0 si cea
maxima n (= 15, respectiv 25) Pe ordonata se „masoara” valorile probabilitatilor
)),(b(P kpn = . Ne dam seama ca, atunci când n „creste” nemarginit, pastrând aceeasi
„lungime” pentru intervalul [0, n], segmentele verticale tind sa formeze un „domeniu
continuu” ca în figura de mai jos. Curba care delimiteaza acest domeniu, în partea
superioara, este graficul unei „densitati de probabilitate”. Ca sa fim mai precisi, sa definim
o densitate de probabilitate ca fiind o functie reala continua f asa încât:
1) are valori pozitive:
0)( ≥xf pentru orice R∈x , si
2) aria delimitata de graficul ei si de axa absciselor este 1, adica:
1d )( =∫∞∞− xxf .
3
De fapt, aria delimitata de graficul functiei, de axa absciselor si de numerele reale a si b,
arie data de expresia xxfba
d )( ∫ , este legata de o distributie/ variabila aleatoare continua X
prin relatia:
xxfbXa ba
d )( )(P ∫=≤< .
Sa facem observatia ca pentru o distributie discreta este posibil sa-i „listam” toate
valorile. Din contra, este imposibil sa listam toate valorile unei distributii continue. (Se stie
din teoria multimilor ca este imposibil sa „listam” toate „punctele” unui interval.)
Este important sa observam ca valoarea )(xf a unei functii densitate de
probabilitate nu este o probabilitate.
Totusi, relatia urmatoare stabileste o legatura cu probabilitatile evenimentelor:
xxfcX c d )( )(P ∫ ∞−=≤ .
Pentru o distributie continua, având asociata variabila aleatoare X, se defineste prin
formule adecvate media si varianta. Anume:
xxxfXE d )( )( ∫ ∞∞−= , si
)))((()( 2XEXEXVar −= .
Nu este deloc obligatoriu ca graficul functiei densitate de probabilitate (asociata unei
distributii continue) sa fie o curba „continua”. Ceea ce conteaza este faptul ca „aria de sub
curba” sa fie egala cu 1.
Distributiile continue pot fi descrise si prin asa-numita functie de distributie, care nu
este altceva decât o functie reala
]1 ,0[: →RF
4
definita astfel
zzfxXxF x d )( )(P)( ∫ ∞−=≤= .
Ne dam seama cu usurinta ca F este o functie crescatoare si ca densitatea de
probabilitate f se poate obtine din functia de distributie conform relatiei:
)(')( xFxf = .
(pentru punctele x în care functia de distributie F este derivabila).
În figura de mai jos este prezentat graficul unei functii de distributie.
Ca exemplu evident, sa consideram functia al carei grafic este „curba” din figura de mai
jos. Functia este constanta pe portiuni, mai precis 1)( =xf pentru ]1 ,0[∈x , în rest
0)( =xf . Distributia continua a carei densitate de probabilitate este aceasta functie poarta
numele de distributia uniforma. Variabila aleatoare asociata va fi notata cu U.
Sa facem observatia ca, pentru orice ]1 ,0[, ∈ba
abxbUa ba
−==≤< ∫ d )(P ,
ceea ce înseamna ca probabilitatea ca variabila U sa ia valori între a si b este exact
„lungimea” intervalului ] ,[ ba .
„Sortii de izbânda” ca variabila U sa ia valori în doua intervale de lungimi egale sunt
astfel egali, ceea ce justifica numele de „uniforma”.
5
Un calcul rapid ne ajuta sa obtinem media si apoi varianta distributiei uniforme. Anume:
211
0d
)( == ∫ xxUE
(ceea ce nu este deloc surprinzator), apoi:
1211
02
21 d
)()( =−= ∫ xxUVar .
Distributiile discrete pot fi asimilate distributiilor continue. Într-adevar, daca
...21 ... <<<< nxxx
este secventa de valori a variabilei aleatoare discrete X (asociata distributiei discrete),
atunci distributia discreta este descrisa perfect de histograma sa. Graficul frecventelor
(relative) cumulate nu este altceva decât o reprezentare a functiei de distributie. Pentru un
numar x din intervalul )1 ,( +kk xx , este evident ca
)()()()( kk xFxXPxXPxF =≤=≤=
ceea ce explica aspectul „în trepte” al functiei de distributie (vezi exemplul din figura de
mai jos).
De multe ori, data o distributie discreta si una continua, ne punem întrebarea daca ele
sunt „apropiate” sau nu, cu alte cuvinte daca una dintre ele „o reprezinta” pe cealalta. De
raspunsul la aceasta întrebare poate depinde o decizie importanta. Raspunsul „da” este
întotdeauna subiectiv. Statistica ne permite sa evaluam riscul atasat deciziei.
6
1.2. Distributii normale (Gauss)
În multe rationamente teoretice distributiile normale (Gaussiene) joaca roluri
importante. O distributie normala, determinata de parametrii µ si 02 >σ , notata cu
),(N 2σµ , este caracterizata prin densitatea de probabilitate:
σ
µ−−
πσ=
2
2
2
)(exp
21
)(x
xf .
Graficul acestei functii este în forma de clopot – fiind cunoscut sub numele de „clopot al
lui Gauss” – simetric în raport cu „linia verticala” µ=x .
Dupa ce se calculeaza câteva integrale, se obtin urmatoarele rezultate:
µ=σµ )),(N( 2E
si
22 )),(N( σ=σµVar ,
formule care ne ofera o interpretare evidenta pentru cei doi parametri. Despre parametrul µ
se spune ca este media teoretica, iar despre 2σ se spune ca este varianta teoretica.
Aceasta din urma este patratul deviatiei standard teoretice 0>σ a distributiei ),(N 2σµ .
Astfel ca nu este deloc surprinzator ca „întinderea clopotului” depinde de marimea lui σ (a
se vedea figura de mai jos pentru câteva exemple).
Evident, variabila aleatoare asociata unei distributii normale ar putea lua ca valoare
orice numar real. Totusi, „probabilitatea valorilor” scade pe masura ce ele se departeaza de
media teoretica µ .
axa valorilor variabilei
Graficul functiei densitate a distri-
butiei pentru 2=µ , 42 =σ
Graficul functiei densitate a distributiei pentru 0=µ , 1=σ
Graficul functiei densitate a distributiei
normale pentru
0=µ , 25.02 =σ
7
Este imposibil sa se completeze tabele de valori pentru toate distributiile normale.
Urmatorul rezultat a fost folosit intens în trecut pentru a efectua calcule în legatura cu
distributiile normale. Daca X este o distributie de tipul ),(N 2σµ , atunci distributia
)(1
µ−σ
= XZ
este de tipul )1 ,0(N . Mai mult,
σµ−
≤=≤x
ZxX P)(P
iar aceasta ne permite sa folosim datele ce se afla în tabelul asa-numitei distributii
normale standard )1 ,0(N .
Totusi, folosirea tabelelor este astazi depasita, iar softul general permite efectuarea cu
usurinta a oricarui calcul în legatura cu distributiile normale. De exemplu, în Excel exista
doua functii, numite NORMDIST si NORMINV, care depind de parametrii µ si σ .
Caseta de dialog a primei este prezentata în figura de mai jos. Pentru a calcula valorile în
modul clasic, adica în legatura cu distributiile normale standard, exista doua functii
suplimentare, usor de utilizat, numite NORMSDIST si NORMSINV.
Exercitiu. Identificati tipul si rolul celui de-al patrulea argument al functiei
NORMDIST din Excel.
O densitate de probabilitate de tip „clopot Gauss” – ce corespunde unei distributii
continue – este ideala, ea nu poate aparea în legatura cu o populatie naturala. Totusi,
importanta distributiilor normale este motivata de urmatoarele:
8
a) modeleaza „bine” numeroase variabile numerice „care apar în practica” în legatura
cu populatii „mari”, cum ar fi înaltimea, greutatea, coeficientul de inteligenta al
oamenilor, dar si diametrul celulelor bacteriilor sau erorile de masurare;
b) aproximeaza „bine” multe alte distributii, cum sunt cele binomiale;
c) constituie fundamentul inferentei statistice, întrucât reprezinta distributia estimarilor
parametrului unei populatii, estimarile fiind obtinute din toate esantioanele
posibile.
Sa ilustram ultima motivatie prin urmatorul exemplu. Sa presupunem ca populatia
noastra are un numar de 25 de indivizi, carora le cunoastem talia (datele sunt în tabelul
urmator).
Individul Talia Individul Talia 1 0.1 14 0.7 2 0.1 15 0.3 3 0.3 16 0.1 4 0.1 17 0.1 5 0.5 18 0.9 6 0.1 19 0.3 7 0.1 20 0.1 8 0.3 21 0.7 9 0.3 22 0.1
10 0.9 23 0.7 11 0.7 24 0.3 12 0.1 25 0.3 13 0.3 Total 8.5
Talia medie este 34.025
5.8==µ , iar distributia indivizilor este prezentata în figura de mai
jos. Se observa ca este o distributie asimetrica (în jurul mediei).
Cum s-ar putea estima aceasta medie µ , masurând doar indivizii unui esantion „mic”
(format din doar 4 indivizi)? Evident, prin media aritmetica:
9
44321 xxxx
m+++
=
unde ix este talia individului i din esantion.
Avem însa posibilitatea de a alege foarte multe esantioane de câte 4 indivizi, mai precis
se pot alege
126504321
22232425425 =
⋅⋅⋅⋅⋅⋅
=C esantioane
Sa le luam unul dupa altul, si sa calculam pentru fiecare în parte media aritmetica:
Esantionul nr. Indivizii ce-l compun Taliile corespunzatoare Media taliilor 1 1, 2, 3, 4 0.1, 0.1, 0.3, 0.1 0.15 2 1, 2, 3, 5 0.1, 0.1, 0.3, 0.5 0.25
… … … … 12650 22, 23, 24, 25 0.1, 0.7, 0.3, 0.3 0.35
Evident, nu se pune problema listarii tuturor celor 12650 esantioane posibile. Totusi,
folosind un soft de calculator, putem programa cu usurinta obtinerea tuturor celor 12650
medii de esantion. Distributia lor este prezentata în figura alaturata.
Se poate observa ca „histograma” este mai bine aproximata de o Gaussiana.
Sa retinem o idee fundamentala: atunci când avem de-a face cu o populatie mare de
valori numerice, a carei distributie are media µ (necunoscuta!), mediile de esantion
formeaza o noua populatie de numere, care este distribuita (aproximativ) normal cu aceeasi
medie µ .
În mod traditional se considera ca distributii normale cuantifica erorile involuntare ce
apar în masuratorile lungimilor sau greutatilor (maselor). În aceste situatii, daca µ
reprezinta valoarea masurata, atunci σ va reprezenta eroarea de masurare. Distributii
10
normale exprima de asemenea asa-numitul „zgomot” ce afecteaza transmisia datelor pe
liniile de comunicatie.
În general, despre curba Gaussiana asociata distributiei normale ),(N 2σµ este de retinut
ca:
a) Mediana, adica valoarea Me care separa populatia (infinita) în doua parti „de marimi
egale”, coincide cu media teoretica µ ;
b) Între abscisele σ−µ si σ+µ (care sunt situate la „distanta” σ fata de media µ , aria
de sub graficul functiei densitate este 0.683. Aceasta înseamna ca 68.3% dintre indivizii
unei populatii normale sunt situati între σ−µ si σ+µ ;
c) Între abscisele σ−µ 2 si σ+µ 2 (care sunt situate la „distanta” σ2 fata de media µ ,
aria de sub graficul functiei densitate este 0.955. Aceasta înseamna ca peste 95% dintre
indivizii unei populatii normale sunt situati între σ−µ 2 si σ+µ 2 ;
d) Practic, întreaga arie de sub grafic (de fapt 99.5%) se afla între abscisele σ−µ 3 si
σ+µ 3 . Acesta fapt conduce la asa-numita „regula a celor sase sigma” (cunoscuta sub acest
nume de catre cei ce iau decizii): presupunând ca populatia este distribuita normal, deviatia
ei standard este estimata la 1/6 din diferenta dintre valoarea maxima si cea minima, valori
ce sunt obtinute dintr-un esantion „suficient de mare”.
În particular, ne vom astepta ca 68.3% (adica ceva mai mult de 2/3) dintre oameni sa
aiba un IQ între 84 si 116, si doar unul din 500 sa aiba IQ-ul peste 148. (Se stie ca IQ este
distribuit normal cu media 100 si varianta 256.)
Se practica aproximarea unor distributii binomiale ),(b pn prin distributii normale, mai
ales atunci când numarul n de încercari este „mare”. Este obligatoriu însa sa fim precauti,
întrucât distributia binomiala este de regula asimetrica.
De fapt, distributiile binomiale ),(b pn sunt simetrice doar pentru 5.0=p , iar asimetria
creste pe masura ce „probabilitatea succesului” p se departeaza de 0.5. Se accepta ca
aproximarea binomiala ),(b pn prin normala ),(N 2σµ este „buna” doar în cazurile în care
5≥⋅ pn si 5)1( ≥−⋅ pn , iar în aceste cazuri parametrii distributiei normale se obtin prin
identificarea mediilor si variantelor: pn ⋅=µ , )1(2 ppn −⋅⋅=σ .
11
Ca motivatie pentru asemenea aproximari este nevoia de aprecieri rapide asupra efectelor unor
decizii pe care le luam. Ca exemplu, sa consideram cazul unei alegeri pentru un organism de
conducere format din 20 de membri, care vor fi alesi de catre o adunare formata din 100 de
delegati.
Decizia care a fost luata este urmatoarea: fiecare delegat va vota selectând 20 de nume de pe
buletinul de vot ce contine toate cele 100 de nume, iar comisia de validare va declara ca fiind alesi
acei delegati ce totalizeaza cel putin 51 de voturi „pentru”.
Ce efect are o asemenea decizie? Ce sanse exista ca sa se aleaga organismul de conducere în
urma votului?
În ipoteza ca fiecare delegat alege la întâmplare 20 de nume de pe buletinul de vot,
„probabilitatea succesului” pentru un candidat va fi de 2.010020 = . Presupunând ca niciunul dintre
cele 100 de buletine nu este invalidat, numarul de voturi obtinute de catre un candidat (oarecare)
este dat de variabila aleatoare asociata distributiei binomiale )2.0 ,100(b .
S-o aproximam cu distributia normala )16 ,20(N , întrucât 202.0100 =⋅=⋅=µ pn si
168.020)1(2 =⋅=−⋅⋅=σ ppn de unde 4=σ . Cunoscând datele anterioare despre distributiile
normale, putem evalua rapid ca 99.5% dintre rezultatele obtinute de catre candidati se vor situa
între 843203 =⋅−=σ−µ si 3243203 =⋅+=σ+µ iar sansele ca vreun candidat sa fie ales cu
cel putin 51 de voturi favorabile sunt practic nule. Fara crearea de coalitii premergatoare votului,
alegerile pentru organismul de conducere pot continua la nesfârsit.
(O solutie de iesire din impas ar fi sa se acorde fiecarui delegat dreptul de a alege nu 20, ci 40
de nume de pe buletinul de vot. În aceasta situatie 4.0=p , 40=µ , 246.0402 =⋅=σ , adica
5≈σ . De data aceasta ar fi 2% sanse ca numarul de voturi obtinute de un candidat sa fie mai mare
decât 5010402 =+=σ+µ . Ne putem astepta la alegerea în organul de conducere a cel putin 2
delegati înca din primul tur.)
Întrun anume sens, o curba Gaussiana exprima distributia indivizilor din populatia
„infinita” a numerelor reale, în raport cu anumite puncte speciale de pe axa absciselor.
12
Sa presupunem ca dispunem de o functie care, pentru orice numar pozitiv z, calculeaza
aria de sub grafic, la stânga lui z – a se vedea figura de mai sus. (O asemenea functie este
NORMSDIST, atunci când Cumulative = TRUE, în Excel.)
Atunci )(P zZ > este aria de sub grafic, la dreapta abscisei z, cu alte cuvinte:
)(P1)(P zZzZ ≤−=> .
Daca z este negativ, atunci –z este pozitiv. Întrucât graficul este simetric fata de origine,
concludem ca:
)(P1)(P)(P zZzZzZ −≤−=−>=< .
De asemenea,
)'(P)(P)'(P zZzZzZz ≤−≤=≤< .
Ca exemplu, pentru 96.1=z obtinem %5.97975.0)96.1(P ==≤Z ; din formulele de mai sus
rezulta %5.2)96.1(P =>Z si %5.2)96.1(P =−<Z !
Câteodata suntem interesati în pozitionarea (relativa) a unui individ ce face parte dintr-o
populatie distribuita normal. Ca exemplu, stim ca un individ a obtinut scorul 68 la o
competitie. Numarul 68 nu ne spune nimic despre clasarea acelui individ; la fel de bine ar
putea fi apropiat de minim, de mediana, de maxim. Performanta reala nu este deloc
evidenta!
O procedura uzuala pentru descrierea performantei reale consta în indicarea scorului
standard (cunoscut si ca scorul Z). Acest scor exprima „cât de multa deviatie standard se
afla sub rezultat”. Scorul Z se calculeaza cu usurinta odata ce sunt cunoscuti parametrii
populatiei, anume se scade media µ a populatiei din rezultatul x, apoi se împarte diferenta
µ−x la deviatia standard:
σµ−
=x
z .
În practica µ si σ sunt estimate din datele pe care le avem la dispozitie. De exemplu,
daca rezultatul 68 a fost obtinut de o persoana la un test IQ (pentru care se presupune ca
100=µ si 16=σ , atunci scorul Z are valoarea –2, ce corespunde unei performante scazute!
13
Distributia normala ne ajuta sa definim ceea ce poate însemna „individ normal” al unei
populatii. În teoria calitatii, indivizii care au scoruri Z între –2 si +2 sunt etichetati ca
„standard”, iar cei care au scoruri Z între –3 si +3 sunt etichetati ca „normali”.
Sa observam ca, prin standardizare, o valoare a unei distributii normale arbitrare este
înlocuita printr-o valoare a distributiei normale standard )1 ,0(N . Sa retinem ca prin
standardizare putem compara scorurile (indivizilor) din diversele populatii.
Familia distributiilor normale prezinta o importanta deosebita si datorita unor rezultate
utilizate în teoria esantionarii. Vom reveni ulterior asupra acestei teorii.
Exercitii. 1) Admitem ca înaltimea unui barbat adult este distribuita normal cu 175=µ
si 7=σ (cm). Care este probabilitatea ca un barbat adult sa fie mai înalt de 185 cm, stiind
ca este mai înalt de 180 cm?
Asemenea aprecieri implica evaluarea unor probabilitati conditionate. Mai precis,
notând cu H înaltimea unui barbat adult – considerata ca variabila aleatoare cu distributia
)49 ,175(N – vom evalua folosind NORMDIST din Excel:
322.02375.00766.0
)True,7,175,180(NORMDIST1)True,7,175,185(NORMDIST1
)180(P)185(P
)180|185(P ==−−
=>>
=>>HH
HH .
2) Admitând ca numarul de leucocite pe unitatea de volum de sânge diluat, evaluat la
microscop, este distribuit Poisson cu media 100=λ , care este probabilitatea ca sa fie
observat un numar de cel mult 90?
Evident, putem face apel la functia POISSON din Excel, formula
=POISSON(90,100,True)
oferindu-ne rezultatul dorit. Sa adoptam însa o alta cale, anume prin aproximarea
distributiei Poisson )(λPo cu una normala ),(N 2σµ . Determinarea parametrilor se va face
prin egalarea mediilor distributiilor
100=λ=µ
respectiv a variantelor distributiilor 1002 =λ=σ . În urma aproximarii, probabilitatea
dorita va putea fi obtinuta si prin formula:
=NORMDIST(90,100,10,True)
14
1.3. Populatii si esantioane, caracteristici si variabile
Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici”
de indivizi si extinderea rezultatelor la populatii „mari”.
Principala caracteristica a proceselor biologice este variabilitatea. Aceasta variabilite
determina un anumit grad de incertitudine. Statistica ne permite sa stabilim „legi” în care
sa tinem seama de incertitudine.
Biostatistica este acel domeniu particular al stiintelor în care metodele specifice
statisticii sunt aplicate problemelor biologice (inclusiv medicale), în particular diverselor
fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor.
Biostatistica, fiind o ramura a statisticii, ne permite sa dam raspuns la întrebari cum sunt
urmatoarele:
a. Care valori sunt normale pentru un anumit proces biologic?
b. Cât de mult riscam atunci când alegem un anumit tratament?
c. Este oare mai bun noul tratament decât cel clasic?
Cuvântul populatie are, în limbajul de zi cu zi, un înteles evident. De obicei, atunci când
ne referim la o populatie, consideram implicit ca numarul indivizilor ei este mare; aceasta
nu exclude însa multe situatii, cum este cea din exemplul formal „populatia pacientilor dr.
Ionescu ce sufera de cardiopatie ischemica”, în care este clar ca acest numar nu este prea
mare. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei
variaza în timp). Totusi, se presupune ca la un moment particular de timp – sau întrun
interval de timp bine definit – populatia este bine definita.
Fiecare individ al unei populatii îsi are identitatea sa proprie, iar indivizii prezinta o
anumita variabilitate. Atunci când studiem o populatie se iau în considerare doar anumite
atribute „importante” ale indivizilor; aceste atribute poarta numele de caracteristici.
De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de
durata; câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. Este de neconceput
sa poata fi studiati chiar toti indivizii unei populatii „mari”. Ratiunea esantionarii este
limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care
este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la
nivelul întregii populatii asupra caracteristicilor studiate.
15
Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de
obicei, atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin
litera n.
Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza,
înaltimea sa, sau inteligenta unui student – sunt masurate si exprimate prin numere. Alte
caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate, ci sunt
identificate prin apartenenta la un grup. Caracteristica „culoare” a obiectelor ar putea fi
masurata (exprimata prin lungimea de unda), însa de obicei este identificata prin
apartenenta la grupurile „rosu”, „portocaliu”, „galben” etc.
Atunci când încercam sa comparam sau sa clasificam indivizi, sa stabilim legaturi între
caracteristicile lor, aceste caracteristici sunt reprezentate prin variabile. Pentru a reprezenta
o caracteristica printr-o singura variabila va trebui sa introducem o scara, ceea ce
înseamna:
1. Sa definim spatiul observabil, adica multimea tuturor valorilor posibile;
2. Sa definim o structura pe spatiul observabil, si
3. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul
observabil.
Pentru a preciza ideile, sa consideram câteva exemple. Caracteristica „înaltime” a
pacientilor este reprezintata evident printr-o variabila, deoarece consideram în mod intuitiv
ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o
structura foarte bogata: operatii aritmetice, ordonare totala etc.). Este clar ca daca ne
alegem o unitate de masura (metrul, centimetrul, …) atunci pentru fiecare pacient vom
putea sa obtinem – e drept, cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale.
Numerele obtinute sunt reale, prin urmare le putem ordona între ele, de asemenea le putea
aduna, scadea, etc. O asemenea variabila este numita variabila numerica.
Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip.
Spatiul observabil este acum format doar din etichetele „foarte scund”, „scund”, „mediu”,
„înalt” si „foarte înalt”. Nu mai este necesara o masurare precisa a pacientilor, le vom
putea „aprecia vizual” înaltimea. Asemenea etichete nu pot fi adunate sau scazute, este
definita doar ordonarea între ele. De data aceasta avem un exemplu de variabila ordinala.
16
Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila
binara) ce ia doar doua valori „admis”/„respins” (respectiv „da”/„nu” etc.).
O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui
student, care poate fi exprimata printr-un ansamblu de variabile.
Asadar, o caracteristica studiata ar putea fi reprezentata, direct sau indirect, prin mai
multe variabile.
Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de
indivizi), de obicei variabilele numerice sunt înlocuite prin variabile calitative, ordinale
(care reprezinta aceeasi caracteristica). Mai precis, datele numerice sunt grupate întrun
numar „mic” de clase. De exemplu, se utilizeaza foarte adesea clase de vârsta sau clase de
înaltime.
Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista
definit vreun „algoritm” de stabilire a sa. Un numar prea mic de clase are dezavantajul ca
„ascunde” particularitatile claselor; din contra, un numar mare de clase face dificila
reprezentarea grafica a rezultatelor. (Se recomanda reprezentarea grafica a rezultatelor
datorita perceptiei mai rapide pe cale vizuala a informatiei.) Se poate face recomandarea de
a se forma între 8 si 20 de clase.
Sa luam de exemplu clasele de vârsta ale pacientilor, considerând ca studiem un
esantion de indivizi diagnosticati cu o anumita maladie. Pare natural sa grupam vârstele lor
în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”, C2 = „5-9 ani”,
C3 = „10-14 ani” si asa mai departe.
Observam ca toate clasele descrise anterior au aceeasi „lungime”, anume 5 ani. Aceasta
este recomandat, dar nu este obligatoriu!
În cazul în care fie indivizii sunt grupati natural în clase, fie datele colectate au fost
grupate în clase, putem calcula frecvente. Pentru o clasa de date, frecventa absoluta este
numarul indivizilor pentru care datele apartin acelei clase. Frecventa relativa se
calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion.
Uneori se folosesc si asa-numitele frecvente cumulate.
17
Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin
intermediul functiei FREQUENCY(). Aceasta functie are doua argumente:
1. Domeniul în care au fost plasate valorile variabilelor (data array);
2. Domeniul – în general pe o coloana – în care se trec valorile de separare, în ordine
crescatoare (bins array).
Rezultatele aplicarii acestei functii sunt plasate întrun domeniu ce are o celula în plus
fata de domeniul valorilor de separare. În aceasta celula suplimentara va fi afisat numarul
valorilor ce depasesc cea mai mare valoare de separare.
Un exemplu de folosire a functiei FREQUENCY în Excel, în figura urmatoare
si rezultatul aplicarii, dupa extindere:
18
1.4. Reprezentari grafice
Adeseori o reprezentare grafica, interpretata vizual, poate fi extrem de eficienta pentru
prezentarea unor date sau rezultate. Sa consideram, de exemplu, cazurile de infarct
înregistrate întrun oras mare, grupate dupa zilele saptamânii:
Ziua saptamânii Frecventa absoluta a cazurilor de infarct
Luni 4 Marti 4 Miercuri 7 Joi 3 Vineri 6 Sâmbata 4 Duminica 8
TOTAL 36
O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea
vizuala a unei diagrame cu bare sau a unei rozete. Iar reprezentarea datelor întro diagrama
cu bare sau de tip rozeta este o operatiune usoara, implementata în orice soft statistic sau de
calcul tabelar. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel, diagrama de
tip histograma a fost obtinuta cu Statistica, iar diagramele de tip rozeta au fost obtinute cu
Excel si EpiInfo.
19
În tabel, în diagrama cu bare, în histograma si în rozete este prezentata aceeasi
informatie. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai
usor de „înteles”. (O mica corectie: în diagrama de tip histograma este reprezentata o curba
suplimentara, care însa este inutila în cazul nostru. Vom aborda ulterior interpretarea
acestei curbe.)
Se poate observa, în cele doua rozete, ca prezentarea rezultatelor depinde de softul
folosit, existând unele diferente (datorate rotunjirilor). Exista si deosebiri în modul în care
trebuie introduse datele. Doar în Excel putem pleca de la tabelul de mai sus. În general se
pleaca de la datele primare „caz dupa caz”.
Atât tabelele de frecvente, cât si diagramele sunt adecvate pentru „afisarea” variabilelor
care au un numar „mic” de valori. Asemenea reprezentari – tabelare sau diagramatice – nu
sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum
este cazul greutatii pacientilor exprimata în grame). Evident, în asemenea situatii se
practica gruparea valorilor în câteva intervale de valori, iar abia apoi rezultatele gruparii
sunt prezentate în histograme.
De exemplu, sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1.65
m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri, clase), anume:
C1 = „41-45 kg” — 5 cazuri;
C2= „46-50 kg” — 10 cazuri;
C3 = „51-55 kg” — 20 cazuri;
C4 = „56-60 kg” — 36 cazuri;
...
C15 = „111-115 kg” — 0 cazuri;
C16= „116-120 kg” — 1 caz.
Folosind Excel, Statistica si EpiInfo, din aceste date se obtin histogramele urmatoare:
20
Sa remarcam ca întro histograma clasele sunt intervale de numere reale, iar întro
diagrama cu bare clasele sunt reprezentate prin etichete (labels).
Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor
eronate sau a valorilor aberante (outliers). Aceste valori aberante, de orice fel ar fi,
distorsioneaza serios rezultatele analizelor statistice.
Atunci când se construieste o diagrama de tip histograma, pe axa orizontala se
marcheaza punctele de separare între clase si, pentru fiecare clasa, se ridica pe verticala un
dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta, fie relativa) clasei.
Dreptunghiurile sunt de „latimi” egale. Întro histograma veritabila aria tuturor
dreptunghiurilor este 1.)
Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru
accelerarea transferului de informatie de la om la om. Acest transfer bazându-se însa pe
perceptia vizuala, toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata
asupra unor date. Trebuie sa fim atenti la corectitudinea tipului de diagrama, la falsificarea
datelor prezentate, la modificarea nejustificata a scarilor de masurare, si nu în ultimul rând
la adecvarea textele titlurilor, etichetelor si legendelor de pe diagrama.
21
1.5. Statistici descriptive. Centrarea unei variabile numerice
Sa consideram ca, întrun studiu efectuat asupra unei populatii mari, suntem interesati în
a studia o anumita caracteristica reprezentata printr-o variabila numerica. Dupa ce am ales
un esantion – sa zicem de n indivizi – si am facut masuratorile necesare, vom dispune de
numerele reale nxxx ,...,, 21 . Aceste numere sunt reprezentate prin puncte pe axa reala (a se
vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul
unui „centru”.
Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a
numerelor (adica însumam numerele, apoi împartim suma la numarul total n al indivizilor
din esantion):
nxxx
m n+++=
...21
Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”, si
anume urmatorul: un numar calculat folosind datele obtinute dintr-un esantion. Formula de
mai sus ofera un prim exemplu de statistica.
În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna
nu este tratata altfel decât celelalte). Mai mult, rezultatul este exprimat în aceleasi unitati
de masura ca si valorile masurate.
Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia
mediei aritmetice, totusi nu prea mult – a se vedea figura.
Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft
statistic sau de calcul tabelar. De exemplu, în Excel aceasta functie este numita
AVERAGE() si are un singur argument, anume domeniul în care au fost plasate datele
numerice. Însa, în orice soft statistic media aritmetica este afisata împreuna cu alte statistici
elementare, care sunt considerate „strict necesare pentru analiza”.
22
De exemplu, Statistica, în modulul sau Basic Statistics/Tables contine o comanda
Detailed Descriptive Statistics. Ca un alt exemplu, softul biostatistic EpiInfo 2004 are un
modul numit Analysis; aici se întâlneste comanda Means, împreuna cu alte comenzi,
grupate în grupul Statistics.
În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul”
datelor. În cazul în care datele sunt ordonate, ca de exemplu astfel:
nxxx ≤≤≤ ...21
poate fi folosita si mediana pentru a indica „centrul”. Mediana (Me) este „punctul” ce
divide valorile în doua parti egale.
În situatia în care toate valorile ix sunt distincte, iar 12 += mn (adica numarul datelor
este impar), mediana Me coincide cu valoarea 1+mx care este situata exact în „mijloc”;
atunci când mn 2= (numarul datelor este par), mediana Me este media aritmetica a celor
doua valori, mx si 1+mx , situate în mijloc.
În unele situatii, pentru a indica „centrul” mediei aritmetice si medianei îi este preferat
modul. Pentru date categoriale (nenumerice), modul Mo este o statistica definita ca acea
valoare ce are frecventa maxima. Pentru date numerice, modul Mo, ca „centru” al datelor,
este dat de formula:
mMeMo ×−×= 23 .
23
1.6. Statistici descriptive. Deviatia în jurul centrului
Adeseori evaluarea împrastierii datelor în jurul centrului, eventual o masura a acestei
împrastieri, este la fel de importanta ca si aflarea „centrului”. Multe dintre statisticile care
exprima împrastierea sunt definite plecând de la notiunea de „deviatie”, ele diferind între
ele doar prin întelesul pe care-l acordam acestui termen.
O prima statistica, evidenta, este amplitudinea, notata cu A, si care este definita ca
diferenta între valorile maxima si minima ale seriei de date:
minmax xxA −= .
Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date
numerice); are dezavantajul ca depinde doar de doua dintre valorile seriei, si nu ne
informeaza deloc asupra modului în care datele sunt împrastiate între extreme.
Din contra, deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei
de date. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. Definitia
precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de
media lor, abateri luate în valoare absoluta:
nmx
E k || −∑= .
Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind
derivabila). Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica,
numita varianta seriei de date:
nmx
V k2)( −∑= .
Pentru a întelege justificarea formulei urmatoare, sa ne imaginam ca valorile nxxx ,...,, 21
sunt variabile aleatoare distribuite normal, independente între ele, toate având aceeasi
medie teoretica µ si aceeasi varianta teoretica 2σ :
),(N 2σµ=kx , µ=)( kxE , 2)( σ=kxVar .
În aceste conditii, n
xxxm n+++
=...21 va fi o variabila aleatoare normala, având aceeasi
medie teoretica µ , dar varianta mai mica nmVar2
)( σ= .
24
De asemenea, V va fi o variabila aleatoare. Prin calcul se obtine urmatorul rezultat:
21)( σ
−=
nn
VE .
Observam ca media lui V nu coincide, asa cum ne-am fi asteptat, cu varianta teoretica
2σ ! Avem de-a face cu un asa-numit fenomen „de deplasare” (bias). Daca însa consideram
expresia
1)( 2
−−∑=
nmx
W k
atunci media )(WE coincide cu varianta teoretica 2σ , adica este „nedeplasata” (unbiased).
De aceea estimarea lui σ se face de obicei prin abaterea standard, definita mai jos.
Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date,
însa acest lucru nu mai este valabil pentru varianta (nici pentru W). Daca dorim o statistica
ale carei valori sa fie exprimate în aceeasi unitate de masura ca si valorile seriei, care sa
depinda „echitabil” de toate valorile, simultan sa aiba si proprietati matematice bune,
atunci formula urmatoare satisface toate aceste conditii. Formula ne da asa-numita deviatie
standard (sau abatere standard) a seriei de date:
1)( 2
−−∑=
nmx
s k .
(la numitor apare numarul valorilor din seria de date, diminuat cu 1).
Formula de mai sus pentru s necesita foarte multe calcule; evident, ele sunt
implementate în soft. Astfel aplicatia Excel dispune de functia STDEV() al carui unic
argument este, la fel ca în cazul functiei AVERAGE(), domeniul în care a fost plasata seria
de date. În Excel avem la dispozitie multe alte functii statistice, ca de exemplu MEDIAN(),
cu folosire evidenta. Statistica ne ofera, în modulul Basic Statistics/Tables, comanda
Detailed Descriptive Statistics. Ca rezultat al ei se afiseaza media Mean, deviatia standard
Std.Dev., valorile minima si maxima (vezi figura urmatoare).
25
Comanda Means (împreuna cu altele,
grupate în grupul Statistics) din modulul
Analysis al aplicatiei EpiInfo ofera multe
rezultate, incluzând media aritmetica,
mediana, varianta, deviatia standard (a se
vedea figura alaturata).
Sa rezumam cele de mai sus: daca
dispunem de o serie de date numerice, pentru
a le evalua centrul si împrastierea în jurul
centrului putem folosi urmatoarele statistici:
— Media aritmetica m;
— Mediana Me;
— Modul Mo;
— Amplitudinea A;
— Abaterea medie (deviatia medie) E;
— Varianta V;
— Abaterea standard (deviatia standard) s.
(Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din
engleza.)
Lista anterioara nu este deloc exhaustiva; în practica sunt des utilizate si alte statistici:
— Cuartilele 1q (prima, de 25%) si 3q (a treia, de 75%). Acestea sunt numerele care,
împreuna cu mediana 2qMe = (considerata ca a doua cuartila) divid datele seriei în patru
parti (de volume )egale;
— Asimetria (skewness), care exprima evident lipsa de simetrie a seriei de date în jurul
„centrului”.
Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama,
cunoscuta ca box-and-whisker plot, des folosita în reprezentarea grafica a datelor medicale.
Întro astfel de diagrama:
26
— o linie transversala sau un asterisc indica „centrul”;
— un dreptunghi indica variabilitatea în jurul centrului; acest dreptunghi (box)
a) fie contine 50% din datele seriei, anume cele aflate între cuartilele 1q si 3q ;
b) fie contine datele seriei aflate între sm 2− si sm 2+ .
— linii (whiskers) extind dreptunghiul în ambele directii; aceste linii indica domeniul de
variatie (excluzându-se eventualele valori aberante, care sunt marcate special).
Un exemplu de trei box-and-whisker plots realizate cu Statistica este prezentat în figura
de mai jos. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei
variabile GLIC_08, GLIC_14, GLIC_20.
27
1.7. Statistici descriptive pentru variabile calitative
În cazul variabilelor cantitative datele sunt numerice, prin urmare putem calcula media
lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care
calculele sunt ceva mai complexe). În cazul variabilelor calitative însa, valorile sunt
etichete, iar operatiile aritmetice nu sunt definite!
Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta
„admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere;
dar, evident, nu avem nicio justificare în a face asa ceva.
Data o variabila calitativa, am putea fixa o valoare particulara a ei si apoi, pentru fiecare
individ din esantion, am putea nota prezenta respectiv absenta acestei valori. Prezenta este
notata de obicei prin 1, iar absenta prin 0. Daca prezenta valorii este constatata la a indivizi
ai esantionului, prin raportare vom obtine imediat frecventa relativa a acestei valori:
na
f = .
Pentru valoarea aleasa, acest raport joaca acelasi rol pe care-l joaca media aritmetica în
cazul variabilelor cantitative. (De fapt, este media unor valori ce pot fi doar 1 sau 0.) Prin
urmare este o statistica de „centrare”.
Împrastierea este evaluata, în aceasta situatie, prin asa-numita varianta a valorii alese,
definita prin:
)1( ffV −=
sau prin deviatia standard a valorii:
)1( ffs −= .
(Este vorba de fapt de formulele obisnuite, prezentate în paragraful anterior, adaptate
pentru valorile 0=kx sau 1.)
Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul
valorilor etichete) este, în acest caz, modul, care nu este altceva decât eticheta/etichetele
având frecventa maxima.
28
1.8. Covarianta si corelatia
Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia
doar o anumita caracteristica (reprezentata printr-o variabila).
Sa consideram printr-un exemplu cazul cel mai simplu, cel în care studiem doua
caracteristici: se înregistreaza, pentru fiecare nou nascut, vârsta mamei (în ani) si greutatea
noului nascut (în grame). Oare exista vreo legatura între aceste doua variabile? Si daca da,
oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca
raspunsurile la aceste întrebari sunt fie „da”, fie „nu”. Însa modul binar de a raspunde la
întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate, de
exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua
variabile (?). Iar fiecare persoana ar putea sa-l interpreteze, dupa cum doreste, ca un „da”
sau un „nu”!
Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului
de corelatie (Pearson), al carui calcul se bazeaza pe calculul covariantei.
În practica, atunci când studiem legatura între doua variabile numerice, începem prin a
alege un esantion, apoi înregistram datele provenite din masuratorile efectuate asupra
indivizilor; datele rezultate sunt prezentate fie întrun tabel:
Individul Valorile variabilei X Valorile variabilei Y
1 1x 1y
2 2x 2y
... ... ... k kx ky
... ... ... n nx ny
fie ca un „nor” de n puncte în plan (a se
vedea figura alaturata).
29
În cazul în care (avem impresia ca) punctele sunt aliniate, ne exprimam spunând ca
exista o corelatie liniara între variabilele X si Y.
Sa notam cu Xm respectiv Ym mediile celor doua serii de date. Covarianta între cele
doua serii de date se calculeaza cu formula
∑ −−= ))((1
YkXk mymxn
C .
(Se observa ca atunci când seria de date Y coincide cu seria de date X, expresia
covariantei C devine expresia variantei V.)
Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient
de corelatie Pearson:
∑ −⋅∑ −
−∑ −=
22,)()(
))((
YiXi
YiXiYX
mymx
mymxr .
Acest numar este între –1 si 1. În cazurile extreme (adica atunci când numarul YXr , este
apropiat fie de –1, fie de 1) avem de-a face cu o puternica legatura liniara între seriile de
date, pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara:
β+α= XY
între variabile.
Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi
rescrisa în felul urmator:
YXYX ss
Cr =,
unde Xs respectiv Ys sunt abaterile standard ale celor doua serii de date. Calculul destul
de dificil al numarului YXr , este efectuat în Excel prin intermediul functiei CORREL().
Aceasta functie are doua argumente care sunt, evident, domeniile în care am depus cele
doua serii de date.
Ca un caz concret, sa presupunem ca pentru 10 indivizi – alesi în esantion – au fost
masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut), obtinându-se
rezultatele din tabelul urmator:
30
k Pulsul kx Temperatura axilara ky
1 75 38.2
2 80 37.5
3 70 36.5
4 90 38.3
5 75 37.1
6 85 38.0
7 80 37.6
8 90 38.5
9 100 39.4
10 95 38.9
Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos):
912.0911885.0, ≈=YXr
care ne indica o legatura liniara puternica între puls si temperatura axilara.
Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.
Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori;
dimpotriva, ele sunt numere de ordine, asa cum ar fi, de exemplu, rangurile acordate
concurentilor de catre doi arbitri. Coeficientul de corelatie Pearson, chiar daca este
calculabil, nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. În
situatii de acest fel se va calcula, cu formula
)1(1
2
2
−
∑−=NN
dro k
în care kd este diferenta rangurilor obtinute de concurentul k, asa-numitul coeficient de
corelatie Spearman.
31
Cursul 2. Arbori de decizie. Alte distributii continue
Cursul are ca scop prezentarea
a) unor notiuni elementare de teoriei a deciziei, bazata pe luarea în considerare a
probabilitatilor si utilitatilor,
b) notiunii de test de bonitate, cu prezentarea unor aplicatii tipice în genetica;
c) unor distributii speciale, des întâlnite în problematica testelor statistice. Rolul
acestor distributii va deveni clar dupa cursul urmator.
Continutul acestui curs este urmatorul:
2.1. Arbori de decizie .............................................................................................. 32
2.2. Distributii ?2 ..................................................................................................... 36
2.3. Distributii Student ............................................................................................ 39
2.4. Distributii Fisher-Snedecor .............................................................................. 41
2.5. Testarea bonitatii (goodness-of-fit) ................................................................... 43
32
2.1. Arbori de decizie
Medicii fac parte dintre acei oameni care iau un numar mare de decizii, iar deciziile
pe care le iau, ca urmare a consultarii pacientilor, sunt uneori foarte rapide si nu
întotdeauna au justificari „evidente”, solid fundamentate. În alte profesii umane
procesele de luare a deciziilor au fost analizate si formalizate, iar alegerea deciziei
optime într-o situatie data a fost implementata în soft. În domeniul medical situatiile
întâlnite sunt mult mai complexe, înca suntem departe de a spune ca dispunem de soft
care ofera decizia optima; deocamdata ne aflam în faza de analizare a deciziilor.
Atunci când urmarim sa luam o decizie optima trebuie sa ne punem problema
identificarii criteriului de optimizare. În economie situatiile par simple: minimizam
costuri de productie, cheltuieli de transport sau de stocare, maximizam profitul etc.
Folosirea simultana a mai multor criterii de optimizare conduce la complicatii
matematice considerabile, de aceea este de preferat identificarea unui singur criteriu de
optimizare.
Care sa fie acesta, în medicina? Evident, el depinde de nivelul la care se afla
decidentul. Un medic ce ocupa functia de director de spital va alege un alt criteriu de
optimizare decât medicul aflat în garda…
Poate ca este cazul sa privim situatia din punctul de vedere al pacientului. La sfârsitul
tratamentului la care a fost supus, ca urmare a relatiei sale cu domeniul medical –
reprezentat de unul sau mai multi medici – dupa ce toate deciziile medicale au fost
luate, pacientul se va afla într-o anumita stare de sanatate. Evident, ar fi de dorit ca
starea sa de sanatate sa fie catalogata drept „buna” si pacientul sa fie vindecat complet.
Stim însa ca situatia nu este întotdeauna asa, ca pot aparea complicatii mai mult sau mai
putin grave, ca exista sansa unor tratamente ineficace sau chiar daunatoare.
Rezultatele posibile ale tratamentului, anume „vindecare completa”, „vindecare
partiala”, … , „deces” sunt evident discrete. Teoria deciziei necesita însa ca variabila ce
serveste drept criteriu de optimizare sa ia valori continue, de aceea se impune adoptarea
unei variabile continue care sa reflecte rezultatul posibil al tratamentului aplicat asupra
unui pacient.
Utilitatea poate fi considerata a fi o asemenea variabila continua. Cu toate ca,
instinctiv, ne dam seama despre ce este vorba, definitia ei nu este însa evidenta!
33
Teoria deciziei are ca instrument principal de lucru arborele de decizie. Un arbore de
decizie este un graf special, cunoscut sub numele de arbore orientat bicolor. De fapt,
într-un arbore de decizie distingem noduri de trei tipuri:
a) noduri de decizie ? , care reprezinta posibilitatile decidentului (în cazul
pacientului, diversele examinari sau tratamente pe care le prescrie medicul);
b) noduri ale hazardului ? , care reprezinta diversele evenimente aleatoare, ce nu se
afla sub controlul decidentului (în cazul pacientului, rezultatele examinarilor, efectul
terapiilor);
c) noduri rezultat, care reprezinta diversele situatii finale, carora li se asociaza câte o
utilitate (apreciata aprioric de catre un pacient „generic”).
Intr-un arbore de decizie, pe fiecare drum posibil nodurile de decizie si cele ale
hazardului alterneaza, iar nodurile rezultat sunt exact nodurile terminale, adica
„frunzele”. Cât despre muchiile-sageti, ele reprezinta consecintele în timp. Cele care ies
din nodurile hazardului corespund realizarii evenimentelor aleatoare (si sunt însotite de
probabilitatile respective), iar cele care ies din nodurile de decizie corespund deciziilor
ce pot fi luate.
Sa consideram, pentru ilustrarea conceptelor, doua exemple simple de arbori de
decizie.
1) Prima problema pe care o vom aborda – din punctul de vedere al pacientului –
este urmatoarea: trebuie sa tratam sau nu o gripa obisnuita cu antibiotice si, în caz
afirmativ, trebuie sa o tratam imediat ce se declanseaza sau dupa doua zile din
momentul declansarii? Arborele de decizie este prezentat în figura urmatoare.
Radacina arborelui este un nod de decizie, pacientul putând decide sa trateze imediat
gripa, sa astepte doua zile, sau sa neglijeze tratamentul. Fiecare decizie posibila a sa este
urmata de un nod al hazardului; în majoritate situatiile posibile sunt „vindecare” si
„complicatii”, iar în arbore sunt trecute si probabilitatile estimate ale acestor situatii.
Decizia de „asteptare 2 zile” este urmata de alternativa „vindecare/nu”, iar a doua
posibilitate este urmata de un alt nod de decizie, pacientul putând decide sa trateze sau sa
neglijeze gripa.
34
Arborele de decizie pentru situatia tratarii gripei
Arborele are un numar de 9 „frunze”, fiecareia corespunzându-i câte o utilitate. Sa
observam ca pacientul nostru apreciaza „vindecarea spontana prin neglijarea
tratamentului” ca având utilitatea maxima, iar utilitatea minimala (negativa!)
corespunde situatiei „complicatii dupa tratarea imediata”.
Fiecarui eveniment aleator i se ataseaza probabilitatea sa; mai precis, este vorba
despre probabilitatea evenimentului, conditionata de situatia concreta în care se afla
pacientul. Probabilitatile se estimeaza conform metodelor standard de estimare; de
exemplu, „se stie” ca procentul de vindecari spontane dupa doua zile de la declansarea
gripei este de circa 30%, iar dupa un tratament se ridica la 95%.
2) Al doilea exemplu este urmatorul. Sa presupunem ca un medic este pus în fata
urmatoarei situatii: un barbat de 68 de ani, diabetic, a fost ranit la piciorul stâng, iar rana
s-a infectat si exista pericolul cangrenarii.
Sunt posibile doua solutii terapeutice:
a) amputarea imediata (sub genunchi), sau
b) tratarea pacientului cu medicamente anti-inflamatorii.
Prima solutie poate cauza decesul pe masa de operatie. Cea de-a doua solutie poate
vindeca infectia, dar la fel de bine, daca medicamentele nu se dovedesc eficace, poate
conduce la o amputare mai severa (deasupra genunchiului) sau chiar la deces.
Si aceasta situatie tipica de decizie poate fi reprezentata printr-un arbore de decizie:
35
Evident, decizia luata de medic depinde de câtiva parametri:
1) probabilitatea decesului în timpul operatiei
2) probabilitatea extinderii infectiei
3) utilitatea fiecarui rezultat final posibil.
Primii doi parametri sunt evident „de tip probabilist”. Aceste probabilitati trebuie
estimate. În estimare este implicata o evaluare de credibilitate, bazata pe cunostintele pe
care le-a dobândit si pe experienta personala, mai degraba decât pe un calcul „clasic” de
frecvente.
Medicul va putea lua acele decizii care conduc la utilitatea maxima. Sa consideram
probabilitatile si utilitatile trecute în figura:
Pentru fiecare nod intern, de la care pleaca doua ramuri de probabilitati p1 respectiv p2
spre noduri având utilitatile U1 resp. U2, utilitatea U se va calcula ca medie ponderata:
U = p1 U1 + p2 U2
Calculele arata ca a doua alternativa are o utilitate mai mare.
Deseori însa nu este recomandata folosirea utilitatii medii, ci strategii de maximizare a
utilitatii combinate cu minimizarea riscurilor.
36
2.2. Distributii ?2
În cursul precedent de biostatistica am afirmat ca, prin folosirea „formulei de
standardizare”
σµ−
=X
Z
o variabila aleatoare normala ),(N 2σµ∈X este înlocuita printr-o „normala standard” Z
(adica )1 ,0(N∈Z ). Valorile lui Z sunt exact aceleasi cu cele ale lui X (adica numerele
reale); totusi, valorile lui Z sunt „strâns grupate” simetric în jurul originii. (Sa ne aducem
aminte ca 99.5% dintre valori – adica „aproape toate” – sunt situate între –3 si +3.)
Ce se poate spune despre patratul 2Z ? Evident, valorile acestei variabile aleatoare nu
pot fi negative; categoric ele nu mai sunt distribuite simetric în jurul originii. Cu toate
acestea, 99.5% dintre valori sunt situate între 0 si 239 = ?!)
Densitatea de probabilitate a patratului 2Z poate fi reprezentata grafic prin utilizarea
functiei CHIDIST implementata în Excel. În figura de mai jos este clar ca nu exista vreo
„axa de simetrie”, dar nu este clar care ar fi media (nici care este mediana) distributiei.
Graficul densitatii de probabilitate a lui 2Z
La ce este util patratul 2Z ? Evident, în cazul în care Z exprima o eroare aleatoare
(pozitiva sau negativa), atunci 2Z va exprima patratul erorii. În unele situatii, dupa o
serie de masuratori eroarea „cumulata” este exprimata ca suma de patrate, care nu se
reduce neaparat la un singur termen.
Aceasta impune urmatoarea generalizare. Sa consideram mai multe variabile aleatoare
νZZZ ..., , , 21 (toate distribuite normal standard) mutual independente. Distributia
sumei de patrate 222
21 ... ν+++ ZZZ considerata ca variabila aleatoare, este cunoscuta
37
ca distributia hi-patrat cu ν grade de libertate (notatie )(2 νχ ). În acest fel apare o noua
familie )}(2 ν{χ de distributii ale unor variabile aleatoare, familie care „depinde” de un
singur parametru, ν , numarul gradelor de libertate, care este un numar natural (1, 2, 3
etc.).
Densitatea de probabilitate a lui )10(2χ
Functia CHIDIST în Excel ne permite sa reprezentam grafic functiile densitate de
probabilitate ale acestor variabile aleatoare – a se vedea figura de mai sus pentru un
exemplu.
Aceste functii sunt unimodale, unicul vârf aflându-se deasupra abscisei 2−ν . Este
usor sa întelegem topica
CHIDIST(abscisa x, numarul gradelor de libertate).
Totusi, implementarea lui CHIDIST în Excel ofera rezultate într-un mod diferit decât
NORMSDIST. Din motive istorice, de fapt CHIDIST(x, ν ) este exact probabilitatea ca
variabila aleatoare )(2 νχ sa ia valori mai mari decât x (si nu mai mici decât x ca în cazul
lui NORMSDIST).
Formulele matematice adecvate ne permit sa calculam media si varianta acestor
variabile aleatoare. Rezultatele sunt usor de retinut, ambele fiind legate direct de numarul
de grade de libertate, anume:
38
ν=νχ ))(( 2E , ν=νχ 2))(( 2Var .
Folosirea intensiva a familiei variabilelor aleatoare (distributiilor) hi-patrat )}(2 ν{χ
este datorata unor rezultate importante din teoria esantionarii. Unul dintre aceste rezultate
este exprimat în felul urmator. Sa presupunem ca indivizii studiati sunt grupati, luându-se
în considerare doua criterii, în mai multe „modalitati”; numerele respective de indivizi
sunt inserate într-un tabel de contingenta
Coloana c Totaluri pe linii
… … … …
Linia r … rcn … •rn
… … … …
Totaluri pe coloane … cn• … ••n
(în care notatiile cu indici „punct” sunt traditionale).
Statistica
2
,
2
⋅−⋅
∑=••
••
••
••n
nnn
nnn
X crrc
crcr
exprima o anumita distanta dintre datele ( )rcn ale tabelului de contingenta si niste valori
calculate pe baza totalurilor pe linii si pe coloane.
Aceasta statistica este distribuita aproximativ )(2 νχ , unde numarul de grade de
libertate este exact )1()1( −⋅− CR , R fiind numarul de linii, iar C numarul de coloane ale
tabelului de contingenta.
În teoria esantionarii întâlnim un alt rezultat interesant. Sa presupunem ca avem un
esantion de volum n dintr-o populatie distribuita normal ),(N 2σµ – cu parametrii µ si
2σ necunoscuti – iar abaterea standard a datelor obtinute din esantion este s. Atunci câtul
2
2)1(
σ
− sn este o variabila aleatoare de tipul )1(2 −χ n , asadar cu 1−n grade de libertate.
(Evident, acest rezultat nu poate fi folosit direct, deoarece în general deviatia standard
teoretica σ nu este cunoscuta! Vom reveni.)
39
2.3. Distributii Student
Distributiile t au aparut acum un secol într-un articol al lui William Gosset, publicat în
1908 sub pseudonimul „Student”; din acest motiv ele sunt cunoscute si sub numele de
distributii Student. Familia )}(t{ ν a acestor distributii este „parametrizata” de acelasi
numar ν ca si familia )}({ 2 νχ . Motivul este evident daca-i luam în considerare definitia:
ννχ=ν
)()(t
2
Z .
Sa ne amintim ca Z reprezinta distributia normala standard, deci este de tipul N(0, 1),
iar ννχ )(2
este media aritmetica a patratelor a ν còpii ale distributiei normale standard.
Pentru a efectua calcule cu aceasta familie )}(t{ ν de distributii, în Excel avem la
dispozitie functia TDIST a carei utilizare este simpla:
TDIST(abscisa x, numarul gradelor de libertate, parametrul de lateralitate).
Parametrul de lateralitate are valoarea 1 (ceea ce înseamna „unilateral”), ori 2 (adica
„bilateral”).
În figura de mai jos este prezentata densitatea de probabilitate a distributiei t(10).
Curba este simetrica în raport cu originea, iar graficul ei pare similar cu o Gaussiana
(totusi, nu este!).
Densitatea de probabilitate a lui t(10)
(De fapt, pentru 30≥ν graficele lui )(t ν si N(0, 1) practic coincid.)
Folosirea familiei de distributii )}(t{ ν este justificata de rezultate importante din teoria
esantionarii. Iata doua dintre acestea:
40
1) Sa presupunem ca populatia este distribuita normal, cu media µ si varianta 2σ , si
sa consideram un esantion „mic” nxxx ,...,, 21 de volum n. Notam cu
nxxx
m n+++=
...21 media de esantion si cu s abaterea standard de esantion. Atunci
raportul
ns
m µ− are o distributie de tipul )1(t −n cu 1−n grade de libertate.
(Sa reamintim aici ca 2
2)1(
σ
− sn are o distributie hi-patrat cu 1−n grade de libertate.)
2) Sa presupunem ca avem la dispozitie doua esantioane din aceeasi populatie
(distribuita normal). Din primul esantion, de volum 1n , am calculat media de esantion 1m
si abaterea standard 1s . Analog, din al doilea esantion, de volum 2n , am calculat media
de esantion 2m si abaterea standard 2s . Daca cel putin unul dintre numerele 1n , 2n este
„mic”, atunci raportul
21
21
11nn
s
mm
+
− este distribuit Student cu 221 −− nn grade de
libertate. În acest raport patratul 2s al lui s este o medie ponderata a patratelor 21s si 2
2s
ale abaterilor standard respective, mai precis
2)1()1(
21
222
2112
−+−+−
=nn
snsns .
41
2.4. Distributii Fisher-Snedecor
Folosirea familiei de distributii asociate variabilelor aleatoare )},(F{ 21 νν , care sunt
cunoscute sub numele distributiile Fisher-Snedecor, este datorata si ea unor rezultate
din teoria esantionarii. Motivatia apare atunci când consideram probleme „practice” de
urmatorul fel: daca dispunem de datele din doua esantioane, care sunt extrase din
populatii distincte (presupuse a fi distribuite normal), oare împrastierea indivizilor din
cele doua populatii este aceeasi? (Cu alte cuvinte, deviatiile standard teoretice – sau
variantele – ale celor doua populatii sunt aceleasi?)
Evident, daca aceasta ar fi adevarat, atunci raportul variantelor (sau a deviatiilor
standard teoretice) ar fi egal cu 1. Stim ca deviatiile standard teoretice sunt estimate prin
abaterile standard de esantion. Atunci când raportul abaterilor standard de esantion este
„departe” de 1 (adica este fie „mare”, fie „apropiat de 0”), nu vom avea motive sa
acceptam ideea ca variantele coincid.
Definitia distributiilor Fisher-Snedecor (teoretice) este justificata daca tinem seama de
faptul ca deviatiile standard teoretice sunt estimate prin abaterile standard de esantion.
Prin definitie, ),(F 21 νν este raportul
22
21
12
)(
)(
ννχ
ννχ
a doua medii aritmetice.
În figura de mai jos sunt prezentate doua exemple de densitate de probabilitate pentru
distributii Fisher-Snedecor. Similaritatea cu formele densitatilor de probabilitate ale
distributiilor hi-patrat este aparenta. (Deosebirile sunt clare, daca observam pozitia
„vârfurilor”.)
Densitatile de probabilitate pentru F(10, 16) si F(8, 6)
42
În Excel functia care ne permite sa efectuam calcule cu distributiile Fisher-Snedecor
este FDIST.
În cazul a doua esantioane de volume 1n respectiv 2n , extrase din populatii distribuite
normal având aceeasi varianta – în particular extrase din aceeasi populatie – câtul
patratelor abaterilor standard de esantion 22
21
s
s are o distributie de tipul )1,1(F 21 −− nn ,
numerele de grade de libertate fiind 11 −n si 12 −n .
Utilizarea „practica” a tuturor distributiilor N, 2χ , t, F amintite anterior (si a multor
altora) în testarea statistica de semnificatie presupune alegerea unei valori care sa
delimiteze asa-numita „regiune de respingere”. Aceasta regiune va contine valorile care
sunt considerate „semnificativ” diferite de 0 (în cazurile N, 2χ , t) respectiv de 1 (în cazul
F). Ce înseamna „semnificativ” este o optiune personala, legata de riscul pe care suntem
pregatiti sa-l acceptam. Vom reveni asupra acestor chestiuni în cursul viitor.
43
2.5. Testarea bonitatii (goodness-of-fit)
Datele de recensamânt din multe tari arata ca proportia de nou-nascuti baieti este usor
mai mica decât 0.5, de obicei 0.49. Este unanim acceptat ca sexul unui nou nascut poate fi
considerat distribuit Bernoulli cu parametrul 0.49 si, ca variabila aleatoare, independenta
de oricare alta care reprezinta sexul altui nou nascut.
Oare aceasta opinie generala este sustinuta de datele statistice? Daca ipoteza de
independenta are fi adevarata, atunci numarul de baieti în familiile cu 4 copii ar avea o
distributie binomiala b(4; 0.49), descrisa (aproximativ) dupa cum urmeaza:
Numarul de baieti 0 1 2 3 4
Probabilitatea 0.068 0.260 0.374 0.240 0.058
Daca am colecta date de la, sa zicem, 1000 de familii cu patru copii, atunci ne-am
astepta la urmatoarele frecvente:
Numarul de baieti 0 1 2 3 4
Frecventa familiilor 68 260 374 240 58
Ce concluzie am trage daca am constata ca au fost înregistrate alte frecvente? Evident
ca abateri mari de la acestea ne-ar forta sa ne revizuim opiniile.
Situatia anterioara este un exemplu tipic de experiment multinomial. În general, un
asemenea experiment este caracterizat de:
a) Un numar de N observatii independente, fiecare putând fi clasata într-una dintre cele
K categorii notate KCCC ,...,, 21 . Frecventele asociate acestor categorii sunt notate cu
KOOO ,...,, 21 . Evident, NOOO K =+++ ...21 (adica volumul selectiei);
b) K probabilitati. Probabilitatea kp ca o observatie (arbitrara) sa fie clasata în
categoria k este cunoscuta si nu se modifica de la o observatie la alta ( Kk ,...,2,1= ).
Evident, 1...21 =+++ Kppp . Frecventele „asteptate” KEEE ,...,, 21 se calculeaza
folosind formula kk pNE ⋅= ( Kk ,...,2,1= ). Evident, NEEE K =+++ ...21 .
Oare datele observate confirma asteptarile? Evident, discrepante mari între datele
observate }{ kO si datele asteptate }{ kE vor contrazice ipoteza de independenta. Dar
problema majora este urmatoarea: cum ar putea fi evaluate discrepantele?
44
Solutia propusa de Karl Pearson (1857-1936, fondatorul revistei Biometrika) foloseste
numarul
( )22 1kk
kkEO
EX −∑=
ca o distanta. Din punct de vedere statistic, 2X este o statistica – adica o formula în care
apar datele obtinute dintrun esantion – a carei distributie este aproximativ cea a lui
( )12 −χ K si, prin urmare, se poate aplica un test de bonitate. Pragul dintre „discrepantele
mici” si „discrepantele mari” poate fi interpretat în termenii distributiei ( )12 −χ K .
În figura de mai jos acest prag a fost fixat tinându-se seama de un coeficient de
încredere de 95% (ceea ce corespunde aici la un nivel de semnificatie de 0.95).
În practica, daca folosim Microsoft Excel, putem utiliza functia CHITEST si sa-i
interpretam valoarea returnata (adica „valoarea p”) într-un mod special. Anume, valori
(foarte) apropiate de 1 vor fi interpretate astfel: „datele observate confirma ipoteza”.
De exemplu, sa presupunem ca datele colectate de la cele 1000 de familii cu patru
copii sunt urmatoarele:
Numarul de baieti k 0 1 2 3 4 Total
Numarul de familii cu 4 copii ce au k baieti (frecventa observata kO )
66 268 377 233 56 1000
Frecventa observata kE 68 260 374 240 58
Diferenta )( kEkO − –2 8 3 –7 –2
45
Valoarea p obtinuta (vezi figura urmatoare) este 0.963, ceea ce înseamna ca datele
obtinute din esantionul ales „suporta” opinia ca sexul celui de-al doilea nou nascut întro
familie este statistic independent de sexul primului nascut în acea familie.
Prima aplicatie a testului de bonitate hi-patrat dateaza din 1901, atunci când a fost
confirmata o teorie foarte importanta în genetica (aceasta deoarece doar în anul 1900 a
devenit cunoscut articolul publicat de Gregor Mendel în 1865!). Mendel a observat ca
anumite caracteristici ale plantelor de mazare pot disparea la urmasii directi, dar reaparea
la urmasii din a doua generatie.
O explicatie plauzibila este bazata pe ideea ca o caracteristica „genetica” a populatiei
este determinata în fiecare individ printro pereche de gameti, care sunt mosteniti câte unul
de la cei doi parinti. Acum, daca fiecare dintre cele doi gameti ar putea lua doar doua
valori (numite alele) A si a, atunci un individ dat este fie homozigot (ceea ce înseamna ca
pentru el cei doi gameti ai genei sunt identici, AA sau aa), fie heterozigot (cei doi gameti
sunt diferiti). Atunci când doi indivizi homozigoti de alele diferite se încruciseaza, toti
urmasii directi sunt heterozigoti identici (aceasta este „legea uniformitatii”).
Sa admitem ca acea caracteristica genetica este statura, cu doar doua valori posibile:
înalt si scund. Ipoteza este ca indivizii cu gameti AA sau Aa (= aA) sunt înalti, iar cei cu
gameti aa sunt scunzi (ceea ce înseamna ca alela A este „dominanta”).
Întro populatie în care alelele sunt distribuite echitabil, proportia de indivizi
homozigoti este 5.042 = , iar proportia de indivizi înalti este 75.0
43 = .
Daca proportia alelei dominante este π , atunci proportia de indivizi homozigoti este
22 )1( π−+π , iar proportia de indivizi înalti este )1(22 π−π+π . Mai mult, proportiile
celor trei genotipuri AA, Aa (= aA) si aa sunt, respectiv:
2π , )1(2 π−π , 2)1( π− .
46
Principiul Hardy – Weinberg afirma ca proportiile diverselor genotipuri ramân aceleasi
prin trecerea de la o generatie la urmatoarea (adica populatia este în echilibru).
Pentru a testa daca o populatie studiata este în echilibru, sa presupunem ca pentru 1000
indivizi, alesi întâmplator, au fost observate urmatoarele:
Genotipul AA Aa (= aA) aa Total
Frecventa observata 799 188 13 1000
Incidenta alelei A (care este o estimatie a lui π ) este evident
8925.010002
18518002 ==⋅
⋅+⋅p .
Prin urmare, se calculeaza urmatoarele „frecvente” asteptate:
Genotipul AA Aa (= aA) aa
Frecventa asteptata 796.56 21000 p⋅=
191.89 )1(21000 pp −⋅=
11.56 2)1(1000 p−⋅=
Testul hi-patrat produce o valoare p de 0.5251. Aceasta valoare nu „suporta” ipoteza ca
populatia este în echilibru. (Ceea ce ar trebui sa declanseze o investigatie suplimentara,
caci se presupune ca populatiile sunt în echilibru din punctul de vedere al majoritatii
caracteristicilor genetice.)
Mendel a obtinut 556 plante pe care le-a clasificat în patru grupuri, dupa doua
caracteristici:
• Forma (cu valorile rotund/colturos),
• Culoarea (cu valorile galben/verde).
Grupul rotund si galben
rotund si verde
colturos si galben
colturos si verde
Total
Frecventa observata 315 108 101 32 556
De aici a dedus ca rotund si galben sunt valorile determinate de alelele dominante A
respectiv B. Mendel a emis ipoteza ca aceste alele (si cele recesive corespunzatoare a
respectiv b) sunt distribuite echitabil în cadrul populatiei plantelor. Asadar ar trebui sa ne
asteptam la urmatoarele:
47
Grupul rotund si galben
rotund si verde
colturos si galben
colturos si verde
Proportia asteptata 169
163
163
161
Frecventa asteptata 312.75 104.25 104.25 34.75
Testul hi-patrat da o valoare p de 0.9254, care este suficient de mare pentru a confirma
ipoteza lui Mendel.
Un test de bonitate hi-patrat ar putea fi folosit pentru a confirma o distributie presupusa
a unei populatii, bazându-ne pe datele obtinute dintrun esantion ales aleator. De exemplu,
de la Adolphe Quételet (1796-1874, statistician belgian; indicele de masa corporala BMI
este cunoscut si ca indicele Quételet) se accepta ca cele mai multe dintre caracteristicile
numerice (cum ar fi înaltimea sau greutatea) ale populatiilor biologice mari sunt
aproximativ distribuite normal. Un test hi-patrat ar putea fi folosit pentru a confirma
normalitatea.
De obicei datele numerice Nxxx ,...,, 21 )( R∈ obtinute dintrun esantion de volum N
sunt grupate în K grupuri (sau „cutii”) determinate de 1−K valori de separare
121 ... −<<< Ksss iar frecventele observate kO se calculeaza cu usurinta.
(Mai precis, valoarea ix este plasata în „cutia” k daca
kik sxs ≤<− 1 , unde −∞=0s si +∞=Ks .)
Sa presupunem ca populatia este distribuita normal, cu media µ si varianta 2σ . Este
bine cunoscut faptul ca µ este estimat prin media de esantion N
xxx Nm +++= ...21 iar σ
este estimat prin abaterea (deviatia) standard 1
)(...)()( 222
21
−−++−+−=
Nmxmxmx Ns .
Odata ce m si s au fost calculate, este usor sa obtinem o estimare a probabilitatii ca o
valoare x sa apartina intervalului ],( 1 kk ss − :
xs
ps
mxk
k
k
s
s
d exp2
12
2
2
)(
1
−−∫
−π
=
iar de aici obtinem frecventa estimata NpE kk ⋅= a „cutiei” k.
48
În Microsoft Excel avem la dispozitie functia FREQUENCY pentru a obtine
frecventele observate kO , apoi functiile AVERAGE si STDEV pentru a obtine estimarile
m respectiv s. Cât despre probabilitatile estimate kp , avem la dispozitie NORMDIST. În
sfârsit, CHITEST va returna valoarea p.
În figura urmatoare este prezentata o foaie de calcul Excel. Au fost generate aleatoriu,
folosind generatorul RAND, 100 valori numerice. Care au fost grupate în 8 „cutii”.
Valoarea p este 0.07271, care nu ne confirma normalitatea datelor! Aceasta nu este
surprinzator, daca tinem seama ca functia RAND a fost programata sa genereze valori
distribuite uniform (si nu normal)!
Alte softuri produc diagrame care permit comparatii vizuale între histograma datelor
din esantion si un grafic al (densitatii) distributiei normale estimate. Decizia – adica
acceptarea sau respingerea ipotezei ca populatia este distribuita normal – este lasata
utilizatorului.
De exemplu, Statistica produce, din datele generate anterior, diagrama din figura
urmatoare.
(Sa ne dam seama de eroarea serioasa pe care am facut-o, intentionat, în exemplul de
mai sus. Pentru a o întelege si a nu o mai repeta, sa ne amintim ca fiecare test hi-patrat
este bazat pe o statistica 2X , care are doar aproximativ o distributie hi-patrat. Iar
aproximarea este buna doar daca frecventa asteptata pentru fiecare „cutie” este de cel
putin 5!)
49
Sa sumarizam testul de bonitate hi-patrat. El poate fi aplicat pentru orice distributie
uni-variata – fie ea discreta sau continua – pentru care functia de distributie Θ poate fi
calculata. Se presupune ca „ipoteza nula” este:
(H0): datele urmeaza distributia specificata
iar alternativa este
(Ha): datele nu urmeaza distributia specificata.
Numerele reale sunt separate în K cutii, fiecare cutie fiind un interval ],( 1 kk ss − care
contine cel putin o observatie. Statistica utilizata este
( )22 1kk
kEO
EX
k
−= ∑
în care kO este frecventa observata pentru cutia k iar kE este frecventa asteptata pentru
acea cutie, calculata prin folosirea formulei
))()(( 1−Θ−Θ⋅= kkk ssNE .
Statistica 2X este distribuita aproximativ )(2 CK −χ , unde C este 1 + numarul de
parametri care au fost estimati pentru distributia respectiva.
Pentru a se obtine o aproximatie buna se impune ca frecventa asteptata sa fie de cel
putin 5 pentru fiecare cutie. (Orice cutie cu frecventa asteptata mai mica decât 5 ar trebui
comasata cu o vecina a sa.)
În multe situatii practice, daca dorim sa folosim o anumita metoda, trebuie sa fie
satisfacute unele conditii (a priori). De exemplu, o conditie des întâlnita este ca
esantionul sa fie extras dintro populatie distribuita normal.
50
Testele de bonitate sunt instrumente adecvate confirmarii faptului ca datele disponibile
au o distributie specificata. Ceea ce vrem sa confirmam este ipoteza nula:
(H0): datele urmeaza o distributie specificata complet de functia de distributie
]1 ,0[: →RF
si sa respingem ipoteza
(Ha): datele nu urmeaza distributia specificata, ci alta.
Sa presupunem ca datele obtinute din esantion
Nxxx ,...,, 21
au fort ordonate crescator:
)()2()1( ... Nxxx ≤≤≤ .
În cazul unei functii de distributie F continue, pentru a aplica testul Kolmogorov-
Smirnov se calculeaza statistica urmatoare
− −−=
≤<)()( )( ,
1)(max
1 nNn
Nn
n xFxFDNn
.
În cazul unei functii de distributie F normale si al unui volum al esantionului între 10 si
40, pentru a aplica testul Anderson-Darling se calculeaza statistica urmatoare:
{ }))(1()(ln12
)1()(1
nNn
N
nxFxF
Nn
NA −+=
−⋅−
−− ∑= .
Acceptarea unei teorii, în urma unui test de bonitate, bazându-ne pe datele ce au fost
colectate dintrun esantion, este întotdeauna o decizie personala. (Evident, careia i se
ataseaza un anumit risc!)
Pentru a sustine o decizie subiectiva – atunci când fie detaliile, fie timpul nu sunt
suficiente, se poate folosi asa-numitul quantile-quantile plot (sau q-q-plot). Acesta este o
diagrama în care datele colectate, ordonate crescator
)()2()1( ... Nxxx ≤≤≤
sunt comparate cu datele
Nyyy ≤≤≤ ...21
51
care corespund distributiei teoretice specificate în (H0). Mai precis,
1)(
+=
Nn
nyF for } ..., ,2 ,1{ Nn∈ .
Un punct în q-q-plot – vezi figura urmatoare pentru un exemplu (obtinut cu SPSS) –
reprezinta o pereche ) ,( )( nn yx . Daca datele }{ nx ar fi fost „extrase” din distributia
specificata, atunci toate punctele s-ar fi situat exact pe diagonala. Prin urmare, ipoteza
nula va fi acceptata doar daca toate punctele sunt „apropiate” de diagonala.
52
Cursul 3. Esantionarea
Esantionarea este principala metoda a statisticii, folosita evident pentru obtinerea, de la
populatii „mari”, a unor valori dorite, necesare în procesele de luare a deciziilor, cum sunt
de exemplu evaluari ale proportiei îmbolnavirii, ale mediei unei populatii, ale dispersiei.
Cursul are ca scop prezentarea
a) principalelor tehnici de esantionare, generale si specifice, folosite pentru a se
obtine o certitudine cât mai mare a concluziilor,
b) modului în care se stabileste volumul unui esantion, în functie de gradul de
certitudine pe care l-am dori,
c) metodelor de comparare a doua populatii, la nivelul proportiilor, mediilor sau
variantelor.
Continutul acestui curs este urmatorul:
3.1. Tehnici de esantionare ...................................................................................... 53
3.2. Distributiile esantioanelor ................................................................................ 55
3.3. Stabilirea volumului esantionului ..................................................................... 62
3.4. Compararea a doua populatii ............................................................................ 64
3.5. Compararea variantelor .................................................................................... 66
53
3.1. Tehnici de esantionare
Vom aborda în continuare problematica rezultatelor ce se obtin în urma esantionarii,
mai precis a calcularii probabilitatilor asociate statisticilor (ca formule!). Importanta
acestora va fi evidenta în lectia urmatoare (despre inferenta statistica).
Motivul principal pentru care folosim esantionarea atunci când examinam indivizii
unei populatii este costul (în timp si/sau în bani), iar motive secundare ar putea constitui
faptul ca examinarea poate fi destructiva, precum si dificultatea însasi a examinarii. În
acest caz, încercam sa extindem catre întreaga populatie rezultatele obtinute din esantion.
Exemplul cel mai familiar de esantionare ne este oferit de sondajele de opinie (cu scop
de informare politica sau sociala) în care doar o proportie foarte mica a populatiei (între
1000-1500 de indivizi din totalul de 10-15 milioane) este intervievata. În unele tari se
practica sondaje si în domeniul medical, intervievându-se fie pacientii, fie medicii.
Problema alegerii volumului esantionului, apoi problema alegerii fiecarui individ din
esantion, necesita ambele o discutie ampla. Caci tehnicile sociologice nu sunt adecvate
întotdeauna în medicina!
Esantionarea aleatoare simpla este poate cea mai elementara tehnica de obtinere a unui
esantion. Ea presupune ca fiecare individ al populatiei are aceleasi sanse, ca si oricare
altul, de a fi ales în esantion.
Aplicabilitatea ei este posibila atunci când tuturor indivizilor populatiei le sunt
asociate, în mod univoc, numere. Din punct de vedere computational singura dificultate
consta în construirea unui generator de numere (pseudo)aleatoare. Odata ce dispunem de
un asemenea instrument, prin folosirea sa repetata se va „decide” care indivizi ai
populatiei vor fi inclusi în esantion.
Dispunem astazi de mai multe metode de generare de numere (pseudo)aleatoare. De
mentionat ca una dintre acestea este implementata în Excel în functia RAND; ea se
bazeaza pe faptul ca o anumita secventa de operatiuni aritmetice, efectuate modulo un
numar prim foarte mare, repetata, produce o secventa de numere care – pentru un neavizat
– pare întâmplatoare.
Punctul de pornire poate fi decis de momentul apelarii acestei functii: datorita modului
în care functioneaza ceasul intern al calculatorului, acest punct de pornire este practic
incontrolabil (în absenta controlului asupra ceasului).
54
Deseori populatia pe care o studiem este stratificata natural, straturile având
dimensiuni diferite. Esantionul pe care-l alegem este numit reprezentativ în caz ca
distributia indivizilor esantionului pe straturi reflecta fidel distributia pe straturi în cadrul
populatiei.
Astfel, un esantion în care au fost selectati 120 de barbati si doar 60 de femei nu poate
fi considerat reprezentativ pentru populatia adulta a tarii. El poate fi considerat însa
reprezentativ în cazul în care indivizii selectati sunt suferinzi de o maladie despre care se
stie ca are incidenta dubla la barbati fata de femei.
Evident, în cadrul fiecarui strat se poate aplica o tehnica de selectie aleatoare „simpla”.
În cercetarea medicala se obisnuieste sa se stratifice populatia pe de o parte dupa sex,
în doua straturi, iar pe de alta parte dupa categoria de vârsta, în sase straturi:
sub 21 ani, 21-30 ani, 31-40 ani, 41-50 ani, 51-60 ani, peste 60 ani.
Evident, este posibila si stratificarea în 12 straturi, simultan dupa sex si categoria de
vârsta.
(În alte domenii de cercetare populatia se stratifica si geografic, sau conform unor
criterii profesionale sau socio-economice.)
Exista diverse alte tehnici de esantionare, utilizarea carora depinde de scopul urmarit.
Astfel, în caz ca suntem interesati în evaluarea unor modificari ce apar în timp, se poate
utiliza tehnica esantionarii în panel, ce consta în investigarea repetata în timp a aceluiasi
esantion.
De regula, în medicina se efectueaza doua tipuri esentiale de studii, în care se poate
practica esantionarea:
a) studii transversale (cross-sectional studies), prin care se încearca obtinerea unei
„imagini de moment” a populatiei studiate. Pot fi folosite pentru studierea asocierii
între diversele maladii;
b) studii prospective (prospective studies). Acestea mai poarta numele de studii de
cohorta, sau studii longitudinale. Sunt folosite pentru determinarea factorilor care
sunt legati de morbiditate.
55
3.2. Distributiile esantioanelor
Evident, o distributie de esantionare este rezultatul (pur teoretic al) diferitelor
esantionari posibile. Punctul de plecare este o populatie a carei distributie de probabilitate
este cunoscuta. Presupunem ca extragem un mare numar de esantioane, fiecare de volum
n (acelasi pentru toate). Pentru fiecare esantion extras presupunem ca vom calcula
valoarea unei statistici. (Reamintim ca prin „statistica” întelegem o formula de calcul cu
datele ce provin de la un esantion.) Ne va interesa distributia valorilor calculate.
Primul caz pe care-l abordam este cel al unei populatii de numere distribuite normal, cu
media µ si varianta 2σ (ambele presupuse cunoscute). Valorile posibile x pot fi
considerate ca fiind valorile unei variabile aleatoare normale ),(N 2σµ . Pentru fiecare
esantion de volum n, din care obtinem valorile nxxx ,...,, 21 , sa calculam media de
esantion
nxxx
m n+++=
...21 .
Esantioanele extrase vor „produce” astfel o populatie a acestor medii de esantion,
având o anumita distributie.
Sa notam cu M variabila aleatoare asociata distributiei mediilor de esantion. Pot fi
demonstrate o serie de rezultate interesante, dintre care mentionam:
1) media variabilei M (cu alte cuvinte, media distributiei esantioanelor de volum n)
coincide cu media µ a populatiei din care extragem esantioanele:
µ=)(ME ;
2) varianta variabilei M este legata de varianta 2σ a populatiei din care extragem
esantioanele prin relatia:
nMVar 2)( σ= .
Deviatia standard a variabilei M, cunoscuta si sub numele de eroarea standard a
mediei, este definita prin:
nM
σ=σ .
56
Rezultatul fundamental teoretic, aplicabil în aceasta situatie, este cunoscut sub numele
de teorema limita centrala:
Daca se extrag esantioane de volum n dintr-o populatie, atunci pentru valori „mari” ale
lui n mediile de esantion sunt distribuite (aproximativ) normal.
În caz ca X are o distributie normala ),(N 2σµ , atunci M are o distributie normala
),(N2
nσµ . Iar daca variabila aleatoare X este distribuita aproximativ normal, atunci M
va fi distribuita normal chiar si pentru valori „mici” ale lui n.
Asadar, ca o consecinta a teoremei limita centrala, putem accepta ca M este
(aproximativ) normala.
Ceea ce stim despre distributiile normale ne îndreptateste sa afirmam ca 99.7% dintre
mediile de esantion m se vor afla între limitele n
σ−µ 3 si
nσ
+µ 3 . Sa atragem atentia
asupra faptului ca teorema limita centrala este obtinuta în ipoteza ca sunt cunoscuti
parametrii µ si 2σ ai populatiei originare. Aceasta ipoteza nu corespunde realitatii.
Totusi, nimic nu ne împiedica, cu riscul de rigoare, sa estimam parametrul µ si/sau
parametrul σ pe baza datelor pe care le obtinem dintr-un esantion particular, anume prin
media de esantion m si respectiv prin abaterea standard de esantion s.
57
Inversând rationamentul anterior, putem concluziona ca avem sanse 99.7% ca
„adevarata” medie µ a populatiei originare sa se afle între limitele ns
m 3− si n
sm 3+ .
Am folosit de câteva ori cuvântul „parametru”. De fapt, prin parametru al unei
populatii întelegem un numar ce descrie, într-un anumit sens, populatia. Acest termen este
contrapus celui de statistica, prin intermediul caruia descriem populatia printr-un numar
calculat pe baza datelor provenite dintr-un esantion. Raportul parametru-statistica este de
aceeasi natura cu raportul probabilitate-frecventa relativa în legatura cu un eveniment.
Putem afirma asadar ca „parametrul unei populatii este estimat printr-o statistica”, la
fel cum afirmam ca probabilitatea unui eveniment este estimata printr-o frecventa
relativa.
În cele de mai sus am estimat parametrul µ mai întâi prin m, apoi prin intervalul
+−ns
mns
m 3 ,3 . Estimarea unui parametru poate fi facuta fie printr-un numar
(ceea ce înseamna estimare „punctuala”), fie printr-un interval.
Este destul de larg raspândita astazi practica estimarii prin intervale de încredere.
Cazul cel mai simplu este cel al unei populatii (cu alte cuvinte, variabile aleatoare) X
care are media µ necunoscuta, iar varianta 2σ cunoscuta. Parametrul în acest caz este µ .
Luând un esantion de volum n, stim ca media de esantion m este distribuita aproximativ
normal, cu media µ si varianta n2σ . (Sa ne amintim ca daca populatia nu este
distribuita normal, atunci o aproximare buna impune un volum n mare.)
Sansele ca media µ sa fie încadrata de limitele n
mσ
− 96.1 si n
mσ
+ 96.1 sunt de
95%. Figura de mai jos ne ajuta sa facem legatura între coeficientul de încredere (aici
95%) si aria cuprinsa sub graficul densitatii de probabilitate, între limite. Suntem 95%
siguri ca parametrul µ se afla undeva între limite. De aceea, se spune despre intervalul
σ+
σ−
nm
nm 96.1 ,96.1 ca este intervalul de încredere 95% pentru parametrul µ .
58
De obicei „coeficientul de încredere” se alege 95%, de aceea am si insistat asupra
acestei valori. Daca am fi ales un coeficient de încredere de doar 90%, atunci intervalul
de încredere 90% s-ar fi micsorat la
σ+
σ−
nm
nm 65.1 ,65.1 . Dimpotriva, un
coeficient de încredere de 99.7% ne-ar fi condus la un interval de încredere (99.7%) mult
mai larg. Marirea coeficientului de încredere are ca rezultat o „diluare a preciziei”
identificarii parametrului!
Trebuie sa atragem atentia asupra unei greseli logice pe care o facem „din instinct”,
atunci când afirmam ca „suntem 95% siguri ca parametrul µ se afla undeva în intervalul
de încredere 95%”. Da fapt, ceea ce stim este ca pe baza a 95% dintre esantioanele
posibile vom reusi sa cream intervale ce vor contine parametrul µ , iar intervalele pe care
le vom crea pe baza celorlalte esantioane nu vor contine pe µ . Cu alte cuvinte, 95%
dintre esantioane vor produce estimari corecte, iar 5% vor produce estimari gresite (adica
5% este riscul de a gresi bazându-ne estimarea lui µ pe un esantion).
Exemplu. Sa consideram o populatie distribuita uniform ]1 ,0[U . Stim ca media ei este
21=µ , iar varianta este
1212 =σ . Daca extragem un esantion de volum 12=n , atunci
media de esantion m va fi „aproape” de 21 , iar abaterea standard de esantion va fi
121 .
Exploatând faptul ca distributia mediei de esantion m este aproximativ normala, cu media
21 si abaterea standard
121 , putem afirma urmatoarele:
Daca dispunem de un generator de numere (pseudo)aleatoare uniforme în ]1 ,0[ – asa
cum este RAND în Excel – prin folosirea sa de 12 ori succesiv obtinem numerele
1221 ,...,, uuu . Calculând
59
6... 1221 −+++= uuug
putem afirma ca g este un numar (pseudo)aleator normal standard.
Ipoteza simplificatoare pe care am acceptat-o anterior – anume ca varianta 2σ a
populatiei este cunoscuta – este implauzibila. Mult mai plauzibila pare ipoteza ca atunci
când media µ nu este cunoscuta, nici varianta 2σ nu este cunoscuta.
Evident, ne putem gândi sa înlocuim pe σ cu abaterea standard s obtinuta exploatând
datele ce provin dintr-un esantion. Însa, daca facem aceasta înlocuire, apare o dificultate
suplimentara: distributia valorilor m provenite din esantioane nu mai este normala, prin
urmare exploatarea proprietatilor distributiei normale nu mai este posibila!
Se poate demonstra însa un alt rezultat, valabil pentru o populatie distribuita normal
),(N 2σµ . De data aceasta avem de-a face cu doi parametri, µ si 2σ , care descriu
(teoretic) populatia. Rezultatul este urmatorul:
daca extragem esantioane de volum n din populatie, atunci statistica
nsm
t/
µ−=
este distribuita Student cu 1−n grade de libertate.
Evident, în formula de mai sus,
nkn
k
xm ∑=
=1
si ∑=
−−
=n
kk mx
ns
1
2)(1
1,
iar nxxx ,...,, 21 sunt valorile obtinute din esantionul de volum n.
Exploatând acum ceea ce stim despre distributiile Student, sa alegem gradul de
încredere 90%. Exista un unic numar pozitiv 05.0t astfel încât aria de sub graficul
densitatii de probabilitate, între limitele 05.0t− si 05.0t , sa fie egala cu 0.90. Acest numar
05.0t îl putem gasi de exemplu cu Excel apelând
TINV(0.05, numarul de grade de libertate).
Sa ne aducem aminte ca pentru un numar de grade de libertate 30≥ν , distributia
Student )(t ν coincide practic cu distributia normala standard, valoarea 05.0t este practic
1.65, iar toate „complicatiile” anterioare devin superflue. Pentru 30≥n putem adopta
fara probleme intervalul de încredere 90% obtinut pe baza distributiei normale (si a
înlocuirii lui σ cu s). Totusi, în medicina întâlnim cel mai adesea esantioane „mici”, cu
60
numar de indivizi sub 30, ceea ce face utila cunoasterea modului de obtinere a
intervalelor de încredere pentru media µ pe baza distributiei Student.
În consideratiile anterioare, una dintre ipotezele fundamentale a fost normalitatea
distributiei populatiei. Deseori întâlnim populatii despre care nu are sens aceasta
presupunere. Cazul tipic este cel al unei populatii biologice ai carei indivizi fie sunt
imuni, fie nu sunt imuni fata de atacul unui virus. Problema de interes este determinarea
proportiei imunitatii π . De data aceasta, în locul variabilei aleatoare ),(N 2σµ avem de-a
face cu o variabila aleatoare Bernoulli )(πBe .
Acest numar π poate fi considerat acum parametrul care descrie „teoretic” populatia.
Evident, folosind datele ce sunt obtinute dintr-un esantion de volum n, parametrul π
poate fi estimat prin statistica „frecventa relativa de esantion”
nx
p =
în care x este numarul de „succese” constatat la indivizii esantionului.
Stim ca numarul de „succese” x este distribuit binomial ),(b πn – aceasta în ipoteza ca
alegerea unui individ în esantion este independenta de alegerea celorlalti – iar distributia
binomiala ),(b πn are media πn si varianta )1( π−πn . De aici rezulta ca si nx
p = este
distribuit binomial, cu media π si varianta n
)1( π−π. Pentru obtinerea unui interval de
încredere, vom folosi faptul ca distributiile binomiale sunt bine aproximate prin distributii
normale (de aceeasi medie si varianta) – bineînteles, în anumite conditii restrictive.
Sa reamintim aceste conditii:
9.01.0 <π< , 5≥πn , 5)1( ≥π−n
si sa le presupunem îndeplinite. Concluzionam ca p (frecventa relativa de esantion) este
distribuita aproximativ normal ))1(
,(Nn
π−ππ .
Alegând un grad de încredere de 95%, rezulta ca intervalul de încredere 95% pentru
parametrul π este urmatorul:
−+
−−
npp
pn
ppp
)1(96.1 ,
)1(96.1
unde p este frecventa relativa a „succeselor” calculata pe baza datelor din esantion.
61
Exemplu. Dorim sa estimam procentul pacientilor operati de apendicita în spitalul
judetean, care au necesitat o spitalizare mai lunga de 4 zile. Folosim datele unui esantion
de 150 de pacienti, dintre care 15 au necesitat spitalizare peste 4 zile.
Evident, procentajul dorit este estimat la %10%10015015
=×=p , iar 150=n .
Ce ne ofera în plus teoria estimarii prin intervale de încredere? Sa ne alegem un
interval de încredere 95%. Varianta estimatorului este
1509.0
1509.01.0
)( =⋅
=pVar
iar pentru intervalul de încredere 95% vom folosi coeficientul 1.96. Prin urmare,
1509.0
1509.0 96.11.096.11.0 +<π<− ,
adica %8.14%2.5 <π< , ceea ce înseamna ca putem fi aproape siguri ca sub 15% dintre
pacienti vor necesita spitalizare de durata peste 4 zile.
Observatie: conditiile de aproximare sunt satisfacute!
Exercitiu. A fost decelata prezenta unei bacterii infectioase la 8 pacienti dintr-un
esantion de 40 de pacienti (alesi aleator) dintr-un spital. În spital sunt în jur de 500 de
pacienti. Estimati, cu încredere 95% procentajul pacientilor spitalului afectati de bacterie.
Formula de evaluare a variantei frecventelor relative presupune ca populatia este
infinita (sau „foarte mare”). În cazul unei populatii „mici” având un numar de N indivizi,
formula trebuie modificata în urmatoarea
1)1(
)(−−
⋅−⋅
=N
nNn
pppVar
factorul de corectie 1−
−N
nN putând modifica sensibil evaluarile.
În literatura de specialitate se întâlneste notatia x pentru media de esantion (în loc de
m) atunci când X este notatia variabilei aleatoare continue, cu media µ si varianta 2σ . De
asemenea, eroarea standard a mediei de esantion x , adica n
σ, este notata cu )(xSE ,
initialele provenind de la „standard error”. Aceasta denumire este preferata atunci când
nu dorim sa facem confuzie între numarul n
σ ca abatere standard de esantion si numarul
σ care este abaterea standard a variabilei aleatoare X.
62
3.3. Stabilirea volumului esantionului
Sa observam ca atât în cazul mediei µ , cât si în cazul proportiei π , prin folosirea
datelor unui esantion am obtinut doua estimari:
a) o estimare punctuala m, respectiv p;
b) o estimare printr-un interval de încredere (bineînteles, alegând anterior coeficientul
de încredere).
Intervalul de încredere este centrat pe estimarea punctuala. Lungimea sa depinde de
coeficientul de încredere, de volumul esantionului si de varianta. Daca notam lungimea sa
cu 2L, atunci îl vom putea exprima astfel:
Lm <−µ , respectiv Lp <−π
(vezi figura urmatoare).
Estimarea valorii parametrului π , ca proportie a „succesului”, printr-un interval de
încredere 95% determinat prin folosirea datelor unui esantion prea mic ar putea conduce
la un interval mult prea mare pentru a putea fi folosit în luarea deciziilor.
Ar fi interesant sa punem problema în alt mod: sa determinam volumul unui esantion
care sa permita obtinerea unui interval de încredere „suficient de îngust”.
În aceasta abordare se presupune astfel ca a fost ales atât coeficientul de încredere c%
pentru estimarea unui interval de încredere (centrat pe estimarea „punctuala” p), cât si
limita L a erorii de estimare, aceasta din urma fiind valoarea absoluta a diferentei π−p
(între estimarea punctuala si valoarea parametrului).
În consecinta, intervalul de încredere c% va fi ] ,[ LpLp +− .
De exemplu, pentru coeficientul de încredere 90% va trebui sa rezolvam ecuatia:
Ln
pp=
−⋅
)1(65.1
63
în care p este proportia „succeselor” în esantionul ce va fi ales. De aici se obtine cu
usurinta volumul esantionului:
2
2 )1(65.1
L
ppn
−⋅⋅= .
Produsul )1( pp −⋅ are ca valoare maxima 0.25. Prin urmare, volumul esantionului
poate fi determinat (în situatia cea mai nefavorabila) din formula
2
2 25.065.1
Ln
⋅= .
Sa luam ca un caz particular %2=L . Rezulta 163902.0
25.065.12
2=
⋅=n , cu alte cuvinte,
va trebui sa investigam un esantion de 1639 indivizi pentru a ne „asigura” ca vom obtine
o estimare „precisa” a proportiei.
Este destul de evident ca aceasta tehnica este aplicabila doar rareori în medicina!
Sa rezumam felul în care se stabileste intervalul de încredere. Odata ales coeficientul
de încredere c%, din tipul distributiei esantioanelor (normala, Student, …) va fi
determinat un factor cΦ (în exemplele anterioare acesta era 1.65, 1.96 etc.). Apoi,
folosind datele provenite din esantion se va face o estimare „punctuala” e a parametrului
(în exemplele anterioare m pentru media µ , p pentru proportia π ) si de asemenea o
evaluare d a împrastierii. Intervalul de încredere c% va avea forma
] ,[ dede cc ⋅Φ+⋅Φ− .
Coeficientul de încredere c% este apropiat de 100%. Deseori el este înlocuit prin
%100 c− , procent apropiat de 0, care poarta numele de nivel de semnificatie. Vom
reveni.
64
3.4. Compararea a doua populatii
În aceasta sectiune vom extinde metodele de estimare pentru situatii în care scopul
principal este cel de a compara doua populatii (ceea ce poate însemna doua straturi ale
aceleiasi populatii, sau aceeasi populatie examinata la doua momente de timp).
Comparatia poate fi facuta la nivelul mediilor (atunci când datele sunt cantitative) sau
la nivelul proportiilor (atunci când datele sunt calitative). Ca exemple tipice, pentru prima
situatie putem considera rezultate (numerice) de laborator care stabilesc nivelul scaderii
colesterolului în sânge ca efect al folosirii a doua medicamente diferite, iar pentru a doua
situatie, efectul folosirii unui medicament întaritor exprimat prin procentajul indivizilor la
care acest medicament are efect.
Evident, esantioanele pe care le investigam pot avea acelasi volum sau nu.
Sa presupunem ca din prima populatie, distribuita (aproximativ) normal cu parametrii
1µ si 21σ , extragem un esantion de volum 1n si, pe baza datelor obtinute din acestea,
calculam media de esantion 1m si varianta de esantion 21s . În mod analog, din a doua
populatie, distribuita si ea (aproximativ) normal cu parametrii 2µ si 22σ , extragem un
esantion de volum 2n si calculam media de esantion 2m si varianta de esantion 22s .
Compararea populatiilor facându-se prin medii, va trebui sa estimam, printr-un interval
de încredere, diferenta 21 µ−µ , care este estimata punctual prin diferenta 21 mm − .
Asadar, va trebui sa analizam distributia diferentelor 21 mm − provenite din doua
esantioane cumulate, mai precis sa evaluam varianta acestei distributii.
Se poate stabili ca pentru esantioane „mari” (având cel putin 30 de indivizi), aceasta
varianta este egala cu 2
22
1
21
nnσ
+σ
, asadar este estimata prin 2
22
1
21
ns
ns
+ . Intervalul de
încredere 95% pentru diferenta 21 µ−µ va fi urmatorul:
] ,[ 2121 LmmLmm +−−−
unde 2
22
1
2196.1
ns
ns
L +⋅= .
Pentru cazul în care cel putin unul dintre esantioane este „mic” (are cel mult 30 de
indivizi), formula de estimare a variantei este ceva mai complicata.
65
Exemplu. Pentru a putea compara între ele doua medicamente ce reduc nivelul
colesterolului în sânge (cauza principala a atacurilor de cord), a fost efectuat un studiu
preliminar. În cazul acestuia au fost selectati 64 de barbati, aleatoriu dintr-un total de 220
pacienti având nivel ridicat de colesterol. Dintre acestia, 33 au folosit medicamentul A,
iar ceilalti 31 au folosit medicamentul B timp de trei saptamâni.
Masurându-se scaderea procentuala a nivelului colesterolului, s-au obtinut urmatoarele
rezultate:
Medicamentul A Medicamentul B
331 =n 312 =n
%4.51 =m %9.42 =m
%2.11 =s %6.12 =s
Pe baza acestor date, sa estimam printr-un interval de încredere 95% diferenta între
scaderile procentuale determinate de cele doua medicamente. Diferenta 21 mm − este de
0.5%, iar semi-lungimea intervalului de încredere este
%7.0316.1
332.1
96.122
≈+⋅=L
prin urmare acest interval este ]2.1 ,2.0[−
Sa abordam acum cazul în care compararea populatiilor se face prin proportii si sa
încercam sa estimam diferenta 21 π−π prin intervale de încredere. Evident, ea este
estimata punctual prin 21 pp − .
Independenta esantioanelor ne conduce la urmatoarea formula a variantei
2
22
1
1121
)1()1()(
nnppVar
π−π+
π−π=−
asadar la estimarea
2
22
1
1121
)1()1()(
npp
npp
ppVar−
+−
=− .
Intervalul de încredere 95% pentru diferenta 21 π−π va fi asadar
] ,[ 2121 LppLpp +−−−
unde 2
22
1
11 )1()1(96.1
npp
npp
L−
+−
⋅= .
66
3.5. Compararea variantelor
Atunci când comparam între ele doua populatii distribuite normal, comparatia se poate
face la nivelul mediilor 1µ si 2µ si/sau la nivelul variantelor 21σ si 2
2σ (vezi figura
urmatoare).
În cazul compararii mediilor este utilizata de obicei diferenta 21 µ−µ , care poate fi
pozitiva sau negativa. Cazul compararii variantelor trebuie tratat însa altfel, întrucât
variantele sunt întotdeauna pozitive!
Se obisnuieste sa se ia în considerare raportul 22
21
σσ . Evident, în situatia în care cele
doua variante sunt de valori apropiate, raportul lor este apropiat de 1.
În studiile care sunt facute asupra unei populatii avem uneori de-a face cu doua
esantioane diferite – alese în moduri independente unul de celalalt. Din primul, de volum
1n , obtinem o medie de esantion 1m si o varianta de esantion 21s , ca estimari pentru
parametrii µ si 2σ . Din al doilea esantion, de volum 2n , obtinem o medie de esantion
2m si o varianta de esantion 22s , acestea fiind si ele estimari pentru parametrii µ si 2σ , la
fel de „bune” ca si estimarile obtinute din primul esantion. Ar trebui sa ne asteptam la
valori aproximativ egale pentru 1m si 2m , ca si pentru 21s si 2
2s .
Sa ne imaginam ca putem cumula cele doua esantioane, obtinând astfel un esantion
„global” de volum 21 nn + . Instinctiv apreciem ca media de esantion, care se calculeaza
cu formula
21
2211
nnmnmn
m++
=
67
(asadar ca medie a lui 1m si 2m , ponderata cu volumele esantioanelor respective) va
constitui o estimare „mai buna” pentru parametrul µ .
Putem avea încredere în aceasta apreciere instinctiva? Problema neîncrederii apare
atunci când variantele de esantion 21s si 2
2s difera mult între ele, cu alte cuvinte atunci
când raportul 22
21
ss difera mult de 1. În situatii de acest fel înclinam sa credem ca
alegerea celor doua esantioane s-a facut necorespunzator, este ca si cum esantioanele ar fi
fost alese din populatii diferite.
Ce înseamna „difera mult de 1” poate fi precizat prin intermediul obisnuitului
coeficient de încredere. Iar intervalul de încredere 95% se obtine stiind ca raportul 22
21
ss
are o distributie Fisher-Snedecor cu 11 −n si 12 −n grade de libertate.
De mentionat faptul ca intervalul de încredere 95% este stabilit pentru raportul
variantelor 22
21
σσ si are forma:
⋅⋅
22
21
22
21 1
,'s
sfs
sf
unde numerele f si 'f (care depind evident de coeficientul de încredere, dar si de numarul
gradelor de libertate) pot fi obtinute în Excel apelând
FINV(0.025, 11 −n , 12 −n ) respectiv FINV(0.025, 12 −n , 11 −n ).
Figura urmatoare ne exemplifica aceste numere ( 65.2=f , 86.2'=f ) pentru situatia
unor esantioane de volume 15 si respectiv 20 indivizi.
68
Cursul 4. Testarea statistica de semnificatie
Continutul acestui curs este urmatorul:
4.1. Inferenta adevarurilor stiintifice: teste de semnificatie ...................................... 69
4.2. Relatia între ipoteza alternativa si ipoteza nula în testarea ipotezelor ................ 72
4.3. Testarea ipotezelor, abordarea clasica ............................................................... 75
4.4. Exemplu: compararea mediilor ......................................................................... 77
4.5. Compararea mediilor, abordarea practica .......................................................... 89
4.6. Exemplu: compararea proportiilor..................................................................... 91
69
4.1. Inferenta adevarurilor stiintifice: teste de semnificatie
Cunoasterea umana se îmbunatateste continuu; cercetatorii stiintifici dobândesc cu
fiecare zi ce trece noi cunostinte. Care le sunt metodele?
Atunci când apare un fenomen nou, oamenii rationali încearca sa-i detecteze cauzele, si
avanseaza diverse ipoteze care li se par plauzibile. Ulterior, în urma observarii altor
aparitii ale fenomenului, unor ipoteze le creste, altora le scade veridicitatea, fiind posibil
chiar sa se renunte la ele; într-un cuvânt, plauzibilitatea fiecarei ipoteze „explicative” este
reevaluata.
Testarea statistica de semnificatie este o metoda de stabilire a gradului de plauzibilitate
(veridicitatii?). Particularitatea sa este limpede: se refera la un anumit tip special de
ipoteze, cunoscute sub numele de ipoteze statistice.
Într-o abordare de bun simt, a testa o anumita presupunere (adica o ipoteza) careia
experienta noastra personala ne spune sa-i acordam crezare, este usor de explicat:
admitem ca ipoteza ar fi adevarata, apoi comparam observatiile (adica datele obtinute din
lumea reala) cu consecinte logice ale ipotezei noastre. Daca observatiile de care dispunem
sunt compatibile cu consecintele la care ne asteptam, atunci vom continua sa credem – si
în cele mai multe cazuri ne vom întari „credinta” – în presupunerea noastra. Evident, daca
ceea ce observam nu se potriveste suficient de bine cu asteptarile noastre, atunci
„credinta” noastra în validitatea presupunerii va scadea, uneori atât de mult încât vom
„respinge” cu totul presupunerea facuta.
(Trebuie sa subliniem aici cât de vagi sunt afirmatiile din paragraful precedent:
întelesul precis al sintagmei „suficient de bine” este lasat la latitudinea cititorului. La fel
si responsabilitatea oricarei consecinte neplacute pe care ar putea-o avea o decizie
gresita!)
Evident, ipotezele avansate de catre cercetatorii stiintifici sunt cunoscute ca ipoteze
stiintifice. Efectuarea unui test de semnificatie (cunoscuta si sub numele de testarea
ipotezelor) este o metoda folosita pentru a testa o presupunere, în care credem, despre o
întreaga populatie, prin folosirea datelor obtinute dintr-un esantion. În general, rezultatul
unui test de semnificatie este exprimat printr-un numar. Acest numar reflecta cât de
plauzibila este ideea ca valoarea unei anumite statistici descriptive – care este calculata
din datele obtinute din acel esantion – ar putea proveni dintr-un esantion aleator.
70
Abordarea initiala a lui Robert A. Fisher (publicata în cartea Statistical Methods for
Research Workers în anul 1925!) a fost dedicata cercetatorilor stiintifici: validitatea unei
ipoteze stiintifice este stabilita pe baza unui singur test, cu optiunea de a nu emite o
judecata definitiva atunci când rezultatul nu este „suficient de limpede”. În aceasta
abordare sunt posibile doar doua optiuni: fie vom „respinge ipoteza nula”, fie vom amâna
decizia (nu sunt suficiente date pentru a trage vreo concluzie).
Despre medici se poate spune ca destul de rar sunt „cercetatori”; din contra, cea mai
mare parte a activitatii lor consta în luarea de decizii. De regula, oamenii care iau decizii
(agentii decizionali) le iau bazându-se pe informatii partiale, limitate. Un om rational
încearca sa minimizeze costul deciziilor gresite. Abordarea sa, atunci când este confruntat
cu alegerea între doua ipoteze aflate în competitie, este clara: va alege una, iar decizia de
alegere va fi luata pe baza informatiilor obtinute anterior din esantioane.
Fie în postura de cercetator stiintific, fie în cea de agent decizional, vom fi în masura
de a lua decizii rationale – în urma efectuarii unui test de semnificatie – doar atunci când
vom întelege pe deplin esenta acestor teste. Aceasta implica doua aspecte:
1) Pe de o parte, va trebui sa întelegem la ce tip de probleme testele de semnificatie
ofera (cel putin partial) raspunsuri, iar
2) Pe de alta parte, va trebui sa întelegem natura informatiilor pe care ni le ofera aceste
teste.
Din punctul de vedere al întelegerii lumii înconjuratoare, dar si din punctul de vedere
al logicii, abordarea lui Fisher este usor de explicat: ipotezele stiintifice se refera la
populatii teoretice, care au de obicei un numar infinit de indivizi si sunt reprezentate de
distributii continue. O ipoteza stiintifica este înlocuita printr-o ipoteza statistica,
exprimata prin intermediul parametrului acelei populatii (cum ar fi proportia, media etc.).
Valoarea parametrului este estimata prin exploatarea datelor obtinute dintr-un esantion
extras din populatie, apoi este comparata cu o valoare „asteptata”. Discrepanta dintre cele
doua va influenta „credinta” noastra în validitatea ipotezei stiintifice.
Ipoteza statistica asociata ipotezei stiintifice este bazata, astfel, pe un esantion „mic”
extras dintr-o populatie finita (posibil „mare”). O prima eroare ce poate fi facuta îsi are
originea în identificarea ipotezei stiintifice cu cea statistica asociata. Totusi, atunci când
folosim metodele statisticii, identificam de fapt aceste doua ipoteze si încercam sa
evaluam riscul erorilor pe care le-am putea face.
71
Cercetatorii stiintifici folosesc pe scara larga un rationament – incorect în logica
clasica – numit în latina abductio:
HOOH ,⇒
si un altul – corect în logica clasica – numit modus tollens:
HOOH
¬¬⇒ ,
Aici litera H reprezinta o ipoteza stiintifica, iar litera O reprezinta observatia. În
ambele rationamente de mai sus implicatia OH ⇒ este considerata a fi o cunostinta
dobândita, adica este acceptata ca „absolut sigura”. Evident, faptul ca observam O ne
sporeste „credinta” în ipoteza H (totusi, nu ne garanteaza ca H ar fi „valida”, nici
„adevarata”), iar observarea lui O¬ exclude pe H din rândul ipotezelor valide. Asadar, în
logica clasica nu putem demonstra o ipoteza (ca fiind adevarata) dar o putem exclude.
Din acest punct de vedere „clasic”, un adevar stiintific este o afirmatie care are o foarte
mica probabilitate de a fi dovedita ca incorecta în viitor (Karl Popper, The Logic of
Scientific Discovery ,1959).
Pe scurt, ideea testarii ipotezelor (adica a testelor de semnificatie) este simpla: ipoteza
statistica va servi ca alternativa la o alta ipoteza – asa-numita „ipoteza nula” – care este
luata în considerare doar pentru a fi respinsa. Prin acceptarea adevarului ipotezei nule vor
rezulta anumite consecinte statistice, iar acestea vor fi confruntate cu datele observate.
Orice dovada aflata în contradictie cu ipoteza nula va servi ca justificare a alternativei.
72
4.2. Relatia între ipoteza alternativa si ipoteza nula în testarea ipotezelor
Am afirmat anterior ca o ipoteza statistica este o afirmatie despre un parametru al
populatiei (sau despre mai multi parametri ai populatiei/populatiilor). O asemenea
afirmatie este legata de ipoteza stiintifica luata în considerare (sau este o consecinta
logica a ipotezei stiintifice).
Sa prezentam, în continuare, prin câteva exemple felul în care se relationeaza cele doua
tipuri de ipoteze. Anume, sa consideram urmatoarele afirmatii:
(1) La vârsta de 10 ani, fetele sunt mai inteligente decât baietii,
(2) Vârsta „foarte înaintata” este un predictor semnificativ al maladiei Alzheimer,
(3) Copiii sunt mai creativi decât adultii,
(4) Medicamentul A ajuta pacientii sa se însanatoseasca mai bine decât medicam. B,
(5) Medicii barbati si femei au salarizari diferite,
(6) Pacientii îsi revin în urma unui tratament standard,
(7) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor pierde
în greutate exact 2 kg,
(8) Medicamentul D nu are nici un efect asupra tuberculozei,
(9) Efectele medicamentului E asupra bolnavilor barbati si femei sunt similare.
Recunoastem în cele noua afirmatii de mai sus enunturi ale „credintelor” specialistilor
si profesionistilor, rezultate din lunga lor experienta personala.
Se poate observa o distinctie clara între primele sase si ultimele trei: acestea din urma
exprima o egalitate, o similaritate sau o coincidenta (sa observam ca „nu are efect”
înseamna „nu schimba cu nimic situatia”, sau ca „situatia de dinaintea tratamentului cu
medicament este aceeasi cu situatia de dinainte”). Din contra, primele sase afirmatii
exprima o inegalitate, o disimilaritate sau o diferenta.
Aceasta distinctie este esentiala pentru posibilitatea aplicarii testarii ipotezelor. Este
esential sa subliniem ca testarea statistica de semnificatie poate fi aplicata doar ipotezelor
stiintifice care sunt exprimate ca inegalitati, disimilaritati sau diferente; în niciun caz
egalitati cum este cea din (7) nu pot fi confirmate ca „adevarate” prin testare statistica de
semnificatie. Probabil ca ceea ce specialistul nostru (sa fie oare aceste Dr. C?) vroia sa
exprime era urmatoarea afirmatie:
(7’) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor
pierde în greutate cel putin 2 kg
73
iar în aceasta forma ea ar putea servi ca punct de plecare pentru o testare statistica de
semnificatie.
Sa înlocuim cele sapte ipoteze stiintifice (1)-(6) si (7’) de mai sus prin ipotezele
statistice corespunzatoare. Va trebui sa implicam unii parametri ai populatiilor respective:
(1a) IQ-ul mediu al fetelor în vârsta de 10 ani este mai mare decât IQ-ul mediu al
baietilor în vârsta de 10 ani,
(2a) Incidenta maladiei Alzheimer este mai mare la persoanele de vârsta foarte
înaintata (prin comparatie cu persoanele de vârsta înaintata),
(3a) Indicele mediu de creativitate al copiilor este mai mare decât cel al adultilor,
(4a) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este mai
mare decât proportia corespunzatoare pentru medicamentul B,
(5a) Salariul mediu al medicilor barbati difera (este mai mare?) decât salariul mediu al
medicilor femei,
(6a) Starea medie de sanatate a pacientilor, în urma unui tratament standard, este mai
buna decât înaintea începerii tratamentului,
(7a) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa
de faimosul dietetician Dr. C este de cel putin 2 kg.
Toate aceste afirmatii vor putea servi ca ipoteze alternative în testari de semnificatie. În
general, într-o testate statistica de semnificatie, ipoteza alternativa este o afirmatie despre
parametrii unei/unor populatii, care înlocuieste ipoteza stiintifica (presupusa plauzibila).
(Sa facem observatia ca în toate exemplele de mai sus, ca parametri ai populatiilor au fost
considerati medii sau proportii.)
Se obisnuieste sa fie numita ipoteza alternativa si sa fie notata cu Ha (sau H1) tocmai
ipoteza stiintifica luata în considerare, ca afirmatie exprimând o inegalitate, o
disimilaritate sau o diferenta.
Din punct de vedere logic, în aceiasi termeni am putea enunta si o alta afirmatie, de
data aceasta exprimând egalitatea sau inegalitatea inversa, similaritatea sau coincidenta.
Aceasta afirmatie este notata cu H0 si este numita ipoteza nula. Conform lui R. A. Fisher,
ipoteza nula este „ridicata” – ca un complement al ipotezei alternative – doar pentru a fi
respinsa, iar prin respingerea ei vom accepta ca „adevarata” ipoteza stiintifica initiala.
Sa prezentam aceste afirmatii pentru cele sapte exemple de mai sus:
74
(10) IQ-ul mediu al fetelor în vârsta de 10 ani este egal cu IQ-ul mediu al baietilor în
vârsta de 10 ani,
(20) Incidenta maladiei Alzheimer la persoanele de vârsta foarte înaintata este aceeasi
cu cea la persoanele de vârsta înaintata,
(30) Indicele mediu de creativitate al copiilor este egal cu cel al adultilor,
(40) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este egala cu
cea corespunzatoare pentru medicamentul B,
(50) Salariul mediu al medicilor barbati este egal cu salariul mediu al medicilor femei,
(60) Starea medie de sanatate a pacientilor, în urma unui tratament standard, nu sufera
nicio schimbare,
(70) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa
de faimosul dietetician Dr. C este de exact 2 kg.
R. A. Fisher a dat numele de „ipoteza nula” deoarece aceasta ipoteza ar trebui sa fie
„anulata”. Acest nume a fost retinut si a supravietuit probabil datorita faptului ca în multe
cazuri ipoteza nula poate fi scrisa sub forma unei „egalitati cu zero”:
(H0) 0)( =πf
în care f este o functie de parametrii π ai populatiilor implicate în testare. Poate ca cel
mai bun exemplu este urmatorul:
(10) 0=µ−µ bf
în care parametrii fµ si bµ reprezinta IQ-ul mediu al fetelor, respectiv baietilor în vârsta
de 10 ani.
Exista întotdeauna posibilitatea ca ipoteza nula sa fie ea cea adevarata, deci prin
respingerea ei sa facem o eroare. Probabilitatea unei erori de acest fel este cunoscuta în
medicina ca valoarea p (a ipotezei alternative!) si este interpretata de obicei ca riscul
acceptarii ipotezei stiintifice ca adevarata.
Admitând ca dispunem de informatii complete despre distributia populatiei, singura
sursa de eroare ar ramâne maniera în care sunt alesi indivizii din esantion. Atunci când
esantionul este ales aleator, diferentele dintre ceea ce ne asteptam si ceea ce constatam
vor putea fi explicate doar prin factorul „sansa”. Vom putea impune un prag asupra
acestor diferente, separând diferentele „mici”, acceptabile, de cele „mari”, inacceptabile.
Acest prag este identificat odata cu specificarea nivelului de semnificatie.
75
4.3. Testarea ipotezelor, abordarea clasica
Asa cum am aratat anterior, în orice testare de ipoteza se considera si se prelucreaza
datele obtinute dintr-un esantion. Evident, procedura de esantionare este presupusa
aleatoare, iar de obicei se accepta ca populatiile studiate sunt distribuite normal.
În abordarea clasica, ce preia idei din teoria deciziilor, o testare statistica de
semnificatie se efectueaza în cinci pasi consecutivi, dupa cum urmeaza:
Pasul 1: Specificam ipoteza alternativa, apoi ipoteza nula.
Pasul 2: Alegem statistica adaptata situatiei concrete.
(Reamintim ca statistica înseamna aici „formula în care apar datele extrase dintr-un
esantion”.)
Pasul 3: Alegem nivelul de semnificatie, si pe baza sa pragul de separare (între
diferentele acceptabile si cele inacceptabile).
Pasul 4: Calculam valoarea statisticii, folosind efectiv datele din esantion (ales aleator).
Pasul 5: Decidem, prin compararea valorii calculate cu pragul dat de nivelul de
semnificatie, daca sa respingem sau nu ipoteza nula.
Discutia în jurul testarii statistice de semnificatie începe cu ultimul pas. Aici un agent
decizional va trebui fie sa respinga ipoteza nula H0 (si prin urmare sa accepte ipoteza
alternativa Ha), fie sa nu respinga pe H0. În realitate H0 este fie adevarata, fie falsa – dar
agentul decizional nu cunoaste situatia reala. Cele patru posibilitati ce pot fi identificate
sunt urmatoarele:
Realitatea (necunoscuta)
H0 este falsa H0 este adevarata
Respingem H0 Corecta! Eronata (eroare
de tipul I)
Decizia
Nu respingem H0 Eronata (eroare de
tipul al II-lea)
Corecta!
76
În doua dintre ele decizia este corecta. Atunci când respinge o ipoteza H0 care este
adevarata, agentul nostru face o eroare de tipul I. Iar când nu respinge o ipoteza H0 falsa
agentul face o eroare de tipul al II-lea.
În testarea statistica de semnificatie o importanta maxima o are eroarea de tipul I.
Probabilitatea ei, cu alte cuvinte numarul
)adeväratä este H|eronatä decizie(P 0=α
este nivelul de semnificatie a carui valoare a fost aleasa anterior (la Pasul 3).
Evident, fiecare agent de decizie doreste sa pastreze nivelul de semnificatie cât mai
mic posibil – întrucât este de fapt probabilitatea de a face o eroare! Astfel ca valori cum
este 05.0=α sunt destul de des întâlnite, iar în stiintele medicale se recomanda alegerea
unor valori mai mici, de exemplu 001.0=α .
77
4.4. Exemplu: compararea mediilor
Sa prezentam în cele ce urmeaza exemple tipice de aplicare a testarii statistice de
semnificatie.
Exemplul 1: Sa presupunem ca ipoteza alternativa este (7a) de mai sus, iar ipoteza nula
este (70). (Sa facem observatia ca ipoteza alternativa este exprimata sub forma de „cel
putin”, adica este unilaterala.)
Începem prin a presupune ca (70) este adevarata, adica este adevarat ca persoanele care
urmeaza dieta prescrisa de faimosul dietetician Dr. C vor pierde în greutate, în medie, 2
kg pe saptamâna. Implicit, vom presupune ca pierderea saptamânala în greutate este o
variabila aleatoare, distribuita normal cu media 2=µ si varianta 2σ (necunoscuta).
Esantionul de volum N, extras din populatia indivizilor care urmeaza dieta, înseamna de
fapt secventa NXXX ,...,, 21 a pierderilor saptamânale în greutate corespunzatoare
indivizilor selectati, care de fapt sunt variabile aleatoare independente de tipul ),(N 2σµ .
Se stie ca, în aceste conditii, media de esantion,
)...(1
21 NXXXN
M +++= ,
considerata ca variabila aleatoare, are si ea o distributie normala cu aceeasi medie µ , dar
varianta N
2σ . De aici rezulta ca populatia valorilor
N
Mσ
− 2 obtinute din diversele
esantioane de volum N poate fi considerata variabila aleatoare de tipul )1 ,0(N , adica
având o distribuitie normal standard.
Totusi, asa cum am aratat mai sus, varianta 2σ nu este cunoscuta. Asa cum am precizat
în lectia precedenta, de obicei este estimata prin asa-numita varianta de esantion:
))(...)()((1
1 222
21
2 MXMXMXN
S N −++−+−−
=
si suntem interesati în formula
NSM
T2−
= .
Aceasta formula va fi aleasa (la pasul 2) drept statistica ce va fi utilizata la pasul 4.
78
Se stie ca T este o variabila aleatoare distribuita Student; mai precis, este de tipul
)1(t −N .
În cea mai mare parte, valorile lui T sunt concentrate în jurul lui 0. Totusi, deoarece
valori 2<M vor fi în contradictie cu ipoteza unilaterala (7a), suntem interesati doar în
valorile pozitive ale lui T. Valorile pozitive ce sunt în afara intervalului ] ,0[ t –
determinat de o „valoare critica” t – vor fi considerate ca difera semnificativ de 0. Aceste
valori formeaza asa-numita regiune de respingere, deoarece în cazul aparitiei unei
asemenea valori agentul decizional va respinge ipoteza nula (a se vedea figura de mai
jos).
Odata ce a fost ales nivelul de semnificatie α (la pasul 3), pragul (adica valoarea
critica) 0>αt care delimiteaza regiunea de respingere ) ,( ∞+αt este determinat unic (si
bine aproximat computational) din conditia
α=> α )(P tT ,
care este de fapt urmatoarea:
α−=≤ α 1)(P tT .
Asadar, testarea statistica de semnificatie se efectueaza astfel: dupa ce am ales un nivel
de semnificatie α convenabil, calculam imediat pragul 0>αt din conditia α−=Θ α 1)(t
unde Θ este functia de distributie a variabilei aleatoare )1(t −N . Alegem apoi un esantion
aleator de volum n, obtinem de la indivizii acestuia datele nxxx ,...,, 21 , apoi calculam
valoarea
ns
mt
2−=
79
unde )...(1
21 nxxxn
m +++= iar
))(...)()((1
1 222
21 mxmxmx
ns n −++−+−
−=
Decizia finala la pasul 5 va fi luata luând în considerare doar relatia între aceasta
valoare calculata t si αt . Anume, daca α> tt , vom respinge ipoteza nula.
Ca un caz particular, fie 10=n si sa alegem nivelul de semnificatie 05.0=α .
De aici – cautând într-o tabela a distributiei )9(t , sau folosind o functie speciala cum
este TINV în Microsoft Excel – vom gasi pragul 2622.205.0 ≈t . Acum, sa presupunem ca
de la cei 10 indivizi ai esantionului am obtinut urmatoarele date:
Individul Scaderea saptamânala în greutate
Individul Scaderea saptamânala în greutate
1 2.3 kg 6 2.2 kg 2 2.8 kg 7 2.2 kg 3 2.1 kg 8 2.6 kg 4 3.0 kg 9 2.4 kg 5 2.3 kg 10 2.1 kg
Sa facem observatia ca pentru toti indivizii din esantion scaderea saptamânala în
greutate este mai mare de 2 kg.
Acest fapt, în sine, face ca sa avem încredere în adevarul alternativei! Media de
esantion este (kg) 4.2)1.24.26.22.22.23.20.31.28.23.2(101
=+++++++++ , iar varianta
de esantion este 0933.02 ≈s ( 3055.0≈s ). Prin urmare,
1404.410/3055.0
24.2≈
−≈t .
Deoarece 05.0tt > , suntem îndreptatiti sa respingem ipoteza nula, si prin urmare sa
acceptam ca adevarata ipoteza alternativa (7a).
Sa presupunem ca nivelul de semnificatie este coborât la o valoare mai mica,
005.0=α . De data aceasta pragul este 6896.3005.0 ≈t , si înca avem 005.0tt > . Chiar si cu
nivelul de semnificatie 005.0=α (de zece ori mai mic decât înainte), vom respinge
ipoteza nula si vom considera ca adevarata ipoteza alternativa (7a).
80
Totusi, daca vom coborî mai mult nivelul de semnificatie, de data aceasta la 001.0=α ,
noul prag va fi 7809.4001.0 ≈t iar valoarea calculata 1404.4≈t nu mai este în regiunea de
respingere. De data aceasta nu putem respinge ipoteza nula!
Sa ne imaginam o variatie continua a nivelului de semnificatie de la valoarea 005.0'=α
(pentru care 'α> tt , adica t este în regiunea de respingere pentru 'α ) pâna la valoarea
001.0"=α (pentru care "α< tt , adica t nu este în regiunea de respingere pentru "α ). Exista
un nivel de semnificatie *α , între 'α si "α , asa încât t va fi exact valoarea critica *αt .
Acest nivel de semnificatie particular este cunoscut ca valoarea p a ipotezei alternative.
Interpretarea sa este limpede: este cel mai mic nivel de semnificatie care ne permite sa
acceptam ca adevarata ipoteza alternativa – prin respingerea ipotezei nule, bazându-ne
doar pe datele din esantionul ales. Multi interpreteaza aceasta valoare p ca riscul de a
accepta ca adevarata ipoteza alternativa (bazându-ne pe esantionul ales).
Sa consideram, ca un alt caz particular, un al doilea esantion:
Individul Scaderea saptamânala în greutate
Individul Scaderea saptamânala în greutate
1 1.6 kg 6 1.6 kg 2 2.8 kg 7 1.7 kg 3 1.6 kg 8 2.6 kg 4 3.0 kg 9 2.4 kg 5 1.9 kg 10 1.8 kg
De data aceasta pentru sase indivizi dintre cei 10 ai esantionului scaderea saptamânala
în greutate este mai mica de 2 kg. Aceasta face ca ipoteza alternativa (7a) sa fie mai putin
credibila. Totusi, sa aplicam metoda testarii statistice de semnificatie, exact ca mai sus. Si
de data aceasta, media de esantion
81
(kg) 1.2)8.14.26.27.16.19.10.36.18.26.1(101
=+++++++++
este consistenta cu afirmatia faimosului Dr. C. Varianta de esantion 2978.02 ≈s
( 5457.0≈s ) ne conduce la valoarea calculata
5795.010/5457.0
21.2≈
−≈t
care este mai mica decât 05.0t . Nu putem respinge ipoteza nula, chiar si pentru nivelul de
semnificatie „mare” 05.0=α !
Mai mult, valoarea p (calculata prin intermediul functiei speciale TTEST din Microsoft
Excel) este 0.2622. Asadar riscul acceptarii ipotezei alternative ca adevarata, bazându-ne
pe acest esantion particular, este suficient de ridicat!
Sa tragem câteva concluzii generale despre perechile de ipoteze similare cu (7a)-(70).
O asemenea ipoteza alternativa (Ha) contine în enunt – ca unic parametru – media µ a
unei populatii distribuite normal. Este o ipoteza unilaterala
(Ha): valoare>µ
iar ipoteza nula corespunzatoare ia forma
(H0): valoare=µ .
În abordarea clasica, odata ce a fost ales nivelul de semnificatie α , valoarea critica
0 >αt care delimiteaza regiunea de respingere ) ,( ∞+αt este aflata din conditia
α−=Θ α 1)(t
unde
xNx
Nt
Nt
N
N
d1
1 )()1(
)()(
2/2
21
2−
∞−−
−+
Γ⋅−π
Γ=Θ ∫
este functia de distributie a distributiei Student )1(t −N .
Evident, N este marimea (volumul) esantionului. Pentru a respinge ipoteza nula, se va
calcula urmatorul numar
Ns
mt
valoare−=
82
în care m este media de esantion iar 2s este varianta de esantion. În caz ca t este mai mare
decât αt , ipoteza nula va fi respinsa.
Atunci când folosim Microsoft Excel, valoarea critica αt , care depinde de volumul
esantionului N, poate fi aflata cu ajutorul functiei TINV. Argumentele acesteia sunt
urmatoarele:
– Nivelul de semnificatie α (identificat ca „Probability” în figura de mai jos), si
– Numarul de grade de libertate, care este în cazul nostru 1 −N .
Exemplul 2: Sa presupunem ca ipoteza alternativa este (6a) de mai sus:
(6a) Starea medie de sanatate a pacientilor, în urma aplicarii tratamentului standard, se
îmbunatateste.
Este destul de dificil sa reprezentam, printr-o singura valoare numerica, starea de
sanatate a unui pacient. Sa fim mai precisi, luând în considerare doar pacienti hipotensivi
care sunt supusi actiunii unui medicament anti-hipotensiv, si sa evaluam starea de
sanatate a unui pacient prin ritmul sau cardiac, exprimat în batai/minut (b/m).
Acum perechea (6a)-(60) a fost înlocuita cu
(6’a) Ritmul cardiac mediu al pacientilor hipotensivi creste în urma administrarii
medicamentului,
respectiv
(6’0) Ritmul cardiac mediu al pacientilor hipotensivi, în urma administrarii
medicamentului, nu sufera nici o schimbare.
83
Exprimam formal ipotezele de mai sus astfel:
(6’a) ba µ<µ
(6’0) ba µ=µ
unde aµ , respectiv bµ reprezinta ritmul cardiac mediu înainte, respectiv dupa
administrarea medicamentului.
Datele pe care le obtinem apar în mod natural împerechiate; mai precis, pentru fiecare
pacient vom masura ritmul cardiac înainte ( ax ) si dupa ( bx ) administrarea
medicamentului.
Evident, am putea calcula diferenta ba xxd −= si am putea considera ca medicamentul
este eficace pentru pacientul nostru daca 0<d , ineficace daca 0=d (adica nu se constata
nicio schimbare) si daunator daca 0>d . De fapt testam eficacitatea medicamentului anti-
hipotensiv. Sa notam cu δ diferenta medie; atunci testarea statistica de semnificatie de
mai sus este înlocuita prin
(6”a) 0<δ
(6”0) 0=δ
care este exact situatia tratata în Exemplul 1, cu conditia ca diferentele d sa fie distribuite
normal.
Daca presupunem ca ritmul cardiac al pacientilor hipotensivi, si înainte, si dupa
administrarea medicamentului, este distribuit normal, adica este de tipul ),(N 2aa σµ
respectiv ),(N 2bb σµ , atunci rezulta ca diferentele d sunt si ele distribuite normal, cu media
ba µ−µ . Varianta diferentelor este necunoscuta, si este estimata prin varianta de esantion
2s . Întrucât acceptam ab initio ca (6’0) este adevarata, distributia diferentelor d este
aproximativ de tipul ) ,0(N 2s .
Cele mai multe dintre diferente sunt concentrate în jurul lui 0. Odata ce a fost ales
nivelul de semnificatie α , valoarea critica 0 >αt care delimiteaza regiunea de respingere
) ,( ∞+αt este obtinuta exact ca în Exemplul 1, prin intermediul distributiei Student
)1(t −N .
84
Sa consideram urmatoarele date obtinute dintr-un esantion de volum 8:
Individul Înainte (b/m)
Dupa (b/m)
Diferenta Individul Înainte (b/m)
Dupa (b/m)
Diferenta
1 58 66 +8 5 66 73 +7 2 65 69 +4 6 75 75 0 3 68 75 +7 7 62 68 +6 4 70 68 -2 8 72 69 -3
Valoarea calculata se va obtine prin folosirea formulei
Ns
mt =
în care m este media esantionului diferentelor. Aici 375.3=m , 8=N , iar 4058.4≈s . Prin
urmare 1667.2≈t .
Decizia va fi luata în urma compararii acestei valori t cu valoarea critica αt . Prin
urmare, nici pentru 05.0=α nu vom putea respinge ipoteza nula (aceasta deoarece
tt >≈ 3646.205.0 ).
Exemplul 3: Sa presupunem ca ipoteza alternativa este (5a) de mai sus si ca, evident,
ipoteza nula este (50):
(5a) Salariul mediu al medicilor barbati este mai mare decât salariul mediu al medicilor
femei,
(50) Salariul mediu al medicilor barbati coincide cu salariul mediu al medicilor femei.
Sa rescriem ipotezele într-o forma ceva mai abstracta:
(5’a) fm µ>µ
(5’0) fm µ=µ
unde mµ respectiv fµ reprezinta salariul mediu al medicilor barbati, respectiv salariul
mediu al medicilor femei.
Vom începe prin a accepta ca adevarata ipoteza nula. Vom presupune – ab initio – ca
ambele populatii sunt distribuite normal, adica sunt de tipul ),(N 2mm σµ respectiv
),(N 2ff σµ .
La pasul 2 al unei testari clasice a ipotezelor va trebui sa alegem o statistica adaptata
situatiei concrete. În alegerea acestei statistici ar trebui sa fim constienti de faptul ca vor fi
alese doua esantioane disjuncte, unul din populatia (salariilor) medicilor barbati, celalalt
din populatia (salariilor) medicilor femei.
85
Aceste doua esantioane nu au, în general, volumele egale. Sa notam cu:
– mN volumul esantionului extras din populatia medicilor barbati (adica din salariile
respective),
– mM media de esantion a acestor salarii,
– 2mS varianta de esantion a salariilor.
Pe de alta parte, sa notam cu:
– fN volumul esantionului extras din populatia medicilor femei (adica din salariile
respective),
– fM media de esantion a acestor salarii,
– 2fS varianta de esantion a acestor salarii.
Va trebui facuta o distinctie între esantioanele „mici” si cele „mari”. Orice esantion cu
mai mult de 30 de indivizi va fi considerat ca „mare”, altfel el va fi „mic”.
Statistica pe care o vom alege va depinde în mod esential de marimile celor doua
esantioane. Atunci când ambele esantioane sunt „mari”, formula
zSMM
Z fm −= ,
în care
2f
f
2m
m
2 11S
NS
NS z +=
îl descrie pe Z ca fiind o distributie normala standard )1 ,0(N .
În celalalt caz, adica atunci când cel putin unul dintre esantioane este „mic”, formula
tSMM
T fm −= ,
în care
2)1()1(11
fm
2ff
2mm
fm
2
−+−+−
⋅
+=
NNSNSN
NNS t
îl descrie pe T ca fiind distribuit Student )2(t fm −+ NN .
Sa ne reamintim ca pentru 30≥N distributia Student )(t N este bine aproximata cu
distributia normala standard.
86
Asadar, odata ce a fost ales nivelul de semnificatie α , una dintre distributiile )1 ,0(N
sau )2(t fm −+ NN va fi aleasa pentru a se obtine valoarea critica – care va fi fie αz , fie
αt – valoare care va delimita regiunea de respingere.
Sa facem observatia ca în Microsoft Excel functia NORMSINV ne va ajuta în prima
situatie. Argumentul ei va fi α−1 . Evident, în a doua situatie vom folosi TINV (cu
argumentul α ).
Sa presupunem ca datele din cele doua esantioane sunt urmatoarele:
Medic barbat Salariul ($) Medic femeie Salariul ($) 1 8105 1 74410 2 6719 2 5452 3 7909 3 3814 4 4420 4 4381 5 6214 5 3995 6 9407 6 4944 7 4828 media fm 16166 8 6689 varianta 2
fs 28540.1
9 7274 volumul fN 6 10 8351
media mm 6991.6
varianta 2ms 1560.2
volumul mN 10
Atentie, mediile calculate pentru cele doua esantioane nu sunt consistente cu ipoteza
alternativa! Testarea ar trebui sa se opreasca aici!
Sa presupunem ca am detectat eroarea de dactilo (7410 în locul lui 74410) si am
corectat-o. Acum fm mm > , adica mediile calculate sunt consistente cu ipoteza
alternativa. Valoarea calculata va fi obtinuta cu formula:
tsmm
t fm −=
(pe care o folosim întrucât ambele esantioane sunt „mici”) în care
2)1()1(11
fm
2ff
2mm
fm
2
−+−+−
⋅
+=
NNsNsN
NNst
iar decizia va fi luata în mod corespunzator.
Evident, este nevoie de multe calcule, de multa munca de programare. Acesta este
motivul pentru care testarea statistica de semnificatie nu este prea larg utilizata.
87
În general, sa consideram ipoteze alternative tipice legate de diferentele de medii. Sunt
posibile doua tipuri de ipoteze:
(H1) unilaterala: 21 µ>µ ,
(H1) bilaterala: 21 µ≠µ .
(Cazul 21 µ<µ coincide cu primul, în care ordinea populatiilor a fost inversata.)
În cazul ipotezei unilaterale, odata ce a fost ales nivelul de semnificatie α , regiunea de
respingere ) ,( ∞+r este determinata, ca în Exemplele 1-3, din conditia
α−=Φ 1)(r
unde Φ este o functie de distributie adecvata.
În cazul unei ipoteze bilaterale, regiunea de respingere este o reuniune
) ,() ,( ∞+∪−−∞ rr unde numarul 0 >r este determinat din conditia
21)( ar −=Φ .
Functia de distributie Φ este fie de tipul normal standard, fie de tipul Student. De fapt,
prin rationamente teoretice se identifica mai multe cazuri.
(1) Variantele celor doua populatii, 21σ si 2
2σ , sunt cunoscute. În acest caz statistica
utilizata
σ−
= 21 mmz (în care 2
22
21
1
2 11σ+σ=σ
NN)
urmeaza o distributie normala standard )1 ,0(N . Evident, 1m si 2m reprezinta mediile de
esantion respective.
Regiunea de respingere pentru α
unilaterala bilaterala
88
Variantele celor doua populatii sunt necunoscute, si sunt înlocuite prin variantele de
esantion corespunzatoare 21s si 2
2s . În acest caz vor trebui luate în considerare doua
situatii ce se exclud reciproc.
(2.1) Cazul homoskedastic: variantele necunoscute 21σ si 2
2σ sunt egale între ele. În
acest caz statistica folosita este
21p
21
11NN
s
mmt
+
−=
unde 2ps este o estimare „globala” a variantei comune a populatiilor, data de
2)1()1(
21
222
2112
p −+−+−
=NN
sNsNs .
În acest caz statistica t urmeaza o distributie Student )2(t 21 −+ NN .
Cazul heteroskedastic: variantele necunoscute 21σ si 2
2σ nu sunt egale. În acest caz
statistica folosita este s
mmt 21 −
= unde 22
2
21
1
2 11s
Ns
Ns += ; ea urmeaza de asemenea o
distributie Student.
Evident, se prespune ca ambele populatii sunt distribuite normal. Totusi, rezultatele
sunt aproximativ corecte chiar si atunci când distributia populatiilor nu este prea
„îndepartata” de cea normala.
Sa accentuam asupra faptului ca o distributie Student )(t N în care 30≥N este
aproximativ o normala standard.
89
4.5. Compararea mediilor, abordarea practica
Discutia anterioara evidentiaza mult dificultatile pe care trebuie sa le depasim pentru a
efectua o testare clasica de semnificatie, atunci când vrem sa comparam medii. Toate
calculele sunt efectuate abia dupa ce a fost ales nivelul de semnificatie α , si dupa ce au
fost extrase datele dintr-un esantion.
Asa cum am exemplificat anterior în Exemplul 1, pentru un esantion dat exista un nivel
de semnificatie particular *α , astfel încât valoarea critica corespunzatoare (care este fie
*αt , fie *αz ) coincide cu valoarea calculata. Acest *α este cel mai mic nivel de
semnificatie care ne determina sa acceptam ipoteza alternativa (prin respingerea ipotezei
nule), bazându-ne pe acel esantion. Este numit valoarea p, si este interpretat ca riscul de a
accepta ca adevarata ipoteza alternativa (atunci când de fapt ipoteza nula este adevarata).
Softul modern elimina povara calculelor, prin inversarea „filosofiei” din spatele testarii
de semnificatie. În loc de a alege de la început nivelul de semnificatie α , apoi de a
efectua seria decalcule, poate ar fi mai bine sa calculam mai întâi direct valoarea p a
ipotezei alternative, apoi de a accepta sau nu aceasta ipoteza ca adevarata, depinzând de
cât de mult suntem „educati” în a ne asuma riscuri.
Aceasta idee este suportata atunci când utilizam Microsoft Excel prin intermediul
functiei TTEST. Cele patru argumente ale acesteia sunt, în ordine (vezi figura de mai jos)
1) Domeniul Array1 ce contine datele extrase din primul esantion;
2) Domeniul Array2 ce contine datele extrase din al doilea esantion;
3) Un parametru numeric (de fapt boolean) Tails, a carui valoare este 1 daca
alternativa este unilaterala, respectiv 2 daca este bilaterala;
4) Un al doilea parametru numeric Type, a carui valoare este 1 daca esantioanele sunt
„pereche”, 2 daca esantioanele nu sunt pereche dar sunt homoskedastice, si 3 daca se stie
despre populatii ca sunt heteroskedastice.
Sa mentionam aici ca – în practica – nu exista exemple medicale pentru care sa se
cunoasca homoskedasticitatea populatiilor. Pentru esantioane „nepereche” celui de-al
doilea parametru ar trebui sa i se dea valoarea 3.
90
Functia TTEST ne returneaza direct valoarea p a ipotezei alternative. Totusi, înainte de
a folosi TTEST, ar trebui efectuata o verificare preliminara (atfel, am putea trage
concluzii total gresite). Mai precis, ar trebui sa verificam, prin aplicarea functiei
AVERAGE asupra ambelor domenii, daca mediile de esantion sunt ordonate corect.
Argumentele functiei TTEST în Excel
91
4.6. Exemplu: compararea proportiilor
În Exemplele 1-3 s-a presupus ca toate populatiile implicate ar fi fost distribuite
normal. Perechea de ipoteze (10)-(1a) va fi tratata exact ca si perechea (50)-(5a), cu
conditia ca sa asimilam coeficientul de inteligenta (IQ) cu o distributie normala cu media
100 si abaterea standard 10.
Totusi, în unele situatii afirmatia ca populatiile implicate sunt distribuite normal nu
doar ca nu se justifica, dar este categoric eronata!
Sa consideram de exemplu populatia pacientilor tratati cu medicamentul A – a se vedea
perechea de ipoteze (40)-(4a) de mai sus. Putem presupune ca fiecare asemenea pacient fie
s-a însanatosit (marcaj 1), fie nu (marcaj 0). Daca vom alege aleator un esantion de volum
N de pacienti tratati cu medicamentul A, am putea presupune ca indivizii esantionului
sunt distributii Bernoulli (independente)!
Evident, parametrul Aπ care caracterizeaza o asemenea variabila aleatoare este
interpretat ca probabilitatea „succesului”, adica proportia vindecarii. Proportia celor
vindecati în esantionul ales ne va da o estimare naturala a lui Aπ .
Exemplul 4: Sa presupunem ca perechea ipoteza alternativa/nula este urmatoarea:
(4a) Proportia celor vindecati în rândul pacientilor tratati cu medicamentul A este mai
mare decât proportia celor vindecati în rândul celor tratati cu medicamentul B
(medicamentul A este mai bun decât medicamentul B)
(40) Proportiile celor vindecati în rândul pacientilor tratati cu medicamentele A
respectiv B sunt egale (medicamentele A si B sunt echivalente).
Formal, aceste ipoteze sunt reexprimate în felul urmator:
(4’a) 0A >π−π B
(4’0) 0A =π−π B
unde Aπ respectiv Bπ reprezinta proportiile vindecarilor.
Sa urmam mai întâi abordarea clasica a testarii de semificatie. Un esantion de volum
AN extras din populatia pacientilor tratati cu medicamentul A este de fapt o secventa
A,...,, 21 NXXX de distributii Bernoulli (independente) de tipul )(Be Aπ .
92
Numarul celor vindecati este exact suma A
...21 NXXX +++ despre care stim ca este
distribuita binomial ),(b AA πN . Media de esantion )...(1
A21A
A NXXXN
P +++=
),(b1
AAA
π= NN
este o statistica ce exprima proportia pacientilor vindecati din rândul
celor tratati cu medicamentul A.
Analog, un esantion de volum BN extras din populatia pacientilor tratati cu
medicamentul B este de fapt o secventa B
,...,, 21 NYYY de distributii Bernoulli de tipul
)(Be Bπ iar numarul celor vindecati B
...21 NYYY +++ este distribuit binomial ),(b BB πN .
Si în acest caz media de esantion )...(1
B21B
B NYYYN
P +++= ),(b1
BBB
π= NN
este o
statistica ce exprima proportia pacientilor vindecati din rândul celor tratati cu
medicamentul B.
Se stie ca, în general, distributia binomiala ),(b pn este aproximativ normala cu media
np=µ si varianta )1(2 pnp −=σ , cu conditia ca 5≥np si 5)1( ≥− pn .
Sa presupunem ca sunt îndeplinite conditiile necesare aproximarilor, anume
5AA ≥πN , 5)1( AA ≥π−N , 5BB ≥πN si 5)1( BB ≥π−N . Atunci variabila aleatoare
),(b1
AAA
πNN
este aproximativ distribuita normal, de tipul
π−ππ
A
AAA
)1(,N
N, iar
),(b1
BBB
πNN
este aproximativ de tipul
π−ππ
B
BBB
)1(,N
N. Prin urmare, diferenta
BA PPD −=
care exprima diferenta între proportiile vindecarilor, va fi aproximativ de tipul
π−π+
π−ππ−π
B
BB
A
AABA
)1()1(,N
NN.
Sa exploram consecintele unei ipoteze nule adevarate
(4”0) π=π=π BA .
Rezulta ca diferenta BA PPD −= este aproximativ normala de tipul
+π−π
BA
11)1(,0N
NN.
93
Astfel, pentru a obtine o statistica adecvata, vom avea nevoie de o estimare „globala” a
lui π , proportia pacientilor vindecati în rândul ceor tratati medicamentos (fie cu A, fie cu
B).
Aceasta este obtinuta ca statistica:
)......(1
BA 2121BA
NN YYYXXXNN
P ++++++++
=
Iar statistica noastra ce va fi folosita în testarea de semnificatie va fi urmatoarea
+−
−=
BA
BA
11)1(
NNPP
PPZ
notatia Z indicând ca este vorba despre o distributie normala standard, adica de tipul
( )1 ,0N .
Sa presupunem ca datele obtinute din esantioane au fost urmatoarele:
Esantionul A Esantionul B Ambele esantioane
Total pacienti 80A =N 75B =N 155BA =+ NN
Vindecati 55 40 95
Procentajul vindecarilor %75.68A =P %33.53B =P %29.61≈P
Din aceste date obtinem scorul z, anume 9692.1≈z , iar acesta corespunde unei valori p
02446.0* ≈α (a se vedea figura de mai jos). Aceasta este cunoscuta ca Mid-p value (de
exemplu în Epi Info 2004) si este interpretata conform cu aversiunea noastra fata de risc.
Evident, înainte de a calcula scorul z, va trebui sa verificam daca cele doua procentaje
AP si BP sunt în relatie corecta unul fata de altul; daca nu sunt, testarea se opreste!
Atunci când folosim Microsoft Excel, valoarea p *α este obtinuta prin formula
)(NORMSDIST1 x−=
în care x reprezinta coordonatele celulei în care a fost calculat scorul z.
94
Se obisnuieste (ceea ce este perfect adecvat softului Microsoft Excel) ca datele ce
provin din esantioane sa fie prezentate în tabele de contingenta, ca de exemplu:
Tratat cu: Medicamentul A Medicamentul B
Numarul pacientilor vindecati 55 40
Numarul pacientilor nevindecati 25 35
Nu trebuie sa uitam de conditiile 5AA ≥πN si celelalte. Totusi, Aπ si Bπ sunt
necunoscute; stim doar ca sunt estimate de AP respectiv BP . Valorile AA PN etc. sunt
exact valorile numerice din celulele tabelului de contingenta de mai sus. Astfel, abordarea
clasica a testarii de semnificatie poate fi utilizata justificat doar atunci când toate
componentele numerice ale tabelului de contingenta sunt mai mari decât 5.
Exista si o alta metoda de tratare a unor date de acest fel, cunoscuta sub numele de
testul hi-patrat. Aceasta metoda compara doua variabile aleatoare (cu câte 2 valori
fiecare), si le evalueaza independenta statistica.
Reamintim ca independenta statistica a doua variabile aleatoare V, W înseamna ca
)(P)(P)(P wWvVwWvV =⋅===∧=
pentru fiecare pereche de valori, v a lui V si w a lui W.
În cazul nostru, V este „Medicamentul” iar valorile sale sunt }Med.B"" ,Med.A""{∈v ;
pe de alta parte, W este „Starea pacientului”, cu valorile }"Nevindecat" ,Vindecat""{∈w .
Daca vom estima probabilitatile prin frecventele relative (folosind datele obtinute
dintr-un esantion), atunci independenta statistica a lui V si W corespunde dependentei
liniare a liniilor (sau a coloanelor) din tabelul extins de contingenta:
95
… w … Totaluri pe linii
… … … … …
v … vwN … •vN
… … … … …
Totaluri pe coloane … wN• … ••N
unde:
vwN este numarul de cazuri pentru care vV = si wW = ,
•vN este numarul de cazuri pentru care vV = , adica ∑∈
• =Ww
vwv NN ,
wN• este numarul de cazuri pentru care wW = , adica ∑∈
• =Vv
vww NN ,
••N este numarul total de cazuri, adica ∑∑∈ ∈
•• =Vv
vwWw
NN .
Aceasta dependenta liniara înseamna ca
••
••=N
NNN wv
vw
pentru orice valori v ale lui V si w ale lui W, sau ca valoarea expresiei
22
−=
••
••
∈ ∈∑∑ N
NNNX wv
vwVv Ww
este 0.
În cazul nostru, tabelul extins de contingenta este:
Medicamentul A Medicamentul B Totaluri pe linii
Vindecati 55 40 95
Nevindecati 25 35 60
Totaluri pe coloane 80 75 155
96
iar dependenta liniara a liniilor (sau a coloanelor), adica independenta statistica a
variabilelor „Medicament” si „Starea pacientului” înseamna exact ca ipoteza nula (4’0)
Bπ=πA este adevarata.
Formula de mai sus, care prezinta „statistica X patrat”, da o masura a neadevarului
ipotezei nule. Valori mari ale lui 2X ne îndeamna sa o respingem.
Se stie ca 2X urmeaza aproximativ o distributie de tipul ( ))1)(1(2 −−χ cl , unde l este
numarul de valori distincte ale lui V iar c este numarul de valori distincte ale lui W. (În
cazul nostru 2== cl , prin urmare 2X este de tipul )1(2χ .)
Apoi, graficul distributiei hi-patrat (a se vedea figura urmatoare) ar putea fi folosit
pentru a respinge sau nu ipoteza nula.
Toate consideratiile de mai înainte sunt simplificate drastic atunci când folosim
Microsoft Excel! Într-adevar, aici dispunem de functia denumita CHITEST, care are
doua argumente:
a) Domeniul dreptunghiular ce contine tabelul de contingenta (Actual_range),
b) Domeniul dreptunghiular ce contine datele teoretice care corespund ipotezei nule
(Expected_range), ceea ce înseamna ca sunt calculate cu formula
••
••=N
NNN wv
vw .
97
Aceasta functie returneaza valoarea p *α , care poate fi interpretata de fiecare conform
cu apetenta/adversitatea sa fata de risc.
În cazul nostru (vezi figura de mai sus) obtinem ...0489.0* =α
Merita sa subliniem ca cele doua metode pe care le-am folosit anterior au dat valori p
distincte (0.02446 respectiv 0.0489). Aceasta nu este surprinzator! Mai multe motive
contribuie la aceasta: folosirea estimarilor intermediare ale proportiilor, aproximarea
distributiilor „adevarate” – ale statisticilor utilizate – prin altele, de tipul normal sau hi-
patrat etc.
Perechea de ipoteze (2a)-(20) este similara perechii (4a)-(40). Cele doua metode
prezentate mai sus sunt potrivite pentru confirmarea opiniilor sau descoperirilor despre
incidenta maladiilor, similare lui (2a).
Totusi, distributia hi-patrat este folosita si pentru a confirma opinii cum ar fi (20) sau
(40), adica opinii exprimând o egalitate sau coincidenta. Aceasta nu poate fi facut însa în
cadrul testarii de semnificatie; testele respective sunt cunoscute ca teste de bonitate si au
fost abordate în cursul anterior.
98
Cursul 5. Analiza variantei si teste neparametrice
Continutul acestui curs este urmatorul:
5.1. Teste neparametrice: testele Wilcoxon/Mann-Whitney ..................................... 99
5.2. Teste t pereche si nepereche............................................................................ 105
5.3. Analiza variantei (ANOVA) ........................................................................... 107
5.4. Interpretarea datelor medicale ......................................................................... 110
99
5.1. Teste neparametrice: testele Wilcoxon/Mann-Whitney
În cursurile anterioare ne-am pus problema compararii a doua populatii luând în
considerare mediile sau proportiile, eventual variantele lor. Cu alte cuvinte, am luat în
considerare parametrii care determina populatiile: mediile (µ ), proportiile (π ), variantele
( 2σ ).
Multe dintre metodele de comparatie care sunt utilizate în tratamentul variabilelor
aleatoare continue se bazeaza pe ipoteza „fundamentala” ca anumite variabile sunt
distribuite normal (sau cel putin aproximativ normal). Sunt cunoscute în literatura
statistica, din motive evidente, sub numele de teste parametrice.
Exista însa situatii în care fie nu cunoastem deloc felul în care sunt distribuite
variabilele, fie distributia normala a lor este încalcata flagrant. În asemenea situatii,
pentru compararea populatiilor este posibil sa folosim teste care nu presupun nimic despre
tipul de distributie, cu alte cuvinte teste neparametrice.
(Evident, asemenea teste vor putea fi aplicate si pentru variabilele care sunt distribuite
normal, însa rezultatele pe care le vom obtine vor fi mai putin „semnificative” decât ale
testelor parametrice analoage.)
În cele mai cunoscute dintre aceste teste neparametrice, valorile numerice ale
variabilelor – obtinute din esantion – sunt înlocuite prin rangurile lor. De aceea ele sunt
denumite teste de rang.
Sa prezentam, în cele ce urmeaza, unul dintre cele mai simple teste de rang, anume
testul Wilcoxon.
Îpoteza alternativa de la care plecam, întro exprimare generala, este urmatoarea:
(Ha): distributia valorilor variabilei aleatoare numerice (care ne intereseaza) este
asimetrica în raport cu 0.
Îi vom opune ipoteza nula:
(H0): distributia valorilor variabilei aleatoare numerice este simetrica în raport cu 0.
100
Conform teoriei generale a testarii, vom încerca sa „deducem” consecinte logice ale
acceptarii adevarului ipotezei nule, apoi sa vedem daca datele provenite din esantion sunt
sau nu „compatibile” cu aceste consecinte.
Sa începem prin a analiza datele numerice nxxx ,...,, 21 provenite dintr-un esantion de
volum n. Evident, unele dintre aceste valori vor fi pozitive, altele vor fi negative, si este
perfect posibil ca sa avem câteva chiar egale cu 0. Sa presupunem ca nm ≤ dintre ele sunt
nenule.
Conform indicatiilor lui Wilcoxon, vom ordona crescator valorile nenule, luate în
modul (adica neglijându-le semnul), apoi le vom înlocui cu rangurile lor:
|)( |)2(| |)1( | ...| mxxx ≤≤≤
Sa notam cu +T suma rangurilor valorilor pozitive, si cu −T suma rangurilor valorilor
negative. Daca acceptam ideea ca ipoteza nula este adevarata, atunci +T si −T n-ar trebui
sa difere prea mult între ele. Pe de alta parte, suma lor −+ + TT ar trebui sa fie egala cu
suma tuturor rangurilor, adica cu 2
)1( +mm . Ar trebui sa ne asteptam ca atât +T cât si −T
sa fie apropiate de 4
)1( +mm . Cu cât +T difera mai mult de 4
)1( +mm , cu atât ipoteza nula
devine mai implauzibila si drept urmare vom fi înclinati sa acordam credit alternativei
(Ha).
Calculul valorii p a ipotezei alternative se bazeaza pe faptul ca statistica
24/)12)(1(
4/)1(
++
+−+
mmm
mmT
este distribuita (cel putin pentru valori „mari” ale lui n) aproximativ normal standard.
101
Ca un exemplu, fie datele din foaia de calcul Excel prezentata în figura de mai jos.
Observam ca dintre cele noua valori cinci sunt pozitive iar patru negative (niciuna nu este
nula). Abstractie facând de semn, ordinea lor este urmatoarea:
...5.31.29.19.16.05.04.0 <<=<<<
Doua dintre cele pozitive sunt egale între ele, în consecinta rangurile lor vor fi ambele
egale cu 5.42
54=
+ .
Efectul comenzii
MEANS valori semn
din Epi Info este prezentat în figura urmatoare. Valoarea p a ipotezei alternative, obtinuta
cu testul Wilcoxon, este de 0.0139, suficient de mica pentru a ne determina sa o acceptam
ca adevarata.
Asadar, putem afirma ca setul celor cinci valori pozitive difera „semnificativ” de setul
celor patru valori negative. (De mentionat ca daca am fi folosit testul t clasic, valoarea p
ar fi fost de 0.0042, de circa trei ori mai mica. Însa putem fi siguri ca sunt satisfacute
toate conditiile preliminare de normalitate necesare pentru aplicarea testului t?)
Reamintim ca testul t (Student) poate fi folosit, în general, în situatii în care:
a) dispunem de doua esantioane extrase din doua populatii,
b) valorile obtinute de la indivizii din esantioane sunt numerice,
c) dorim sa stabilim ca centrul (valorilor) primei populatii difera de centrul
(valorilor) celei de-a doua populatii, si
d) localizam centrul unei populatii în media sa.
Însa centrul unei populatii poate fi localizat si în mediana, în conditiile în care suntem
interesati mai mult de ranguri si mai putin de valorile numerice ca atare.
102
Valori numerice obtinute din esantioane (extrase din populatii) pot aparea nu doar prin
masurare, ci si prin transformari ale valorilor ordinale, în mod arbitrar.
Exemple: hipo = +1, mediu = +2, hiper = +3;
– – – = –3, – – = –2, – = –1, + = 1, ++ = 2.
În asemenea situatii aplicarea testului t nu are nici o justificare, însa nimic nu ne
împiedica sa aplicam teste neparametrice.
Sa presupunem ca din prima populatie am extras setul de valori numerice
1,...,, 21 nxxx
iar din a doua populatie am extras setul de valori numerice
2,...,, 21 nyyy .
Conform ideii lui Wilcoxon, sa ordonam crescator valorile (reunite ale) celor doua
seturi, apoi fiecarei valori sa-i atasam rangul ei. (Evident, rangul se recalculeaza în situatii
de egalitate a unor valori.)
Notam cu 1T suma rangurilor obtinute de cele 1n valori ix ce formeaza esantionul
extras din prima populatie. Analog, 2T va fi suma rangurilor obtinute de cele 2n valori
jy ce formeaza esantionul extras din a doua populatie.
103
Ipoteza alternativa pe care am dori-o confirmata este urmatoarea
(Ha): distributia valorilor x în prima populatie difera de distributia valorilor y în a
doua populatie
iar confirmarea ei va avea loc prin respingerea ipotezei nule:
(H0): distributia valorilor x în prima populatie coincide cu distributia valorilor y în a
doua populatie.
Suma de ranguri 1T are valoarea minima 2/)1( 11 +nn si valoarea maxima
2/)1( 1121 ++ nnnn . Pe de alta parte, acceptând adevarul ipotezei nule, ne asteptam ca
suma de ranguri 1T sa fie egala cu 2/)1( 211 ++ nnn . Cu cât 1T se „departeaza” de aceasta
valoare (spre extremele 2/)1( 11 +nn respectiv 2/)1( 1121 ++ nnnn ), cu atât ipoteza nula
devine mai putin plauzibila. Asadar, testul Wilcoxon se bazeaza pe calculul unei sume de
ranguri.
În literatura medicala întâlnim destul de des un alt test, anume testul Mann-Whitney.
Acesta are exact acelasi scop ca si testul Wilcoxon. De fapt, cele doua teste sunt
echivalente.
Pe scurt, în testul Mann-Whitney nu se calculeaza suma de ranguri, ci se compara toate
perechile ),( ji yx si se noteaza cu XYU numarul perechilor ),( ji yx pentru care ji yx <
plus jumatate din numarul perechilor pentru care ji yx = .
Numarul XYU are valori între 0 si 21nn , iar în cazul adevarului ipotezei nule ne
asteptam ca el sa fie egal cu 2
21nn. Cu cât XYU se „departeaza” de valoarea
221nn
, cu atât
ipoteza nula devine mai putin plauzibila.
Legatura dintre testele Wilcoxon si Mann-Whitney este data de formula
11121 2/)1( TnnnnU XY −++=
care leaga numarul XYU (Mann-Whitney) de suma rangurilor 1T (Wilcoxon). Nu este de
mirare ca în raportarile Epi Info (vezi figura de mai sus) rezultatele aplicarii celor doua
teste sunt prezentate împreuna.
Testul Kruskal-Wallis nu este altceva decât o generalizare a testului Wilcoxon pentru
cazul a mai mult de doua esantioane.
104
Ca exemplu, sa consideram datele prezentate în articolul „Factors influencing the rate
of healing of gastric ulcers admission to hospital, phenobarbitone, and ascorbic acid”
aparut în Lancet, 1 (1952), pag. 171-175, autori R. Doll si F. Pygott. Este vorba despre
schimbarile procentuale în zona ulcerului gastric dupa un tratament de trei luni.
Datele despre 32 pacienti internati si 32 de pacienti externi, ce exprima schimbarile
procentuale, ordonate în ordine crescatoare, sunt prezentate în tabelele urmatoare:
Tabelul pentru pacientii internati:
-100 -100 -100 -100 -100 -100 -100 -100 -100 -100 -100 -100 -93 -92 -91 -91 -90 -85 -83 -81 -80 -78 -46 -40 -34 0 29 62 75 106 147 1321
Tabelul pentru pacientii externi:
-100 -100 -100 -100 -100 -93 -89 -80 -78 -75 -74 -72 -71 -66 -59 -41 -30 -29 -26 -20 -15 20 25 37 55 68 73 75 145 146 220 1044
Prelucrarea datelor cu Epi Info a condus la urmatoarele rezultate:
Descriptive Statistics for Each Value of Crosstab Variable Obs Total Mean Variance Std Dev E 32 490.0000 15.3125 42164.8669 205.3409 I 32 -444.0000 -13.8750 63930.3710 252.8446
ANOVA, a Parametric Test for Inequality of Population Means (For normally distributed data only)
Variation SS df MS F statistic Between 13630.5625 1 13630.5625 0.2569 Within 3288952.3750 62 53047.6190 Total 3302582.9375 63
T Statistic = 0.5069 P-value = 0.6140
Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups) Kruskal-Wallis H (equivalent to Chi square) = 6.0863
Degrees of freedom = 1 P value = 0.0136
Se poate observa ca testul t nu da rezultate, dar testul Wilcoxon da.
105
5.2. Teste t pereche si nepereche
Sa începem aceasta sectiune prin considerarea a doua seturi de date formale. Sa facem
observatia ca ultima valoare în fiecare set de date poate fi considerata ca aberanta
(outlier), fiind mult mai mare decât restul datelor din seturile respective.
Se poate observa ca aceste valori aberante ridica mediile respective cu circa 25%, însa
le pastreaza ordinea. (Chiar si prin eliminarea lor, media datelor din setul 1 este mai mica
decât media datelor din setul 2.)
Vom lua în considerare doua abordari diferite. În prima abordare vom admite ca datele
provin de la pacienti tratati cu un medicament M, fiind rezultate de laborator obtinute
înainte si dupa tratament (de exemplu, valori ale creatininei). Scaderea valorilor dupa
tratament înseamna îmbunatatirea starii pacientului. Prin urmare, aceste date indica
îmbunatatirea starii pacientilor – cu doua exceptii – dupa tratamentul cu medicamentul M,
ceea ce ne îndeamna sa credem în adevarul ipotezei alternative:
(Pa): în urma tratamentului cu medicamentul M, valoarea creatininei scade.
Valoarea p a acestei afirmatii, obtinuta printr-un test t pereche, este de 0.00010,
confirmând adevarul ipotezei alternative.
În a doua alternativa, vom admite ca datele provin de la doua populatii diferite, primul
set provine de la pacientii „tratati” cu placebo, al doilea set de la pacientii tratati cu
medicamentul M. Media mai mica a setului 2 (comparativ cu setul 1) indica eficacitatea
de ansamblu a medicamentului M si ne îndeamna sa credem în adevarul ipotezei
alternative:
(Na): tratamentul cu medicamentul M este eficace (comparativ cu lipsa de tratament).
Valoarea p a acestei afirmatii, obtinuta prin testul t nepereche, este însa de 0.4080. O
asemenea valoare nu confirma adevarul ipotezei alternative!
Asadar, aceleasi date conduc la concluzii diferite, concluziile depinzând în mod
esential de contextul în care am obtinut datele.
Aceeasi discrepanta se constata si dupa ce se renunta la valorile aberante.
106
107
5.3. Analiza variantei (ANOVA)
În a doua abordare din sectiune anterioara am analizat comparativ doua grupuri diferite
ale aceleiasi populatii, anume grupul celor tratati cu medicamentul M si grupul celor
tratati cu placebo. Grupurile au fost considerate ca esantioane provenind din populatii
diferite.
Daca s-ar fi prescris medicamentul M în câteva doze diferite, atunci am fi avut de-a
face cu mai multe grupuri.
Deseori se pune problema compararii a mai mult de doua populatii, sau a unei populatii
stratificate în mai mult de doua straturi, iar compararea se face prin medii. În asemenea
situatii se poate aplica o generalizare a testului t pentru doua populatii, cunoscuta sub
numele de analiza variantei sau testul ANOVA.
Din punct de vedere istoric, prima aplicare a analizei variantei s-a facut într-o situatie
în care se analizau recoltele obtinute în urma tratarii solului cu diferite feluri de
îngrasaminte. Se pastreaza, traditional, unele dintre notatiile/notiunile folosite atunci (cum
este „media tratamentului”).
Pentru a explica modul în care se efectueaza analiza variantei, sa luam în considerare
mai multe populatii, fiecare populatie având o medie si o varianta proprie (evident,
necunoscute). Extragem, din fiecare populatie, câte un esantion, conform schemei
urmatoare:
Populatia 1
media 1µ
varianta 21σ
Esantion de volum 1n
media de esantion 1m
varianta de esantion
21s
…
Populatia k
media kµ
varianta 2kσ
Esantion de volum kn
media de esantion km
varianta de esantion 2ks
…
Populatia K
media Kµ
varianta 2Kσ
Esantion de volum Kn
media de esantion Km
varianta de esantion
2Ks
108
Analiza variantei se efectueaza pentru o ipoteza nula
(H0): nu exista diferente între mediile populatiilor
care va trebui respinsa, pentru a se confirma ipoteza alternativa
(Ha): cel putin doua dintre mediile kµ difera între ele (adica cel putin doua dintre
populatii difera prin medii).
Ca de obicei în problemele de testare de ipoteze, sa admitem pentru moment ca ipoteza
nula ar fi adevarata, si sa deducem consecinte logice ale ei. Daca nu ar exista diferente
între mediile populatiilor kµ , ar trebui sa ne asteptam ca mediile de esantion km sa fie
„apropiate” între ele. De asemenea, cumulând cele K esantioane întrun esantion „global”
de volum ∑= knN , ar trebui ca nici media globala ∑∑= kkk nmnm sa nu difere
prea mult de mediile de esantion km . Am avea nevoie de un numar care sa exprime cât de
„apropiate” sunt – în ansamblu – mediile de esantion km de media globala m.
Un asemenea numar, denumit traditional variabilitatea între tratamente, este
urmatorul:
2)( mmnSST kk
k −= ∑ .
(Initialele provin de la sum of squares for treatments = suma patratelor pentru
tratamente.)
Numarul SST este minim (de fapt este 0) daca si numai daca toate mediile de esantion
sunt egale între ele:
Kk mmm ==== ......1 .
Valori mici ale lui SST apar atunci când mediile de esantion km sunt apropiate între
ele, iar asemenea situatii confirma ipoteza nula. Iar daca ar exista diferente mari între
mediile de esantion, atunci cel putin câteva dintre ele vor diferi considerabil de media
globala, ceea ce va determina o valoare mare a lui SST, confirmând astfel ipoteza
alternativa (prin respingerea celei nule). Dar, oare cât de mare trebuie sa fie numarul SST
pentru ca sa fim îndreptatiti sa respingem ipoteza nula?
109
„SS Total” nu joaca nici un rol special. Includerea acestei valori în tabel doar
evidentiaza faptul ca testul statistic se bazeaza pe descompunerea variantei totale a datelor
în cele doua surse de variabilitate: cea „dintre” esantioane (between) si cea din interiorul
esantioanelor (within).
Ca exemplu, sa consideram actiunea unui medicament asupra indivizilor din patru
categorii de vârsta, timp de 60 de zile, exprimata în scaderea procentuala a nivelului
colesterolului:
Sub 20 ani 20 – 39 ani 40 – 59 ani Peste 60 ani
15 17 31 7 19 20 media = 18.17
22 25 20 36 22 12 9 41 17 media = 22.67
17 22 28 15 10 2 8 media = 14.57
13 8 19 16 22 media = 15.60
Avem 27=N , 4=K . Rezultatele oferite de Epi Info sunt urmatoarele:
ANOVA, a Parametric Test for Inequality of Population Means
(For normally distributed data only)
Variation SS df MS F statistic Between 305.4376 3 101.8125 1.3414 Within 1745.7476 23 75.9021 Total 2051.1852 26
P-value = 0.2822
Valoarea p fiind 0.2822, respingerea ipotezei nule este improprie (chiar daca
discrepanta între medii ni s-ar parea suficient de mare). Nu dispunem de suficiente date
pentru a trage concluzia ca scaderea procentuala a nivelului colesterolului depinde de
categoria de vârsta.
(Dar nici nu putem trage concluzia ca nu depinde de categoria de vârsta!)
110
5.4. Interpretarea datelor medicale
Interpretarea datelor (si cunostintelor) medicale trebuie sa se bazeze pe o întelegere
exacta a termenilor folositi. Din acest punct de vedere, notiunea de prevalenta a unei
maladii M este clara, fiind legata de frecventa indivizilor bolnavi. Mai precis, prevalenta
maladiei M este numarul de indivizi bolnavi dintr-un esantion de 1000 de indivizi ai
populatiei, alesi aleator.
Evident, prevalenta este o notiune statistica; ea poate fi doar estimata, prin metode
statistice.
Sa ne imaginam ca un test biologic S – care ar putea sa dea rezultat pozitiv sau negativ
– produce informatii asupra maladiei M. Ne intereseaza felul în care informatia privind
rezultatul testului asupra unui individ va modifica probabilitatea ca acel individ sa aiba
maladia M; cu alte cuvinte, cum se schimba probabilitatea apriorica P(M) în
probabilitatea a posteriori P(M | S).
Numar indivizi care pentru care au maladia M nu au maladia M
Testul S da rezultat pozitiv TP FP
Testul S da rezultat negativ FN TN
Apar notiunile de senzitivitate si de specificitate a testului. Definirea lor este usoara
daca vom considera urmatorul tabel de contingenta:
Evident, un individ oarecare ar putea cadea în una dintre cele patru categorii:
– TP (true positive), care au maladia M iar testul da rezultat pozitiv,
– TN (true negative), care nu au maladia M iar testul da rezultat negativ,
– FP (false positive), care nu au maladia M iar testul da rezultat pozitiv,
– FN (false negative), care au maladia M iar testul da rezultat negativ.
Cunoscând repartizarea indivizilor, putem defini cu usurinta senzitivitatea testului S
prin proportia celor cu rezultat pozitiv în cadrul celor ce au maladia M:
FNTPTPSe +=
Analog, specificitatea testului S este proportia indivizilor care testeaza negativ în
cadrul celor ce nu au maladia M:
FPTNTNSp +=
Un test bun trebuie sa aiba atât specificitatea, cât si senzitivitatea ridicate (aproape de 1).
111
Evident, specificitatea si senzitivitatea unui test sunt estimate din datele provenite
dintr-un esantion.
Iata, dupa Shortliffe, ca exemplu concludent, cazul testului PAP (Prostatic Acid
Phosphatase) folosit pentru detectarea cancerului de prostata, maladie despre care se stie
ca are prevalenta 33/100000. Studii de cercetare arata ca senzitivitatea testului PAP este
de aproximativ 70%, întrucât din 113 pacienti 79 au testat pozitiv. Specificitatea sa este
mai ridicata, de aproximativ 94% (doar 13 indivizi din 217 au testat pozitiv). Ce se poate
deduce odata cunoscute toate aceste date? Informatia cea mai importanta poarta numele
de valoarea predictiva pozitiva a testului, care prin definitie este probabilitatea ca un
individ ce testeaza pozitiv sa aiba maladia M. Este de fapt probabilitatea unui eveniment
conditionat, în notatii evidente P(M | S). Formula de calcul este simpla:
)1()1( SpprevSeprevSeprevVPP
−⋅−+⋅⋅=
(ea este un caz particular al clasicei formule a lui Bayes!). In cazul nostru, un calcul
imediat arata ca VPP = 0.0038, o valoare destul de mica!
Repartizarea teoretica a indivizilor în functie de un test
α
True negatives
False negatives True positives
False positives Nu au maladia
Nu putem afirma întotdeauna ca rezultatul unui test biologic este boolean (fie pozitiv,
fie negativ). Exista teste care au ca rezultate numere reale. Acceptând un prag de separare
α între valorile „pozitive” si cele „negative” ale testului, reprezentarea grafica a acestei
situatii este cea din figura.
Evident, am presupus ca ambele populatii, si cea a celor ce au maladia, si cea a celor ce
nu au maladia, sunt repartizate normal (Gaussian). O deplasare spre dreapta a pragului a
conduce la o specificitate mai mare, dar la o senzitivitate mai scazuta. (Vor fi mai putini
indivizi fals pozitivi, dar mai multi fals negativi.)