Cursul 1. Elemente de biostatistica - Sorana-Daniela...

1

Cursul 1. Elemente de biostatistica

Sa ne imaginam ca studiem un numar de indivizi ai unei populatii, de exemplu studentii

din anul I, Facultatea de Medicina. (De ce? Poate din motive sociale, politice, economice,

medicale, ...) Putem lua în considerare, din multitudinea de caracteristici posibile, doar

câteva: înaltimea, greutatea, culoarea parului, numarul de membri ai familiei, nivelul

cunostintelor de anatomie, nivelul de inteligenta. Exprimând aceste caracteristici prin

variabile (unele numerice, altele nu), admitem ca prin masurare sau evaluare vom obtine

seturi de date care „umplu” tabele de date. Întrebarile esentiale care se pun de obicei sunt

urmatoarele:

– cum putem sa descriem „sintetic” datele pe care le-am obtinut?

– cum putem sa transmitem altora informatiile pertinente despre ansamblul indivizilor,

fara însa a le transmite toate datele obtinute?

La acest gen de întrebari statistica poate da un raspuns. Dar, pentru a întelege

justificarile metodelor statisticii si a le interpreta corect rezultatele, va trebui sa ne

familiarizam cu câteva distributii teoretice, dintre care cele normale sunt cele mai

cunoscute.

Continutul acestui curs este urmatorul:

1.1. Distributii continue ...........................................................................................116

1.2. Distributii normale (Gauss)...............................................................................120

1.3. Populatii si esantioane, caracteristici si variabile...............................................128

1.4. Reprezentari grafice..........................................................................................132

1.5. Statistici descriptive. Centrarea unei variabile numerice ...................................135

1.6. Statistici descriptive. Deviatia în jurul centrului................................................137

1.7. Statistici descriptive pentru variabile calitative .................................................141

1.8. Covarianta si corelatia ......................................................................................142

2

1.1. Distributii continue

În toate consideratiile anterioare au fost abordate numai distributii pentru care

variabilele aleatoare asociate lor au valori discrete, fie în numar finit – ca în cazul

distributiilor binomiale ),(b pn , fie numarabile – cazul distributiilor Poisson )(λPo .

Acestea sunt cunoscute ca distributii discrete. În cele ce urmeaza vom considera distributii

pentru care variabilele aleatoare asociate sunt capabile sa ia valori întrun domeniu continuu

(interval) de pe axa reala. Acestea sunt cunoscute ca distributii continue.

Evident, valorile unei asemenea variabile aleatoare/distributii apar ca rezultate ale unor

masuratori (de lungimi, greutati, durate de timp, temperaturi, concentratii etc.).

Întro figura din lectia anterioara au fost reprezentate, întro forma asemanatoare

histogramelor, distributiile binomiale b(15, 0.25) si b(25, 0.2). În ambele cazuri valorile

posibile ale lui k au fost plasate pe abscisa, echidistant între valoarea minima 0 si cea

maxima n (= 15, respectiv 25) Pe ordonata se „masoara” valorile probabilitatilor

)),(b(P kpn = . Ne dam seama ca, atunci când n „creste” nemarginit, pastrând aceeasi

„lungime” pentru intervalul [0, n], segmentele verticale tind sa formeze un „domeniu

continuu” ca în figura de mai jos. Curba care delimiteaza acest domeniu, în partea

superioara, este graficul unei „densitati de probabilitate”. Ca sa fim mai precisi, sa definim

o densitate de probabilitate ca fiind o functie reala continua f asa încât:

1) are valori pozitive:

0)( ≥xf pentru orice R∈x , si

2) aria delimitata de graficul ei si de axa absciselor este 1, adica:

1d )( =∫∞∞− xxf .

3

De fapt, aria delimitata de graficul functiei, de axa absciselor si de numerele reale a si b,

arie data de expresia xxfba

d )( ∫ , este legata de o distributie/ variabila aleatoare continua X

prin relatia:

xxfbXa ba

d )( )(P ∫=≤< .

Sa facem observatia ca pentru o distributie discreta este posibil sa-i „listam” toate

valorile. Din contra, este imposibil sa listam toate valorile unei distributii continue. (Se stie

din teoria multimilor ca este imposibil sa „listam” toate „punctele” unui interval.)

Este important sa observam ca valoarea )(xf a unei functii densitate de

probabilitate nu este o probabilitate.

Totusi, relatia urmatoare stabileste o legatura cu probabilitatile evenimentelor:

xxfcX c d )( )(P ∫ ∞−=≤ .

Pentru o distributie continua, având asociata variabila aleatoare X, se defineste prin

formule adecvate media si varianta. Anume:

xxxfXE d )( )( ∫ ∞∞−= , si

)))((()( 2XEXEXVar −= .

Nu este deloc obligatoriu ca graficul functiei densitate de probabilitate (asociata unei

distributii continue) sa fie o curba „continua”. Ceea ce conteaza este faptul ca „aria de sub

curba” sa fie egala cu 1.

Distributiile continue pot fi descrise si prin asa-numita functie de distributie, care nu

este altceva decât o functie reala

]1 ,0[: →RF

4

definita astfel

zzfxXxF x d )( )(P)( ∫ ∞−=≤= .

Ne dam seama cu usurinta ca F este o functie crescatoare si ca densitatea de

probabilitate f se poate obtine din functia de distributie conform relatiei:

)(')( xFxf = .

(pentru punctele x în care functia de distributie F este derivabila).

În figura de mai jos este prezentat graficul unei functii de distributie.

Ca exemplu evident, sa consideram functia al carei grafic este „curba” din figura de mai

jos. Functia este constanta pe portiuni, mai precis 1)( =xf pentru ]1 ,0[∈x , în rest

0)( =xf . Distributia continua a carei densitate de probabilitate este aceasta functie poarta

numele de distributia uniforma. Variabila aleatoare asociata va fi notata cu U.

Sa facem observatia ca, pentru orice ]1 ,0[, ∈ba

abxbUa ba

−==≤< ∫ d )(P ,

ceea ce înseamna ca probabilitatea ca variabila U sa ia valori între a si b este exact

„lungimea” intervalului ] ,[ ba .

„Sortii de izbânda” ca variabila U sa ia valori în doua intervale de lungimi egale sunt

astfel egali, ceea ce justifica numele de „uniforma”.

5

Un calcul rapid ne ajuta sa obtinem media si apoi varianta distributiei uniforme. Anume:

211

0d

)( == ∫ xxUE

(ceea ce nu este deloc surprinzator), apoi:

1211

02

21 d

)()( =−= ∫ xxUVar .

Distributiile discrete pot fi asimilate distributiilor continue. Într-adevar, daca

...21 ... <<<< nxxx

este secventa de valori a variabilei aleatoare discrete X (asociata distributiei discrete),

atunci distributia discreta este descrisa perfect de histograma sa. Graficul frecventelor

(relative) cumulate nu este altceva decât o reprezentare a functiei de distributie. Pentru un

numar x din intervalul )1 ,( +kk xx , este evident ca

)()()()( kk xFxXPxXPxF =≤=≤=

ceea ce explica aspectul „în trepte” al functiei de distributie (vezi exemplul din figura de

mai jos).

De multe ori, data o distributie discreta si una continua, ne punem întrebarea daca ele

sunt „apropiate” sau nu, cu alte cuvinte daca una dintre ele „o reprezinta” pe cealalta. De

raspunsul la aceasta întrebare poate depinde o decizie importanta. Raspunsul „da” este

întotdeauna subiectiv. Statistica ne permite sa evaluam riscul atasat deciziei.

6

1.2. Distributii normale (Gauss)

În multe rationamente teoretice distributiile normale (Gaussiene) joaca roluri

importante. O distributie normala, determinata de parametrii µ si 02 >σ , notata cu

),(N 2σµ , este caracterizata prin densitatea de probabilitate:

σ

µ−−

πσ=

2

2

2

)(exp

21

)(x

xf .

Graficul acestei functii este în forma de clopot – fiind cunoscut sub numele de „clopot al

lui Gauss” – simetric în raport cu „linia verticala” µ=x .

Dupa ce se calculeaza câteva integrale, se obtin urmatoarele rezultate:

µ=σµ )),(N( 2E

si

22 )),(N( σ=σµVar ,

formule care ne ofera o interpretare evidenta pentru cei doi parametri. Despre parametrul µ

se spune ca este media teoretica, iar despre 2σ se spune ca este varianta teoretica.

Aceasta din urma este patratul deviatiei standard teoretice 0>σ a distributiei ),(N 2σµ .

Astfel ca nu este deloc surprinzator ca „întinderea clopotului” depinde de marimea lui σ (a

se vedea figura de mai jos pentru câteva exemple).

Evident, variabila aleatoare asociata unei distributii normale ar putea lua ca valoare

orice numar real. Totusi, „probabilitatea valorilor” scade pe masura ce ele se departeaza de

media teoretica µ .

axa valorilor variabilei

Graficul functiei densitate a distri-

butiei pentru 2=µ , 42 =σ

Graficul functiei densitate a distributiei pentru 0=µ , 1=σ

Graficul functiei densitate a distributiei

normale pentru

0=µ , 25.02 =σ

7

Este imposibil sa se completeze tabele de valori pentru toate distributiile normale.

Urmatorul rezultat a fost folosit intens în trecut pentru a efectua calcule în legatura cu

distributiile normale. Daca X este o distributie de tipul ),(N 2σµ , atunci distributia

)(1

µ−σ

= XZ

este de tipul )1 ,0(N . Mai mult,

σµ−

≤=≤x

ZxX P)(P

iar aceasta ne permite sa folosim datele ce se afla în tabelul asa-numitei distributii

normale standard )1 ,0(N .

Totusi, folosirea tabelelor este astazi depasita, iar softul general permite efectuarea cu

usurinta a oricarui calcul în legatura cu distributiile normale. De exemplu, în Excel exista

doua functii, numite NORMDIST si NORMINV, care depind de parametrii µ si σ .

Caseta de dialog a primei este prezentata în figura de mai jos. Pentru a calcula valorile în

modul clasic, adica în legatura cu distributiile normale standard, exista doua functii

suplimentare, usor de utilizat, numite NORMSDIST si NORMSINV.

Exercitiu. Identificati tipul si rolul celui de-al patrulea argument al functiei

NORMDIST din Excel.

O densitate de probabilitate de tip „clopot Gauss” – ce corespunde unei distributii

continue – este ideala, ea nu poate aparea în legatura cu o populatie naturala. Totusi,

importanta distributiilor normale este motivata de urmatoarele:

8

a) modeleaza „bine” numeroase variabile numerice „care apar în practica” în legatura

cu populatii „mari”, cum ar fi înaltimea, greutatea, coeficientul de inteligenta al

oamenilor, dar si diametrul celulelor bacteriilor sau erorile de masurare;

b) aproximeaza „bine” multe alte distributii, cum sunt cele binomiale;

c) constituie fundamentul inferentei statistice, întrucât reprezinta distributia estimarilor

parametrului unei populatii, estimarile fiind obtinute din toate esantioanele

posibile.

Sa ilustram ultima motivatie prin urmatorul exemplu. Sa presupunem ca populatia

noastra are un numar de 25 de indivizi, carora le cunoastem talia (datele sunt în tabelul

urmator).

Individul Talia Individul Talia 1 0.1 14 0.7 2 0.1 15 0.3 3 0.3 16 0.1 4 0.1 17 0.1 5 0.5 18 0.9 6 0.1 19 0.3 7 0.1 20 0.1 8 0.3 21 0.7 9 0.3 22 0.1

10 0.9 23 0.7 11 0.7 24 0.3 12 0.1 25 0.3 13 0.3 Total 8.5

Talia medie este 34.025

5.8==µ , iar distributia indivizilor este prezentata în figura de mai

jos. Se observa ca este o distributie asimetrica (în jurul mediei).

Cum s-ar putea estima aceasta medie µ , masurând doar indivizii unui esantion „mic”

(format din doar 4 indivizi)? Evident, prin media aritmetica:

9

44321 xxxx

m+++

=

unde ix este talia individului i din esantion.

Avem însa posibilitatea de a alege foarte multe esantioane de câte 4 indivizi, mai precis

se pot alege

126504321

22232425425 =

⋅⋅⋅⋅⋅⋅

=C esantioane

Sa le luam unul dupa altul, si sa calculam pentru fiecare în parte media aritmetica:

Esantionul nr. Indivizii ce-l compun Taliile corespunzatoare Media taliilor 1 1, 2, 3, 4 0.1, 0.1, 0.3, 0.1 0.15 2 1, 2, 3, 5 0.1, 0.1, 0.3, 0.5 0.25

… … … … 12650 22, 23, 24, 25 0.1, 0.7, 0.3, 0.3 0.35

Evident, nu se pune problema listarii tuturor celor 12650 esantioane posibile. Totusi,

folosind un soft de calculator, putem programa cu usurinta obtinerea tuturor celor 12650

medii de esantion. Distributia lor este prezentata în figura alaturata.

Se poate observa ca „histograma” este mai bine aproximata de o Gaussiana.

Sa retinem o idee fundamentala: atunci când avem de-a face cu o populatie mare de

valori numerice, a carei distributie are media µ (necunoscuta!), mediile de esantion

formeaza o noua populatie de numere, care este distribuita (aproximativ) normal cu aceeasi

medie µ .

În mod traditional se considera ca distributii normale cuantifica erorile involuntare ce

apar în masuratorile lungimilor sau greutatilor (maselor). În aceste situatii, daca µ

reprezinta valoarea masurata, atunci σ va reprezenta eroarea de masurare. Distributii

10

normale exprima de asemenea asa-numitul „zgomot” ce afecteaza transmisia datelor pe

liniile de comunicatie.

În general, despre curba Gaussiana asociata distributiei normale ),(N 2σµ este de retinut

ca:

a) Mediana, adica valoarea Me care separa populatia (infinita) în doua parti „de marimi

egale”, coincide cu media teoretica µ ;

b) Între abscisele σ−µ si σ+µ (care sunt situate la „distanta” σ fata de media µ , aria

de sub graficul functiei densitate este 0.683. Aceasta înseamna ca 68.3% dintre indivizii

unei populatii normale sunt situati între σ−µ si σ+µ ;

c) Între abscisele σ−µ 2 si σ+µ 2 (care sunt situate la „distanta” σ2 fata de media µ ,

aria de sub graficul functiei densitate este 0.955. Aceasta înseamna ca peste 95% dintre

indivizii unei populatii normale sunt situati între σ−µ 2 si σ+µ 2 ;

d) Practic, întreaga arie de sub grafic (de fapt 99.5%) se afla între abscisele σ−µ 3 si

σ+µ 3 . Acesta fapt conduce la asa-numita „regula a celor sase sigma” (cunoscuta sub acest

nume de catre cei ce iau decizii): presupunând ca populatia este distribuita normal, deviatia

ei standard este estimata la 1/6 din diferenta dintre valoarea maxima si cea minima, valori

ce sunt obtinute dintr-un esantion „suficient de mare”.

În particular, ne vom astepta ca 68.3% (adica ceva mai mult de 2/3) dintre oameni sa

aiba un IQ între 84 si 116, si doar unul din 500 sa aiba IQ-ul peste 148. (Se stie ca IQ este

distribuit normal cu media 100 si varianta 256.)

Se practica aproximarea unor distributii binomiale ),(b pn prin distributii normale, mai

ales atunci când numarul n de încercari este „mare”. Este obligatoriu însa sa fim precauti,

întrucât distributia binomiala este de regula asimetrica.

De fapt, distributiile binomiale ),(b pn sunt simetrice doar pentru 5.0=p , iar asimetria

creste pe masura ce „probabilitatea succesului” p se departeaza de 0.5. Se accepta ca

aproximarea binomiala ),(b pn prin normala ),(N 2σµ este „buna” doar în cazurile în care

5≥⋅ pn si 5)1( ≥−⋅ pn , iar în aceste cazuri parametrii distributiei normale se obtin prin

identificarea mediilor si variantelor: pn ⋅=µ , )1(2 ppn −⋅⋅=σ .

11

Ca motivatie pentru asemenea aproximari este nevoia de aprecieri rapide asupra efectelor unor

decizii pe care le luam. Ca exemplu, sa consideram cazul unei alegeri pentru un organism de

conducere format din 20 de membri, care vor fi alesi de catre o adunare formata din 100 de

delegati.

Decizia care a fost luata este urmatoarea: fiecare delegat va vota selectând 20 de nume de pe

buletinul de vot ce contine toate cele 100 de nume, iar comisia de validare va declara ca fiind alesi

acei delegati ce totalizeaza cel putin 51 de voturi „pentru”.

Ce efect are o asemenea decizie? Ce sanse exista ca sa se aleaga organismul de conducere în

urma votului?

În ipoteza ca fiecare delegat alege la întâmplare 20 de nume de pe buletinul de vot,

„probabilitatea succesului” pentru un candidat va fi de 2.010020 = . Presupunând ca niciunul dintre

cele 100 de buletine nu este invalidat, numarul de voturi obtinute de catre un candidat (oarecare)

este dat de variabila aleatoare asociata distributiei binomiale )2.0 ,100(b .

S-o aproximam cu distributia normala )16 ,20(N , întrucât 202.0100 =⋅=⋅=µ pn si

168.020)1(2 =⋅=−⋅⋅=σ ppn de unde 4=σ . Cunoscând datele anterioare despre distributiile

normale, putem evalua rapid ca 99.5% dintre rezultatele obtinute de catre candidati se vor situa

între 843203 =⋅−=σ−µ si 3243203 =⋅+=σ+µ iar sansele ca vreun candidat sa fie ales cu

cel putin 51 de voturi favorabile sunt practic nule. Fara crearea de coalitii premergatoare votului,

alegerile pentru organismul de conducere pot continua la nesfârsit.

(O solutie de iesire din impas ar fi sa se acorde fiecarui delegat dreptul de a alege nu 20, ci 40

de nume de pe buletinul de vot. În aceasta situatie 4.0=p , 40=µ , 246.0402 =⋅=σ , adica

5≈σ . De data aceasta ar fi 2% sanse ca numarul de voturi obtinute de un candidat sa fie mai mare

decât 5010402 =+=σ+µ . Ne putem astepta la alegerea în organul de conducere a cel putin 2

delegati înca din primul tur.)

Întrun anume sens, o curba Gaussiana exprima distributia indivizilor din populatia

„infinita” a numerelor reale, în raport cu anumite puncte speciale de pe axa absciselor.

12

Sa presupunem ca dispunem de o functie care, pentru orice numar pozitiv z, calculeaza

aria de sub grafic, la stânga lui z – a se vedea figura de mai sus. (O asemenea functie este

NORMSDIST, atunci când Cumulative = TRUE, în Excel.)

Atunci )(P zZ > este aria de sub grafic, la dreapta abscisei z, cu alte cuvinte:

)(P1)(P zZzZ ≤−=> .

Daca z este negativ, atunci –z este pozitiv. Întrucât graficul este simetric fata de origine,

concludem ca:

)(P1)(P)(P zZzZzZ −≤−=−>=< .

De asemenea,

)'(P)(P)'(P zZzZzZz ≤−≤=≤< .

Ca exemplu, pentru 96.1=z obtinem %5.97975.0)96.1(P ==≤Z ; din formulele de mai sus

rezulta %5.2)96.1(P =>Z si %5.2)96.1(P =−<Z !

Câteodata suntem interesati în pozitionarea (relativa) a unui individ ce face parte dintr-o

populatie distribuita normal. Ca exemplu, stim ca un individ a obtinut scorul 68 la o

competitie. Numarul 68 nu ne spune nimic despre clasarea acelui individ; la fel de bine ar

putea fi apropiat de minim, de mediana, de maxim. Performanta reala nu este deloc

evidenta!

O procedura uzuala pentru descrierea performantei reale consta în indicarea scorului

standard (cunoscut si ca scorul Z). Acest scor exprima „cât de multa deviatie standard se

afla sub rezultat”. Scorul Z se calculeaza cu usurinta odata ce sunt cunoscuti parametrii

populatiei, anume se scade media µ a populatiei din rezultatul x, apoi se împarte diferenta

µ−x la deviatia standard:

σµ−

=x

z .

În practica µ si σ sunt estimate din datele pe care le avem la dispozitie. De exemplu,

daca rezultatul 68 a fost obtinut de o persoana la un test IQ (pentru care se presupune ca

100=µ si 16=σ , atunci scorul Z are valoarea –2, ce corespunde unei performante scazute!

13

Distributia normala ne ajuta sa definim ceea ce poate însemna „individ normal” al unei

populatii. În teoria calitatii, indivizii care au scoruri Z între –2 si +2 sunt etichetati ca

„standard”, iar cei care au scoruri Z între –3 si +3 sunt etichetati ca „normali”.

Sa observam ca, prin standardizare, o valoare a unei distributii normale arbitrare este

înlocuita printr-o valoare a distributiei normale standard )1 ,0(N . Sa retinem ca prin

standardizare putem compara scorurile (indivizilor) din diversele populatii.

Familia distributiilor normale prezinta o importanta deosebita si datorita unor rezultate

utilizate în teoria esantionarii. Vom reveni ulterior asupra acestei teorii.

Exercitii. 1) Admitem ca înaltimea unui barbat adult este distribuita normal cu 175=µ

si 7=σ (cm). Care este probabilitatea ca un barbat adult sa fie mai înalt de 185 cm, stiind

ca este mai înalt de 180 cm?

Asemenea aprecieri implica evaluarea unor probabilitati conditionate. Mai precis,

notând cu H înaltimea unui barbat adult – considerata ca variabila aleatoare cu distributia

)49 ,175(N – vom evalua folosind NORMDIST din Excel:

322.02375.00766.0

)True,7,175,180(NORMDIST1)True,7,175,185(NORMDIST1

)180(P)185(P

)180|185(P ==−−

=>>

=>>HH

HH .

2) Admitând ca numarul de leucocite pe unitatea de volum de sânge diluat, evaluat la

microscop, este distribuit Poisson cu media 100=λ , care este probabilitatea ca sa fie

observat un numar de cel mult 90?

Evident, putem face apel la functia POISSON din Excel, formula

=POISSON(90,100,True)

oferindu-ne rezultatul dorit. Sa adoptam însa o alta cale, anume prin aproximarea

distributiei Poisson )(λPo cu una normala ),(N 2σµ . Determinarea parametrilor se va face

prin egalarea mediilor distributiilor

100=λ=µ

respectiv a variantelor distributiilor 1002 =λ=σ . În urma aproximarii, probabilitatea

dorita va putea fi obtinuta si prin formula:

=NORMDIST(90,100,10,True)

14

1.3. Populatii si esantioane, caracteristici si variabile

Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici”

de indivizi si extinderea rezultatelor la populatii „mari”.

Principala caracteristica a proceselor biologice este variabilitatea. Aceasta variabilite

determina un anumit grad de incertitudine. Statistica ne permite sa stabilim „legi” în care

sa tinem seama de incertitudine.

Biostatistica este acel domeniu particular al stiintelor în care metodele specifice

statisticii sunt aplicate problemelor biologice (inclusiv medicale), în particular diverselor

fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor.

Biostatistica, fiind o ramura a statisticii, ne permite sa dam raspuns la întrebari cum sunt

urmatoarele:

a. Care valori sunt normale pentru un anumit proces biologic?

b. Cât de mult riscam atunci când alegem un anumit tratament?

c. Este oare mai bun noul tratament decât cel clasic?

Cuvântul populatie are, în limbajul de zi cu zi, un înteles evident. De obicei, atunci când

ne referim la o populatie, consideram implicit ca numarul indivizilor ei este mare; aceasta

nu exclude însa multe situatii, cum este cea din exemplul formal „populatia pacientilor dr.

Ionescu ce sufera de cardiopatie ischemica”, în care este clar ca acest numar nu este prea

mare. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei

variaza în timp). Totusi, se presupune ca la un moment particular de timp – sau întrun

interval de timp bine definit – populatia este bine definita.

Fiecare individ al unei populatii îsi are identitatea sa proprie, iar indivizii prezinta o

anumita variabilitate. Atunci când studiem o populatie se iau în considerare doar anumite

atribute „importante” ale indivizilor; aceste atribute poarta numele de caracteristici.

De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de

durata; câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. Este de neconceput

sa poata fi studiati chiar toti indivizii unei populatii „mari”. Ratiunea esantionarii este

limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care

este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la

nivelul întregii populatii asupra caracteristicilor studiate.

15

Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de

obicei, atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin

litera n.

Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza,

înaltimea sa, sau inteligenta unui student – sunt masurate si exprimate prin numere. Alte

caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate, ci sunt

identificate prin apartenenta la un grup. Caracteristica „culoare” a obiectelor ar putea fi

masurata (exprimata prin lungimea de unda), însa de obicei este identificata prin

apartenenta la grupurile „rosu”, „portocaliu”, „galben” etc.

Atunci când încercam sa comparam sau sa clasificam indivizi, sa stabilim legaturi între

caracteristicile lor, aceste caracteristici sunt reprezentate prin variabile. Pentru a reprezenta

o caracteristica printr-o singura variabila va trebui sa introducem o scara, ceea ce

înseamna:

1. Sa definim spatiul observabil, adica multimea tuturor valorilor posibile;

2. Sa definim o structura pe spatiul observabil, si

3. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul

observabil.

Pentru a preciza ideile, sa consideram câteva exemple. Caracteristica „înaltime” a

pacientilor este reprezintata evident printr-o variabila, deoarece consideram în mod intuitiv

ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o

structura foarte bogata: operatii aritmetice, ordonare totala etc.). Este clar ca daca ne

alegem o unitate de masura (metrul, centimetrul, …) atunci pentru fiecare pacient vom

putea sa obtinem – e drept, cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale.

Numerele obtinute sunt reale, prin urmare le putem ordona între ele, de asemenea le putea

aduna, scadea, etc. O asemenea variabila este numita variabila numerica.

Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip.

Spatiul observabil este acum format doar din etichetele „foarte scund”, „scund”, „mediu”,

„înalt” si „foarte înalt”. Nu mai este necesara o masurare precisa a pacientilor, le vom

putea „aprecia vizual” înaltimea. Asemenea etichete nu pot fi adunate sau scazute, este

definita doar ordonarea între ele. De data aceasta avem un exemplu de variabila ordinala.

16

Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila

binara) ce ia doar doua valori „admis”/„respins” (respectiv „da”/„nu” etc.).

O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui

student, care poate fi exprimata printr-un ansamblu de variabile.

Asadar, o caracteristica studiata ar putea fi reprezentata, direct sau indirect, prin mai

multe variabile.

Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de

indivizi), de obicei variabilele numerice sunt înlocuite prin variabile calitative, ordinale

(care reprezinta aceeasi caracteristica). Mai precis, datele numerice sunt grupate întrun

numar „mic” de clase. De exemplu, se utilizeaza foarte adesea clase de vârsta sau clase de

înaltime.

Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista

definit vreun „algoritm” de stabilire a sa. Un numar prea mic de clase are dezavantajul ca

„ascunde” particularitatile claselor; din contra, un numar mare de clase face dificila

reprezentarea grafica a rezultatelor. (Se recomanda reprezentarea grafica a rezultatelor

datorita perceptiei mai rapide pe cale vizuala a informatiei.) Se poate face recomandarea de

a se forma între 8 si 20 de clase.

Sa luam de exemplu clasele de vârsta ale pacientilor, considerând ca studiem un

esantion de indivizi diagnosticati cu o anumita maladie. Pare natural sa grupam vârstele lor

în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”, C2 = „5-9 ani”,

C3 = „10-14 ani” si asa mai departe.

Observam ca toate clasele descrise anterior au aceeasi „lungime”, anume 5 ani. Aceasta

este recomandat, dar nu este obligatoriu!

În cazul în care fie indivizii sunt grupati natural în clase, fie datele colectate au fost

grupate în clase, putem calcula frecvente. Pentru o clasa de date, frecventa absoluta este

numarul indivizilor pentru care datele apartin acelei clase. Frecventa relativa se

calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion.

Uneori se folosesc si asa-numitele frecvente cumulate.

17

Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin

intermediul functiei FREQUENCY(). Aceasta functie are doua argumente:

1. Domeniul în care au fost plasate valorile variabilelor (data array);

2. Domeniul – în general pe o coloana – în care se trec valorile de separare, în ordine

crescatoare (bins array).

Rezultatele aplicarii acestei functii sunt plasate întrun domeniu ce are o celula în plus

fata de domeniul valorilor de separare. În aceasta celula suplimentara va fi afisat numarul

valorilor ce depasesc cea mai mare valoare de separare.

Un exemplu de folosire a functiei FREQUENCY în Excel, în figura urmatoare

si rezultatul aplicarii, dupa extindere:

18

1.4. Reprezentari grafice

Adeseori o reprezentare grafica, interpretata vizual, poate fi extrem de eficienta pentru

prezentarea unor date sau rezultate. Sa consideram, de exemplu, cazurile de infarct

înregistrate întrun oras mare, grupate dupa zilele saptamânii:

Ziua saptamânii Frecventa absoluta a cazurilor de infarct

Luni 4 Marti 4 Miercuri 7 Joi 3 Vineri 6 Sâmbata 4 Duminica 8

TOTAL 36

O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea

vizuala a unei diagrame cu bare sau a unei rozete. Iar reprezentarea datelor întro diagrama

cu bare sau de tip rozeta este o operatiune usoara, implementata în orice soft statistic sau de

calcul tabelar. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel, diagrama de

tip histograma a fost obtinuta cu Statistica, iar diagramele de tip rozeta au fost obtinute cu

Excel si EpiInfo.

19

În tabel, în diagrama cu bare, în histograma si în rozete este prezentata aceeasi

informatie. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai

usor de „înteles”. (O mica corectie: în diagrama de tip histograma este reprezentata o curba

suplimentara, care însa este inutila în cazul nostru. Vom aborda ulterior interpretarea

acestei curbe.)

Se poate observa, în cele doua rozete, ca prezentarea rezultatelor depinde de softul

folosit, existând unele diferente (datorate rotunjirilor). Exista si deosebiri în modul în care

trebuie introduse datele. Doar în Excel putem pleca de la tabelul de mai sus. În general se

pleaca de la datele primare „caz dupa caz”.

Atât tabelele de frecvente, cât si diagramele sunt adecvate pentru „afisarea” variabilelor

care au un numar „mic” de valori. Asemenea reprezentari – tabelare sau diagramatice – nu

sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum

este cazul greutatii pacientilor exprimata în grame). Evident, în asemenea situatii se

practica gruparea valorilor în câteva intervale de valori, iar abia apoi rezultatele gruparii

sunt prezentate în histograme.

De exemplu, sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1.65

m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri, clase), anume:

C1 = „41-45 kg” — 5 cazuri;

C2= „46-50 kg” — 10 cazuri;

C3 = „51-55 kg” — 20 cazuri;

C4 = „56-60 kg” — 36 cazuri;

...

C15 = „111-115 kg” — 0 cazuri;

C16= „116-120 kg” — 1 caz.

Folosind Excel, Statistica si EpiInfo, din aceste date se obtin histogramele urmatoare:

20

Sa remarcam ca întro histograma clasele sunt intervale de numere reale, iar întro

diagrama cu bare clasele sunt reprezentate prin etichete (labels).

Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor

eronate sau a valorilor aberante (outliers). Aceste valori aberante, de orice fel ar fi,

distorsioneaza serios rezultatele analizelor statistice.

Atunci când se construieste o diagrama de tip histograma, pe axa orizontala se

marcheaza punctele de separare între clase si, pentru fiecare clasa, se ridica pe verticala un

dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta, fie relativa) clasei.

Dreptunghiurile sunt de „latimi” egale. Întro histograma veritabila aria tuturor

dreptunghiurilor este 1.)

Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru

accelerarea transferului de informatie de la om la om. Acest transfer bazându-se însa pe

perceptia vizuala, toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata

asupra unor date. Trebuie sa fim atenti la corectitudinea tipului de diagrama, la falsificarea

datelor prezentate, la modificarea nejustificata a scarilor de masurare, si nu în ultimul rând

la adecvarea textele titlurilor, etichetelor si legendelor de pe diagrama.

21

1.5. Statistici descriptive. Centrarea unei variabile numerice

Sa consideram ca, întrun studiu efectuat asupra unei populatii mari, suntem interesati în

a studia o anumita caracteristica reprezentata printr-o variabila numerica. Dupa ce am ales

un esantion – sa zicem de n indivizi – si am facut masuratorile necesare, vom dispune de

numerele reale nxxx ,...,, 21 . Aceste numere sunt reprezentate prin puncte pe axa reala (a se

vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul

unui „centru”.

Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a

numerelor (adica însumam numerele, apoi împartim suma la numarul total n al indivizilor

din esantion):

nxxx

m n+++=

...21

Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”, si

anume urmatorul: un numar calculat folosind datele obtinute dintr-un esantion. Formula de

mai sus ofera un prim exemplu de statistica.

În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna

nu este tratata altfel decât celelalte). Mai mult, rezultatul este exprimat în aceleasi unitati

de masura ca si valorile masurate.

Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia

mediei aritmetice, totusi nu prea mult – a se vedea figura.

Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft

statistic sau de calcul tabelar. De exemplu, în Excel aceasta functie este numita

AVERAGE() si are un singur argument, anume domeniul în care au fost plasate datele

numerice. Însa, în orice soft statistic media aritmetica este afisata împreuna cu alte statistici

elementare, care sunt considerate „strict necesare pentru analiza”.

22

De exemplu, Statistica, în modulul sau Basic Statistics/Tables contine o comanda

Detailed Descriptive Statistics. Ca un alt exemplu, softul biostatistic EpiInfo 2004 are un

modul numit Analysis; aici se întâlneste comanda Means, împreuna cu alte comenzi,

grupate în grupul Statistics.

În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul”

datelor. În cazul în care datele sunt ordonate, ca de exemplu astfel:

nxxx ≤≤≤ ...21

poate fi folosita si mediana pentru a indica „centrul”. Mediana (Me) este „punctul” ce

divide valorile în doua parti egale.

În situatia în care toate valorile ix sunt distincte, iar 12 += mn (adica numarul datelor

este impar), mediana Me coincide cu valoarea 1+mx care este situata exact în „mijloc”;

atunci când mn 2= (numarul datelor este par), mediana Me este media aritmetica a celor

doua valori, mx si 1+mx , situate în mijloc.

În unele situatii, pentru a indica „centrul” mediei aritmetice si medianei îi este preferat

modul. Pentru date categoriale (nenumerice), modul Mo este o statistica definita ca acea

valoare ce are frecventa maxima. Pentru date numerice, modul Mo, ca „centru” al datelor,

este dat de formula:

mMeMo ×−×= 23 .

23

1.6. Statistici descriptive. Deviatia în jurul centrului

Adeseori evaluarea împrastierii datelor în jurul centrului, eventual o masura a acestei

împrastieri, este la fel de importanta ca si aflarea „centrului”. Multe dintre statisticile care

exprima împrastierea sunt definite plecând de la notiunea de „deviatie”, ele diferind între

ele doar prin întelesul pe care-l acordam acestui termen.

O prima statistica, evidenta, este amplitudinea, notata cu A, si care este definita ca

diferenta între valorile maxima si minima ale seriei de date:

minmax xxA −= .

Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date

numerice); are dezavantajul ca depinde doar de doua dintre valorile seriei, si nu ne

informeaza deloc asupra modului în care datele sunt împrastiate între extreme.

Din contra, deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei

de date. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. Definitia

precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de

media lor, abateri luate în valoare absoluta:

nmx

E k || −∑= .

Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind

derivabila). Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica,

numita varianta seriei de date:

nmx

V k2)( −∑= .

Pentru a întelege justificarea formulei urmatoare, sa ne imaginam ca valorile nxxx ,...,, 21

sunt variabile aleatoare distribuite normal, independente între ele, toate având aceeasi

medie teoretica µ si aceeasi varianta teoretica 2σ :

),(N 2σµ=kx , µ=)( kxE , 2)( σ=kxVar .

În aceste conditii, n

xxxm n+++

=...21 va fi o variabila aleatoare normala, având aceeasi

medie teoretica µ , dar varianta mai mica nmVar2

)( σ= .

24

De asemenea, V va fi o variabila aleatoare. Prin calcul se obtine urmatorul rezultat:

21)( σ

−=

nn

VE .

Observam ca media lui V nu coincide, asa cum ne-am fi asteptat, cu varianta teoretica

2σ ! Avem de-a face cu un asa-numit fenomen „de deplasare” (bias). Daca însa consideram

expresia

1)( 2

−−∑=

nmx

W k

atunci media )(WE coincide cu varianta teoretica 2σ , adica este „nedeplasata” (unbiased).

De aceea estimarea lui σ se face de obicei prin abaterea standard, definita mai jos.

Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date,

însa acest lucru nu mai este valabil pentru varianta (nici pentru W). Daca dorim o statistica

ale carei valori sa fie exprimate în aceeasi unitate de masura ca si valorile seriei, care sa

depinda „echitabil” de toate valorile, simultan sa aiba si proprietati matematice bune,

atunci formula urmatoare satisface toate aceste conditii. Formula ne da asa-numita deviatie

standard (sau abatere standard) a seriei de date:

1)( 2

−−∑=

nmx

s k .

(la numitor apare numarul valorilor din seria de date, diminuat cu 1).

Formula de mai sus pentru s necesita foarte multe calcule; evident, ele sunt

implementate în soft. Astfel aplicatia Excel dispune de functia STDEV() al carui unic

argument este, la fel ca în cazul functiei AVERAGE(), domeniul în care a fost plasata seria

de date. În Excel avem la dispozitie multe alte functii statistice, ca de exemplu MEDIAN(),

cu folosire evidenta. Statistica ne ofera, în modulul Basic Statistics/Tables, comanda

Detailed Descriptive Statistics. Ca rezultat al ei se afiseaza media Mean, deviatia standard

Std.Dev., valorile minima si maxima (vezi figura urmatoare).

25

Comanda Means (împreuna cu altele,

grupate în grupul Statistics) din modulul

Analysis al aplicatiei EpiInfo ofera multe

rezultate, incluzând media aritmetica,

mediana, varianta, deviatia standard (a se

vedea figura alaturata).

Sa rezumam cele de mai sus: daca

dispunem de o serie de date numerice, pentru

a le evalua centrul si împrastierea în jurul

centrului putem folosi urmatoarele statistici:

— Media aritmetica m;

— Mediana Me;

— Modul Mo;

— Amplitudinea A;

— Abaterea medie (deviatia medie) E;

— Varianta V;

— Abaterea standard (deviatia standard) s.

(Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din

engleza.)

Lista anterioara nu este deloc exhaustiva; în practica sunt des utilizate si alte statistici:

— Cuartilele 1q (prima, de 25%) si 3q (a treia, de 75%). Acestea sunt numerele care,

împreuna cu mediana 2qMe = (considerata ca a doua cuartila) divid datele seriei în patru

parti (de volume )egale;

— Asimetria (skewness), care exprima evident lipsa de simetrie a seriei de date în jurul

„centrului”.

Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama,

cunoscuta ca box-and-whisker plot, des folosita în reprezentarea grafica a datelor medicale.

Întro astfel de diagrama:

26

— o linie transversala sau un asterisc indica „centrul”;

— un dreptunghi indica variabilitatea în jurul centrului; acest dreptunghi (box)

a) fie contine 50% din datele seriei, anume cele aflate între cuartilele 1q si 3q ;

b) fie contine datele seriei aflate între sm 2− si sm 2+ .

— linii (whiskers) extind dreptunghiul în ambele directii; aceste linii indica domeniul de

variatie (excluzându-se eventualele valori aberante, care sunt marcate special).

Un exemplu de trei box-and-whisker plots realizate cu Statistica este prezentat în figura

de mai jos. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei

variabile GLIC_08, GLIC_14, GLIC_20.

27

1.7. Statistici descriptive pentru variabile calitative

În cazul variabilelor cantitative datele sunt numerice, prin urmare putem calcula media

lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care

calculele sunt ceva mai complexe). În cazul variabilelor calitative însa, valorile sunt

etichete, iar operatiile aritmetice nu sunt definite!

Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta

„admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere;

dar, evident, nu avem nicio justificare în a face asa ceva.

Data o variabila calitativa, am putea fixa o valoare particulara a ei si apoi, pentru fiecare

individ din esantion, am putea nota prezenta respectiv absenta acestei valori. Prezenta este

notata de obicei prin 1, iar absenta prin 0. Daca prezenta valorii este constatata la a indivizi

ai esantionului, prin raportare vom obtine imediat frecventa relativa a acestei valori:

na

f = .

Pentru valoarea aleasa, acest raport joaca acelasi rol pe care-l joaca media aritmetica în

cazul variabilelor cantitative. (De fapt, este media unor valori ce pot fi doar 1 sau 0.) Prin

urmare este o statistica de „centrare”.

Împrastierea este evaluata, în aceasta situatie, prin asa-numita varianta a valorii alese,

definita prin:

)1( ffV −=

sau prin deviatia standard a valorii:

)1( ffs −= .

(Este vorba de fapt de formulele obisnuite, prezentate în paragraful anterior, adaptate

pentru valorile 0=kx sau 1.)

Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul

valorilor etichete) este, în acest caz, modul, care nu este altceva decât eticheta/etichetele

având frecventa maxima.

28

1.8. Covarianta si corelatia

Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia

doar o anumita caracteristica (reprezentata printr-o variabila).

Sa consideram printr-un exemplu cazul cel mai simplu, cel în care studiem doua

caracteristici: se înregistreaza, pentru fiecare nou nascut, vârsta mamei (în ani) si greutatea

noului nascut (în grame). Oare exista vreo legatura între aceste doua variabile? Si daca da,

oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca

raspunsurile la aceste întrebari sunt fie „da”, fie „nu”. Însa modul binar de a raspunde la

întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate, de

exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua

variabile (?). Iar fiecare persoana ar putea sa-l interpreteze, dupa cum doreste, ca un „da”

sau un „nu”!

Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului

de corelatie (Pearson), al carui calcul se bazeaza pe calculul covariantei.

În practica, atunci când studiem legatura între doua variabile numerice, începem prin a

alege un esantion, apoi înregistram datele provenite din masuratorile efectuate asupra

indivizilor; datele rezultate sunt prezentate fie întrun tabel:

Individul Valorile variabilei X Valorile variabilei Y

1 1x 1y

2 2x 2y

... ... ... k kx ky

... ... ... n nx ny

fie ca un „nor” de n puncte în plan (a se

vedea figura alaturata).

29

În cazul în care (avem impresia ca) punctele sunt aliniate, ne exprimam spunând ca

exista o corelatie liniara între variabilele X si Y.

Sa notam cu Xm respectiv Ym mediile celor doua serii de date. Covarianta între cele

doua serii de date se calculeaza cu formula

∑ −−= ))((1

YkXk mymxn

C .

(Se observa ca atunci când seria de date Y coincide cu seria de date X, expresia

covariantei C devine expresia variantei V.)

Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient

de corelatie Pearson:

∑ −⋅∑ −

−∑ −=

22,)()(

))((

YiXi

YiXiYX

mymx

mymxr .

Acest numar este între –1 si 1. În cazurile extreme (adica atunci când numarul YXr , este

apropiat fie de –1, fie de 1) avem de-a face cu o puternica legatura liniara între seriile de

date, pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara:

β+α= XY

între variabile.

Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi

rescrisa în felul urmator:

YXYX ss

Cr =,

unde Xs respectiv Ys sunt abaterile standard ale celor doua serii de date. Calculul destul

de dificil al numarului YXr , este efectuat în Excel prin intermediul functiei CORREL().

Aceasta functie are doua argumente care sunt, evident, domeniile în care am depus cele

doua serii de date.

Ca un caz concret, sa presupunem ca pentru 10 indivizi – alesi în esantion – au fost

masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut), obtinându-se

rezultatele din tabelul urmator:

30

k Pulsul kx Temperatura axilara ky

1 75 38.2

2 80 37.5

3 70 36.5

4 90 38.3

5 75 37.1

6 85 38.0

7 80 37.6

8 90 38.5

9 100 39.4

10 95 38.9

Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos):

912.0911885.0, ≈=YXr

care ne indica o legatura liniara puternica între puls si temperatura axilara.

Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.

Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori;

dimpotriva, ele sunt numere de ordine, asa cum ar fi, de exemplu, rangurile acordate

concurentilor de catre doi arbitri. Coeficientul de corelatie Pearson, chiar daca este

calculabil, nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. În

situatii de acest fel se va calcula, cu formula

)1(1

2

2

−

∑−=NN

dro k

în care kd este diferenta rangurilor obtinute de concurentul k, asa-numitul coeficient de

corelatie Spearman.

31

Cursul 2. Arbori de decizie. Alte distributii continue

Cursul are ca scop prezentarea

a) unor notiuni elementare de teoriei a deciziei, bazata pe luarea în considerare a

probabilitatilor si utilitatilor,

b) notiunii de test de bonitate, cu prezentarea unor aplicatii tipice în genetica;

c) unor distributii speciale, des întâlnite în problematica testelor statistice. Rolul

acestor distributii va deveni clar dupa cursul urmator.


2.1. Arbori de decizie .............................................................................................. 32

2.2. Distributii ?2 ..................................................................................................... 36

2.3. Distributii Student ............................................................................................ 39

2.4. Distributii Fisher-Snedecor .............................................................................. 41

2.5. Testarea bonitatii (goodness-of-fit) ................................................................... 43

32

2.1. Arbori de decizie

Medicii fac parte dintre acei oameni care iau un numar mare de decizii, iar deciziile

pe care le iau, ca urmare a consultarii pacientilor, sunt uneori foarte rapide si nu

întotdeauna au justificari „evidente”, solid fundamentate. În alte profesii umane

procesele de luare a deciziilor au fost analizate si formalizate, iar alegerea deciziei

optime într-o situatie data a fost implementata în soft. În domeniul medical situatiile

întâlnite sunt mult mai complexe, înca suntem departe de a spune ca dispunem de soft

care ofera decizia optima; deocamdata ne aflam în faza de analizare a deciziilor.

Atunci când urmarim sa luam o decizie optima trebuie sa ne punem problema

identificarii criteriului de optimizare. În economie situatiile par simple: minimizam

costuri de productie, cheltuieli de transport sau de stocare, maximizam profitul etc.

Folosirea simultana a mai multor criterii de optimizare conduce la complicatii

matematice considerabile, de aceea este de preferat identificarea unui singur criteriu de

optimizare.

Care sa fie acesta, în medicina? Evident, el depinde de nivelul la care se afla

decidentul. Un medic ce ocupa functia de director de spital va alege un alt criteriu de

optimizare decât medicul aflat în garda…

Poate ca este cazul sa privim situatia din punctul de vedere al pacientului. La sfârsitul

tratamentului la care a fost supus, ca urmare a relatiei sale cu domeniul medical –

reprezentat de unul sau mai multi medici – dupa ce toate deciziile medicale au fost

luate, pacientul se va afla într-o anumita stare de sanatate. Evident, ar fi de dorit ca

starea sa de sanatate sa fie catalogata drept „buna” si pacientul sa fie vindecat complet.

Stim însa ca situatia nu este întotdeauna asa, ca pot aparea complicatii mai mult sau mai

putin grave, ca exista sansa unor tratamente ineficace sau chiar daunatoare.

Rezultatele posibile ale tratamentului, anume „vindecare completa”, „vindecare

partiala”, … , „deces” sunt evident discrete. Teoria deciziei necesita însa ca variabila ce

serveste drept criteriu de optimizare sa ia valori continue, de aceea se impune adoptarea

unei variabile continue care sa reflecte rezultatul posibil al tratamentului aplicat asupra

unui pacient.

Utilitatea poate fi considerata a fi o asemenea variabila continua. Cu toate ca,

instinctiv, ne dam seama despre ce este vorba, definitia ei nu este însa evidenta!

33

Teoria deciziei are ca instrument principal de lucru arborele de decizie. Un arbore de

decizie este un graf special, cunoscut sub numele de arbore orientat bicolor. De fapt,

într-un arbore de decizie distingem noduri de trei tipuri:

a) noduri de decizie ? , care reprezinta posibilitatile decidentului (în cazul

pacientului, diversele examinari sau tratamente pe care le prescrie medicul);

b) noduri ale hazardului ? , care reprezinta diversele evenimente aleatoare, ce nu se

afla sub controlul decidentului (în cazul pacientului, rezultatele examinarilor, efectul

terapiilor);

c) noduri rezultat, care reprezinta diversele situatii finale, carora li se asociaza câte o

utilitate (apreciata aprioric de catre un pacient „generic”).

Intr-un arbore de decizie, pe fiecare drum posibil nodurile de decizie si cele ale

hazardului alterneaza, iar nodurile rezultat sunt exact nodurile terminale, adica

„frunzele”. Cât despre muchiile-sageti, ele reprezinta consecintele în timp. Cele care ies

din nodurile hazardului corespund realizarii evenimentelor aleatoare (si sunt însotite de

probabilitatile respective), iar cele care ies din nodurile de decizie corespund deciziilor

ce pot fi luate.

Sa consideram, pentru ilustrarea conceptelor, doua exemple simple de arbori de

decizie.

1) Prima problema pe care o vom aborda – din punctul de vedere al pacientului –

este urmatoarea: trebuie sa tratam sau nu o gripa obisnuita cu antibiotice si, în caz

afirmativ, trebuie sa o tratam imediat ce se declanseaza sau dupa doua zile din

momentul declansarii? Arborele de decizie este prezentat în figura urmatoare.

Radacina arborelui este un nod de decizie, pacientul putând decide sa trateze imediat

gripa, sa astepte doua zile, sau sa neglijeze tratamentul. Fiecare decizie posibila a sa este

urmata de un nod al hazardului; în majoritate situatiile posibile sunt „vindecare” si

„complicatii”, iar în arbore sunt trecute si probabilitatile estimate ale acestor situatii.

Decizia de „asteptare 2 zile” este urmata de alternativa „vindecare/nu”, iar a doua

posibilitate este urmata de un alt nod de decizie, pacientul putând decide sa trateze sau sa

neglijeze gripa.

34

Arborele de decizie pentru situatia tratarii gripei

Arborele are un numar de 9 „frunze”, fiecareia corespunzându-i câte o utilitate. Sa

observam ca pacientul nostru apreciaza „vindecarea spontana prin neglijarea

tratamentului” ca având utilitatea maxima, iar utilitatea minimala (negativa!)

corespunde situatiei „complicatii dupa tratarea imediata”.

Fiecarui eveniment aleator i se ataseaza probabilitatea sa; mai precis, este vorba

despre probabilitatea evenimentului, conditionata de situatia concreta în care se afla

pacientul. Probabilitatile se estimeaza conform metodelor standard de estimare; de

exemplu, „se stie” ca procentul de vindecari spontane dupa doua zile de la declansarea

gripei este de circa 30%, iar dupa un tratament se ridica la 95%.

2) Al doilea exemplu este urmatorul. Sa presupunem ca un medic este pus în fata

urmatoarei situatii: un barbat de 68 de ani, diabetic, a fost ranit la piciorul stâng, iar rana

s-a infectat si exista pericolul cangrenarii.

Sunt posibile doua solutii terapeutice:

a) amputarea imediata (sub genunchi), sau

b) tratarea pacientului cu medicamente anti-inflamatorii.

Prima solutie poate cauza decesul pe masa de operatie. Cea de-a doua solutie poate

vindeca infectia, dar la fel de bine, daca medicamentele nu se dovedesc eficace, poate

conduce la o amputare mai severa (deasupra genunchiului) sau chiar la deces.

Si aceasta situatie tipica de decizie poate fi reprezentata printr-un arbore de decizie:

35

Evident, decizia luata de medic depinde de câtiva parametri:

1) probabilitatea decesului în timpul operatiei

2) probabilitatea extinderii infectiei

3) utilitatea fiecarui rezultat final posibil.

Primii doi parametri sunt evident „de tip probabilist”. Aceste probabilitati trebuie

estimate. În estimare este implicata o evaluare de credibilitate, bazata pe cunostintele pe

care le-a dobândit si pe experienta personala, mai degraba decât pe un calcul „clasic” de

frecvente.

Medicul va putea lua acele decizii care conduc la utilitatea maxima. Sa consideram

probabilitatile si utilitatile trecute în figura:

Pentru fiecare nod intern, de la care pleaca doua ramuri de probabilitati p1 respectiv p2

spre noduri având utilitatile U1 resp. U2, utilitatea U se va calcula ca medie ponderata:

U = p1 U1 + p2 U2

Calculele arata ca a doua alternativa are o utilitate mai mare.

Deseori însa nu este recomandata folosirea utilitatii medii, ci strategii de maximizare a

utilitatii combinate cu minimizarea riscurilor.

36

2.2. Distributii ?2

În cursul precedent de biostatistica am afirmat ca, prin folosirea „formulei de

standardizare”

σµ−

=X

Z

o variabila aleatoare normala ),(N 2σµ∈X este înlocuita printr-o „normala standard” Z

(adica )1 ,0(N∈Z ). Valorile lui Z sunt exact aceleasi cu cele ale lui X (adica numerele

reale); totusi, valorile lui Z sunt „strâns grupate” simetric în jurul originii. (Sa ne aducem

aminte ca 99.5% dintre valori – adica „aproape toate” – sunt situate între –3 si +3.)

Ce se poate spune despre patratul 2Z ? Evident, valorile acestei variabile aleatoare nu

pot fi negative; categoric ele nu mai sunt distribuite simetric în jurul originii. Cu toate

acestea, 99.5% dintre valori sunt situate între 0 si 239 = ?!)

Densitatea de probabilitate a patratului 2Z poate fi reprezentata grafic prin utilizarea

functiei CHIDIST implementata în Excel. În figura de mai jos este clar ca nu exista vreo

„axa de simetrie”, dar nu este clar care ar fi media (nici care este mediana) distributiei.

Graficul densitatii de probabilitate a lui 2Z

La ce este util patratul 2Z ? Evident, în cazul în care Z exprima o eroare aleatoare

(pozitiva sau negativa), atunci 2Z va exprima patratul erorii. În unele situatii, dupa o

serie de masuratori eroarea „cumulata” este exprimata ca suma de patrate, care nu se

reduce neaparat la un singur termen.

Aceasta impune urmatoarea generalizare. Sa consideram mai multe variabile aleatoare

νZZZ ..., , , 21 (toate distribuite normal standard) mutual independente. Distributia

sumei de patrate 222

21 ... ν+++ ZZZ considerata ca variabila aleatoare, este cunoscuta

37

ca distributia hi-patrat cu ν grade de libertate (notatie )(2 νχ ). În acest fel apare o noua

familie )}(2 ν{χ de distributii ale unor variabile aleatoare, familie care „depinde” de un

singur parametru, ν , numarul gradelor de libertate, care este un numar natural (1, 2, 3

etc.).

Densitatea de probabilitate a lui )10(2χ

Functia CHIDIST în Excel ne permite sa reprezentam grafic functiile densitate de

probabilitate ale acestor variabile aleatoare – a se vedea figura de mai sus pentru un

exemplu.

Aceste functii sunt unimodale, unicul vârf aflându-se deasupra abscisei 2−ν . Este

usor sa întelegem topica

CHIDIST(abscisa x, numarul gradelor de libertate).

Totusi, implementarea lui CHIDIST în Excel ofera rezultate într-un mod diferit decât

NORMSDIST. Din motive istorice, de fapt CHIDIST(x, ν ) este exact probabilitatea ca

variabila aleatoare )(2 νχ sa ia valori mai mari decât x (si nu mai mici decât x ca în cazul

lui NORMSDIST).

Formulele matematice adecvate ne permit sa calculam media si varianta acestor

variabile aleatoare. Rezultatele sunt usor de retinut, ambele fiind legate direct de numarul

de grade de libertate, anume:

38

ν=νχ ))(( 2E , ν=νχ 2))(( 2Var .

Folosirea intensiva a familiei variabilelor aleatoare (distributiilor) hi-patrat )}(2 ν{χ

este datorata unor rezultate importante din teoria esantionarii. Unul dintre aceste rezultate

este exprimat în felul urmator. Sa presupunem ca indivizii studiati sunt grupati, luându-se

în considerare doua criterii, în mai multe „modalitati”; numerele respective de indivizi

sunt inserate într-un tabel de contingenta

Coloana c Totaluri pe linii

… … … …

Linia r … rcn … •rn

… … … …

Totaluri pe coloane … cn• … ••n

(în care notatiile cu indici „punct” sunt traditionale).

Statistica

2

,

2

⋅−⋅

∑=••

••

••

••n

nnn

nnn

X crrc

crcr

exprima o anumita distanta dintre datele ( )rcn ale tabelului de contingenta si niste valori

calculate pe baza totalurilor pe linii si pe coloane.

Aceasta statistica este distribuita aproximativ )(2 νχ , unde numarul de grade de

libertate este exact )1()1( −⋅− CR , R fiind numarul de linii, iar C numarul de coloane ale

tabelului de contingenta.

În teoria esantionarii întâlnim un alt rezultat interesant. Sa presupunem ca avem un

esantion de volum n dintr-o populatie distribuita normal ),(N 2σµ – cu parametrii µ si

2σ necunoscuti – iar abaterea standard a datelor obtinute din esantion este s. Atunci câtul

2

2)1(

σ

− sn este o variabila aleatoare de tipul )1(2 −χ n , asadar cu 1−n grade de libertate.

(Evident, acest rezultat nu poate fi folosit direct, deoarece în general deviatia standard

teoretica σ nu este cunoscuta! Vom reveni.)

39

2.3. Distributii Student

Distributiile t au aparut acum un secol într-un articol al lui William Gosset, publicat în

1908 sub pseudonimul „Student”; din acest motiv ele sunt cunoscute si sub numele de

distributii Student. Familia )}(t{ ν a acestor distributii este „parametrizata” de acelasi

numar ν ca si familia )}({ 2 νχ . Motivul este evident daca-i luam în considerare definitia:

ννχ=ν

)()(t

2

Z .

Sa ne amintim ca Z reprezinta distributia normala standard, deci este de tipul N(0, 1),

iar ννχ )(2

este media aritmetica a patratelor a ν còpii ale distributiei normale standard.

Pentru a efectua calcule cu aceasta familie )}(t{ ν de distributii, în Excel avem la

dispozitie functia TDIST a carei utilizare este simpla:

TDIST(abscisa x, numarul gradelor de libertate, parametrul de lateralitate).

Parametrul de lateralitate are valoarea 1 (ceea ce înseamna „unilateral”), ori 2 (adica

„bilateral”).

În figura de mai jos este prezentata densitatea de probabilitate a distributiei t(10).

Curba este simetrica în raport cu originea, iar graficul ei pare similar cu o Gaussiana

(totusi, nu este!).

Densitatea de probabilitate a lui t(10)

(De fapt, pentru 30≥ν graficele lui )(t ν si N(0, 1) practic coincid.)

Folosirea familiei de distributii )}(t{ ν este justificata de rezultate importante din teoria

esantionarii. Iata doua dintre acestea:

40

1) Sa presupunem ca populatia este distribuita normal, cu media µ si varianta 2σ , si

sa consideram un esantion „mic” nxxx ,...,, 21 de volum n. Notam cu

nxxx

m n+++=

...21 media de esantion si cu s abaterea standard de esantion. Atunci

raportul

ns

m µ− are o distributie de tipul )1(t −n cu 1−n grade de libertate.

(Sa reamintim aici ca 2

2)1(

σ

− sn are o distributie hi-patrat cu 1−n grade de libertate.)

2) Sa presupunem ca avem la dispozitie doua esantioane din aceeasi populatie

(distribuita normal). Din primul esantion, de volum 1n , am calculat media de esantion 1m

si abaterea standard 1s . Analog, din al doilea esantion, de volum 2n , am calculat media

de esantion 2m si abaterea standard 2s . Daca cel putin unul dintre numerele 1n , 2n este

„mic”, atunci raportul

21

21

11nn

s

mm

+

− este distribuit Student cu 221 −− nn grade de

libertate. În acest raport patratul 2s al lui s este o medie ponderata a patratelor 21s si 2

2s

ale abaterilor standard respective, mai precis

2)1()1(

21

222

2112

−+−+−

=nn

snsns .

41

2.4. Distributii Fisher-Snedecor

Folosirea familiei de distributii asociate variabilelor aleatoare )},(F{ 21 νν , care sunt

cunoscute sub numele distributiile Fisher-Snedecor, este datorata si ea unor rezultate

din teoria esantionarii. Motivatia apare atunci când consideram probleme „practice” de

urmatorul fel: daca dispunem de datele din doua esantioane, care sunt extrase din

populatii distincte (presupuse a fi distribuite normal), oare împrastierea indivizilor din

cele doua populatii este aceeasi? (Cu alte cuvinte, deviatiile standard teoretice – sau

variantele – ale celor doua populatii sunt aceleasi?)

Evident, daca aceasta ar fi adevarat, atunci raportul variantelor (sau a deviatiilor

standard teoretice) ar fi egal cu 1. Stim ca deviatiile standard teoretice sunt estimate prin

abaterile standard de esantion. Atunci când raportul abaterilor standard de esantion este

„departe” de 1 (adica este fie „mare”, fie „apropiat de 0”), nu vom avea motive sa

acceptam ideea ca variantele coincid.

Definitia distributiilor Fisher-Snedecor (teoretice) este justificata daca tinem seama de

faptul ca deviatiile standard teoretice sunt estimate prin abaterile standard de esantion.

Prin definitie, ),(F 21 νν este raportul

22

21

12

)(

)(

ννχ

ννχ

a doua medii aritmetice.

În figura de mai jos sunt prezentate doua exemple de densitate de probabilitate pentru

distributii Fisher-Snedecor. Similaritatea cu formele densitatilor de probabilitate ale

distributiilor hi-patrat este aparenta. (Deosebirile sunt clare, daca observam pozitia

„vârfurilor”.)

Densitatile de probabilitate pentru F(10, 16) si F(8, 6)

42

În Excel functia care ne permite sa efectuam calcule cu distributiile Fisher-Snedecor

este FDIST.

În cazul a doua esantioane de volume 1n respectiv 2n , extrase din populatii distribuite

normal având aceeasi varianta – în particular extrase din aceeasi populatie – câtul

patratelor abaterilor standard de esantion 22

21

s

s are o distributie de tipul )1,1(F 21 −− nn ,

numerele de grade de libertate fiind 11 −n si 12 −n .

Utilizarea „practica” a tuturor distributiilor N, 2χ , t, F amintite anterior (si a multor

altora) în testarea statistica de semnificatie presupune alegerea unei valori care sa

delimiteze asa-numita „regiune de respingere”. Aceasta regiune va contine valorile care

sunt considerate „semnificativ” diferite de 0 (în cazurile N, 2χ , t) respectiv de 1 (în cazul

F). Ce înseamna „semnificativ” este o optiune personala, legata de riscul pe care suntem

pregatiti sa-l acceptam. Vom reveni asupra acestor chestiuni în cursul viitor.

43

2.5. Testarea bonitatii (goodness-of-fit)

Datele de recensamânt din multe tari arata ca proportia de nou-nascuti baieti este usor

mai mica decât 0.5, de obicei 0.49. Este unanim acceptat ca sexul unui nou nascut poate fi

considerat distribuit Bernoulli cu parametrul 0.49 si, ca variabila aleatoare, independenta

de oricare alta care reprezinta sexul altui nou nascut.

Oare aceasta opinie generala este sustinuta de datele statistice? Daca ipoteza de

independenta are fi adevarata, atunci numarul de baieti în familiile cu 4 copii ar avea o

distributie binomiala b(4; 0.49), descrisa (aproximativ) dupa cum urmeaza:

Numarul de baieti 0 1 2 3 4

Probabilitatea 0.068 0.260 0.374 0.240 0.058

Daca am colecta date de la, sa zicem, 1000 de familii cu patru copii, atunci ne-am

astepta la urmatoarele frecvente:

Numarul de baieti 0 1 2 3 4

Frecventa familiilor 68 260 374 240 58

Ce concluzie am trage daca am constata ca au fost înregistrate alte frecvente? Evident

ca abateri mari de la acestea ne-ar forta sa ne revizuim opiniile.

Situatia anterioara este un exemplu tipic de experiment multinomial. În general, un

asemenea experiment este caracterizat de:

a) Un numar de N observatii independente, fiecare putând fi clasata într-una dintre cele

K categorii notate KCCC ,...,, 21 . Frecventele asociate acestor categorii sunt notate cu

KOOO ,...,, 21 . Evident, NOOO K =+++ ...21 (adica volumul selectiei);

b) K probabilitati. Probabilitatea kp ca o observatie (arbitrara) sa fie clasata în

categoria k este cunoscuta si nu se modifica de la o observatie la alta ( Kk ,...,2,1= ).

Evident, 1...21 =+++ Kppp . Frecventele „asteptate” KEEE ,...,, 21 se calculeaza

folosind formula kk pNE ⋅= ( Kk ,...,2,1= ). Evident, NEEE K =+++ ...21 .

Oare datele observate confirma asteptarile? Evident, discrepante mari între datele

observate }{ kO si datele asteptate }{ kE vor contrazice ipoteza de independenta. Dar

problema majora este urmatoarea: cum ar putea fi evaluate discrepantele?

44

Solutia propusa de Karl Pearson (1857-1936, fondatorul revistei Biometrika) foloseste

numarul

( )22 1kk

kkEO

EX −∑=

ca o distanta. Din punct de vedere statistic, 2X este o statistica – adica o formula în care

apar datele obtinute dintrun esantion – a carei distributie este aproximativ cea a lui

( )12 −χ K si, prin urmare, se poate aplica un test de bonitate. Pragul dintre „discrepantele

mici” si „discrepantele mari” poate fi interpretat în termenii distributiei ( )12 −χ K .

În figura de mai jos acest prag a fost fixat tinându-se seama de un coeficient de

încredere de 95% (ceea ce corespunde aici la un nivel de semnificatie de 0.95).

În practica, daca folosim Microsoft Excel, putem utiliza functia CHITEST si sa-i

interpretam valoarea returnata (adica „valoarea p”) într-un mod special. Anume, valori

(foarte) apropiate de 1 vor fi interpretate astfel: „datele observate confirma ipoteza”.

De exemplu, sa presupunem ca datele colectate de la cele 1000 de familii cu patru

copii sunt urmatoarele:

Numarul de baieti k 0 1 2 3 4 Total

Numarul de familii cu 4 copii ce au k baieti (frecventa observata kO )

66 268 377 233 56 1000

Frecventa observata kE 68 260 374 240 58

Diferenta )( kEkO − –2 8 3 –7 –2

45

Valoarea p obtinuta (vezi figura urmatoare) este 0.963, ceea ce înseamna ca datele

obtinute din esantionul ales „suporta” opinia ca sexul celui de-al doilea nou nascut întro

familie este statistic independent de sexul primului nascut în acea familie.

Prima aplicatie a testului de bonitate hi-patrat dateaza din 1901, atunci când a fost

confirmata o teorie foarte importanta în genetica (aceasta deoarece doar în anul 1900 a

devenit cunoscut articolul publicat de Gregor Mendel în 1865!). Mendel a observat ca

anumite caracteristici ale plantelor de mazare pot disparea la urmasii directi, dar reaparea

la urmasii din a doua generatie.

O explicatie plauzibila este bazata pe ideea ca o caracteristica „genetica” a populatiei

este determinata în fiecare individ printro pereche de gameti, care sunt mosteniti câte unul

de la cei doi parinti. Acum, daca fiecare dintre cele doi gameti ar putea lua doar doua

valori (numite alele) A si a, atunci un individ dat este fie homozigot (ceea ce înseamna ca

pentru el cei doi gameti ai genei sunt identici, AA sau aa), fie heterozigot (cei doi gameti

sunt diferiti). Atunci când doi indivizi homozigoti de alele diferite se încruciseaza, toti

urmasii directi sunt heterozigoti identici (aceasta este „legea uniformitatii”).

Sa admitem ca acea caracteristica genetica este statura, cu doar doua valori posibile:

înalt si scund. Ipoteza este ca indivizii cu gameti AA sau Aa (= aA) sunt înalti, iar cei cu

gameti aa sunt scunzi (ceea ce înseamna ca alela A este „dominanta”).

Întro populatie în care alelele sunt distribuite echitabil, proportia de indivizi

homozigoti este 5.042 = , iar proportia de indivizi înalti este 75.0

43 = .

Daca proportia alelei dominante este π , atunci proportia de indivizi homozigoti este

22 )1( π−+π , iar proportia de indivizi înalti este )1(22 π−π+π . Mai mult, proportiile

celor trei genotipuri AA, Aa (= aA) si aa sunt, respectiv:

2π , )1(2 π−π , 2)1( π− .

46

Principiul Hardy – Weinberg afirma ca proportiile diverselor genotipuri ramân aceleasi

prin trecerea de la o generatie la urmatoarea (adica populatia este în echilibru).

Pentru a testa daca o populatie studiata este în echilibru, sa presupunem ca pentru 1000

indivizi, alesi întâmplator, au fost observate urmatoarele:

Genotipul AA Aa (= aA) aa Total

Frecventa observata 799 188 13 1000

Incidenta alelei A (care este o estimatie a lui π ) este evident

8925.010002

18518002 ==⋅

⋅+⋅p .

Prin urmare, se calculeaza urmatoarele „frecvente” asteptate:

Genotipul AA Aa (= aA) aa

Frecventa asteptata 796.56 21000 p⋅=

191.89 )1(21000 pp −⋅=

11.56 2)1(1000 p−⋅=

Testul hi-patrat produce o valoare p de 0.5251. Aceasta valoare nu „suporta” ipoteza ca

populatia este în echilibru. (Ceea ce ar trebui sa declanseze o investigatie suplimentara,

caci se presupune ca populatiile sunt în echilibru din punctul de vedere al majoritatii

caracteristicilor genetice.)

Mendel a obtinut 556 plante pe care le-a clasificat în patru grupuri, dupa doua

caracteristici:

• Forma (cu valorile rotund/colturos),

• Culoarea (cu valorile galben/verde).

Grupul rotund si galben

rotund si verde

colturos si galben

colturos si verde

Total

Frecventa observata 315 108 101 32 556

De aici a dedus ca rotund si galben sunt valorile determinate de alelele dominante A

respectiv B. Mendel a emis ipoteza ca aceste alele (si cele recesive corespunzatoare a

respectiv b) sunt distribuite echitabil în cadrul populatiei plantelor. Asadar ar trebui sa ne

asteptam la urmatoarele:

47

Grupul rotund si galben

rotund si verde

colturos si galben

colturos si verde

Proportia asteptata 169

163

163

161

Frecventa asteptata 312.75 104.25 104.25 34.75

Testul hi-patrat da o valoare p de 0.9254, care este suficient de mare pentru a confirma

ipoteza lui Mendel.

Un test de bonitate hi-patrat ar putea fi folosit pentru a confirma o distributie presupusa

a unei populatii, bazându-ne pe datele obtinute dintrun esantion ales aleator. De exemplu,

de la Adolphe Quételet (1796-1874, statistician belgian; indicele de masa corporala BMI

este cunoscut si ca indicele Quételet) se accepta ca cele mai multe dintre caracteristicile

numerice (cum ar fi înaltimea sau greutatea) ale populatiilor biologice mari sunt

aproximativ distribuite normal. Un test hi-patrat ar putea fi folosit pentru a confirma

normalitatea.

De obicei datele numerice Nxxx ,...,, 21 )( R∈ obtinute dintrun esantion de volum N

sunt grupate în K grupuri (sau „cutii”) determinate de 1−K valori de separare

121 ... −<<< Ksss iar frecventele observate kO se calculeaza cu usurinta.

(Mai precis, valoarea ix este plasata în „cutia” k daca

kik sxs ≤<− 1 , unde −∞=0s si +∞=Ks .)

Sa presupunem ca populatia este distribuita normal, cu media µ si varianta 2σ . Este

bine cunoscut faptul ca µ este estimat prin media de esantion N

xxx Nm +++= ...21 iar σ

este estimat prin abaterea (deviatia) standard 1

)(...)()( 222

21

−−++−+−=

Nmxmxmx Ns .

Odata ce m si s au fost calculate, este usor sa obtinem o estimare a probabilitatii ca o

valoare x sa apartina intervalului ],( 1 kk ss − :

xs

ps

mxk

k

k

s

s

d exp2

12

2

2

)(

1

−−∫

−π

=

iar de aici obtinem frecventa estimata NpE kk ⋅= a „cutiei” k.

48

În Microsoft Excel avem la dispozitie functia FREQUENCY pentru a obtine

frecventele observate kO , apoi functiile AVERAGE si STDEV pentru a obtine estimarile

m respectiv s. Cât despre probabilitatile estimate kp , avem la dispozitie NORMDIST. În

sfârsit, CHITEST va returna valoarea p.

În figura urmatoare este prezentata o foaie de calcul Excel. Au fost generate aleatoriu,

folosind generatorul RAND, 100 valori numerice. Care au fost grupate în 8 „cutii”.

Valoarea p este 0.07271, care nu ne confirma normalitatea datelor! Aceasta nu este

surprinzator, daca tinem seama ca functia RAND a fost programata sa genereze valori

distribuite uniform (si nu normal)!

Alte softuri produc diagrame care permit comparatii vizuale între histograma datelor

din esantion si un grafic al (densitatii) distributiei normale estimate. Decizia – adica

acceptarea sau respingerea ipotezei ca populatia este distribuita normal – este lasata

utilizatorului.

De exemplu, Statistica produce, din datele generate anterior, diagrama din figura

urmatoare.

(Sa ne dam seama de eroarea serioasa pe care am facut-o, intentionat, în exemplul de

mai sus. Pentru a o întelege si a nu o mai repeta, sa ne amintim ca fiecare test hi-patrat

este bazat pe o statistica 2X , care are doar aproximativ o distributie hi-patrat. Iar

aproximarea este buna doar daca frecventa asteptata pentru fiecare „cutie” este de cel

putin 5!)

49

Sa sumarizam testul de bonitate hi-patrat. El poate fi aplicat pentru orice distributie

uni-variata – fie ea discreta sau continua – pentru care functia de distributie Θ poate fi

calculata. Se presupune ca „ipoteza nula” este:

(H0): datele urmeaza distributia specificata

iar alternativa este

(Ha): datele nu urmeaza distributia specificata.

Numerele reale sunt separate în K cutii, fiecare cutie fiind un interval ],( 1 kk ss − care

contine cel putin o observatie. Statistica utilizata este

( )22 1kk

kEO

EX

k

−= ∑

în care kO este frecventa observata pentru cutia k iar kE este frecventa asteptata pentru

acea cutie, calculata prin folosirea formulei

))()(( 1−Θ−Θ⋅= kkk ssNE .

Statistica 2X este distribuita aproximativ )(2 CK −χ , unde C este 1 + numarul de

parametri care au fost estimati pentru distributia respectiva.

Pentru a se obtine o aproximatie buna se impune ca frecventa asteptata sa fie de cel

putin 5 pentru fiecare cutie. (Orice cutie cu frecventa asteptata mai mica decât 5 ar trebui

comasata cu o vecina a sa.)

În multe situatii practice, daca dorim sa folosim o anumita metoda, trebuie sa fie

satisfacute unele conditii (a priori). De exemplu, o conditie des întâlnita este ca

esantionul sa fie extras dintro populatie distribuita normal.

50

Testele de bonitate sunt instrumente adecvate confirmarii faptului ca datele disponibile

au o distributie specificata. Ceea ce vrem sa confirmam este ipoteza nula:

(H0): datele urmeaza o distributie specificata complet de functia de distributie

]1 ,0[: →RF

si sa respingem ipoteza

(Ha): datele nu urmeaza distributia specificata, ci alta.

Sa presupunem ca datele obtinute din esantion

Nxxx ,...,, 21

au fort ordonate crescator:

)()2()1( ... Nxxx ≤≤≤ .

În cazul unei functii de distributie F continue, pentru a aplica testul Kolmogorov-

Smirnov se calculeaza statistica urmatoare

− −−=

≤<)()( )( ,

1)(max

1 nNn

Nn

n xFxFDNn

.

În cazul unei functii de distributie F normale si al unui volum al esantionului între 10 si

40, pentru a aplica testul Anderson-Darling se calculeaza statistica urmatoare:

{ }))(1()(ln12

)1()(1

nNn

N

nxFxF

Nn

NA −+=

−⋅−

−− ∑= .

Acceptarea unei teorii, în urma unui test de bonitate, bazându-ne pe datele ce au fost

colectate dintrun esantion, este întotdeauna o decizie personala. (Evident, careia i se

ataseaza un anumit risc!)

Pentru a sustine o decizie subiectiva – atunci când fie detaliile, fie timpul nu sunt

suficiente, se poate folosi asa-numitul quantile-quantile plot (sau q-q-plot). Acesta este o

diagrama în care datele colectate, ordonate crescator

)()2()1( ... Nxxx ≤≤≤

sunt comparate cu datele

Nyyy ≤≤≤ ...21

51

care corespund distributiei teoretice specificate în (H0). Mai precis,

1)(

+=

Nn

nyF for } ..., ,2 ,1{ Nn∈ .

Un punct în q-q-plot – vezi figura urmatoare pentru un exemplu (obtinut cu SPSS) –

reprezinta o pereche ) ,( )( nn yx . Daca datele }{ nx ar fi fost „extrase” din distributia

specificata, atunci toate punctele s-ar fi situat exact pe diagonala. Prin urmare, ipoteza

nula va fi acceptata doar daca toate punctele sunt „apropiate” de diagonala.

52

Cursul 3. Esantionarea

Esantionarea este principala metoda a statisticii, folosita evident pentru obtinerea, de la

populatii „mari”, a unor valori dorite, necesare în procesele de luare a deciziilor, cum sunt

de exemplu evaluari ale proportiei îmbolnavirii, ale mediei unei populatii, ale dispersiei.

Cursul are ca scop prezentarea

a) principalelor tehnici de esantionare, generale si specifice, folosite pentru a se

obtine o certitudine cât mai mare a concluziilor,

b) modului în care se stabileste volumul unui esantion, în functie de gradul de

certitudine pe care l-am dori,

c) metodelor de comparare a doua populatii, la nivelul proportiilor, mediilor sau

variantelor.


3.1. Tehnici de esantionare ...................................................................................... 53

3.2. Distributiile esantioanelor ................................................................................ 55

3.3. Stabilirea volumului esantionului ..................................................................... 62

3.4. Compararea a doua populatii ............................................................................ 64

3.5. Compararea variantelor .................................................................................... 66

53

3.1. Tehnici de esantionare

Vom aborda în continuare problematica rezultatelor ce se obtin în urma esantionarii,

mai precis a calcularii probabilitatilor asociate statisticilor (ca formule!). Importanta

acestora va fi evidenta în lectia urmatoare (despre inferenta statistica).

Motivul principal pentru care folosim esantionarea atunci când examinam indivizii

unei populatii este costul (în timp si/sau în bani), iar motive secundare ar putea constitui

faptul ca examinarea poate fi destructiva, precum si dificultatea însasi a examinarii. În

acest caz, încercam sa extindem catre întreaga populatie rezultatele obtinute din esantion.

Exemplul cel mai familiar de esantionare ne este oferit de sondajele de opinie (cu scop

de informare politica sau sociala) în care doar o proportie foarte mica a populatiei (între

1000-1500 de indivizi din totalul de 10-15 milioane) este intervievata. În unele tari se

practica sondaje si în domeniul medical, intervievându-se fie pacientii, fie medicii.

Problema alegerii volumului esantionului, apoi problema alegerii fiecarui individ din

esantion, necesita ambele o discutie ampla. Caci tehnicile sociologice nu sunt adecvate

întotdeauna în medicina!

Esantionarea aleatoare simpla este poate cea mai elementara tehnica de obtinere a unui

esantion. Ea presupune ca fiecare individ al populatiei are aceleasi sanse, ca si oricare

altul, de a fi ales în esantion.

Aplicabilitatea ei este posibila atunci când tuturor indivizilor populatiei le sunt

asociate, în mod univoc, numere. Din punct de vedere computational singura dificultate

consta în construirea unui generator de numere (pseudo)aleatoare. Odata ce dispunem de

un asemenea instrument, prin folosirea sa repetata se va „decide” care indivizi ai

populatiei vor fi inclusi în esantion.

Dispunem astazi de mai multe metode de generare de numere (pseudo)aleatoare. De

mentionat ca una dintre acestea este implementata în Excel în functia RAND; ea se

bazeaza pe faptul ca o anumita secventa de operatiuni aritmetice, efectuate modulo un

numar prim foarte mare, repetata, produce o secventa de numere care – pentru un neavizat

– pare întâmplatoare.

Punctul de pornire poate fi decis de momentul apelarii acestei functii: datorita modului

în care functioneaza ceasul intern al calculatorului, acest punct de pornire este practic

incontrolabil (în absenta controlului asupra ceasului).

54

Deseori populatia pe care o studiem este stratificata natural, straturile având

dimensiuni diferite. Esantionul pe care-l alegem este numit reprezentativ în caz ca

distributia indivizilor esantionului pe straturi reflecta fidel distributia pe straturi în cadrul

populatiei.

Astfel, un esantion în care au fost selectati 120 de barbati si doar 60 de femei nu poate

fi considerat reprezentativ pentru populatia adulta a tarii. El poate fi considerat însa

reprezentativ în cazul în care indivizii selectati sunt suferinzi de o maladie despre care se

stie ca are incidenta dubla la barbati fata de femei.

Evident, în cadrul fiecarui strat se poate aplica o tehnica de selectie aleatoare „simpla”.

În cercetarea medicala se obisnuieste sa se stratifice populatia pe de o parte dupa sex,

în doua straturi, iar pe de alta parte dupa categoria de vârsta, în sase straturi:

sub 21 ani, 21-30 ani, 31-40 ani, 41-50 ani, 51-60 ani, peste 60 ani.

Evident, este posibila si stratificarea în 12 straturi, simultan dupa sex si categoria de

vârsta.

(În alte domenii de cercetare populatia se stratifica si geografic, sau conform unor

criterii profesionale sau socio-economice.)

Exista diverse alte tehnici de esantionare, utilizarea carora depinde de scopul urmarit.

Astfel, în caz ca suntem interesati în evaluarea unor modificari ce apar în timp, se poate

utiliza tehnica esantionarii în panel, ce consta în investigarea repetata în timp a aceluiasi

esantion.

De regula, în medicina se efectueaza doua tipuri esentiale de studii, în care se poate

practica esantionarea:

a) studii transversale (cross-sectional studies), prin care se încearca obtinerea unei

„imagini de moment” a populatiei studiate. Pot fi folosite pentru studierea asocierii

între diversele maladii;

b) studii prospective (prospective studies). Acestea mai poarta numele de studii de

cohorta, sau studii longitudinale. Sunt folosite pentru determinarea factorilor care

sunt legati de morbiditate.

55

3.2. Distributiile esantioanelor

Evident, o distributie de esantionare este rezultatul (pur teoretic al) diferitelor

esantionari posibile. Punctul de plecare este o populatie a carei distributie de probabilitate

este cunoscuta. Presupunem ca extragem un mare numar de esantioane, fiecare de volum

n (acelasi pentru toate). Pentru fiecare esantion extras presupunem ca vom calcula

valoarea unei statistici. (Reamintim ca prin „statistica” întelegem o formula de calcul cu

datele ce provin de la un esantion.) Ne va interesa distributia valorilor calculate.

Primul caz pe care-l abordam este cel al unei populatii de numere distribuite normal, cu

media µ si varianta 2σ (ambele presupuse cunoscute). Valorile posibile x pot fi

considerate ca fiind valorile unei variabile aleatoare normale ),(N 2σµ . Pentru fiecare

esantion de volum n, din care obtinem valorile nxxx ,...,, 21 , sa calculam media de

esantion

nxxx

m n+++=

...21 .

Esantioanele extrase vor „produce” astfel o populatie a acestor medii de esantion,

având o anumita distributie.

Sa notam cu M variabila aleatoare asociata distributiei mediilor de esantion. Pot fi

demonstrate o serie de rezultate interesante, dintre care mentionam:

1) media variabilei M (cu alte cuvinte, media distributiei esantioanelor de volum n)

coincide cu media µ a populatiei din care extragem esantioanele:

µ=)(ME ;

2) varianta variabilei M este legata de varianta 2σ a populatiei din care extragem

esantioanele prin relatia:

nMVar 2)( σ= .

Deviatia standard a variabilei M, cunoscuta si sub numele de eroarea standard a

mediei, este definita prin:

nM

σ=σ .

56

Rezultatul fundamental teoretic, aplicabil în aceasta situatie, este cunoscut sub numele

de teorema limita centrala:

Daca se extrag esantioane de volum n dintr-o populatie, atunci pentru valori „mari” ale

lui n mediile de esantion sunt distribuite (aproximativ) normal.

În caz ca X are o distributie normala ),(N 2σµ , atunci M are o distributie normala

),(N2

nσµ . Iar daca variabila aleatoare X este distribuita aproximativ normal, atunci M

va fi distribuita normal chiar si pentru valori „mici” ale lui n.

Asadar, ca o consecinta a teoremei limita centrala, putem accepta ca M este

(aproximativ) normala.

Ceea ce stim despre distributiile normale ne îndreptateste sa afirmam ca 99.7% dintre

mediile de esantion m se vor afla între limitele n

σ−µ 3 si

nσ

+µ 3 . Sa atragem atentia

asupra faptului ca teorema limita centrala este obtinuta în ipoteza ca sunt cunoscuti

parametrii µ si 2σ ai populatiei originare. Aceasta ipoteza nu corespunde realitatii.

Totusi, nimic nu ne împiedica, cu riscul de rigoare, sa estimam parametrul µ si/sau

parametrul σ pe baza datelor pe care le obtinem dintr-un esantion particular, anume prin

media de esantion m si respectiv prin abaterea standard de esantion s.

57

Inversând rationamentul anterior, putem concluziona ca avem sanse 99.7% ca

„adevarata” medie µ a populatiei originare sa se afle între limitele ns

m 3− si n

sm 3+ .

Am folosit de câteva ori cuvântul „parametru”. De fapt, prin parametru al unei

populatii întelegem un numar ce descrie, într-un anumit sens, populatia. Acest termen este

contrapus celui de statistica, prin intermediul caruia descriem populatia printr-un numar

calculat pe baza datelor provenite dintr-un esantion. Raportul parametru-statistica este de

aceeasi natura cu raportul probabilitate-frecventa relativa în legatura cu un eveniment.

Putem afirma asadar ca „parametrul unei populatii este estimat printr-o statistica”, la

fel cum afirmam ca probabilitatea unui eveniment este estimata printr-o frecventa

relativa.

În cele de mai sus am estimat parametrul µ mai întâi prin m, apoi prin intervalul

+−ns

mns

m 3 ,3 . Estimarea unui parametru poate fi facuta fie printr-un numar

(ceea ce înseamna estimare „punctuala”), fie printr-un interval.

Este destul de larg raspândita astazi practica estimarii prin intervale de încredere.

Cazul cel mai simplu este cel al unei populatii (cu alte cuvinte, variabile aleatoare) X

care are media µ necunoscuta, iar varianta 2σ cunoscuta. Parametrul în acest caz este µ .

Luând un esantion de volum n, stim ca media de esantion m este distribuita aproximativ

normal, cu media µ si varianta n2σ . (Sa ne amintim ca daca populatia nu este

distribuita normal, atunci o aproximare buna impune un volum n mare.)

Sansele ca media µ sa fie încadrata de limitele n

mσ

− 96.1 si n

mσ

+ 96.1 sunt de

95%. Figura de mai jos ne ajuta sa facem legatura între coeficientul de încredere (aici

95%) si aria cuprinsa sub graficul densitatii de probabilitate, între limite. Suntem 95%

siguri ca parametrul µ se afla undeva între limite. De aceea, se spune despre intervalul

σ+

σ−

nm

nm 96.1 ,96.1 ca este intervalul de încredere 95% pentru parametrul µ .

58

De obicei „coeficientul de încredere” se alege 95%, de aceea am si insistat asupra

acestei valori. Daca am fi ales un coeficient de încredere de doar 90%, atunci intervalul

de încredere 90% s-ar fi micsorat la

σ+

σ−

nm

nm 65.1 ,65.1 . Dimpotriva, un

coeficient de încredere de 99.7% ne-ar fi condus la un interval de încredere (99.7%) mult

mai larg. Marirea coeficientului de încredere are ca rezultat o „diluare a preciziei”

identificarii parametrului!

Trebuie sa atragem atentia asupra unei greseli logice pe care o facem „din instinct”,

atunci când afirmam ca „suntem 95% siguri ca parametrul µ se afla undeva în intervalul

de încredere 95%”. Da fapt, ceea ce stim este ca pe baza a 95% dintre esantioanele

posibile vom reusi sa cream intervale ce vor contine parametrul µ , iar intervalele pe care

le vom crea pe baza celorlalte esantioane nu vor contine pe µ . Cu alte cuvinte, 95%

dintre esantioane vor produce estimari corecte, iar 5% vor produce estimari gresite (adica

5% este riscul de a gresi bazându-ne estimarea lui µ pe un esantion).

Exemplu. Sa consideram o populatie distribuita uniform ]1 ,0[U . Stim ca media ei este

21=µ , iar varianta este

1212 =σ . Daca extragem un esantion de volum 12=n , atunci

media de esantion m va fi „aproape” de 21 , iar abaterea standard de esantion va fi

121 .

Exploatând faptul ca distributia mediei de esantion m este aproximativ normala, cu media

21 si abaterea standard

121 , putem afirma urmatoarele:

Daca dispunem de un generator de numere (pseudo)aleatoare uniforme în ]1 ,0[ – asa

cum este RAND în Excel – prin folosirea sa de 12 ori succesiv obtinem numerele

1221 ,...,, uuu . Calculând

59

6... 1221 −+++= uuug

putem afirma ca g este un numar (pseudo)aleator normal standard.

Ipoteza simplificatoare pe care am acceptat-o anterior – anume ca varianta 2σ a

populatiei este cunoscuta – este implauzibila. Mult mai plauzibila pare ipoteza ca atunci

când media µ nu este cunoscuta, nici varianta 2σ nu este cunoscuta.

Evident, ne putem gândi sa înlocuim pe σ cu abaterea standard s obtinuta exploatând

datele ce provin dintr-un esantion. Însa, daca facem aceasta înlocuire, apare o dificultate

suplimentara: distributia valorilor m provenite din esantioane nu mai este normala, prin

urmare exploatarea proprietatilor distributiei normale nu mai este posibila!

Se poate demonstra însa un alt rezultat, valabil pentru o populatie distribuita normal

),(N 2σµ . De data aceasta avem de-a face cu doi parametri, µ si 2σ , care descriu

(teoretic) populatia. Rezultatul este urmatorul:

daca extragem esantioane de volum n din populatie, atunci statistica

nsm

t/

µ−=

este distribuita Student cu 1−n grade de libertate.

Evident, în formula de mai sus,

nkn

k

xm ∑=

=1

si ∑=

−−

=n

kk mx

ns

1

2)(1

1,

iar nxxx ,...,, 21 sunt valorile obtinute din esantionul de volum n.

Exploatând acum ceea ce stim despre distributiile Student, sa alegem gradul de

încredere 90%. Exista un unic numar pozitiv 05.0t astfel încât aria de sub graficul

densitatii de probabilitate, între limitele 05.0t− si 05.0t , sa fie egala cu 0.90. Acest numar

05.0t îl putem gasi de exemplu cu Excel apelând

TINV(0.05, numarul de grade de libertate).

Sa ne aducem aminte ca pentru un numar de grade de libertate 30≥ν , distributia

Student )(t ν coincide practic cu distributia normala standard, valoarea 05.0t este practic

1.65, iar toate „complicatiile” anterioare devin superflue. Pentru 30≥n putem adopta

fara probleme intervalul de încredere 90% obtinut pe baza distributiei normale (si a

înlocuirii lui σ cu s). Totusi, în medicina întâlnim cel mai adesea esantioane „mici”, cu

60

numar de indivizi sub 30, ceea ce face utila cunoasterea modului de obtinere a

intervalelor de încredere pentru media µ pe baza distributiei Student.

În consideratiile anterioare, una dintre ipotezele fundamentale a fost normalitatea

distributiei populatiei. Deseori întâlnim populatii despre care nu are sens aceasta

presupunere. Cazul tipic este cel al unei populatii biologice ai carei indivizi fie sunt

imuni, fie nu sunt imuni fata de atacul unui virus. Problema de interes este determinarea

proportiei imunitatii π . De data aceasta, în locul variabilei aleatoare ),(N 2σµ avem de-a

face cu o variabila aleatoare Bernoulli )(πBe .

Acest numar π poate fi considerat acum parametrul care descrie „teoretic” populatia.

Evident, folosind datele ce sunt obtinute dintr-un esantion de volum n, parametrul π

poate fi estimat prin statistica „frecventa relativa de esantion”

nx

p =

în care x este numarul de „succese” constatat la indivizii esantionului.

Stim ca numarul de „succese” x este distribuit binomial ),(b πn – aceasta în ipoteza ca

alegerea unui individ în esantion este independenta de alegerea celorlalti – iar distributia

binomiala ),(b πn are media πn si varianta )1( π−πn . De aici rezulta ca si nx

p = este

distribuit binomial, cu media π si varianta n

)1( π−π. Pentru obtinerea unui interval de

încredere, vom folosi faptul ca distributiile binomiale sunt bine aproximate prin distributii

normale (de aceeasi medie si varianta) – bineînteles, în anumite conditii restrictive.

Sa reamintim aceste conditii:

9.01.0 <π< , 5≥πn , 5)1( ≥π−n

si sa le presupunem îndeplinite. Concluzionam ca p (frecventa relativa de esantion) este

distribuita aproximativ normal ))1(

,(Nn

π−ππ .

Alegând un grad de încredere de 95%, rezulta ca intervalul de încredere 95% pentru

parametrul π este urmatorul:

−+

−−

npp

pn

ppp

)1(96.1 ,

)1(96.1

unde p este frecventa relativa a „succeselor” calculata pe baza datelor din esantion.

61

Exemplu. Dorim sa estimam procentul pacientilor operati de apendicita în spitalul

judetean, care au necesitat o spitalizare mai lunga de 4 zile. Folosim datele unui esantion

de 150 de pacienti, dintre care 15 au necesitat spitalizare peste 4 zile.

Evident, procentajul dorit este estimat la %10%10015015

=×=p , iar 150=n .

Ce ne ofera în plus teoria estimarii prin intervale de încredere? Sa ne alegem un

interval de încredere 95%. Varianta estimatorului este

1509.0

1509.01.0

)( =⋅

=pVar

iar pentru intervalul de încredere 95% vom folosi coeficientul 1.96. Prin urmare,

1509.0

1509.0 96.11.096.11.0 +<π<− ,

adica %8.14%2.5 <π< , ceea ce înseamna ca putem fi aproape siguri ca sub 15% dintre

pacienti vor necesita spitalizare de durata peste 4 zile.

Observatie: conditiile de aproximare sunt satisfacute!

Exercitiu. A fost decelata prezenta unei bacterii infectioase la 8 pacienti dintr-un

esantion de 40 de pacienti (alesi aleator) dintr-un spital. În spital sunt în jur de 500 de

pacienti. Estimati, cu încredere 95% procentajul pacientilor spitalului afectati de bacterie.

Formula de evaluare a variantei frecventelor relative presupune ca populatia este

infinita (sau „foarte mare”). În cazul unei populatii „mici” având un numar de N indivizi,

formula trebuie modificata în urmatoarea

1)1(

)(−−

⋅−⋅

=N

nNn

pppVar

factorul de corectie 1−

−N

nN putând modifica sensibil evaluarile.

În literatura de specialitate se întâlneste notatia x pentru media de esantion (în loc de

m) atunci când X este notatia variabilei aleatoare continue, cu media µ si varianta 2σ . De

asemenea, eroarea standard a mediei de esantion x , adica n

σ, este notata cu )(xSE ,

initialele provenind de la „standard error”. Aceasta denumire este preferata atunci când

nu dorim sa facem confuzie între numarul n

σ ca abatere standard de esantion si numarul

σ care este abaterea standard a variabilei aleatoare X.

62

3.3. Stabilirea volumului esantionului

Sa observam ca atât în cazul mediei µ , cât si în cazul proportiei π , prin folosirea

datelor unui esantion am obtinut doua estimari:

a) o estimare punctuala m, respectiv p;

b) o estimare printr-un interval de încredere (bineînteles, alegând anterior coeficientul

de încredere).

Intervalul de încredere este centrat pe estimarea punctuala. Lungimea sa depinde de

coeficientul de încredere, de volumul esantionului si de varianta. Daca notam lungimea sa

cu 2L, atunci îl vom putea exprima astfel:

Lm <−µ , respectiv Lp <−π

(vezi figura urmatoare).

Estimarea valorii parametrului π , ca proportie a „succesului”, printr-un interval de

încredere 95% determinat prin folosirea datelor unui esantion prea mic ar putea conduce

la un interval mult prea mare pentru a putea fi folosit în luarea deciziilor.

Ar fi interesant sa punem problema în alt mod: sa determinam volumul unui esantion

care sa permita obtinerea unui interval de încredere „suficient de îngust”.

În aceasta abordare se presupune astfel ca a fost ales atât coeficientul de încredere c%

pentru estimarea unui interval de încredere (centrat pe estimarea „punctuala” p), cât si

limita L a erorii de estimare, aceasta din urma fiind valoarea absoluta a diferentei π−p

(între estimarea punctuala si valoarea parametrului).

În consecinta, intervalul de încredere c% va fi ] ,[ LpLp +− .

De exemplu, pentru coeficientul de încredere 90% va trebui sa rezolvam ecuatia:

Ln

pp=

−⋅

)1(65.1

63

în care p este proportia „succeselor” în esantionul ce va fi ales. De aici se obtine cu

usurinta volumul esantionului:

2

2 )1(65.1

L

ppn

−⋅⋅= .

Produsul )1( pp −⋅ are ca valoare maxima 0.25. Prin urmare, volumul esantionului

poate fi determinat (în situatia cea mai nefavorabila) din formula

2

2 25.065.1

Ln

⋅= .

Sa luam ca un caz particular %2=L . Rezulta 163902.0

25.065.12

2=

⋅=n , cu alte cuvinte,

va trebui sa investigam un esantion de 1639 indivizi pentru a ne „asigura” ca vom obtine

o estimare „precisa” a proportiei.

Este destul de evident ca aceasta tehnica este aplicabila doar rareori în medicina!

Sa rezumam felul în care se stabileste intervalul de încredere. Odata ales coeficientul

de încredere c%, din tipul distributiei esantioanelor (normala, Student, …) va fi

determinat un factor cΦ (în exemplele anterioare acesta era 1.65, 1.96 etc.). Apoi,

folosind datele provenite din esantion se va face o estimare „punctuala” e a parametrului

(în exemplele anterioare m pentru media µ , p pentru proportia π ) si de asemenea o

evaluare d a împrastierii. Intervalul de încredere c% va avea forma

] ,[ dede cc ⋅Φ+⋅Φ− .

Coeficientul de încredere c% este apropiat de 100%. Deseori el este înlocuit prin

%100 c− , procent apropiat de 0, care poarta numele de nivel de semnificatie. Vom

reveni.

64

3.4. Compararea a doua populatii

În aceasta sectiune vom extinde metodele de estimare pentru situatii în care scopul

principal este cel de a compara doua populatii (ceea ce poate însemna doua straturi ale

aceleiasi populatii, sau aceeasi populatie examinata la doua momente de timp).

Comparatia poate fi facuta la nivelul mediilor (atunci când datele sunt cantitative) sau

la nivelul proportiilor (atunci când datele sunt calitative). Ca exemple tipice, pentru prima

situatie putem considera rezultate (numerice) de laborator care stabilesc nivelul scaderii

colesterolului în sânge ca efect al folosirii a doua medicamente diferite, iar pentru a doua

situatie, efectul folosirii unui medicament întaritor exprimat prin procentajul indivizilor la

care acest medicament are efect.

Evident, esantioanele pe care le investigam pot avea acelasi volum sau nu.

Sa presupunem ca din prima populatie, distribuita (aproximativ) normal cu parametrii

1µ si 21σ , extragem un esantion de volum 1n si, pe baza datelor obtinute din acestea,

calculam media de esantion 1m si varianta de esantion 21s . În mod analog, din a doua

populatie, distribuita si ea (aproximativ) normal cu parametrii 2µ si 22σ , extragem un

esantion de volum 2n si calculam media de esantion 2m si varianta de esantion 22s .

Compararea populatiilor facându-se prin medii, va trebui sa estimam, printr-un interval

de încredere, diferenta 21 µ−µ , care este estimata punctual prin diferenta 21 mm − .

Asadar, va trebui sa analizam distributia diferentelor 21 mm − provenite din doua

esantioane cumulate, mai precis sa evaluam varianta acestei distributii.

Se poate stabili ca pentru esantioane „mari” (având cel putin 30 de indivizi), aceasta

varianta este egala cu 2

22

1

21

nnσ

+σ

, asadar este estimata prin 2

22

1

21

ns

ns

+ . Intervalul de

încredere 95% pentru diferenta 21 µ−µ va fi urmatorul:

] ,[ 2121 LmmLmm +−−−

unde 2

22

1

2196.1

ns

ns

L +⋅= .

Pentru cazul în care cel putin unul dintre esantioane este „mic” (are cel mult 30 de

indivizi), formula de estimare a variantei este ceva mai complicata.

65

Exemplu. Pentru a putea compara între ele doua medicamente ce reduc nivelul

colesterolului în sânge (cauza principala a atacurilor de cord), a fost efectuat un studiu

preliminar. În cazul acestuia au fost selectati 64 de barbati, aleatoriu dintr-un total de 220

pacienti având nivel ridicat de colesterol. Dintre acestia, 33 au folosit medicamentul A,

iar ceilalti 31 au folosit medicamentul B timp de trei saptamâni.

Masurându-se scaderea procentuala a nivelului colesterolului, s-au obtinut urmatoarele

rezultate:

Medicamentul A Medicamentul B

331 =n 312 =n

%4.51 =m %9.42 =m

%2.11 =s %6.12 =s

Pe baza acestor date, sa estimam printr-un interval de încredere 95% diferenta între

scaderile procentuale determinate de cele doua medicamente. Diferenta 21 mm − este de

0.5%, iar semi-lungimea intervalului de încredere este

%7.0316.1

332.1

96.122

≈+⋅=L

prin urmare acest interval este ]2.1 ,2.0[−

Sa abordam acum cazul în care compararea populatiilor se face prin proportii si sa

încercam sa estimam diferenta 21 π−π prin intervale de încredere. Evident, ea este

estimata punctual prin 21 pp − .

Independenta esantioanelor ne conduce la urmatoarea formula a variantei

2

22

1

1121

)1()1()(

nnppVar

π−π+

π−π=−

asadar la estimarea

2

22

1

1121

)1()1()(

npp

npp

ppVar−

+−

=− .

Intervalul de încredere 95% pentru diferenta 21 π−π va fi asadar

] ,[ 2121 LppLpp +−−−

unde 2

22

1

11 )1()1(96.1

npp

npp

L−

+−

⋅= .

66

3.5. Compararea variantelor

Atunci când comparam între ele doua populatii distribuite normal, comparatia se poate

face la nivelul mediilor 1µ si 2µ si/sau la nivelul variantelor 21σ si 2

2σ (vezi figura

urmatoare).

În cazul compararii mediilor este utilizata de obicei diferenta 21 µ−µ , care poate fi

pozitiva sau negativa. Cazul compararii variantelor trebuie tratat însa altfel, întrucât

variantele sunt întotdeauna pozitive!

Se obisnuieste sa se ia în considerare raportul 22

21

σσ . Evident, în situatia în care cele

doua variante sunt de valori apropiate, raportul lor este apropiat de 1.

În studiile care sunt facute asupra unei populatii avem uneori de-a face cu doua

esantioane diferite – alese în moduri independente unul de celalalt. Din primul, de volum

1n , obtinem o medie de esantion 1m si o varianta de esantion 21s , ca estimari pentru

parametrii µ si 2σ . Din al doilea esantion, de volum 2n , obtinem o medie de esantion

2m si o varianta de esantion 22s , acestea fiind si ele estimari pentru parametrii µ si 2σ , la

fel de „bune” ca si estimarile obtinute din primul esantion. Ar trebui sa ne asteptam la

valori aproximativ egale pentru 1m si 2m , ca si pentru 21s si 2

2s .

Sa ne imaginam ca putem cumula cele doua esantioane, obtinând astfel un esantion

„global” de volum 21 nn + . Instinctiv apreciem ca media de esantion, care se calculeaza

cu formula

21

2211

nnmnmn

m++

=

67

(asadar ca medie a lui 1m si 2m , ponderata cu volumele esantioanelor respective) va

constitui o estimare „mai buna” pentru parametrul µ .

Putem avea încredere în aceasta apreciere instinctiva? Problema neîncrederii apare

atunci când variantele de esantion 21s si 2

2s difera mult între ele, cu alte cuvinte atunci

când raportul 22

21

ss difera mult de 1. În situatii de acest fel înclinam sa credem ca

alegerea celor doua esantioane s-a facut necorespunzator, este ca si cum esantioanele ar fi

fost alese din populatii diferite.

Ce înseamna „difera mult de 1” poate fi precizat prin intermediul obisnuitului

coeficient de încredere. Iar intervalul de încredere 95% se obtine stiind ca raportul 22

21

ss

are o distributie Fisher-Snedecor cu 11 −n si 12 −n grade de libertate.

De mentionat faptul ca intervalul de încredere 95% este stabilit pentru raportul

variantelor 22

21

σσ si are forma:

⋅⋅

22

21

22

21 1

,'s

sfs

sf

unde numerele f si 'f (care depind evident de coeficientul de încredere, dar si de numarul

gradelor de libertate) pot fi obtinute în Excel apelând

FINV(0.025, 11 −n , 12 −n ) respectiv FINV(0.025, 12 −n , 11 −n ).

Figura urmatoare ne exemplifica aceste numere ( 65.2=f , 86.2'=f ) pentru situatia

unor esantioane de volume 15 si respectiv 20 indivizi.

68

Cursul 4. Testarea statistica de semnificatie


4.1. Inferenta adevarurilor stiintifice: teste de semnificatie ...................................... 69

4.2. Relatia între ipoteza alternativa si ipoteza nula în testarea ipotezelor ................ 72

4.3. Testarea ipotezelor, abordarea clasica ............................................................... 75

4.4. Exemplu: compararea mediilor ......................................................................... 77

4.5. Compararea mediilor, abordarea practica .......................................................... 89

4.6. Exemplu: compararea proportiilor..................................................................... 91

69

4.1. Inferenta adevarurilor stiintifice: teste de semnificatie

Cunoasterea umana se îmbunatateste continuu; cercetatorii stiintifici dobândesc cu

fiecare zi ce trece noi cunostinte. Care le sunt metodele?

Atunci când apare un fenomen nou, oamenii rationali încearca sa-i detecteze cauzele, si

avanseaza diverse ipoteze care li se par plauzibile. Ulterior, în urma observarii altor

aparitii ale fenomenului, unor ipoteze le creste, altora le scade veridicitatea, fiind posibil

chiar sa se renunte la ele; într-un cuvânt, plauzibilitatea fiecarei ipoteze „explicative” este

reevaluata.

Testarea statistica de semnificatie este o metoda de stabilire a gradului de plauzibilitate

(veridicitatii?). Particularitatea sa este limpede: se refera la un anumit tip special de

ipoteze, cunoscute sub numele de ipoteze statistice.

Într-o abordare de bun simt, a testa o anumita presupunere (adica o ipoteza) careia

experienta noastra personala ne spune sa-i acordam crezare, este usor de explicat:

admitem ca ipoteza ar fi adevarata, apoi comparam observatiile (adica datele obtinute din

lumea reala) cu consecinte logice ale ipotezei noastre. Daca observatiile de care dispunem

sunt compatibile cu consecintele la care ne asteptam, atunci vom continua sa credem – si

în cele mai multe cazuri ne vom întari „credinta” – în presupunerea noastra. Evident, daca

ceea ce observam nu se potriveste suficient de bine cu asteptarile noastre, atunci

„credinta” noastra în validitatea presupunerii va scadea, uneori atât de mult încât vom

„respinge” cu totul presupunerea facuta.

(Trebuie sa subliniem aici cât de vagi sunt afirmatiile din paragraful precedent:

întelesul precis al sintagmei „suficient de bine” este lasat la latitudinea cititorului. La fel

si responsabilitatea oricarei consecinte neplacute pe care ar putea-o avea o decizie

gresita!)

Evident, ipotezele avansate de catre cercetatorii stiintifici sunt cunoscute ca ipoteze

stiintifice. Efectuarea unui test de semnificatie (cunoscuta si sub numele de testarea

ipotezelor) este o metoda folosita pentru a testa o presupunere, în care credem, despre o

întreaga populatie, prin folosirea datelor obtinute dintr-un esantion. În general, rezultatul

unui test de semnificatie este exprimat printr-un numar. Acest numar reflecta cât de

plauzibila este ideea ca valoarea unei anumite statistici descriptive – care este calculata

din datele obtinute din acel esantion – ar putea proveni dintr-un esantion aleator.

70

Abordarea initiala a lui Robert A. Fisher (publicata în cartea Statistical Methods for

Research Workers în anul 1925!) a fost dedicata cercetatorilor stiintifici: validitatea unei

ipoteze stiintifice este stabilita pe baza unui singur test, cu optiunea de a nu emite o

judecata definitiva atunci când rezultatul nu este „suficient de limpede”. În aceasta

abordare sunt posibile doar doua optiuni: fie vom „respinge ipoteza nula”, fie vom amâna

decizia (nu sunt suficiente date pentru a trage vreo concluzie).

Despre medici se poate spune ca destul de rar sunt „cercetatori”; din contra, cea mai

mare parte a activitatii lor consta în luarea de decizii. De regula, oamenii care iau decizii

(agentii decizionali) le iau bazându-se pe informatii partiale, limitate. Un om rational

încearca sa minimizeze costul deciziilor gresite. Abordarea sa, atunci când este confruntat

cu alegerea între doua ipoteze aflate în competitie, este clara: va alege una, iar decizia de

alegere va fi luata pe baza informatiilor obtinute anterior din esantioane.

Fie în postura de cercetator stiintific, fie în cea de agent decizional, vom fi în masura

de a lua decizii rationale – în urma efectuarii unui test de semnificatie – doar atunci când

vom întelege pe deplin esenta acestor teste. Aceasta implica doua aspecte:

1) Pe de o parte, va trebui sa întelegem la ce tip de probleme testele de semnificatie

ofera (cel putin partial) raspunsuri, iar

2) Pe de alta parte, va trebui sa întelegem natura informatiilor pe care ni le ofera aceste

teste.

Din punctul de vedere al întelegerii lumii înconjuratoare, dar si din punctul de vedere

al logicii, abordarea lui Fisher este usor de explicat: ipotezele stiintifice se refera la

populatii teoretice, care au de obicei un numar infinit de indivizi si sunt reprezentate de

distributii continue. O ipoteza stiintifica este înlocuita printr-o ipoteza statistica,

exprimata prin intermediul parametrului acelei populatii (cum ar fi proportia, media etc.).

Valoarea parametrului este estimata prin exploatarea datelor obtinute dintr-un esantion

extras din populatie, apoi este comparata cu o valoare „asteptata”. Discrepanta dintre cele

doua va influenta „credinta” noastra în validitatea ipotezei stiintifice.

Ipoteza statistica asociata ipotezei stiintifice este bazata, astfel, pe un esantion „mic”

extras dintr-o populatie finita (posibil „mare”). O prima eroare ce poate fi facuta îsi are

originea în identificarea ipotezei stiintifice cu cea statistica asociata. Totusi, atunci când

folosim metodele statisticii, identificam de fapt aceste doua ipoteze si încercam sa

evaluam riscul erorilor pe care le-am putea face.

71

Cercetatorii stiintifici folosesc pe scara larga un rationament – incorect în logica

clasica – numit în latina abductio:

HOOH ,⇒

si un altul – corect în logica clasica – numit modus tollens:

HOOH

¬¬⇒ ,

Aici litera H reprezinta o ipoteza stiintifica, iar litera O reprezinta observatia. În

ambele rationamente de mai sus implicatia OH ⇒ este considerata a fi o cunostinta

dobândita, adica este acceptata ca „absolut sigura”. Evident, faptul ca observam O ne

sporeste „credinta” în ipoteza H (totusi, nu ne garanteaza ca H ar fi „valida”, nici

„adevarata”), iar observarea lui O¬ exclude pe H din rândul ipotezelor valide. Asadar, în

logica clasica nu putem demonstra o ipoteza (ca fiind adevarata) dar o putem exclude.

Din acest punct de vedere „clasic”, un adevar stiintific este o afirmatie care are o foarte

mica probabilitate de a fi dovedita ca incorecta în viitor (Karl Popper, The Logic of

Scientific Discovery ,1959).

Pe scurt, ideea testarii ipotezelor (adica a testelor de semnificatie) este simpla: ipoteza

statistica va servi ca alternativa la o alta ipoteza – asa-numita „ipoteza nula” – care este

luata în considerare doar pentru a fi respinsa. Prin acceptarea adevarului ipotezei nule vor

rezulta anumite consecinte statistice, iar acestea vor fi confruntate cu datele observate.

Orice dovada aflata în contradictie cu ipoteza nula va servi ca justificare a alternativei.

72

4.2. Relatia între ipoteza alternativa si ipoteza nula în testarea ipotezelor

Am afirmat anterior ca o ipoteza statistica este o afirmatie despre un parametru al

populatiei (sau despre mai multi parametri ai populatiei/populatiilor). O asemenea

afirmatie este legata de ipoteza stiintifica luata în considerare (sau este o consecinta

logica a ipotezei stiintifice).

Sa prezentam, în continuare, prin câteva exemple felul în care se relationeaza cele doua

tipuri de ipoteze. Anume, sa consideram urmatoarele afirmatii:

(1) La vârsta de 10 ani, fetele sunt mai inteligente decât baietii,

(2) Vârsta „foarte înaintata” este un predictor semnificativ al maladiei Alzheimer,

(3) Copiii sunt mai creativi decât adultii,

(4) Medicamentul A ajuta pacientii sa se însanatoseasca mai bine decât medicam. B,

(5) Medicii barbati si femei au salarizari diferite,

(6) Pacientii îsi revin în urma unui tratament standard,

(7) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor pierde

în greutate exact 2 kg,

(8) Medicamentul D nu are nici un efect asupra tuberculozei,

(9) Efectele medicamentului E asupra bolnavilor barbati si femei sunt similare.

Recunoastem în cele noua afirmatii de mai sus enunturi ale „credintelor” specialistilor

si profesionistilor, rezultate din lunga lor experienta personala.

Se poate observa o distinctie clara între primele sase si ultimele trei: acestea din urma

exprima o egalitate, o similaritate sau o coincidenta (sa observam ca „nu are efect”

înseamna „nu schimba cu nimic situatia”, sau ca „situatia de dinaintea tratamentului cu

medicament este aceeasi cu situatia de dinainte”). Din contra, primele sase afirmatii

exprima o inegalitate, o disimilaritate sau o diferenta.

Aceasta distinctie este esentiala pentru posibilitatea aplicarii testarii ipotezelor. Este

esential sa subliniem ca testarea statistica de semnificatie poate fi aplicata doar ipotezelor

stiintifice care sunt exprimate ca inegalitati, disimilaritati sau diferente; în niciun caz

egalitati cum este cea din (7) nu pot fi confirmate ca „adevarate” prin testare statistica de

semnificatie. Probabil ca ceea ce specialistul nostru (sa fie oare aceste Dr. C?) vroia sa

exprime era urmatoarea afirmatie:

(7’) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor

pierde în greutate cel putin 2 kg

73

iar în aceasta forma ea ar putea servi ca punct de plecare pentru o testare statistica de

semnificatie.

Sa înlocuim cele sapte ipoteze stiintifice (1)-(6) si (7’) de mai sus prin ipotezele

statistice corespunzatoare. Va trebui sa implicam unii parametri ai populatiilor respective:

(1a) IQ-ul mediu al fetelor în vârsta de 10 ani este mai mare decât IQ-ul mediu al

baietilor în vârsta de 10 ani,

(2a) Incidenta maladiei Alzheimer este mai mare la persoanele de vârsta foarte

înaintata (prin comparatie cu persoanele de vârsta înaintata),

(3a) Indicele mediu de creativitate al copiilor este mai mare decât cel al adultilor,

(4a) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este mai

mare decât proportia corespunzatoare pentru medicamentul B,

(5a) Salariul mediu al medicilor barbati difera (este mai mare?) decât salariul mediu al

medicilor femei,

(6a) Starea medie de sanatate a pacientilor, în urma unui tratament standard, este mai

buna decât înaintea începerii tratamentului,

(7a) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa

de faimosul dietetician Dr. C este de cel putin 2 kg.

Toate aceste afirmatii vor putea servi ca ipoteze alternative în testari de semnificatie. În

general, într-o testate statistica de semnificatie, ipoteza alternativa este o afirmatie despre

parametrii unei/unor populatii, care înlocuieste ipoteza stiintifica (presupusa plauzibila).

(Sa facem observatia ca în toate exemplele de mai sus, ca parametri ai populatiilor au fost

considerati medii sau proportii.)

Se obisnuieste sa fie numita ipoteza alternativa si sa fie notata cu Ha (sau H1) tocmai

ipoteza stiintifica luata în considerare, ca afirmatie exprimând o inegalitate, o

disimilaritate sau o diferenta.

Din punct de vedere logic, în aceiasi termeni am putea enunta si o alta afirmatie, de

data aceasta exprimând egalitatea sau inegalitatea inversa, similaritatea sau coincidenta.

Aceasta afirmatie este notata cu H0 si este numita ipoteza nula. Conform lui R. A. Fisher,

ipoteza nula este „ridicata” – ca un complement al ipotezei alternative – doar pentru a fi

respinsa, iar prin respingerea ei vom accepta ca „adevarata” ipoteza stiintifica initiala.

Sa prezentam aceste afirmatii pentru cele sapte exemple de mai sus:

74

(10) IQ-ul mediu al fetelor în vârsta de 10 ani este egal cu IQ-ul mediu al baietilor în

vârsta de 10 ani,

(20) Incidenta maladiei Alzheimer la persoanele de vârsta foarte înaintata este aceeasi

cu cea la persoanele de vârsta înaintata,

(30) Indicele mediu de creativitate al copiilor este egal cu cel al adultilor,

(40) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este egala cu

cea corespunzatoare pentru medicamentul B,

(50) Salariul mediu al medicilor barbati este egal cu salariul mediu al medicilor femei,

(60) Starea medie de sanatate a pacientilor, în urma unui tratament standard, nu sufera

nicio schimbare,

(70) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa

de faimosul dietetician Dr. C este de exact 2 kg.

R. A. Fisher a dat numele de „ipoteza nula” deoarece aceasta ipoteza ar trebui sa fie

„anulata”. Acest nume a fost retinut si a supravietuit probabil datorita faptului ca în multe

cazuri ipoteza nula poate fi scrisa sub forma unei „egalitati cu zero”:

(H0) 0)( =πf

în care f este o functie de parametrii π ai populatiilor implicate în testare. Poate ca cel

mai bun exemplu este urmatorul:

(10) 0=µ−µ bf

în care parametrii fµ si bµ reprezinta IQ-ul mediu al fetelor, respectiv baietilor în vârsta

de 10 ani.

Exista întotdeauna posibilitatea ca ipoteza nula sa fie ea cea adevarata, deci prin

respingerea ei sa facem o eroare. Probabilitatea unei erori de acest fel este cunoscuta în

medicina ca valoarea p (a ipotezei alternative!) si este interpretata de obicei ca riscul

acceptarii ipotezei stiintifice ca adevarata.

Admitând ca dispunem de informatii complete despre distributia populatiei, singura

sursa de eroare ar ramâne maniera în care sunt alesi indivizii din esantion. Atunci când

esantionul este ales aleator, diferentele dintre ceea ce ne asteptam si ceea ce constatam

vor putea fi explicate doar prin factorul „sansa”. Vom putea impune un prag asupra

acestor diferente, separând diferentele „mici”, acceptabile, de cele „mari”, inacceptabile.

Acest prag este identificat odata cu specificarea nivelului de semnificatie.

75

4.3. Testarea ipotezelor, abordarea clasica

Asa cum am aratat anterior, în orice testare de ipoteza se considera si se prelucreaza

datele obtinute dintr-un esantion. Evident, procedura de esantionare este presupusa

aleatoare, iar de obicei se accepta ca populatiile studiate sunt distribuite normal.

În abordarea clasica, ce preia idei din teoria deciziilor, o testare statistica de

semnificatie se efectueaza în cinci pasi consecutivi, dupa cum urmeaza:

Pasul 1: Specificam ipoteza alternativa, apoi ipoteza nula.

Pasul 2: Alegem statistica adaptata situatiei concrete.

(Reamintim ca statistica înseamna aici „formula în care apar datele extrase dintr-un

esantion”.)

Pasul 3: Alegem nivelul de semnificatie, si pe baza sa pragul de separare (între

diferentele acceptabile si cele inacceptabile).

Pasul 4: Calculam valoarea statisticii, folosind efectiv datele din esantion (ales aleator).

Pasul 5: Decidem, prin compararea valorii calculate cu pragul dat de nivelul de

semnificatie, daca sa respingem sau nu ipoteza nula.

Discutia în jurul testarii statistice de semnificatie începe cu ultimul pas. Aici un agent

decizional va trebui fie sa respinga ipoteza nula H0 (si prin urmare sa accepte ipoteza

alternativa Ha), fie sa nu respinga pe H0. În realitate H0 este fie adevarata, fie falsa – dar

agentul decizional nu cunoaste situatia reala. Cele patru posibilitati ce pot fi identificate

sunt urmatoarele:

Realitatea (necunoscuta)

H0 este falsa H0 este adevarata

Respingem H0 Corecta! Eronata (eroare

de tipul I)

Decizia

Nu respingem H0 Eronata (eroare de

tipul al II-lea)

Corecta!

76

În doua dintre ele decizia este corecta. Atunci când respinge o ipoteza H0 care este

adevarata, agentul nostru face o eroare de tipul I. Iar când nu respinge o ipoteza H0 falsa

agentul face o eroare de tipul al II-lea.

În testarea statistica de semnificatie o importanta maxima o are eroarea de tipul I.

Probabilitatea ei, cu alte cuvinte numarul

)adeväratä este H|eronatä decizie(P 0=α

este nivelul de semnificatie a carui valoare a fost aleasa anterior (la Pasul 3).

Evident, fiecare agent de decizie doreste sa pastreze nivelul de semnificatie cât mai

mic posibil – întrucât este de fapt probabilitatea de a face o eroare! Astfel ca valori cum

este 05.0=α sunt destul de des întâlnite, iar în stiintele medicale se recomanda alegerea

unor valori mai mici, de exemplu 001.0=α .

77

4.4. Exemplu: compararea mediilor

Sa prezentam în cele ce urmeaza exemple tipice de aplicare a testarii statistice de

semnificatie.

Exemplul 1: Sa presupunem ca ipoteza alternativa este (7a) de mai sus, iar ipoteza nula

este (70). (Sa facem observatia ca ipoteza alternativa este exprimata sub forma de „cel

putin”, adica este unilaterala.)

Începem prin a presupune ca (70) este adevarata, adica este adevarat ca persoanele care

urmeaza dieta prescrisa de faimosul dietetician Dr. C vor pierde în greutate, în medie, 2

kg pe saptamâna. Implicit, vom presupune ca pierderea saptamânala în greutate este o

variabila aleatoare, distribuita normal cu media 2=µ si varianta 2σ (necunoscuta).

Esantionul de volum N, extras din populatia indivizilor care urmeaza dieta, înseamna de

fapt secventa NXXX ,...,, 21 a pierderilor saptamânale în greutate corespunzatoare

indivizilor selectati, care de fapt sunt variabile aleatoare independente de tipul ),(N 2σµ .

Se stie ca, în aceste conditii, media de esantion,

)...(1

21 NXXXN

M +++= ,

considerata ca variabila aleatoare, are si ea o distributie normala cu aceeasi medie µ , dar

varianta N

2σ . De aici rezulta ca populatia valorilor

N

Mσ

− 2 obtinute din diversele

esantioane de volum N poate fi considerata variabila aleatoare de tipul )1 ,0(N , adica

având o distribuitie normal standard.

Totusi, asa cum am aratat mai sus, varianta 2σ nu este cunoscuta. Asa cum am precizat

în lectia precedenta, de obicei este estimata prin asa-numita varianta de esantion:

))(...)()((1

1 222

21

2 MXMXMXN

S N −++−+−−

=

si suntem interesati în formula

NSM

T2−

= .

Aceasta formula va fi aleasa (la pasul 2) drept statistica ce va fi utilizata la pasul 4.

78

Se stie ca T este o variabila aleatoare distribuita Student; mai precis, este de tipul

)1(t −N .

În cea mai mare parte, valorile lui T sunt concentrate în jurul lui 0. Totusi, deoarece

valori 2<M vor fi în contradictie cu ipoteza unilaterala (7a), suntem interesati doar în

valorile pozitive ale lui T. Valorile pozitive ce sunt în afara intervalului ] ,0[ t –

determinat de o „valoare critica” t – vor fi considerate ca difera semnificativ de 0. Aceste

valori formeaza asa-numita regiune de respingere, deoarece în cazul aparitiei unei

asemenea valori agentul decizional va respinge ipoteza nula (a se vedea figura de mai

jos).

Odata ce a fost ales nivelul de semnificatie α (la pasul 3), pragul (adica valoarea

critica) 0>αt care delimiteaza regiunea de respingere ) ,( ∞+αt este determinat unic (si

bine aproximat computational) din conditia

α=> α )(P tT ,

care este de fapt urmatoarea:

α−=≤ α 1)(P tT .

Asadar, testarea statistica de semnificatie se efectueaza astfel: dupa ce am ales un nivel

de semnificatie α convenabil, calculam imediat pragul 0>αt din conditia α−=Θ α 1)(t

unde Θ este functia de distributie a variabilei aleatoare )1(t −N . Alegem apoi un esantion

aleator de volum n, obtinem de la indivizii acestuia datele nxxx ,...,, 21 , apoi calculam

valoarea

ns

mt

2−=

79

unde )...(1

21 nxxxn

m +++= iar

))(...)()((1

1 222

21 mxmxmx

ns n −++−+−

−=

Decizia finala la pasul 5 va fi luata luând în considerare doar relatia între aceasta

valoare calculata t si αt . Anume, daca α> tt , vom respinge ipoteza nula.

Ca un caz particular, fie 10=n si sa alegem nivelul de semnificatie 05.0=α .

De aici – cautând într-o tabela a distributiei )9(t , sau folosind o functie speciala cum

este TINV în Microsoft Excel – vom gasi pragul 2622.205.0 ≈t . Acum, sa presupunem ca

de la cei 10 indivizi ai esantionului am obtinut urmatoarele date:

Individul Scaderea saptamânala în greutate


1 2.3 kg 6 2.2 kg 2 2.8 kg 7 2.2 kg 3 2.1 kg 8 2.6 kg 4 3.0 kg 9 2.4 kg 5 2.3 kg 10 2.1 kg

Sa facem observatia ca pentru toti indivizii din esantion scaderea saptamânala în

greutate este mai mare de 2 kg.

Acest fapt, în sine, face ca sa avem încredere în adevarul alternativei! Media de

esantion este (kg) 4.2)1.24.26.22.22.23.20.31.28.23.2(101

=+++++++++ , iar varianta

de esantion este 0933.02 ≈s ( 3055.0≈s ). Prin urmare,

1404.410/3055.0

24.2≈

−≈t .

Deoarece 05.0tt > , suntem îndreptatiti sa respingem ipoteza nula, si prin urmare sa

acceptam ca adevarata ipoteza alternativa (7a).

Sa presupunem ca nivelul de semnificatie este coborât la o valoare mai mica,

005.0=α . De data aceasta pragul este 6896.3005.0 ≈t , si înca avem 005.0tt > . Chiar si cu

nivelul de semnificatie 005.0=α (de zece ori mai mic decât înainte), vom respinge

ipoteza nula si vom considera ca adevarata ipoteza alternativa (7a).

80

Totusi, daca vom coborî mai mult nivelul de semnificatie, de data aceasta la 001.0=α ,

noul prag va fi 7809.4001.0 ≈t iar valoarea calculata 1404.4≈t nu mai este în regiunea de

respingere. De data aceasta nu putem respinge ipoteza nula!

Sa ne imaginam o variatie continua a nivelului de semnificatie de la valoarea 005.0'=α

(pentru care 'α> tt , adica t este în regiunea de respingere pentru 'α ) pâna la valoarea

001.0"=α (pentru care "α< tt , adica t nu este în regiunea de respingere pentru "α ). Exista

un nivel de semnificatie *α , între 'α si "α , asa încât t va fi exact valoarea critica *αt .

Acest nivel de semnificatie particular este cunoscut ca valoarea p a ipotezei alternative.

Interpretarea sa este limpede: este cel mai mic nivel de semnificatie care ne permite sa

acceptam ca adevarata ipoteza alternativa – prin respingerea ipotezei nule, bazându-ne

doar pe datele din esantionul ales. Multi interpreteaza aceasta valoare p ca riscul de a

accepta ca adevarata ipoteza alternativa (bazându-ne pe esantionul ales).

Sa consideram, ca un alt caz particular, un al doilea esantion:



1 1.6 kg 6 1.6 kg 2 2.8 kg 7 1.7 kg 3 1.6 kg 8 2.6 kg 4 3.0 kg 9 2.4 kg 5 1.9 kg 10 1.8 kg

De data aceasta pentru sase indivizi dintre cei 10 ai esantionului scaderea saptamânala

în greutate este mai mica de 2 kg. Aceasta face ca ipoteza alternativa (7a) sa fie mai putin

credibila. Totusi, sa aplicam metoda testarii statistice de semnificatie, exact ca mai sus. Si

de data aceasta, media de esantion

81

(kg) 1.2)8.14.26.27.16.19.10.36.18.26.1(101

=+++++++++

este consistenta cu afirmatia faimosului Dr. C. Varianta de esantion 2978.02 ≈s

( 5457.0≈s ) ne conduce la valoarea calculata

5795.010/5457.0

21.2≈

−≈t

care este mai mica decât 05.0t . Nu putem respinge ipoteza nula, chiar si pentru nivelul de

semnificatie „mare” 05.0=α !

Mai mult, valoarea p (calculata prin intermediul functiei speciale TTEST din Microsoft

Excel) este 0.2622. Asadar riscul acceptarii ipotezei alternative ca adevarata, bazându-ne

pe acest esantion particular, este suficient de ridicat!

Sa tragem câteva concluzii generale despre perechile de ipoteze similare cu (7a)-(70).

O asemenea ipoteza alternativa (Ha) contine în enunt – ca unic parametru – media µ a

unei populatii distribuite normal. Este o ipoteza unilaterala

(Ha): valoare>µ

iar ipoteza nula corespunzatoare ia forma

(H0): valoare=µ .

În abordarea clasica, odata ce a fost ales nivelul de semnificatie α , valoarea critica

0 >αt care delimiteaza regiunea de respingere ) ,( ∞+αt este aflata din conditia

α−=Θ α 1)(t

unde

xNx

Nt

Nt

N

N

d1

1 )()1(

)()(

2/2

21

2−

∞−−

−+

Γ⋅−π

Γ=Θ ∫

este functia de distributie a distributiei Student )1(t −N .

Evident, N este marimea (volumul) esantionului. Pentru a respinge ipoteza nula, se va

calcula urmatorul numar

Ns

mt

valoare−=

82

în care m este media de esantion iar 2s este varianta de esantion. În caz ca t este mai mare

decât αt , ipoteza nula va fi respinsa.

Atunci când folosim Microsoft Excel, valoarea critica αt , care depinde de volumul

esantionului N, poate fi aflata cu ajutorul functiei TINV. Argumentele acesteia sunt

urmatoarele:

– Nivelul de semnificatie α (identificat ca „Probability” în figura de mai jos), si

– Numarul de grade de libertate, care este în cazul nostru 1 −N .

Exemplul 2: Sa presupunem ca ipoteza alternativa este (6a) de mai sus:

(6a) Starea medie de sanatate a pacientilor, în urma aplicarii tratamentului standard, se

îmbunatateste.

Este destul de dificil sa reprezentam, printr-o singura valoare numerica, starea de

sanatate a unui pacient. Sa fim mai precisi, luând în considerare doar pacienti hipotensivi

care sunt supusi actiunii unui medicament anti-hipotensiv, si sa evaluam starea de

sanatate a unui pacient prin ritmul sau cardiac, exprimat în batai/minut (b/m).

Acum perechea (6a)-(60) a fost înlocuita cu

(6’a) Ritmul cardiac mediu al pacientilor hipotensivi creste în urma administrarii

medicamentului,

respectiv

(6’0) Ritmul cardiac mediu al pacientilor hipotensivi, în urma administrarii

medicamentului, nu sufera nici o schimbare.

83

Exprimam formal ipotezele de mai sus astfel:

(6’a) ba µ<µ

(6’0) ba µ=µ

unde aµ , respectiv bµ reprezinta ritmul cardiac mediu înainte, respectiv dupa

administrarea medicamentului.

Datele pe care le obtinem apar în mod natural împerechiate; mai precis, pentru fiecare

pacient vom masura ritmul cardiac înainte ( ax ) si dupa ( bx ) administrarea

medicamentului.

Evident, am putea calcula diferenta ba xxd −= si am putea considera ca medicamentul

este eficace pentru pacientul nostru daca 0<d , ineficace daca 0=d (adica nu se constata

nicio schimbare) si daunator daca 0>d . De fapt testam eficacitatea medicamentului anti-

hipotensiv. Sa notam cu δ diferenta medie; atunci testarea statistica de semnificatie de

mai sus este înlocuita prin

(6”a) 0<δ

(6”0) 0=δ

care este exact situatia tratata în Exemplul 1, cu conditia ca diferentele d sa fie distribuite

normal.

Daca presupunem ca ritmul cardiac al pacientilor hipotensivi, si înainte, si dupa

administrarea medicamentului, este distribuit normal, adica este de tipul ),(N 2aa σµ

respectiv ),(N 2bb σµ , atunci rezulta ca diferentele d sunt si ele distribuite normal, cu media

ba µ−µ . Varianta diferentelor este necunoscuta, si este estimata prin varianta de esantion

2s . Întrucât acceptam ab initio ca (6’0) este adevarata, distributia diferentelor d este

aproximativ de tipul ) ,0(N 2s .

Cele mai multe dintre diferente sunt concentrate în jurul lui 0. Odata ce a fost ales

nivelul de semnificatie α , valoarea critica 0 >αt care delimiteaza regiunea de respingere

) ,( ∞+αt este obtinuta exact ca în Exemplul 1, prin intermediul distributiei Student

)1(t −N .

84

Sa consideram urmatoarele date obtinute dintr-un esantion de volum 8:

Individul Înainte (b/m)

Dupa (b/m)

Diferenta Individul Înainte (b/m)

Dupa (b/m)

Diferenta

1 58 66 +8 5 66 73 +7 2 65 69 +4 6 75 75 0 3 68 75 +7 7 62 68 +6 4 70 68 -2 8 72 69 -3

Valoarea calculata se va obtine prin folosirea formulei

Ns

mt =

în care m este media esantionului diferentelor. Aici 375.3=m , 8=N , iar 4058.4≈s . Prin

urmare 1667.2≈t .

Decizia va fi luata în urma compararii acestei valori t cu valoarea critica αt . Prin

urmare, nici pentru 05.0=α nu vom putea respinge ipoteza nula (aceasta deoarece

tt >≈ 3646.205.0 ).

Exemplul 3: Sa presupunem ca ipoteza alternativa este (5a) de mai sus si ca, evident,

ipoteza nula este (50):

(5a) Salariul mediu al medicilor barbati este mai mare decât salariul mediu al medicilor

femei,

(50) Salariul mediu al medicilor barbati coincide cu salariul mediu al medicilor femei.

Sa rescriem ipotezele într-o forma ceva mai abstracta:

(5’a) fm µ>µ

(5’0) fm µ=µ

unde mµ respectiv fµ reprezinta salariul mediu al medicilor barbati, respectiv salariul

mediu al medicilor femei.

Vom începe prin a accepta ca adevarata ipoteza nula. Vom presupune – ab initio – ca

ambele populatii sunt distribuite normal, adica sunt de tipul ),(N 2mm σµ respectiv

),(N 2ff σµ .

La pasul 2 al unei testari clasice a ipotezelor va trebui sa alegem o statistica adaptata

situatiei concrete. În alegerea acestei statistici ar trebui sa fim constienti de faptul ca vor fi

alese doua esantioane disjuncte, unul din populatia (salariilor) medicilor barbati, celalalt

din populatia (salariilor) medicilor femei.

85

Aceste doua esantioane nu au, în general, volumele egale. Sa notam cu:

– mN volumul esantionului extras din populatia medicilor barbati (adica din salariile

respective),

– mM media de esantion a acestor salarii,

– 2mS varianta de esantion a salariilor.

Pe de alta parte, sa notam cu:

– fN volumul esantionului extras din populatia medicilor femei (adica din salariile

respective),

– fM media de esantion a acestor salarii,

– 2fS varianta de esantion a acestor salarii.

Va trebui facuta o distinctie între esantioanele „mici” si cele „mari”. Orice esantion cu

mai mult de 30 de indivizi va fi considerat ca „mare”, altfel el va fi „mic”.

Statistica pe care o vom alege va depinde în mod esential de marimile celor doua

esantioane. Atunci când ambele esantioane sunt „mari”, formula

zSMM

Z fm −= ,

în care

2f

f

2m

m

2 11S

NS

NS z +=

îl descrie pe Z ca fiind o distributie normala standard )1 ,0(N .

În celalalt caz, adica atunci când cel putin unul dintre esantioane este „mic”, formula

tSMM

T fm −= ,

în care

2)1()1(11

fm

2ff

2mm

fm

2

−+−+−

⋅

+=

NNSNSN

NNS t

îl descrie pe T ca fiind distribuit Student )2(t fm −+ NN .

Sa ne reamintim ca pentru 30≥N distributia Student )(t N este bine aproximata cu

distributia normala standard.

86

Asadar, odata ce a fost ales nivelul de semnificatie α , una dintre distributiile )1 ,0(N

sau )2(t fm −+ NN va fi aleasa pentru a se obtine valoarea critica – care va fi fie αz , fie

αt – valoare care va delimita regiunea de respingere.

Sa facem observatia ca în Microsoft Excel functia NORMSINV ne va ajuta în prima

situatie. Argumentul ei va fi α−1 . Evident, în a doua situatie vom folosi TINV (cu

argumentul α ).

Sa presupunem ca datele din cele doua esantioane sunt urmatoarele:

Medic barbat Salariul ($) Medic femeie Salariul ($) 1 8105 1 74410 2 6719 2 5452 3 7909 3 3814 4 4420 4 4381 5 6214 5 3995 6 9407 6 4944 7 4828 media fm 16166 8 6689 varianta 2

fs 28540.1

9 7274 volumul fN 6 10 8351

media mm 6991.6

varianta 2ms 1560.2

volumul mN 10

Atentie, mediile calculate pentru cele doua esantioane nu sunt consistente cu ipoteza

alternativa! Testarea ar trebui sa se opreasca aici!

Sa presupunem ca am detectat eroarea de dactilo (7410 în locul lui 74410) si am

corectat-o. Acum fm mm > , adica mediile calculate sunt consistente cu ipoteza

alternativa. Valoarea calculata va fi obtinuta cu formula:

tsmm

t fm −=

(pe care o folosim întrucât ambele esantioane sunt „mici”) în care

2)1()1(11

fm

2ff

2mm

fm

2

−+−+−

⋅

+=

NNsNsN

NNst

iar decizia va fi luata în mod corespunzator.

Evident, este nevoie de multe calcule, de multa munca de programare. Acesta este

motivul pentru care testarea statistica de semnificatie nu este prea larg utilizata.

87

În general, sa consideram ipoteze alternative tipice legate de diferentele de medii. Sunt

posibile doua tipuri de ipoteze:

(H1) unilaterala: 21 µ>µ ,

(H1) bilaterala: 21 µ≠µ .

(Cazul 21 µ<µ coincide cu primul, în care ordinea populatiilor a fost inversata.)

În cazul ipotezei unilaterale, odata ce a fost ales nivelul de semnificatie α , regiunea de

respingere ) ,( ∞+r este determinata, ca în Exemplele 1-3, din conditia

α−=Φ 1)(r

unde Φ este o functie de distributie adecvata.

În cazul unei ipoteze bilaterale, regiunea de respingere este o reuniune

) ,() ,( ∞+∪−−∞ rr unde numarul 0 >r este determinat din conditia

21)( ar −=Φ .

Functia de distributie Φ este fie de tipul normal standard, fie de tipul Student. De fapt,

prin rationamente teoretice se identifica mai multe cazuri.

(1) Variantele celor doua populatii, 21σ si 2

2σ , sunt cunoscute. În acest caz statistica

utilizata

σ−

= 21 mmz (în care 2

22

21

1

2 11σ+σ=σ

NN)

urmeaza o distributie normala standard )1 ,0(N . Evident, 1m si 2m reprezinta mediile de

esantion respective.

Regiunea de respingere pentru α

unilaterala bilaterala

88

Variantele celor doua populatii sunt necunoscute, si sunt înlocuite prin variantele de

esantion corespunzatoare 21s si 2

2s . În acest caz vor trebui luate în considerare doua

situatii ce se exclud reciproc.

(2.1) Cazul homoskedastic: variantele necunoscute 21σ si 2

2σ sunt egale între ele. În

acest caz statistica folosita este

21p

21

11NN

s

mmt

+

−=

unde 2ps este o estimare „globala” a variantei comune a populatiilor, data de

2)1()1(

21

222

2112

p −+−+−

=NN

sNsNs .

În acest caz statistica t urmeaza o distributie Student )2(t 21 −+ NN .

Cazul heteroskedastic: variantele necunoscute 21σ si 2

2σ nu sunt egale. În acest caz

statistica folosita este s

mmt 21 −

= unde 22

2

21

1

2 11s

Ns

Ns += ; ea urmeaza de asemenea o

distributie Student.

Evident, se prespune ca ambele populatii sunt distribuite normal. Totusi, rezultatele

sunt aproximativ corecte chiar si atunci când distributia populatiilor nu este prea

„îndepartata” de cea normala.

Sa accentuam asupra faptului ca o distributie Student )(t N în care 30≥N este

aproximativ o normala standard.

89

4.5. Compararea mediilor, abordarea practica

Discutia anterioara evidentiaza mult dificultatile pe care trebuie sa le depasim pentru a

efectua o testare clasica de semnificatie, atunci când vrem sa comparam medii. Toate

calculele sunt efectuate abia dupa ce a fost ales nivelul de semnificatie α , si dupa ce au

fost extrase datele dintr-un esantion.

Asa cum am exemplificat anterior în Exemplul 1, pentru un esantion dat exista un nivel

de semnificatie particular *α , astfel încât valoarea critica corespunzatoare (care este fie

*αt , fie *αz ) coincide cu valoarea calculata. Acest *α este cel mai mic nivel de

semnificatie care ne determina sa acceptam ipoteza alternativa (prin respingerea ipotezei

nule), bazându-ne pe acel esantion. Este numit valoarea p, si este interpretat ca riscul de a

accepta ca adevarata ipoteza alternativa (atunci când de fapt ipoteza nula este adevarata).

Softul modern elimina povara calculelor, prin inversarea „filosofiei” din spatele testarii

de semnificatie. În loc de a alege de la început nivelul de semnificatie α , apoi de a

efectua seria decalcule, poate ar fi mai bine sa calculam mai întâi direct valoarea p a

ipotezei alternative, apoi de a accepta sau nu aceasta ipoteza ca adevarata, depinzând de

cât de mult suntem „educati” în a ne asuma riscuri.

Aceasta idee este suportata atunci când utilizam Microsoft Excel prin intermediul

functiei TTEST. Cele patru argumente ale acesteia sunt, în ordine (vezi figura de mai jos)

1) Domeniul Array1 ce contine datele extrase din primul esantion;

2) Domeniul Array2 ce contine datele extrase din al doilea esantion;

3) Un parametru numeric (de fapt boolean) Tails, a carui valoare este 1 daca

alternativa este unilaterala, respectiv 2 daca este bilaterala;

4) Un al doilea parametru numeric Type, a carui valoare este 1 daca esantioanele sunt

„pereche”, 2 daca esantioanele nu sunt pereche dar sunt homoskedastice, si 3 daca se stie

despre populatii ca sunt heteroskedastice.

Sa mentionam aici ca – în practica – nu exista exemple medicale pentru care sa se

cunoasca homoskedasticitatea populatiilor. Pentru esantioane „nepereche” celui de-al

doilea parametru ar trebui sa i se dea valoarea 3.

90

Functia TTEST ne returneaza direct valoarea p a ipotezei alternative. Totusi, înainte de

a folosi TTEST, ar trebui efectuata o verificare preliminara (atfel, am putea trage

concluzii total gresite). Mai precis, ar trebui sa verificam, prin aplicarea functiei

AVERAGE asupra ambelor domenii, daca mediile de esantion sunt ordonate corect.

Argumentele functiei TTEST în Excel

91

4.6. Exemplu: compararea proportiilor

În Exemplele 1-3 s-a presupus ca toate populatiile implicate ar fi fost distribuite

normal. Perechea de ipoteze (10)-(1a) va fi tratata exact ca si perechea (50)-(5a), cu

conditia ca sa asimilam coeficientul de inteligenta (IQ) cu o distributie normala cu media

100 si abaterea standard 10.

Totusi, în unele situatii afirmatia ca populatiile implicate sunt distribuite normal nu

doar ca nu se justifica, dar este categoric eronata!

Sa consideram de exemplu populatia pacientilor tratati cu medicamentul A – a se vedea

perechea de ipoteze (40)-(4a) de mai sus. Putem presupune ca fiecare asemenea pacient fie

s-a însanatosit (marcaj 1), fie nu (marcaj 0). Daca vom alege aleator un esantion de volum

N de pacienti tratati cu medicamentul A, am putea presupune ca indivizii esantionului

sunt distributii Bernoulli (independente)!

Evident, parametrul Aπ care caracterizeaza o asemenea variabila aleatoare este

interpretat ca probabilitatea „succesului”, adica proportia vindecarii. Proportia celor

vindecati în esantionul ales ne va da o estimare naturala a lui Aπ .

Exemplul 4: Sa presupunem ca perechea ipoteza alternativa/nula este urmatoarea:

(4a) Proportia celor vindecati în rândul pacientilor tratati cu medicamentul A este mai

mare decât proportia celor vindecati în rândul celor tratati cu medicamentul B

(medicamentul A este mai bun decât medicamentul B)

(40) Proportiile celor vindecati în rândul pacientilor tratati cu medicamentele A

respectiv B sunt egale (medicamentele A si B sunt echivalente).

Formal, aceste ipoteze sunt reexprimate în felul urmator:

(4’a) 0A >π−π B

(4’0) 0A =π−π B

unde Aπ respectiv Bπ reprezinta proportiile vindecarilor.

Sa urmam mai întâi abordarea clasica a testarii de semificatie. Un esantion de volum

AN extras din populatia pacientilor tratati cu medicamentul A este de fapt o secventa

A,...,, 21 NXXX de distributii Bernoulli (independente) de tipul )(Be Aπ .

92

Numarul celor vindecati este exact suma A

...21 NXXX +++ despre care stim ca este

distribuita binomial ),(b AA πN . Media de esantion )...(1

A21A

A NXXXN

P +++=

),(b1

AAA

π= NN

este o statistica ce exprima proportia pacientilor vindecati din rândul

celor tratati cu medicamentul A.

Analog, un esantion de volum BN extras din populatia pacientilor tratati cu

medicamentul B este de fapt o secventa B

,...,, 21 NYYY de distributii Bernoulli de tipul

)(Be Bπ iar numarul celor vindecati B

...21 NYYY +++ este distribuit binomial ),(b BB πN .

Si în acest caz media de esantion )...(1

B21B

B NYYYN

P +++= ),(b1

BBB

π= NN

este o

statistica ce exprima proportia pacientilor vindecati din rândul celor tratati cu

medicamentul B.

Se stie ca, în general, distributia binomiala ),(b pn este aproximativ normala cu media

np=µ si varianta )1(2 pnp −=σ , cu conditia ca 5≥np si 5)1( ≥− pn .

Sa presupunem ca sunt îndeplinite conditiile necesare aproximarilor, anume

5AA ≥πN , 5)1( AA ≥π−N , 5BB ≥πN si 5)1( BB ≥π−N . Atunci variabila aleatoare

),(b1

AAA

πNN

este aproximativ distribuita normal, de tipul

π−ππ

A

AAA

)1(,N

N, iar

),(b1

BBB

πNN

este aproximativ de tipul

π−ππ

B

BBB

)1(,N

N. Prin urmare, diferenta

BA PPD −=

care exprima diferenta între proportiile vindecarilor, va fi aproximativ de tipul

π−π+

π−ππ−π

B

BB

A

AABA

)1()1(,N

NN.

Sa exploram consecintele unei ipoteze nule adevarate

(4”0) π=π=π BA .

Rezulta ca diferenta BA PPD −= este aproximativ normala de tipul

+π−π

BA

11)1(,0N

NN.

93

Astfel, pentru a obtine o statistica adecvata, vom avea nevoie de o estimare „globala” a

lui π , proportia pacientilor vindecati în rândul ceor tratati medicamentos (fie cu A, fie cu

B).

Aceasta este obtinuta ca statistica:

)......(1

BA 2121BA

NN YYYXXXNN

P ++++++++

=

Iar statistica noastra ce va fi folosita în testarea de semnificatie va fi urmatoarea

+−

−=

BA

BA

11)1(

NNPP

PPZ

notatia Z indicând ca este vorba despre o distributie normala standard, adica de tipul

( )1 ,0N .

Sa presupunem ca datele obtinute din esantioane au fost urmatoarele:

Esantionul A Esantionul B Ambele esantioane

Total pacienti 80A =N 75B =N 155BA =+ NN

Vindecati 55 40 95

Procentajul vindecarilor %75.68A =P %33.53B =P %29.61≈P

Din aceste date obtinem scorul z, anume 9692.1≈z , iar acesta corespunde unei valori p

02446.0* ≈α (a se vedea figura de mai jos). Aceasta este cunoscuta ca Mid-p value (de

exemplu în Epi Info 2004) si este interpretata conform cu aversiunea noastra fata de risc.

Evident, înainte de a calcula scorul z, va trebui sa verificam daca cele doua procentaje

AP si BP sunt în relatie corecta unul fata de altul; daca nu sunt, testarea se opreste!

Atunci când folosim Microsoft Excel, valoarea p *α este obtinuta prin formula

)(NORMSDIST1 x−=

în care x reprezinta coordonatele celulei în care a fost calculat scorul z.

94

Se obisnuieste (ceea ce este perfect adecvat softului Microsoft Excel) ca datele ce

provin din esantioane sa fie prezentate în tabele de contingenta, ca de exemplu:

Tratat cu: Medicamentul A Medicamentul B

Numarul pacientilor vindecati 55 40

Numarul pacientilor nevindecati 25 35

Nu trebuie sa uitam de conditiile 5AA ≥πN si celelalte. Totusi, Aπ si Bπ sunt

necunoscute; stim doar ca sunt estimate de AP respectiv BP . Valorile AA PN etc. sunt

exact valorile numerice din celulele tabelului de contingenta de mai sus. Astfel, abordarea

clasica a testarii de semnificatie poate fi utilizata justificat doar atunci când toate

componentele numerice ale tabelului de contingenta sunt mai mari decât 5.

Exista si o alta metoda de tratare a unor date de acest fel, cunoscuta sub numele de

testul hi-patrat. Aceasta metoda compara doua variabile aleatoare (cu câte 2 valori

fiecare), si le evalueaza independenta statistica.

Reamintim ca independenta statistica a doua variabile aleatoare V, W înseamna ca

)(P)(P)(P wWvVwWvV =⋅===∧=

pentru fiecare pereche de valori, v a lui V si w a lui W.

În cazul nostru, V este „Medicamentul” iar valorile sale sunt }Med.B"" ,Med.A""{∈v ;

pe de alta parte, W este „Starea pacientului”, cu valorile }"Nevindecat" ,Vindecat""{∈w .

Daca vom estima probabilitatile prin frecventele relative (folosind datele obtinute

dintr-un esantion), atunci independenta statistica a lui V si W corespunde dependentei

liniare a liniilor (sau a coloanelor) din tabelul extins de contingenta:

95

… w … Totaluri pe linii

… … … … …

v … vwN … •vN

… … … … …

Totaluri pe coloane … wN• … ••N

unde:

vwN este numarul de cazuri pentru care vV = si wW = ,

•vN este numarul de cazuri pentru care vV = , adica ∑∈

• =Ww

vwv NN ,

wN• este numarul de cazuri pentru care wW = , adica ∑∈

• =Vv

vww NN ,

••N este numarul total de cazuri, adica ∑∑∈ ∈

•• =Vv

vwWw

NN .

Aceasta dependenta liniara înseamna ca

••

••=N

NNN wv

vw

pentru orice valori v ale lui V si w ale lui W, sau ca valoarea expresiei

22

−=

••

••

∈ ∈∑∑ N

NNNX wv

vwVv Ww

este 0.

În cazul nostru, tabelul extins de contingenta este:

Medicamentul A Medicamentul B Totaluri pe linii

Vindecati 55 40 95

Nevindecati 25 35 60

Totaluri pe coloane 80 75 155

96

iar dependenta liniara a liniilor (sau a coloanelor), adica independenta statistica a

variabilelor „Medicament” si „Starea pacientului” înseamna exact ca ipoteza nula (4’0)

Bπ=πA este adevarata.

Formula de mai sus, care prezinta „statistica X patrat”, da o masura a neadevarului

ipotezei nule. Valori mari ale lui 2X ne îndeamna sa o respingem.

Se stie ca 2X urmeaza aproximativ o distributie de tipul ( ))1)(1(2 −−χ cl , unde l este

numarul de valori distincte ale lui V iar c este numarul de valori distincte ale lui W. (În

cazul nostru 2== cl , prin urmare 2X este de tipul )1(2χ .)

Apoi, graficul distributiei hi-patrat (a se vedea figura urmatoare) ar putea fi folosit

pentru a respinge sau nu ipoteza nula.

Toate consideratiile de mai înainte sunt simplificate drastic atunci când folosim

Microsoft Excel! Într-adevar, aici dispunem de functia denumita CHITEST, care are

doua argumente:

a) Domeniul dreptunghiular ce contine tabelul de contingenta (Actual_range),

b) Domeniul dreptunghiular ce contine datele teoretice care corespund ipotezei nule

(Expected_range), ceea ce înseamna ca sunt calculate cu formula

••

••=N

NNN wv

vw .

97

Aceasta functie returneaza valoarea p *α , care poate fi interpretata de fiecare conform

cu apetenta/adversitatea sa fata de risc.

În cazul nostru (vezi figura de mai sus) obtinem ...0489.0* =α

Merita sa subliniem ca cele doua metode pe care le-am folosit anterior au dat valori p

distincte (0.02446 respectiv 0.0489). Aceasta nu este surprinzator! Mai multe motive

contribuie la aceasta: folosirea estimarilor intermediare ale proportiilor, aproximarea

distributiilor „adevarate” – ale statisticilor utilizate – prin altele, de tipul normal sau hi-

patrat etc.

Perechea de ipoteze (2a)-(20) este similara perechii (4a)-(40). Cele doua metode

prezentate mai sus sunt potrivite pentru confirmarea opiniilor sau descoperirilor despre

incidenta maladiilor, similare lui (2a).

Totusi, distributia hi-patrat este folosita si pentru a confirma opinii cum ar fi (20) sau

(40), adica opinii exprimând o egalitate sau coincidenta. Aceasta nu poate fi facut însa în

cadrul testarii de semnificatie; testele respective sunt cunoscute ca teste de bonitate si au

fost abordate în cursul anterior.

98

Cursul 5. Analiza variantei si teste neparametrice


5.1. Teste neparametrice: testele Wilcoxon/Mann-Whitney ..................................... 99

5.2. Teste t pereche si nepereche............................................................................ 105

5.3. Analiza variantei (ANOVA) ........................................................................... 107

5.4. Interpretarea datelor medicale ......................................................................... 110

99

5.1. Teste neparametrice: testele Wilcoxon/Mann-Whitney

În cursurile anterioare ne-am pus problema compararii a doua populatii luând în

considerare mediile sau proportiile, eventual variantele lor. Cu alte cuvinte, am luat în

considerare parametrii care determina populatiile: mediile (µ ), proportiile (π ), variantele

( 2σ ).

Multe dintre metodele de comparatie care sunt utilizate în tratamentul variabilelor

aleatoare continue se bazeaza pe ipoteza „fundamentala” ca anumite variabile sunt

distribuite normal (sau cel putin aproximativ normal). Sunt cunoscute în literatura

statistica, din motive evidente, sub numele de teste parametrice.

Exista însa situatii în care fie nu cunoastem deloc felul în care sunt distribuite

variabilele, fie distributia normala a lor este încalcata flagrant. În asemenea situatii,

pentru compararea populatiilor este posibil sa folosim teste care nu presupun nimic despre

tipul de distributie, cu alte cuvinte teste neparametrice.

(Evident, asemenea teste vor putea fi aplicate si pentru variabilele care sunt distribuite

normal, însa rezultatele pe care le vom obtine vor fi mai putin „semnificative” decât ale

testelor parametrice analoage.)

În cele mai cunoscute dintre aceste teste neparametrice, valorile numerice ale

variabilelor – obtinute din esantion – sunt înlocuite prin rangurile lor. De aceea ele sunt

denumite teste de rang.

Sa prezentam, în cele ce urmeaza, unul dintre cele mai simple teste de rang, anume

testul Wilcoxon.

Îpoteza alternativa de la care plecam, întro exprimare generala, este urmatoarea:

(Ha): distributia valorilor variabilei aleatoare numerice (care ne intereseaza) este

asimetrica în raport cu 0.

Îi vom opune ipoteza nula:

(H0): distributia valorilor variabilei aleatoare numerice este simetrica în raport cu 0.

100

Conform teoriei generale a testarii, vom încerca sa „deducem” consecinte logice ale

acceptarii adevarului ipotezei nule, apoi sa vedem daca datele provenite din esantion sunt

sau nu „compatibile” cu aceste consecinte.

Sa începem prin a analiza datele numerice nxxx ,...,, 21 provenite dintr-un esantion de

volum n. Evident, unele dintre aceste valori vor fi pozitive, altele vor fi negative, si este

perfect posibil ca sa avem câteva chiar egale cu 0. Sa presupunem ca nm ≤ dintre ele sunt

nenule.

Conform indicatiilor lui Wilcoxon, vom ordona crescator valorile nenule, luate în

modul (adica neglijându-le semnul), apoi le vom înlocui cu rangurile lor:

|)( |)2(| |)1( | ...| mxxx ≤≤≤

Sa notam cu +T suma rangurilor valorilor pozitive, si cu −T suma rangurilor valorilor

negative. Daca acceptam ideea ca ipoteza nula este adevarata, atunci +T si −T n-ar trebui

sa difere prea mult între ele. Pe de alta parte, suma lor −+ + TT ar trebui sa fie egala cu

suma tuturor rangurilor, adica cu 2

)1( +mm . Ar trebui sa ne asteptam ca atât +T cât si −T

sa fie apropiate de 4

)1( +mm . Cu cât +T difera mai mult de 4

)1( +mm , cu atât ipoteza nula

devine mai implauzibila si drept urmare vom fi înclinati sa acordam credit alternativei

(Ha).

Calculul valorii p a ipotezei alternative se bazeaza pe faptul ca statistica

24/)12)(1(

4/)1(

++

+−+

mmm

mmT

este distribuita (cel putin pentru valori „mari” ale lui n) aproximativ normal standard.

101

Ca un exemplu, fie datele din foaia de calcul Excel prezentata în figura de mai jos.

Observam ca dintre cele noua valori cinci sunt pozitive iar patru negative (niciuna nu este

nula). Abstractie facând de semn, ordinea lor este urmatoarea:

...5.31.29.19.16.05.04.0 <<=<<<

Doua dintre cele pozitive sunt egale între ele, în consecinta rangurile lor vor fi ambele

egale cu 5.42

54=

+ .

Efectul comenzii

MEANS valori semn

din Epi Info este prezentat în figura urmatoare. Valoarea p a ipotezei alternative, obtinuta

cu testul Wilcoxon, este de 0.0139, suficient de mica pentru a ne determina sa o acceptam

ca adevarata.

Asadar, putem afirma ca setul celor cinci valori pozitive difera „semnificativ” de setul

celor patru valori negative. (De mentionat ca daca am fi folosit testul t clasic, valoarea p

ar fi fost de 0.0042, de circa trei ori mai mica. Însa putem fi siguri ca sunt satisfacute

toate conditiile preliminare de normalitate necesare pentru aplicarea testului t?)

Reamintim ca testul t (Student) poate fi folosit, în general, în situatii în care:

a) dispunem de doua esantioane extrase din doua populatii,

b) valorile obtinute de la indivizii din esantioane sunt numerice,

c) dorim sa stabilim ca centrul (valorilor) primei populatii difera de centrul

(valorilor) celei de-a doua populatii, si

d) localizam centrul unei populatii în media sa.

Însa centrul unei populatii poate fi localizat si în mediana, în conditiile în care suntem

interesati mai mult de ranguri si mai putin de valorile numerice ca atare.

102

Valori numerice obtinute din esantioane (extrase din populatii) pot aparea nu doar prin

masurare, ci si prin transformari ale valorilor ordinale, în mod arbitrar.

Exemple: hipo = +1, mediu = +2, hiper = +3;

– – – = –3, – – = –2, – = –1, + = 1, ++ = 2.

În asemenea situatii aplicarea testului t nu are nici o justificare, însa nimic nu ne

împiedica sa aplicam teste neparametrice.

Sa presupunem ca din prima populatie am extras setul de valori numerice

1,...,, 21 nxxx

iar din a doua populatie am extras setul de valori numerice

2,...,, 21 nyyy .

Conform ideii lui Wilcoxon, sa ordonam crescator valorile (reunite ale) celor doua

seturi, apoi fiecarei valori sa-i atasam rangul ei. (Evident, rangul se recalculeaza în situatii

de egalitate a unor valori.)

Notam cu 1T suma rangurilor obtinute de cele 1n valori ix ce formeaza esantionul

extras din prima populatie. Analog, 2T va fi suma rangurilor obtinute de cele 2n valori

jy ce formeaza esantionul extras din a doua populatie.

103

Ipoteza alternativa pe care am dori-o confirmata este urmatoarea

(Ha): distributia valorilor x în prima populatie difera de distributia valorilor y în a

doua populatie

iar confirmarea ei va avea loc prin respingerea ipotezei nule:

(H0): distributia valorilor x în prima populatie coincide cu distributia valorilor y în a

doua populatie.

Suma de ranguri 1T are valoarea minima 2/)1( 11 +nn si valoarea maxima

2/)1( 1121 ++ nnnn . Pe de alta parte, acceptând adevarul ipotezei nule, ne asteptam ca

suma de ranguri 1T sa fie egala cu 2/)1( 211 ++ nnn . Cu cât 1T se „departeaza” de aceasta

valoare (spre extremele 2/)1( 11 +nn respectiv 2/)1( 1121 ++ nnnn ), cu atât ipoteza nula

devine mai putin plauzibila. Asadar, testul Wilcoxon se bazeaza pe calculul unei sume de

ranguri.

În literatura medicala întâlnim destul de des un alt test, anume testul Mann-Whitney.

Acesta are exact acelasi scop ca si testul Wilcoxon. De fapt, cele doua teste sunt

echivalente.

Pe scurt, în testul Mann-Whitney nu se calculeaza suma de ranguri, ci se compara toate

perechile ),( ji yx si se noteaza cu XYU numarul perechilor ),( ji yx pentru care ji yx <

plus jumatate din numarul perechilor pentru care ji yx = .

Numarul XYU are valori între 0 si 21nn , iar în cazul adevarului ipotezei nule ne

asteptam ca el sa fie egal cu 2

21nn. Cu cât XYU se „departeaza” de valoarea

221nn

, cu atât

ipoteza nula devine mai putin plauzibila.

Legatura dintre testele Wilcoxon si Mann-Whitney este data de formula

11121 2/)1( TnnnnU XY −++=

care leaga numarul XYU (Mann-Whitney) de suma rangurilor 1T (Wilcoxon). Nu este de

mirare ca în raportarile Epi Info (vezi figura de mai sus) rezultatele aplicarii celor doua

teste sunt prezentate împreuna.

Testul Kruskal-Wallis nu este altceva decât o generalizare a testului Wilcoxon pentru

cazul a mai mult de doua esantioane.

104

Ca exemplu, sa consideram datele prezentate în articolul „Factors influencing the rate

of healing of gastric ulcers admission to hospital, phenobarbitone, and ascorbic acid”

aparut în Lancet, 1 (1952), pag. 171-175, autori R. Doll si F. Pygott. Este vorba despre

schimbarile procentuale în zona ulcerului gastric dupa un tratament de trei luni.

Datele despre 32 pacienti internati si 32 de pacienti externi, ce exprima schimbarile

procentuale, ordonate în ordine crescatoare, sunt prezentate în tabelele urmatoare:

Tabelul pentru pacientii internati:

-100 -100 -100 -100 -100 -100 -100 -100 -100 -100 -100 -100 -93 -92 -91 -91 -90 -85 -83 -81 -80 -78 -46 -40 -34 0 29 62 75 106 147 1321

Tabelul pentru pacientii externi:

-100 -100 -100 -100 -100 -93 -89 -80 -78 -75 -74 -72 -71 -66 -59 -41 -30 -29 -26 -20 -15 20 25 37 55 68 73 75 145 146 220 1044

Prelucrarea datelor cu Epi Info a condus la urmatoarele rezultate:

Descriptive Statistics for Each Value of Crosstab Variable Obs Total Mean Variance Std Dev E 32 490.0000 15.3125 42164.8669 205.3409 I 32 -444.0000 -13.8750 63930.3710 252.8446

ANOVA, a Parametric Test for Inequality of Population Means (For normally distributed data only)

Variation SS df MS F statistic Between 13630.5625 1 13630.5625 0.2569 Within 3288952.3750 62 53047.6190 Total 3302582.9375 63

T Statistic = 0.5069 P-value = 0.6140

Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups) Kruskal-Wallis H (equivalent to Chi square) = 6.0863

Degrees of freedom = 1 P value = 0.0136

Se poate observa ca testul t nu da rezultate, dar testul Wilcoxon da.

105

5.2. Teste t pereche si nepereche

Sa începem aceasta sectiune prin considerarea a doua seturi de date formale. Sa facem

observatia ca ultima valoare în fiecare set de date poate fi considerata ca aberanta

(outlier), fiind mult mai mare decât restul datelor din seturile respective.

Se poate observa ca aceste valori aberante ridica mediile respective cu circa 25%, însa

le pastreaza ordinea. (Chiar si prin eliminarea lor, media datelor din setul 1 este mai mica

decât media datelor din setul 2.)

Vom lua în considerare doua abordari diferite. În prima abordare vom admite ca datele

provin de la pacienti tratati cu un medicament M, fiind rezultate de laborator obtinute

înainte si dupa tratament (de exemplu, valori ale creatininei). Scaderea valorilor dupa

tratament înseamna îmbunatatirea starii pacientului. Prin urmare, aceste date indica

îmbunatatirea starii pacientilor – cu doua exceptii – dupa tratamentul cu medicamentul M,

ceea ce ne îndeamna sa credem în adevarul ipotezei alternative:

(Pa): în urma tratamentului cu medicamentul M, valoarea creatininei scade.

Valoarea p a acestei afirmatii, obtinuta printr-un test t pereche, este de 0.00010,

confirmând adevarul ipotezei alternative.

În a doua alternativa, vom admite ca datele provin de la doua populatii diferite, primul

set provine de la pacientii „tratati” cu placebo, al doilea set de la pacientii tratati cu

medicamentul M. Media mai mica a setului 2 (comparativ cu setul 1) indica eficacitatea

de ansamblu a medicamentului M si ne îndeamna sa credem în adevarul ipotezei

alternative:

(Na): tratamentul cu medicamentul M este eficace (comparativ cu lipsa de tratament).

Valoarea p a acestei afirmatii, obtinuta prin testul t nepereche, este însa de 0.4080. O

asemenea valoare nu confirma adevarul ipotezei alternative!

Asadar, aceleasi date conduc la concluzii diferite, concluziile depinzând în mod

esential de contextul în care am obtinut datele.

Aceeasi discrepanta se constata si dupa ce se renunta la valorile aberante.

107

5.3. Analiza variantei (ANOVA)

În a doua abordare din sectiune anterioara am analizat comparativ doua grupuri diferite

ale aceleiasi populatii, anume grupul celor tratati cu medicamentul M si grupul celor

tratati cu placebo. Grupurile au fost considerate ca esantioane provenind din populatii

diferite.

Daca s-ar fi prescris medicamentul M în câteva doze diferite, atunci am fi avut de-a

face cu mai multe grupuri.

Deseori se pune problema compararii a mai mult de doua populatii, sau a unei populatii

stratificate în mai mult de doua straturi, iar compararea se face prin medii. În asemenea

situatii se poate aplica o generalizare a testului t pentru doua populatii, cunoscuta sub

numele de analiza variantei sau testul ANOVA.

Din punct de vedere istoric, prima aplicare a analizei variantei s-a facut într-o situatie

în care se analizau recoltele obtinute în urma tratarii solului cu diferite feluri de

îngrasaminte. Se pastreaza, traditional, unele dintre notatiile/notiunile folosite atunci (cum

este „media tratamentului”).

Pentru a explica modul în care se efectueaza analiza variantei, sa luam în considerare

mai multe populatii, fiecare populatie având o medie si o varianta proprie (evident,

necunoscute). Extragem, din fiecare populatie, câte un esantion, conform schemei

urmatoare:

Populatia 1

media 1µ

varianta 21σ

Esantion de volum 1n

media de esantion 1m

varianta de esantion

21s

…

Populatia k

media kµ

varianta 2kσ

Esantion de volum kn

media de esantion km

varianta de esantion 2ks

…

Populatia K

media Kµ

varianta 2Kσ

Esantion de volum Kn

media de esantion Km

varianta de esantion

2Ks

108

Analiza variantei se efectueaza pentru o ipoteza nula

(H0): nu exista diferente între mediile populatiilor

care va trebui respinsa, pentru a se confirma ipoteza alternativa

(Ha): cel putin doua dintre mediile kµ difera între ele (adica cel putin doua dintre

populatii difera prin medii).

Ca de obicei în problemele de testare de ipoteze, sa admitem pentru moment ca ipoteza

nula ar fi adevarata, si sa deducem consecinte logice ale ei. Daca nu ar exista diferente

între mediile populatiilor kµ , ar trebui sa ne asteptam ca mediile de esantion km sa fie

„apropiate” între ele. De asemenea, cumulând cele K esantioane întrun esantion „global”

de volum ∑= knN , ar trebui ca nici media globala ∑∑= kkk nmnm sa nu difere

prea mult de mediile de esantion km . Am avea nevoie de un numar care sa exprime cât de

„apropiate” sunt – în ansamblu – mediile de esantion km de media globala m.

Un asemenea numar, denumit traditional variabilitatea între tratamente, este

urmatorul:

2)( mmnSST kk

k −= ∑ .

(Initialele provin de la sum of squares for treatments = suma patratelor pentru

tratamente.)

Numarul SST este minim (de fapt este 0) daca si numai daca toate mediile de esantion

sunt egale între ele:

Kk mmm ==== ......1 .

Valori mici ale lui SST apar atunci când mediile de esantion km sunt apropiate între

ele, iar asemenea situatii confirma ipoteza nula. Iar daca ar exista diferente mari între

mediile de esantion, atunci cel putin câteva dintre ele vor diferi considerabil de media

globala, ceea ce va determina o valoare mare a lui SST, confirmând astfel ipoteza

alternativa (prin respingerea celei nule). Dar, oare cât de mare trebuie sa fie numarul SST

pentru ca sa fim îndreptatiti sa respingem ipoteza nula?

109

„SS Total” nu joaca nici un rol special. Includerea acestei valori în tabel doar

evidentiaza faptul ca testul statistic se bazeaza pe descompunerea variantei totale a datelor

în cele doua surse de variabilitate: cea „dintre” esantioane (between) si cea din interiorul

esantioanelor (within).

Ca exemplu, sa consideram actiunea unui medicament asupra indivizilor din patru

categorii de vârsta, timp de 60 de zile, exprimata în scaderea procentuala a nivelului

colesterolului:

Sub 20 ani 20 – 39 ani 40 – 59 ani Peste 60 ani

15 17 31 7 19 20 media = 18.17

22 25 20 36 22 12 9 41 17 media = 22.67

17 22 28 15 10 2 8 media = 14.57

13 8 19 16 22 media = 15.60

Avem 27=N , 4=K . Rezultatele oferite de Epi Info sunt urmatoarele:

ANOVA, a Parametric Test for Inequality of Population Means

(For normally distributed data only)

Variation SS df MS F statistic Between 305.4376 3 101.8125 1.3414 Within 1745.7476 23 75.9021 Total 2051.1852 26

P-value = 0.2822

Valoarea p fiind 0.2822, respingerea ipotezei nule este improprie (chiar daca

discrepanta între medii ni s-ar parea suficient de mare). Nu dispunem de suficiente date

pentru a trage concluzia ca scaderea procentuala a nivelului colesterolului depinde de

categoria de vârsta.

(Dar nici nu putem trage concluzia ca nu depinde de categoria de vârsta!)

110

5.4. Interpretarea datelor medicale

Interpretarea datelor (si cunostintelor) medicale trebuie sa se bazeze pe o întelegere

exacta a termenilor folositi. Din acest punct de vedere, notiunea de prevalenta a unei

maladii M este clara, fiind legata de frecventa indivizilor bolnavi. Mai precis, prevalenta

maladiei M este numarul de indivizi bolnavi dintr-un esantion de 1000 de indivizi ai

populatiei, alesi aleator.

Evident, prevalenta este o notiune statistica; ea poate fi doar estimata, prin metode

statistice.

Sa ne imaginam ca un test biologic S – care ar putea sa dea rezultat pozitiv sau negativ

– produce informatii asupra maladiei M. Ne intereseaza felul în care informatia privind

rezultatul testului asupra unui individ va modifica probabilitatea ca acel individ sa aiba

maladia M; cu alte cuvinte, cum se schimba probabilitatea apriorica P(M) în

probabilitatea a posteriori P(M | S).

Numar indivizi care pentru care au maladia M nu au maladia M

Testul S da rezultat pozitiv TP FP

Testul S da rezultat negativ FN TN

Apar notiunile de senzitivitate si de specificitate a testului. Definirea lor este usoara

daca vom considera urmatorul tabel de contingenta:

Evident, un individ oarecare ar putea cadea în una dintre cele patru categorii:

– TP (true positive), care au maladia M iar testul da rezultat pozitiv,

– TN (true negative), care nu au maladia M iar testul da rezultat negativ,

– FP (false positive), care nu au maladia M iar testul da rezultat pozitiv,

– FN (false negative), care au maladia M iar testul da rezultat negativ.

Cunoscând repartizarea indivizilor, putem defini cu usurinta senzitivitatea testului S

prin proportia celor cu rezultat pozitiv în cadrul celor ce au maladia M:

FNTPTPSe +=

Analog, specificitatea testului S este proportia indivizilor care testeaza negativ în

cadrul celor ce nu au maladia M:

FPTNTNSp +=

Un test bun trebuie sa aiba atât specificitatea, cât si senzitivitatea ridicate (aproape de 1).

111

Evident, specificitatea si senzitivitatea unui test sunt estimate din datele provenite

dintr-un esantion.

Iata, dupa Shortliffe, ca exemplu concludent, cazul testului PAP (Prostatic Acid

Phosphatase) folosit pentru detectarea cancerului de prostata, maladie despre care se stie

ca are prevalenta 33/100000. Studii de cercetare arata ca senzitivitatea testului PAP este

de aproximativ 70%, întrucât din 113 pacienti 79 au testat pozitiv. Specificitatea sa este

mai ridicata, de aproximativ 94% (doar 13 indivizi din 217 au testat pozitiv). Ce se poate

deduce odata cunoscute toate aceste date? Informatia cea mai importanta poarta numele

de valoarea predictiva pozitiva a testului, care prin definitie este probabilitatea ca un

individ ce testeaza pozitiv sa aiba maladia M. Este de fapt probabilitatea unui eveniment

conditionat, în notatii evidente P(M | S). Formula de calcul este simpla:

)1()1( SpprevSeprevSeprevVPP

−⋅−+⋅⋅=

(ea este un caz particular al clasicei formule a lui Bayes!). In cazul nostru, un calcul

imediat arata ca VPP = 0.0038, o valoare destul de mica!

Repartizarea teoretica a indivizilor în functie de un test

α

True negatives

False negatives True positives

False positives Nu au maladia

Nu putem afirma întotdeauna ca rezultatul unui test biologic este boolean (fie pozitiv,

fie negativ). Exista teste care au ca rezultate numere reale. Acceptând un prag de separare

α între valorile „pozitive” si cele „negative” ale testului, reprezentarea grafica a acestei

situatii este cea din figura.

Evident, am presupus ca ambele populatii, si cea a celor ce au maladia, si cea a celor ce

nu au maladia, sunt repartizate normal (Gaussian). O deplasare spre dreapta a pragului a

conduce la o specificitate mai mare, dar la o senzitivitate mai scazuta. (Vor fi mai putini

indivizi fals pozitivi, dar mai multi fals negativi.)

Cursul 1. Elemente de biostatistica - Sorana-Daniela...

Documents

Transcript of Cursul 1. Elemente de biostatistica - Sorana-Daniela...