Statistica II

download Statistica II

of 54

Transcript of Statistica II

  • 7/30/2019 Statistica II

    1/54

    CC UU PP RR II NN SS

    I. CLARIFICRI NOIONALEI METODOLOGICEI.1. Populaii i eantioaneI.2. Extragerea sau prelevarea eantioanelorI.3. Metode de eantionare empirice sau metode nealeatoriiI.4. Anchetele diacroniceI.5. Mrimea eantionului

    I.6. Deformrile sistematice ale rezultatelor

    II. PROBABILITATE I DISTRIBUIA PROBABILITILORII.1. Consideraii preliminareII.2. Principiul abaterii centrate reduseII.3. Valoarea pragului de ncredereII.4. Controlul parametrilor de fluctuaieII.5. Intervalele de fluctuaie a mediilor provenind dintr-un eantionII.6. Inferena asupra mediilor populaiei

    III. TEORIA TESTELOR N STATISTICIII.1. Consideraii preliminare

    III.2. Teste parametrice i neparametriceIII.3. Comparaia mediilorIII.4. Compararea unei medii la o norm.III.5. Cazul n care variana populaiei este necunoscutIII.6. Compararea a dou medii observateIII.7. Compararea a dou medii provenind din eantioane independenteIII.8. Comparaia a dou medii provenind din dou eantioane mperechiate

    sau corelateIII.9. Test cu o ieire, test cu dou ieiri

    IV. RELAIILE DE ASOCIERE DINTRE VARIABILEIV.1. Relaiadintre dou variabile nominaleIV.2. Relaia dintre dou variabile ordinaleIV.3. Relaia dintre dou variabile de intervalIV.4. Ecuaiile de regresie

    BIBLIOGRAFIE

    CCOONNFF..DDRR.. AAUURREELL SSTTAANN

    SS TTAA TT II SS TT II CC (( II II ))

  • 7/30/2019 Statistica II

    2/54

    SCOPUL UNITII DE CURS

    Familiarizarea cursanilor cu problemele principale ale statisticii infereniale aplicate n psihologie; Informarea cursanilor asupra principalelor tipuri de aplicaii ale statisticii infereniale n domeniul

    psihologic de cercetare; Informarea cursanilor asupra oportunitii aplicrii testelor statistice; Informarea cursanilor asupra deosebirii dintre interpretarea statistic-inferenial i interpretarea

    psihologic n domeniul cercetrii psihologice.

    OBIECTIVE OPERAIONALEn urma studierii acestei uniti de curs, studenii trebuie s-i formeze urmtoarele deprinderiintelectuale: S opereze cu principalele concepte ale statisticii infereniale utilizate n domeniul cercetrii

    psihologice; S precizeze etapele constituirii eantioanelor i s disting specificul acestora n cazul unor

    cercetri concrete; S precizeze situaiile de aplicare n psihologie a conceptelor statistice referitoare la diferenierea

    i asocierea seriilor de valori ale unei variabile;

    S precizeze specificul principalelor teste statistice i s cunoasc etapele derulrii acestora; S precizeze sensul i non-sensul aplicrii teste statistice; S poat utiliza corect datele coninute n tabelul anex.

    EVALUAREALa sfritul semestrului evaluarea se va realiza n cadrul unui examen scris. Pentru examen se vorstabili dou tipuri de subiecte: un tip referitor la teoria statistici un tip referitor la aplicarea n practica cunotinelor dobndite.

    n cadrul activitilor tutoriale se vor exersa subiectele cu caracter practic i se va verifica realizareaexerciiilor de la sfritul capitolelor. Tipurile de subiecte pentru examen vor fi egal ponderate pentru

    nota final obinut la examen.

  • 7/30/2019 Statistica II

    3/54

    STATISTIC(II)

    97

    I. CLARIFICRI NOIONALE

    I.1.POPULAII I EANTIOANE

    Noiunile de populaie i eantion sunt foarte frecvent utilizate n statistica inferenial, din acestmotiv se cer clar precizate.

    n statistic inferenial, termenul de populaie are un sens aparte fa de cel curent, sens dat despecificul acestei discipline care opereaz cu mulimi de date aparinnd unor domenii foarte diferite. Caatare, popula

    ia nu nseamn

    totalitatea locuitorilor globului p

    mntesc sau a unei p

    ri din acesta.

    ntr-o form foarte succint definim populaia ca un ansamblu de entiti care satisfac o definiie dat.Definirea prealabil a entitilor, naintea includerii lor n populaie, trebuie s fie foarte riguroas, pentrua nu da natere la confuzii. n loc de entiti se prefer n unele definiii ale populaiei termenii de indivizsau de uniti, cu precizarea c nu este vorba de indivizi umani, ci de elemente ale diferitelor mulimi denatur foarte diferit. Fcnd aceste precizri, putem da cteva exemple de ansambluri sau grupuricare pot constitui populaii:

    grupuri de persoane;

    grupuri profesionale;

    grupuri etnice;

    grupuri religioase;

    grupuri de instituii; grupuri de animale;

    grupuri de obiecte.

    grupuri de itemi;Exist o mare diversitate a modalitilor n care putem s ilustrm noiunea de populaie.

    Domeniile care satisfac definiia individului de baz sau a unitii din cadrul populaiei formeaz un mareevantai, pornind de la cele mai banale pn la cele mai bizare. Astfel, exemplificnd din domeniulindivizilor umani, n aceast noiune statistic pot fi cuprinse:

    toate persoanele de naionalitate romn; toate persoanele care sunt angajate ntr-o firm; toate persoanele care se ocup cu ocrotirea minorilor din Europa; toate persoanele care folosesc un anumit tip de ampon; toate persoanele dintr-un anumit jude care posed un cine de ras; toi inginerii care sunt conductori de firme.

    Practic, nu exist limite ale exemplificrii noiunii de populaie statistice. Din punct de vedere altiinei numit statistic, calitile pe care trebuie s le posede o anumit populaie trebuiesc bine

    stpnite i, n majoritatea cazurilor, clar cuantificate. Mrimea unei populaii poate varia de la un individsau o unitate pn la numere de dimensiuni extrem de mari. n unele cazuri, cnd numrul unitilor

  • 7/30/2019 Statistica II

    4/54

    AUREL STAN

    98

    este foarte mare i se gsete ntr-o continu cretere cu o rat imprevizibil, se vorbete de populaiiinfinite. Acelai individ sau aceeai unitate poate s se regseasc n mai multe populaii, n cazul ncare satisface i criteriile altor sisteme de clasificare. Astfel, o persoan poate face parte din populaiaprofesorilor de biologie din Moldova, din populaia credincioilor ortodoci din aceeai zon, din

    populaia posesorilor de computere i din cea a actorilor amatori, de exemplu.n cazul n care se calculeaz un indicator numeric din date provenind de la to i indiviziipopulaiei, mrimea rezultat se cheamparametrui are o valoare fix, nesupus oscilaiei. Este doarunul din sensurile noiunii de parametru. Dac avem posibilitatea s msurm n ntregime nlimeapopulaiei copiilor de 12 ani, de sex masculin din Romnia putem spune cu exactitate ct este mediaacesteia. Dar, anterior trebuie s precizm clar cnd considerm c un copil are 12 ani, deoarece foarterar putem face msurtori exact n ziua n care acesta mplinete 12 ani. De aceea, precizm c naceast categorie pot fi cuprini copii care la data msurtorii aveau ntre 11 ani i 180 de zile i 12 anii 180 de zile. Precauiile metodologice sunt foarte importante dac dorim s evitm apariia unorneclariti.

    Un eantion poate fi definit ca un subansamblu, o parte sau o poriune dintr-o populaie, pe carese efectueaz msurtori care pot fi utilizate pentru a trage concluzii n privina ntregii populaii din carea fost extras. Msurtorile efectuate asupra eantioanelor pot oferi doar estimaia valorii parametrilor,estimaie ce poate fi destul de aproape de valorile exacte, valorile populaiei, n cazul n care se parcurgpaii necesari indicai de o metodologie riguroas. Un eantion este compus din uniti de sondaj.Mrimea unui eantion este dat de numrul de uniti care l compun. n anchetele psihosociologice,unitile sunt, n general, persoane umane. Pentru alte genuri de anchete, unitile pot fi o situaie, undocument, o unitate de nregistrare video sau audiovizual, un articol de ziar. Tehnicile de eantionaresunt identice, oricare ar fi natura unitilor.

    Maniera n care se procedeaz pentru constituirea unui eantion depinde de : existena unor informaii asupra incidenei caracteristicilor definite prealabil (De exemplu, brbaii i

    femeile au aceleai atitudini fa de munc? Exist o evoluie a acestor atitudini cu vrsta?Modalitatea n care exerciiile colare de nvare a lecturii difer de la ar la ar?)

    existena informaii asupra populaiei, adic dac aceasta are precizai indicatorii statistici?Este important, n primul caz, ca grupele comparate s fie echivalente, cu excepia variabilelor

    definite (variabilele anchetei). n al doilea caz este imperativ ca grupele reinute s fie constituite n aafel nct ele s fie asemntoare populaiei de care ne interesm (denumit i populaie printe),deoarece constatrile fcute pe datele obinute n eantion urmeaz a fi generalizate prin inferen, la

    nivelul ntregii populaii. Se impune ca un astfel de eantion s fie reprezentativ. Dac eantionul nueste asemntor populaiei de care se intereseaz un studiu, se spune c eantionul este deformatsau contorsionat. Totdeauna exist diferene ntre populaie i eantioane, dar acestea suntminimalizate prin tehnici specifice de prelucrare statistic. Tehnicile de eantionare vizeaz obinereaunor eantioane pe ct posibil de reprezentative. n cele mai multe cazuri n cercetrile tiinifice dindomeniul psihopedagogic nu se opereaz cu un eantion, ci cu mai multe.

    Eantioanele de numesc independente n cazul n care indivizii care le compun nu sunt fizicaceiai n fiecare din ele. Ilustrarea cea mai clar a unor astfel de eantioane sunt cele difereniateprin sex. Eantioanele independente se folosesc n cercetare, n situaia n care cercettorul vrea s

    evite ca efectele adiionale ale manipulrii modalitilor variabilelor s se produc, cnd exista ocomplet incompatibilitate n succesiunea de manipulare a acestor modaliti i atunci cnd se dorete

  • 7/30/2019 Statistica II

    5/54

    STATISTIC(II)

    99

    a se evita efectele oboselii, scderii motivaiei i a ateniei din partea indivizilor care le compun (ncazul n care exist o mare solicitare n cadrul unor cercetri). Seriile de date se consider c aparinunor eantioane independente i cnd membrii aceluiai grup de indivizi sunt supui la o solicitare ncondiii diferite.

    Eantioanele perechi sau dependente sunt formate din aceeai indivizi sau din grupe diferitede indivizi, care au fost anterior egalizate n privina anumitor caracteristici (vrst, sex, nivel decolarizare, arie geografic de provenien etc.) i pregtite cu grij pentru competiie. Aceste tipuri deeantioane au utilizri multiple n psihologie i pedagogie, ale cror cazuri se pot grupa n trei categorii: Cercetri n care exist necesitatea de a controla ct mai riguros un factor de varia ie. n cazul

    cercetrilor longitudinale acelai eantion este folosit mai muli ani, sau chiar mai multe decenii ncercetrile de psihosomatic cercettorii utilizeaz acelai eantion de persoane la un interval de20 sau 30 de ani, dup ce anterior au constatat prezena unor factori de ordin psihologic carepredispun la apariia unei bolii cardiace sau de alt natur;

    Cercetri i studii n care diferitele etape de msur sunt legate ntre ele, n cazul n care uncercettor i propune s aprecieze efectele cumulative ale manipulrii variabilelor Exemple destudii de acest gen sunt cele efectuate n privina efectului nvrii asupra memoriei;

    Cercetri n care se dorete a se controla influena factorilor comuni eantioanelor. n acest tip decercetri n care caracteristicile nu se raporteaz asupra trsturilor identice proprii indivizilor, ciasupra caracteristicilor comune ale eantioanelor.

    Dac n psihologie ar exista posibilitatea studierii populaiilor ntregi, statistica descriptiv ar fisuficient pentru a rezuma rezultatele observaiilor. ns, cel mai adesea, se lucreaz cu eantioane desubieci (fapt ce duce la crearea distribuiilor observate) provenind dintr-o populaie, sau din mai multe

    populaii diferiteEXEMPLU: ntr-un studiu asupra caracteristicilor memoriei copiilor se vor putea face investigaii

    n mai multe clase primare pentru a observa cum se efectueaz memorarea, care este genezai evoluia acesteia. Se va studia, n acest caz, un eantion din populaia elevilor din Romnia,avnd vrsta stabilit de cercettorii care efectueaz studiul. Dac acelai studiu se va efectuaasupra elevilor de aceiai vrst din colile din Egipt i din Brazilia vor exista eantioaneprovenind din trei populaii diferite.

    ntrebarea care se pune este urmtoarea: dac n mod global (nu neaprat pentru toi indivizii,ci doar pentru majoritatea dintre ei) se observ diferene de memorare ntre dou eantioane de elevi,

    este posibil ca aceste diferene s existe i la nivelul populaiilor luate n ntregime? Rspunsul laaceast ntrebare este foarte important, deoarece dac se pot confirma diferenele, se poate trageconcluzia existenei diferenelor ntre populaii. Dac nu se poate realiza acest lucru, nu se pot tragenici concluzii asupra diferenelor ntre populaii (n ciuda diferenelor obinute la eantioane) i se poatetrage concluzia c geneza memoriei i a diferitelor sale forme este universal, c ea urmeaz aceleaifaze i etape la toi copiii, indiferent din care zon a planetei provin. n alte conjuncturi i n alte situaii,miza nu poate fi la fel de important. Exist n acest caz obligaia de a arta c ceea ce s-a obinutsau observat nu este pur fortuit i ocazional, propriu doar eantionului studiat, ci c avem de-a face culucruri semnificative, suficient de generale, valabile pentru populaie, adic dincolo de nivelul

    eantionului. Faptul observat are un caracter sistematic, aplicabil nu la to i indivizii, nici la toateeantioanele de indivizi, ci la cea mai mare parte dintre acestea.

  • 7/30/2019 Statistica II

    6/54

    AUREL STAN

    100

    Demersul care const n a generaliza pentru un ansamblu mai vast (populaia), ceea ce seobserv pe un ansamblu mult mai restrns (eantion) este cel mai uzual n psihologie, pentru cfrecvent nu se cunosc statisticile descriind populaia n ntregime.

    Mai rar, cnd se cunoate populaia, problema este de ti dac un eantion observat este

    conform, tipic acestei populaii (compatibil cu ea) sau dac este atipic i, probabil, rezultat din altpopulaie. Avem un astfel de caz cnd se testeaz un model (elaborat de un cercettor) prezicndrspunsurile ateptate din partea subiecilor. Este vorba de a ti dac rspunsurile efective obinute cuun eantion de subieci (plasai n condiii definite prin model) sunt conforme prediciilor acestuia.

    n cele dou cazuri pentru a se pronuna asupra populaiei (prin inferen, plecnd de la uneantion), cercettorul poate fi condus la a utiliza un intermediar: statistica inferenial. Este necesar sfie precizate natura, statutul i rolul acestei statistici ca i distribuiile pe care ea le reprezint.Chestiunile infereniale, de generalizare sau de compatibilitate, cuprind statisticile descriptive:frecvene, medii, chiar dispersii (variane), precum i diferene de medii, de dispersii, de frecvene. Sevor trata n cadrul statisticii infereniale frecvenele i mediile, precum i diferenele lor.

    I.2.EXTRAGEREA SAU PRELEVAREA EANTIOANELOR

    Operaia de construcie a eantioanelor se numete eantionare. Se mai utilizeaz termeniieantionaj i sondaj. De la nceput trebuie contientizat importana cutrii informaiei "adevrate",

    juste, adic a acelei informaii pe care am avea-o dac s-ar cerceta toi indivizii care compun populaia.Ca atare, eantioanele trebuie s fie ct mai reprezentative. Metodele de eantionare se divid, n mare,

    n eantionri aleatorii i eantionri empirice. Dintre tipurile de eantionri aleatorii cunoscute

    enumerm urmtoarele: Eantionarea probabilisticsau eantionarea la ntmplare. Acest tip de eantionare face apel la

    mecanismele de extragere aleatorie (prin tragere la sori) de indivizi care compun eantionul.Eantionarea la ntmplare const n a preleva unitile la ntmplare dintr-o anumit populaie.Aceasta presupune c cercettorul dispune de date referitoare la ansamblul populaiei, adic debaz de sondaj. n cazul cunoaterii bazei de sondaj se procedeaz prin tragere la sori a unitilor.

    n principiu, tragerea la sori constituie cea mai bun metod de eantionare, deoarece corespundemodelelor statistice folosite pentru analiz. Apoi se extrage, respectnd specificul aleatoriu aacestui tip de eantionare, un numr determinat de numere cuprinse ntre 1 i n (notare pentru

    volumul eantionului). Unitile corespondente selecionate constituie eantionul. Totui, acest tipde eantionare nu este cel mai adaptat n acele studii n care unitile de eantionare, astfelselecionate, nu sunt disponibil, mai ales cnd este vorba de persoane (este mai uor de aconstitui un eantion de persoane pentru a le msura greutatea, dect de a face un eantionstatistic pentru a msura atitudinile). Din motive de fezabilitate sau de cost tragerea la sori poate fiprecedat de o prestructurare empiric (deci nealeatorie) a populaiei, operaie legat decunoaterea prealabil a acesteia. Tragerea la sori elementar const n a numerota toi indiviziicare compun populaia printe studiat, apoi de a extrage la ntmplare o cantitate definit dinaceste numere, aceast cantitate, fiind efectiv eantionul. Se selecteaz indivizii corespunznd

    numerelor trase la sori, conform principiului tragerii la loto. Este modul de eantionaj cel maiprobabilist, dar care are un inconvenient major care const n faptul c este foarte costisitor n timp

  • 7/30/2019 Statistica II

    7/54

    STATISTIC(II)

    101

    i bani. A inventaria toi indivizii populaiei este o operaiune deosebit de dificil, urmat de o alta lafel de dificil, aceea de a gsi pe toi indivizii trai la sori. Acest tip de eantion se poate totuiutiliza n studiile de teren, n studiile efectuate pe copii unei cree, n studiul efectuat ntr-o

    ntreprindere sau, n general, n studiile efectuate pe mici colectiviti.

    Eantion prin tragere la sori secvenialsau eantion cu mai multe trepte. Este o tragere la soricare se efectueaz pe criterii succesive. n primul rnd se definete o populaie pe un criteriu dat ise extrage un prim eantion urmnd acest criteriu. Apoi se definete un al doilea criteriu ninteriorul acestui eantion i se procedeaz la o nou tragere la sori pentru elementele iniialselecionate. Exemplu de tragerea la sori secvenial: n cazul efecturii unui studiu asuprastress-ului profesional n rndul infirmierelor din mediul spitalicesc public, n primul moment seselecioneaz un eantion de spitale, apoi, n al doilea moment, se extrage un eantion deinfirmiere din fiecare spital selecionat.

    Eantionaje prin grappes. Un grappes este un ansamblu de uniti avnd o legtur natural.Exemplu: elevii unei clase, clasele aceluiai aezmnt colar, muncitorii unui atelier, ateliereleunei aceleai uzine, articolele unui jurnal, jurnalele unui aceluiai grup de pres. Unitilecomponente ale unui grappes se aseamn mai mult ntre ele dect cu alte uniti. Baza de sondajnu mai este atunci ansamblul unitilor susceptibile de a fi chestionate, ci grappes-urile. nanchetele asupra colii a devenit o procedur clasic faptul de a proceda mai nti la tragerea lasori prin hazard a colilor, apoi a claselor, apoi a elevilor n interiorul nivelelorcolare. Este vorba,

    n acest caz, de o tragere la sori prin grappes de trei grade, pentru c sunt utilizate trei uniti desondaj legate. Avantajul acestui procedeu rezid n faptul c cineva nu are nevoie de a dispune debaza de sondaj relativ la populaia printe i n faptul c se limiteaz dispersia unitilor decontactat. Este necesar, e totui, ca grappes-urile s fie de mrime suficienti n numr suficient

    pentru ca s se aplice legea numerelor mari. Eantionarea stratificat. n acest caz se divizeaz populaia n subpopulaii numite straturi,

    dispunnd fiecare de caracteristici distincte. Se extrage un eantion din interiorul fiecrui strat.Ansamblul acestor eantioane care pot fi de mrime diferit constituie eantionul de studiu.Aceast metod are ca prioritate definirea, n prealabil, a subpopulaiilor sau straturilor. Alegerea lahazard a unitilor se face apoi n interiorul fiecrui strat (definit prin ncruciarea variabilelor).Aceast metod este privilegiat cnd se realizeaz asupra bazei de caracteristici specifice luatedrept criteriu de stratificare. Criteriile de stratificare a unitilor sunt funcie a specificului studiului.Exemplu, ntr-o anchet asupra comportamentelor de cumprare a bunurilor de consum zilnic se

    stabilesc drept criterii: nivelul de venituri al menajului, sexul, mrimea localitii. ntr-o anchetasupra opiniei elevilor acestea pot fi considerate nivelul colari reuita colar.

    I.3.METODE DE EANTIONARE EMPIRICE SAU METODE NEALEATORII

    Aceste metode de eantionare se bazeaz pe construirea unui eantion ale crui caracteristicisunt cele mai apropiate de caracteristicile eseniale ale populaiei, pornind de la informaiile care seposed despre o populaie.

    Eantionarea prin quote. Este cel mai familiar tip de eantionare i const n alegerea indivizilorcare compun eantionul n aa fel nct caracteristicile eseniale ale populaiei s se regseasc n

  • 7/30/2019 Statistica II

    8/54

    AUREL STAN

    102

    aceleai proporii, sau dup un anumit procent (quota), n eantion. Prin acest tip de eantionarese construiete un model redus al populaiei. Mrimea diferitelor subgrupe constitutive aleeantionului este proporional subgrupelor echivalente din populaia printe. Pentru acest tip deeantionare se mai utilizeaz denumirea eantionare proporional. Dac n populaia printe

    exist 48% brbai i 52% femei, ntr-o anchet purtat pe 1000 de persoane se vor chestiona 480de brbai i 520 de femei. Pentru a realiza acest fel de eantionare se stabilesc n prealabil cotecare se comunic persoanelor nsrcinate cu nregistrarea informaiilor. Indivizii sunt, n general,mai greu de gsit dac ei aparin la o categorie cu frecven redus n populaia printe. Dupstabilirea quotelor se examineaz sau chestioneaz indivizii la concurena proporiilor, inndseama de criteriile fixate. Cele mai importante criterii pentru adul i sunt: a) vrsta, b) sexul,c) profesia, d) nivelul de venituri, e) zona locuit. La copii se consider vrsta i echivalentul su(clasa colar), tipul de coal frecventat, profesiunea tatlui etc. Se pot coleciona date pn secompleteaz procentul grilei. n cazul sondajele de opinie, n care metoda de eantionare prinquote este foarte utilizat, variabilele cel mai frecvent utilizate sunt sexul, vrsta, mrimeacomunitii locuite, localizarea geografic, profesiunea efului de menaj, profesiunea persoaneichestionate ca i nivelul de studii. Fiabilitatea eantionului este funcie de justeea descrieriipopulaiei i de pertinena variabilelor alese pentru a determina quotele n legtur cu finalitateastudiului. n domeniile de studiu noi i n timpul bulversrilor sociale sau politice este adesea dificilde a determina a priorivariabilele pertinente.

    EXEMPLU. S presupunem ca trebuie s construim un eantion prin quote avnd volumul de1200 de persoane i trebuie s inem seama n colectarea datelor de sex, vrst, nivel destudii i specificul localitii de provenien. Sexul l vom nota cu S, cu variantele S1(masculin) i S2(feminin). Vrsta o vom nota cu V, avnd varianteleV1(pn la 25 ani), V2

    (26-40 ani), V3 (41 ani de ani i peste). Nivelul de studii l vom nota cu G, cu variantele G1(studii generale), G2 (studii medii) i G3 (studii superioare). Specificul localitii de

    provenien l vom nota cu P, avnd variantele P1 (urban) i P2( rural).n continuare vom prezenta 2 tabele cu cte 36 de csue fiecare (2332=36). n tabelul din

    stnga fiecare csu va prezenta procentul din populaia naional (valorile sunt fictive)corespunztor unei anumite combinaii a variantelor sau modalitii variabilelor amintite. n csuelecelui de-al doilea tabel vor fi trecute cifre reprezentnd numrul proporional de indivizi aieantionului.

    Situaia existent n populaie(exprimat procentual)

    Situaia n eantion(exprimat n valori absolute)

    P1 P2 P1 P2G1 G2 G3 G1 G2 G3 G1 G2 G3 G1 G2 G3

    V1 3,4 2,8 1,7 2,8 2,0 1,9 V1 41 31 20 34 24 23V2 3,2 3,4 1,8 1,7 1,8 1,5 V2 38 41 22 20 22 18S1V3 4,8 1,9 2,7 3,8 4,2 1,9

    S1V3 58 23 32 46 50 23

    V1 2,6 2,5 2,3 3,7 2,8 2,7 V1 31 30 28 44 34 32V2 3,5 3,0 3,1 4,1 3,0 1,9 V2 42 36 37 49 36 22S2V3 4,3 3,1 1,4 4,0 3,4 1,5

    S2V3 52 37 17 48 41 18

    Cum se obin valorile numerice pentru eantion. n tabelul din dreapta, cuprinznd valorilenumerice ale eantionului corespunztoare procentelor existente n populaie, celula S1V1P1G1

  • 7/30/2019 Statistica II

    9/54

    STATISTIC(II)

    103

    (coninnd numrul persoanelor din eantion care sunt de sex masculin, au vrsta pn la 25 deani, provin din mediul urban i au studii generale) conine cifra 41. Celula corespunztoare dintabelul cuprinznd situaia procentual din populaie conine valoarea 3,4 (exprimare procentual).Valoarea 41 s-a obinut prin nmulirea valorii volumului eantionului (1200) cu 0,034 (proporia

    corespunztoare din populaie obinut prin transformarea valorii procentuale). Deci12000,034=40,8, aproximativ 41 (menionm c toate valorile au fost ntregite, deformareaprodus fiind considerat neesenial). 41 de subieci reprezint 3,4% din volumul eantionului. Seprocedeaz similar pentru toate celulele tabelului. Procentele cu care noi am exemplificat suntfictive, dar cele reale pot fi uor de gsit n anuarele statistice.

    Eantionare prin uniti tip. Acest fel de eantionare se obine prin divizarea populaiei printe ncategorii cu ajutorul variabilelor care sunt considerate eseniale pentru o anumit cercetare.Obiectivul este de a construi un eantion ale crui caracteristici fac din el un eantion susceptibilde a furniza informaii pertinente. Exemplul cel mai potrivit ar fi acela al unor eantioanecuprinznd infractorii tineri, indicat atunci cnd un cercettor i propune s studieze delicvena

    juvenil. Realizarea unor astfel de studii presupun depirea unor dificulti de naturorganizatorici metodologic.

    I.4.ANCHETELE DIACRONICE

    n unele situaii de cercetare (n care exist interes tiinific pentru un proces evolutiv) estenecesar de a se examina sau chestiona la date succesive acelai eantion de subieci. n acest cazse constituie ceea ce se numete unpanel. Aceast metod a fost descris de Paul Lazarsfeld n anul

    1938. Ea este utilizat, mai ales, pentru studiul evoluiei comportamentelor electorale. Institutele desondaje au create paneluri permanente pe subpopulaii specifice: medici, avocai, auditori de radio iteleviziune, grupri religioase i politice etc. Panelurile sunt utilizate i n situaii n care un cercettoreste interesat de a controla experiena sau competena persoanelor.

    Aceast tehnic prezint interes n reperarea indivizilor care i sucumb opiniile i atitudinilei a celor care nu i le schimb, avnd drept finalitate aprecierea nivelului acestei stabiliti sauevoluii. Ea prezint unele inconveniente, deoarece persoanele care accept de a face parte dintr-unpanel au caracteristici particulare (disponibilitate, sociabilitate) i este dificil de a discerne n privin avariabilelor care influeneaz, conduitele, opiniile sau atitudinile. Atitudinile se pot schimba prin faptul

    de a fi membru al unui panel (de exemplu tendina de a produce rspunsuri conformiste, de a rmnecoerent n timp). De asemenea, exist un risc de obsolescen a panelului, datorat evoluieipersoanelor (mbtrnire, schimbarea profesiei, oprirea colaborrii, schimbarea locuinei).

    I.5.MRIMEA EANTIONULUI

    Determinarea mrimii eantionului ce urmeaz a fi constituit este o problem foarteimportant. Numrul persoanelor examinate sau chestionate trebuie s satisfac: exigena de a fi

    destul de precis n estimarea populaiei printe i pe aceea de a fi apt de a da informaii fiabile, inndcont de caracteristicile care intereseaz. De exemplu, n cazul sondajului de opinii asupra inteniilor de

  • 7/30/2019 Statistica II

    10/54

    AUREL STAN

    104

    vot ntre dou alegeri este important ca persoanele s fie chestionate ntr-un interval temporal foartescurt, deoarece se cunoate faptul c preferinele electorale sunt foarte fluctuante i c anticiparearezultatului votului constituie interesul major al operaiei. Numrul de persoane chestionate trebuie sfie optim limitat, din cauza costurilor sondajului i a numrului de anchetatori specializai la care este

    posibil de a face apel ntr-un timp scurt. Pe de alt parte volumul eantioanelor trebuie s fie suficientde mare, deoarece estimarea trebuie s fie suficient de precis, cu att mai mult cu ct candidaii suntnumeroi.

    I.6.DEFORMRILE SISTEMATICE ALE REZULTATELOR

    n cazul n care unitile de eantionare sunt fiine umane exist n mod necesar surse dedeformare sistematic a rezultatelor care intervin n apreciere. Un termen din ce n ce mai utilizat nliteratura de specialitate strin pentru denumirea acestor deformri ce au un caracter sistematic estecel de biais. n fond, nimeni nu este obligat s furnizeze informaii. Deformrile informaiilor oferite deeantionare exist indiferent de metodele folosite. Direciile din care poate veni deformare sunt: n cazul unei eantionri probabiliste, o parte din indivizii care fac parte din eantionul prevzut nu

    rspund la chestionar; n cazul unei eantionri prin quote putem s avem o suprareprezentare a anumitor categorii de

    persoane (este mai posibil de a ntlni mai multe femei dect brbai, rurali trind n ora dectrurali izolai.

    chestionarea persoanelor prin telefon (acelea care nu au telefon nu sunt ntrebate) sau n locurifrecventate n mod obinuit de o anumit categorie de persoane.

    Controlul acestor deformri, sau, mai bine spus, limitarea lor, se realizeaz prin impunerea dereguli privind chestionarea: a nu chestiona amici i cunotine, a varia locurile i orele de chestionare, anu chestiona mai multe persoane care aparin la aceluiai grup (membrii aceleai familii) dac aceastanu este prevzut n mod expres. Institutele de sondaje exercit un control permanent asupra celor cese ocup cu chestionare persoanelor, deoarece cunosc faptul c nivelul calitii unei anchete depindede respectarea regulilor de eantionare, reguli care au fost concepute n funcie de finalitatea studiului.

    n ciuda acestor controale, innd cont de diversitatea surselor de deformare, se estimeaz c metodaquotelor d, n general, rezultate mai puin satisfctoare dect alte metode. Atunci cnd este posibilde aprecia importana deformrilor se procedeaz la aplicarea unor procedee de corecie a datelor

    obinute. Aceast corecie nu este posibil dect dac exist o bun cunoatere a populaiei cuprinsen studiu i a modelelor adecvate care permit redresarea lor.

    Operaia de redresare a eantioanelor presupune o serie de riscuri. n sondaje se introducadesea ntrebri care vizeaz sinceritatea rspunsurilor. De exemplu, cnd se ntreab despre inteniade vot, se ntreabi de votul precedent. Dac exist nepotriviri mari se opereaz o redresare i oponderare.

  • 7/30/2019 Statistica II

    11/54

  • 7/30/2019 Statistica II

    12/54

  • 7/30/2019 Statistica II

    13/54

    STATISTIC(II)

    107

    0 1045

    120

    210

    252

    210

    120

    4510 0

    0

    50

    100

    150200

    250

    300

    1 2 3 4 5 6 7 8 9 10 11

    Cazul cnd ntr-o urn se afla 100 de bile dintre care 30 albe i 70 negre. Formula esteurmtoarea:

    NENTNExPxP

    NENTxNE

    NTPAP

    = 2!

    )!(!

    !

    n care - PAP- probabilitatea de apariie a unei proporii:NT- numrul de trageri;NE - numrul de evenimente identice,

    P1 - probabilitatea primului element;P2 - probabilitatea celui de-al doilea element1.tiind c P1 poate caracteriza proporia bilelor albe i P2 proporia bilelor negre i c NT

    caracterizeaz mrimea eantionului se poate calcula probabilitatea exact de a obine nu import ceproporie de bile albe i bile negre ntr-un eantion de mrime definit.

    EXEMPLU. Care este probabilitatea de a obine 3 bile albe provenind din 8 trageri?P1=0,3 P2= 0,7 (exprimate n scala de la 0 la 1). Se remarc c 1- P1 = P2. NT=8. NE=3.Probabilitatea este urmtoarea:

    2541,07,03,0)!38(!3

    !8 383 =

    xxx

    Probabilitatea este de 0,2541 adic 25,41% anse de a gsi 3 bile albe n eantionul nostru.Probabilitatea de a gsi 7 bile albe va fi de:

    8!

    7 8 70 3 0 7 0 0012257 8 7

    ! ( ), , ,

    xx x

    =

    deci, exist 0,12% anse de a obine un eantion coninnd 7 bile albe.

    Principiul urnei funcioneaz asupra msurtorilor de intervale continue i discontinue.

    1 Formulele au fost preluate din lucrarea lui Nicolas Gueguen Manuel de statistique pour psychologues, Dunod, Paris,1997, pag.72-73

  • 7/30/2019 Statistica II

    14/54

  • 7/30/2019 Statistica II

    15/54

    STATISTIC(II)

    109

    Aspectul distribuiei este foarte apropiat de cel teoretic elaborat de Gauss-Laplace. Distribuiaapare perfect simetric. Se poate verifica aceast simetrie calculnd media, mediana i modululacestei distribuii a mediilor. Pentru toi aceti indicatori de tendin central se va obine valoarea 8,5.Distribuia normal se caracterizeaz printr-o medie corespunznd punctului cel mai nalt al curbei i

    printr-o varian caracteriznd modul general n care se disperseaz valorile distribuiei n jurul acesteimedii. Din raiuni practice valoarea acestor parametri a fost fixat odat pentru totdeauna prin legeanormat centrat redus. Am descris-o anterior, n capitolul destinat indicatorilor statistici, odat cutratarea valorilor normate z. Este o variant practic a distribuiei normale Gauss-Laplace. Mediadistribuiei centrate reduse este egal cu 0 i abaterea standard este egal cu 1. Aceast curb estenormat prin valoarea celor doi parametri. Curba care caracterizeaz aceast lege este continu.Cunoscnd proprietile distribuiei acestei curbe putem afla probabilitatea teoretic de apariie a unuieveniment, adic a uneia din variantele posibile a unei distribuii. Mai bine spus, ntr-o distribuiecentrat redus putem s apreciem sau s estimm probabilitatea de apariie a intervalului mergndde la media distribuiei pn la valoarea corespunznd fenomenului studiat.

    II.2.PRINCIPIUL ABATERII CENTRATE REDUSE

    Formula abaterii centrate reduse este urmtoareas

    XXz

    = , n careXeste variabila brut

    a distribuiei, X media distribuiei eantionului i s abaterea standard a distribuiei eantionului.Aceast transformare nu poate s se realizeze dect dac distribuia studiat prezint o form

    normal. Este necesar s facem o distincie n privina notrii indicatorilor populaiei i ai eantioanelor.Pentru a nota media unei populaii vom utiliza litera greceasc. Pentru notarea abaterii standard aunei populaii vom utiliza litera greceasc. Pentru a nota volumul unei populaii vom folosi litera n.

    Notarea mediei eantionului se va face prin X . Prin s vom nota abaterea standard a unui eantion iprin N volumul eantionului. Aceste convenii de notare sunt respectate parial, motiv pentru caretrebuie s fim ateni, atunci cnd analizm o lucrare tiinific de statistic, la conveniile cu care seopereaz. Studiul principiilor de extragere a eantioanelor n interiorul unei urne indic c mediileacestora i proporiile acestora tind s prezinte caracteristicile populaiei din care au fost extrase. Sepoate prevedea media i proporiile pe care le va avea un eantion oarecare, dac acesta este extras

    dintr-o populaie ai crei parametri sunt cunoscui i invers (, i n).Obiectivul const n a prevedea valorile anumitor parametri pornind de la indicatorii identificaintr-un eantion, i invers, a prevedea valorile unor indicatori ai unui eantion pornind de la parametriiunei populaii. Specificm c noiunea de parametru o folosim numai pentru populaie. Se va trece dela funcia de descriere la funcia de inferen. Regula care prezideaz utilizarea tabelelor centratereduse (prezentnd o form normal) trebuie s fie scrupulos respectat. Tabelele distribuieirespective se gsesc n anexele cursului nostru. n statistica inferenial un concept important estepragul de ncredere. Intervalele de fluctuaie ale mediilor i proporiilor sunt noiuni eseniale alerezumatelor distribuiilor de msur. Aceste intervale sunt construite pentru a apropia cu cea mai mare

    certitudine posibil media sau proporia pe care o ia un eantion extras dintr-o populaie pentru careeste cunoscut media, abaterea standard i volumul.

  • 7/30/2019 Statistica II

    16/54

  • 7/30/2019 Statistica II

    17/54

  • 7/30/2019 Statistica II

    18/54

    AUREL STAN

    112

    Vom calcula media i abaterea standard a acestei distribuii a valorilor populaiei:

    Aplicm formula pentru calcularea mediei

    aritmetice: 5,1112

    138===

    n

    X . Simbolul utilizat

    pentru desemnarea mediei este adaptat pentrupopulaie. n continuare, aplicm formula pentrucalcularea abaterii standard. n primul rnd vom calculavariana, dup formula pentru date negrupate, apoi

    abaterea standard: 91,1112

    1432

    2 ===

    n

    x . Pentru

    calcularea abaterii standard extragem rdcin ptrat

    din varian: 45,391,11 == .

    S presupunem c prelevm la ntmplare un eantion din doi subieci n aceast populaie is ncercm de a prezice cu un prag de ncredere de 95% (deci un risc de eroare de 5%) intervalul defluctuaie a mediei acestui eantion. Tabelul legii normale centrate reduse ne furnizeaz pentru un riscde 5% o valoare zegal cu 1,96. Pentru a afla aceast valoare z= 1,96 cutm n celulele tabeluluilegii normale reduse valoarea 0,05. Valoarea zcorespunztoare va fi 1,96.

    Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,0,0,1. . . .. .. .. .

    1,90 0,0500

    Deci, dincolo de intervalul valoric 1,96z+ 1,96znu mai rmne dect 5% din suprafaa curbei.Deci, intervalul de fluctuaie a mediei unui eantion extras la ntmplare din populaie se poate afla

    aplicnd formula: 10.45,112

    4,396,15,11 == xIFE . Deci, cu un risc de eroare de 5% putem s

    estimm c media eantionului poate oscila ntre 7.40 (11,5 - 4,10) i 15.60 (11,5 + 4,10) Dac privimtabloul datelor culese prin examinare observm c marea majoritate a mediilor eantioanelor se

    ncadreaz ntre aceste limite fixate de medie i abaterile erorii standard (pentru a verifica acest lucru

    putem s facem media a cte dou valori din populaie pe care s-a exemplificat).

    II.4.CONTROLUL PARAMETRILOR DE FLUCTUAIE

    Marja de fluctuaie depinde de 3 parametri care nu exercit acelai grad de influen asupraamplitudinii intervalului.

    Pragul de ncredere. Creterea amplitudinii intervalului de ncredere are efect direct asupraconcluziilor care se pot trage. Se poate ajunge la dou concluzii diferite (opuse n aparen) dup

    nivelul de ncredere ales. Este foarte important de a determina bine nivelul de ncredere care se acordestimaiilor noastre, dac nu dorim s ajungem la concluzii eronate.

    Nr.crt. X x x2

    1 16 4.50 20,252 6 - 5,50 30,25

    3 9 - 2,50 6,254 12 0,50 0,255 7 - 4,50 20,256 13 1,50 2,257 8 - 3,50 12,258 10 - 1,50 2,259 17 5,50 30,25

    10 15 3,50 12,2511 14 2,50 6,2512 11 - 0,50 0,25 138 143

  • 7/30/2019 Statistica II

    19/54

    STATISTIC(II)

    113

    Variana este dificil controlabil pentru c ea rezult din msurtorile efectuate n populaie.Precizia este cu att mai important (intervalul va fi mai ngust n jurul mediei) cu ct dispersia va fi maimic, dar nu se poate ntlni situaia n care variana s nu acioneze asupra valorii. Micorarea valoriivarianei ntr-o populaie nu este posibil dect dac se identific n populaie indivizii care produc cea

    mai mare dispersie (i de constatat dac ei nu sunt bolnavi n momentul efecturii unei probepsihologice, dac au neles ceea ce li se cere, dac au mai fcut ceea ce li se cere pe cnd alii nu aufcut). Pe scurt, trebuie s se verifice echivalena factorilor de variaie pentru fiecare subiect.

    Mrimea eantionului. A priori, nimic nu ne mpiedic s folosim atia indivizi ci dorimpentru cercetare. n schimb, se pune i problema costului general care corespunde mririi numruluide indivizi. Mrirea eantionului nu este proporional valorii sale, ci rdcinii ptrate a acestei valori.Dac dorim o precizie de zece ori mai mare este nevoie de sute de ori mai mul i indivizi. Ctigulobinut n termeni de precizie nu este liniar. Populaia printe de mare dimensiune (de ordinulmilioanelor) se poate examina sau chestiona n proporie de 50%, 20% , 10%.5% sau 1 %. Este foarteprobabil ca energia mobilizat s nu fie proporional ctigului realizat. Institutele de sondajerecomand cel mai bun compromis ntre gradul de precizie i costul financiar al sondajului. Dac avem

    stabilite valorile celorlalte variabile ale marjei de fluctuaie (MF = z*N

    ) putem s stabilim mrimea

    efectivului eantionului pentru un prag de ncrederea dat).EXEMPLU Din aplicarea unui test de inteligen la o populaie rezult o medie egal cu 240 i oabatere standard egal cu 22, n condiiile n care distribuia este normal. Se dorete s sedetermine, la un risc de 2%, care va fi numrul de subieci necesari ai unui eantion testatpentru a obine o marja de fluctuaie de 5,70. Deci, MF = 5,70. Pentru un prag de ncredere de98% sau pentru un risc de eroare de 2% valoarea lui zeste egal cu 2,32.

    81,78141,6

    484?;

    ?

    484141,6;

    ?

    22478,2;

    ?

    22478,2;

    ?

    22

    32,2

    70,5;

    ?

    22*32,270,5

    22 =======

    Putem trage concluzia c un eantion care are 79 de indivizi corespunde riscului ales.

    Determinarea altor parametri de fluctuaie. Este inutil de a aciona asupra mrimii celorlalidoi parametri de fluctuaie. Cineva nu poate schimba rezonabil valoarea dispersiei observate npopulaie. Aceasta nseamn s relum msurtorile asupra populaiei. A lua un nivel de risc inferior lui5% se dovedete se dovedete a fi o procedur inadecvat, deoarece exist riscul de a elimina inutil

    anumite eantioane care pot fi conservate.

    II.5.INTERVALELE DE FLUCTUAIE A MEDIILOR PROVENIND DINTR-UN EANTION

    Pn acum s-au estimat intervalele de fluctuaie a mediilor eantioanelor plecnd de lacaracteristicile cunoscute ale populaiei. n cazul fluctuaiei mediei eantionului aveam cunotin demedia i variana populaiei printe. n practica cercetrilor psihopedagogice se ntlnesc foarte rarastfel de cazuri. n majoritatea cazurilor nu cunoatem parametrii caracteriznd populaia printe din

    care s-a extras eantionul studiat. Mai frecvent se ntlnete situaia n care se dispune de un eantiondespre care exist aprecierea c este cel mai reprezentativ posibil din populaie (deoarece s-au utilizat

  • 7/30/2019 Statistica II

    20/54

    AUREL STAN

    114

    toate mijloacele pentru ca el s fie aa), i nu se dispune de parametrii populaiei permind unasemenea control. Prezint interes, de asemenea, de a ti n ce msur aceste medii pot s reprezintepopulaia sau populaiile printe din care au ieit (a se vedea modelizarea principiului urnei.) Deaceast dat obiectivul este de a gsi ceea ce conine urna pornind de la informaiile coninute n

    eantion. Aceast extrapolare nu se poate face dect lund informaii de la eantionul studiat.

    II.6.INFERENA ASUPRA MEDIILOR POPULAIEI

    Curba valorilor mediilor eantioanelor extrase dintr-o populaie este una normal, cnd seextrage un numr suficient de indivizi dintr-o populaie n care distribuia este normal (doar cndmrimea eantionului este suficient de important). n caz contrar curba de repartiie a dateloreantionului tinde sa ia o alur complet diferit. n cazul n care eantionul este de mic mrime, decicnd efectivul su este puin important, curba de distribuie nu mai urmeaz legea centrat redus, ci olege a lui Student. Mrimea de demarcaie ntre eantioanele mici i eantioanele mari este fixat demuli autori la cifra 30. Cnd mrimea este superioar cifrei 30 forma legii lui Student tinde a seconfunda cu legea normala de distribuie Gauss-Laplace. Legea lui Student ca i legea centrat reduspermite de a determina probabilitatea de apariie a abaterilor teoretice de la medie. Aceste abateri suntdesemnate prin litera t(ca zn legea normal centrat redus). Ca i distribuia normal, distribuia luiteste simetric. Ea se caracterizeaz printr-o medie egal cu 0, dar abaterea sa standard depinde deun numr de grade de libertate (notate n anexa referitoare la legea ta lui Student prin f). Numrulgradelor de libertate depinde de mrimea eantionului. Influena pe care o exercit mrimeaeantionului este proporional cu rdcina ptrat a valorii sale. Se ajunge la un moment n care

    mrimea are puin influen asupra variaiei mrimii studiat. A avea 10 indivizi mai mult sau mai puinnu schimb aproape cu nimic estimaia cnd se lucreaz cu mari eantioane cuprinznd mai multesute de indivizi. Nu acelai lucru se ntmpl cnd se lucreaz cu eantioane de mic mrime. Cndmrimea eantionului va fi inferioar sau egal cu 30 vorbim de mici eantioane i inferenele pe carenoi le producem se vor fonda pe legea ta lui Student. Cnd mrimea eantionului va fi superioar la 30vorbim de mari eantioane i inferenele se fondeaz pe legea normala centrat redus. Dac utilizmtabele ale lui tpentru eantioane a cror mrime este superioar lui 30, aceasta nu constituie o eroare.La acest nivel valoarea lui t este apropiat de aceea a lui z nct acest fapt nu afecteaz dectzecimalele erorii standard a fluctuaiei.

    EXEMPLU FICTIV. Capacitatea de memorare de scurt termen. Se prezint unui numr de 326 deelevi de liceu o lista cu 20 cuvinte pe display-ul unui monitor (un cuvnt la fiecare 2 secunde).Ulterior se verific numrul de cuvinte pe care subiecii le pot reproduce. Media numrului decuvinte reamintite este de 8,40, n timp ce abaterea standard este egal cu 2.58. Obiectivulcercetrii este de a estima cu un risc de eroare de 5% (sau cu un prag de ncredere de 95%)

    media populaiei din care sunt extrai elevii care compun eantionul. Este vorba de un eantion mare,deoarece efectivul eantionului depete cifra 30.

    n cazul acesta IFP =N

    szX *

  • 7/30/2019 Statistica II

    21/54

    STATISTIC(II)

    115

    Deosebirea ntre formulele utilizate pn acum const n faptul c abaterea standard apopulaiei a devenit abaterea standard a eantionului. Valoarea tabelar a lui z = 0,05 va fi 1,96.Pentru aplicaie:

    IFP = 8,40 27,040,8

    05,18

    58,2*96,140,8

    326

    58,2*96,1 ==

    Limita inferioar a intervalului de fluctuaie a mediei populaiei va fi 8,13 (8,40-0,27), iar limitasuperioar 8,67 (8,40 + 0,27). Cu riscul de eroare de 5% se estimeaz ca media populaiei printe va ficuprins n intervalul marcat de valorile 8,13 i 8,67.

    Intervalul de fluctuaie pentru mici eantioane. Menionm c pentru calcularea intervaluluide fluctuaie a mediei populaiei pornind de la valorile cunoscute ale indicatorilor eantionului nu existdiferen n privina formulei. Este important ca datele s prezinte o curba de form normal.

    EXEMPLU. Eantion de 17 copii care prezint tulburri de comportament ntre 6 si 8 ani3. Serelev cu ajutorul unei grile, comportamentele agresive provocate de copiii prezentnd tulburri

    de comportament n diferite perioade ale jocului colectiv cu copii care nu prezint astfel detulburri. Din cele 60 de comportamente caracteristice ale agresivitii n timpul jocului s-aobinut o medie de 28,53 i o abatere standard de 8.10. Obiectivul cercetrii este de a realizaun studiu comparativ cu o cercetare identic n care toi copiii manifest respectivele tulburri

    de comportament. Se dorete a se determina intervalul de fluctuaie a medie la un risc de 1%. n acestcaz numrul de grade de libertate va fi de 17-1=16. Se gsete valoarea 2.92. n condiiile legiicentrate reduse s-ar fi gsit valoarea de 2,58. Prezentm schematic modul de detectare a valorii tdintabela legii lui ta lui Student, pentru un risc de eroare de 1%.

    Valori ale pragului de riscpp

    f 0,20 0,10 0,05 0,02 0,01 0,001 0,0001 0,000011216 2,92

    Formula este urmtoarea: IFP =N

    stX * . Din punerea n aplicare a formulei rezult:

    IFP = 28,53 =17

    10,8*92,2 74,553,2896,1*92,253,28

    12,4

    10,8*92,253,28 ==

    La un risc de 1% sau la un prag de ncredere de 99% media populaiei se va situa ntre 22.79

    (28,53-5,74) i 34,27(28,53 + 5,74).

    Populaii finite. n cazul n care se poate evalua cu o precizie corect mrimea populaiei ninteriorul creia se preleveaz un eantion, se convine, n fapt, s se considere finit aceast populaie.

    EXEMPLU: numrul de locuitori ai unei ri. n acest caz se cunoate aproximativ numrul deindivizi care au calitatea cerut pentru a aparine populaiei definite. Gradul de precizie va fifuncie de importana general a populaiei. Astfel, a omite cteva zeci de mii de muncitori dinnu este prea grav dac populaia respectiv numr 50 de milioane ntr-o ar. Situaia semodific dac studiul se efectueaz asupra cercettorilortiinifici dintr-o ar.

    3 Exemplu preluat din Nicolas Gueguen, op.cit.

  • 7/30/2019 Statistica II

    22/54

    AUREL STAN

    116

    Populaii infinit. Populaia infinit este o populaie la care nu se poate determina numrulsau populaia al crei numr crete fr ncetare. Astfel, pentru utilitatea cercettorilor psihologi nu setie numrul persoanelor care sufer de o anumit fobie, a persoanelor care iubesc animalele de cas.

    n unele cazuri, lucrurile au o evoluie foarte rapid nainte ca cineva s poat determina mrimea

    populaiei. Astfel, n informatic populaia aa-zis a "interneilor" variaz foarte rapid. n acest cazputem s cunoatem indivizi din aceast populaie, dar numrul lor exact nu-l putem afla.

  • 7/30/2019 Statistica II

    23/54

    STATISTIC(II)

    117

    III.TEORIA TESTELOR N STATISTIC

    III.1.CONSIDERAII PRELIMINARE

    n statistic testul este o procedur de calcul pentru verificarea unor ipoteze emise anterior.Deci, testul statistic este util, mai ales, n condiiile n care dorim s afirmm sau s infirmm o ipotez.Pentru a afirma sau infirma validitatea ipotezelor n statistic se dispune de un numr mare de testestatistice. Astfel, exist, teste care compar mediile ntre ele, teste care compar proporiile ntre elecare compar varianele, teste care studiaz legturile ntre variabile. Cea mai curent clasificare este

    ntre teste statistice de difereniere (teste care compar mediile ntre ele, teste care compar proporiilentre ele) i teste statistice de asociere (care studiaz legturile ntre variabile). nainte de punerea naplicare a unui test statistic trebuiesc formulate dou ipoteze, n general opuse, care vor fi alternativtestate pentru a ajuta cercettorul sau practicianul n ceea ce el i propune s realizeze.

    Ipoteza de nulitate Aceast ipotez statistic mai este denumit ipoteza de nul i este, ngeneral, notat cu H0. Ipoteza de nul presupune c diferenele constatate ntre doi indicatori supuianalizei sunt nesemnificative, legate de factori aleatori rezultnd din varia ia eantionajului i nu dinunul sau mai muli factori sistematici, explicnd ceea ce un cercettor a observat. A formula ipoteza denul nseamn a afirma ca nu exist nimic diferit, c toate msurile sunt egale, c medii diferite sunt de

    fapt identice, c proporii neechivalente sunt identice n semnificaie. nseamn a spune c difereneleobservate depind de hazard i nu de un alt factor.Ipoteza alternativ. Este ipoteza pe care o formuleaz cercettorul care a prelevat unul sau

    mai multe eantioane dintr-o populaie, care a manipulat sau studiat mai multe variabile i caregndete c ceea ce el a observat nu este legat de fluctuaii fireti de eantionare, ci de unul sau demai muli factori determinani. Aceast ipotez, notat n general cu H1, arat c hazardul nu poate sexplice rezultatul care s-a obinut.

    Dup ce o anumit ipotez a fost formulat, poate fi practicat testul care va putea susine oastfel de ipotez mai mult dect alta. Ipoteza nul este cea care este totdeauna testat. n urma

    acestui demers sunt posibile dou alternative: ipoteza nul este conservati, n acest caz, nu se poate adopta punctul de vedere al ipotezeialternative;

    ipoteza nul este respinsi, n acest caz, se poate reine ipoteza alternativ.n realizarea testelor statistice se pot ntlni dou tipuri de erori: erori de tip I i erori de spea

    II. n tabelul care urmeaz prezentm schematic condiiile de apariie a acestor erori.

    Decizia Ho adevrat Ho falsH0 acceptat Decizie corect Eroare de tip IIHo respins Eroare de tip I Decizie corect

    Deci, exist riscuri att prin acceptarea H0, ct i prin respingerea H0. Probabilitatea de arespinge ipoteza de nul, n timp ce aceasta este adevrat se numete, eroare de prima spe sau

  • 7/30/2019 Statistica II

    24/54

    AUREL STAN

    118

    eroare de tip I. Aceast eroare se numete pragul de ncredere sau de semnificaie a unui test.Valoarea sa fixeaz riscul pe care cineva i-l ia un cercettor spunnd c ceea ce se observa estelegat de un factor sistematic mai curnd dect de fluctuaiile normale ale eantionrii. Acest tip de riscse fixeaz la 5% sau 1% (se poate reduce dac condiii imperioase justific acest lucru. Probabilitatea

    de a accepta ipoteza nul, n timp ce aceasta este fals este numit eroare de a doua spe saueroare de tip II. Este riscul pe care cineva l ia de a spune c ceea ce s-a observat este legat defluctuaii normale ale eantionrii, pe cnd n realitate aceste observaii sunt explicate printr-un altfactor sau prin ali factori. n mod paradoxal, erorile de tip I si tip II sunt strns legate. Diminunderoarea de tip 1 crete, n acelai timp, eroarea de tip II, i mrind eroarea de tip 1 se diminueazeroarea de tip II. Deoarece este dificil; de a fixa un compromis ntre cele 2 riscuri de eroare, pragul fixatpentru fiecare din aceste riscuri va fi n funcie de miza inferenelor, voina sau lipsa voinei de adetecta factorul activnd variaia (factorul sistematic) eantionului pe care cineva l utilizeaz, decaracterului novator sau lipsit de aceast caracteristic al rezultatelor. Se va putea reduce riscul de adoua spe fr a modifica riscul primei spee, optimiznd metoda de eantionare, prelevnd indivizisuplimentari, utiliznd anumite tipuri de teste sau optnd pentru un test unilateral mai curnd dectbilateral. Testul unilateral poate obine doar rezultate pozitive, pe cnd cel bilateral poate obinerezultate pozitive i negative.

    III.2.TESTE PARAMETRICE I NEPARAMETRICE

    Folosirea unui anumit test depinde de tipul de scal de msur utilizat pentru a culegeinformaia statistic. Uneori se poate folosi un test independent de scal pentru c distribuia nu ofer

    caracteristici de form i de dispersie necesare pentru folosirea acestui test.Se pot distinge dou familii de teste statistice:

    teste parametrice, n care concluziile se sprijin pe legea probabilitii care certific c distribuiasau distribuiile observate respect anumite caracteristici;

    teste nonparametrice care nu necesit respectarea acestor caracteristici.Testele parametrice prezint urmtoarele exigene:

    datele distribuiei trebuie s se repartizeze n maniera "normal", adic, n ali termeni, curbatrebuie s aib o form apropiat aceleia a legii normale;

    datele de care se dispune s provin din scala de msur de interval (cel puin);

    varianele acestora trebuie s fie omogene, adic nu trebuie s existe dezechilibre importante aledispersiilor, n cazul n care se cere compararea mediilor a dou eantioane.

    Aceste trei condiii trebuie s fie verificate naintea oricrei folosiri a unui test parametric. Daccondiiile sunt ndeplinite cercettorul sau practicianul are la dispoziie un evantai de teste puternic,pentru c ele permit de a diminua riscul de a doua spe. Dac una din condiii nu este ndeplinit (i afortioritoate trei) se risc de a respinge pe nedrept ipoteza de nulitate, adic de a observa diferene irelaii acolo unde ele nu exist.

    Testele nonparametrice pot s se elibereze de aceast condiie de normalitate sau deechivalen a dispersiilor. Ele sunt independente de un anumit tip de distribuie sau, cum se mai spune,

    au o distribuie liber. Un alt mare avantaj al acestor teste este acela ca ele nu cer s se dispun deeantioane de mare dimensiune. n schimb, prezint inconvenientul de a fi mai puin puternice ca

  • 7/30/2019 Statistica II

    25/54

    STATISTIC(II)

    119

    testele parametrice, adic informaia pe care o ofer este mai puin consistent. Consecina acesteislbiciuni poate s conduc la creterea riscului de a doua spe, la concluzia c nu exist nimicdifereniat, pe cnd n realitate exist unele diferene.

    III.3.COMPARAIA MEDIILOR

    Principalele test. Realizarea tipurilor de teste pentru compararea mediilor pleac de lapremisa c eantioanele care se obin dintr-o populaie se situeaz mult mai frecvent n intervalul defluctuaie al populaiei studiate. Acest principiu poate fi neles la diferena dintre dou medii proveninddin eantioane diferite. Se consider c fluctuaiile de eantionare pot s conduc la diferene, dar cfrecvenele acestor diferene se repartizeaz de manier neomogen. Astfel probabilitatea de a obineo diferen nul (mediile s fie identice) este cazul cel mai frecvent, n timp ce probabilitatea de aobine o diferen nenul este teoretic mai puin frecvent, cu att mai mult cu ct amplitudinea acestordiferene este mai mare.

    EXEMPLU: Se aplic unei populaii de 8 subieci o prob de dexteritate manual la care scorulmaxim este 18. Scorurile obinute sunt urmtoarele:

    Se preleveaz la ntmplare doi subieci (S1 i S2) n aceast populaie i se facediferena scorurilor lor (S1 S2). Aceasta trebuie s corespund uneia din diferenele din cele doutabele.

    Subiectul 2 Subiectul 18 9 10 11 12 13 14 15 16 8 9 10 11 12 13 14 15 16

    8 89 1 9 -110 2 1 10 .2 -111 3 2 1 11 -3 -2 -112 4 3 2 1 12 .4 -3 -2 -113 5 4 3 2 1 13 -5 -4 -3 -2 -114 6 5 4 3 2 1 14 -6 -5 -4 -3 -2 -1

    15 7 6 5 4 3 2 1 15 -7 -6 -5 -4 -3 -2 -1

    Subiectul1

    16 8 7 6 5 4 3 2 1

    Subiectul2

    16 -8 -7 -6 -5 -4 -3 -2 -1

    Prezentm, n continuare, un tabel cu efectivele diferenelor posibile n valoare absolut.Observm c cea mai mic diferen este egal cu 1 (n valoare absolut) i cea mai mare difereneste egal cu 8.

    Amplitudine diferenei 1 2 3 4 5 6 7 8 TotalFrecvene absolute(efective) 16 14 12 10 8 6 4 2 72Frecvene relative ( n %) 22 19 17 14 11 8 6 3 100

    Subiect 1 2 3 4 5 6 7 8 9Scor 9 11 14 10 12 13 8 16 15

  • 7/30/2019 Statistica II

    26/54

    AUREL STAN

    120

    Cu ct amplitudinea diferenelor este mai important cu att probabilitatea unui subiect de a fiobinut o astfel de diferen este mai slab. Se pune urmtoarea ntrebare la testul de comparare amediilor: Care este probabilitatea pe care o vom avea de a obine o astfel de diferen prin hazarduleantionrii?. Testele de comparare a mediilor vor s rspund cu precizie la aceast ntrebare,

    evalund probabilitatea de a obine n manier aleatorie toate diferenele observate. Dac aceastaprobabilitate este superioar unui prag, fixat prin convenie la 5%, atunci se estimeaz ca diferenelesunt imputabile hazardului eantionajului. Se va conserva atunci ipoteza nul. Dac aceastprobabilitate va fi egal sau inferioar acestui prag, atunci se va respinge ipoteza de nul i se vapropune ipoteza alternativ. Atunci se va concluziona c diferena este statistic semnificativ i cdiferena este imputabil efectului variabilei sau variabilelor pe care cineva a putut s le manipuleze.Exist totdeauna, n schimb, un risc ca diferenele s fie imputabile hazardului eantionrii.

    Un test de comparaie a mediilor nu trebuie s se efectueze dect plecnd de la distribuii dedate provenind din scale de msur de interval i de raport. Testele de comparare a mediilor sunt testeparametrice i, deci, la efectuarea lor, cercettorul trebuie s verifice conformitatea caracteristicilordistribuiei cu ateptrile statisticianului. Distribuiile studiate trebuie s fie normale i variantele lortrebuie s fie echivalente. Dac lucrurile stau aa, atunci se dispune de instrumente statistice caredevin "parteneri" foarte fiabili n procesele de decizie care se pun n oper. n majoritatea cazurilor,aceasta se verific grafic, comparnd valorile parametrilor.

    III.4.COMPARAREA UNEI MEDII LA O NORM

    Norma poate s mbrace diverse accepiuni, funcie de fenomenul studiat sau de cmpul de

    studiu, chiar de disciplina tiinific. Statisticienii impun aici o valoare, care reprezint o valoareateptat a mediei, avnd foarte puin importan dac este o valoare ntreag sau fracionar, daceste pozitiv sau negativ. Este imperativ ca valoarea s se exprime sub form numeric. Psihologultrebuie s se acomodeze la aceast constrngere, exprimnd fenomenul psihologic sub forma uneivalori numerice. Media nu poate s rmn la starea de definiie conceptual.

    n psihologie, norma poate s fie un efect ateptat (memorizarea medie a 7 elemente deinformaie) sau cunoaterea prealabil a unui fenomen psihologic pentru care se dispune de o normprovenind de la o populaie (media QI-ul, media naional a rezultatelor unui test colar). Ea poate, deasemenea, s se caracterizeze printr-o valoare ateptat de ctre un cercettor sau un practician, care

    estimeaz c o poat justifica teoretic. De asemenea, norma poate s fie o valoare nul ntr-o sarcinoarecare de polarizare. n toate cazurile, exploatarea sa va fi aceeai. Testul statistic va avea dreptobiectiv de a verifica dac diferena dintre media unui eantion (media observat) i valoarea numericacordat normei poate fi atribuit la un factor aleator (factor legat de o eroare de eantionare) sau deun factor sistematic (variabila independent, manipulat sau determinat). Ipoteza unui factorsistematic (numita H1 ) este adoptat dup ce s-a respins ipoteza unui factor aleator (numit H0).

    Metoda de calcul. Obiectivul testului este de a rspunde la ntrebarea urmtoare: Care esteprobabilitatea ca diferena observat ntre media unui eantion i media normei s poat fi atribuit

    fluctuaiilor normale de eantionare? Exist mai multe metode de a rspunde, dar a fost aleas aceeacare permite de a evalua cu exactitate probabilitatea de a obine prin hazard de eantionaj o astfel de

  • 7/30/2019 Statistica II

    27/54

    STATISTIC(II)

    121

    diferen. Formula pentru diferen dintre o medie de eantion i o norm este asemntoare cuformulele gsite anterior.

    N

    s

    normaXz

    )(

    )(

    =

    n care: z = variabila normat redus

    X = media eantionului = media populaieis = abaterea standard a eantionuluiN = efectivul eantionului = abaterea standard a populaiei.

    n parantez au fost trecute simboluri alternative.Formula este un raport ntre diferena a dou medii cu eroarea standard asociat acestei

    diferene. Norma este numit n acest caz media populaiei, pentru c funcia principal a testului estede a spune dac se poate considera sau nu eantionul ca fiind prelevat din populaia printe din careeste extras. Fluctuaia eantionrii face posibil apariia unei infiniti de medii de eantion. Rmnede tiut care poate fi probabilitatea de a obine n aceast populaie, un eantion de aceeai medie caaceea care s-a observat practic. Examinnd formula se poate observa c indicele obinut nu este nimicaltceva dect o abatere pe care cineva o va putea situa n spaiu unei legi de distribuie, aa cum s-afcut cu valoarea unui subiect. S-a substituit, deci, valorii unui subiect valoarea unei diferene. O astfelde evaluare presupune luarea n considerare simultan a mai multor elemente: amplitudinea abaterii ntre medii: cu ct amplitudinea se mrete, cu att mai puin are ea anse

    de a se ntlni prin hazardul eantionrii; variana asociat acestei abateri: cu ct aceasta este mai slab cu att abaterea redus este mai

    mare. Formula ia n calcul dou cazuri: primul este acela n care variana populaiei (varianaasociat normei) este cunoscut, n acest caz se ia n calcul variana populaiei. Al doilea caz, ngeneral mai frecvent, este acela n care variana populaiei este necunoscut i, n aceastsituaie, aceasta este estimat prin variana eantionului (estimaie fr contorsionri);

    mrimea eantionului: cu ct mai mult diferenele se observ la marile eantioane, cu att maimult factorii susceptibili de a exprima diferena pot s se exprime. Influena mrimii eantionuluieste proporional rdcinii sale ptrate. Abaterea dintre dou medii este deci ponderat de

    valoarea numitorului care, odat mai mult, depinde de dou variabile: dispersia (sau variana) imrimea eantionului. Cu ct variabilitatea este mai redus cu att mai mult indicele final(abaterea redus) are anse de a fi mare i deci ipoteza de nulitate are mai multe anse de firespins.

    n cazul n care variana populaiei este cunoscut formula sufer o uoar modificare,sugerat de noi n formula precedent. Prin variana populaiei se nelege variana asociat medieipopulaiei (aceea care corespunde normei). Abaterea redus se obine fcnd raportul urmtor:

    N

    Xz

    =

  • 7/30/2019 Statistica II

    28/54

    AUREL STAN

    122

    Semnificaia simbolurilor utilizate n formul este cunoscut. Cazurile n care cercettorulposed o informaie asupra varianei populaiei (populaie din care eantionul comparat a fost extras)sunt puin frecvente n cercetarea psihopedagogic. n majoritatea situaiilor de cercetare, varianapopulaiei nu este cunoscut cu certitudine, i se consider ca atare. Este cazul n care cercettorul

    dispune de msuri anterioare fcute cu un eantion de foarte mare mrime, extras cu cel mai marerespect faa de regulile eantionrii. Este, de asemenea, cazul n care msura a fost repetat nmultiple circumstane (cu multiple eantioane), situaie n care ea ofer un indice de variabilitateparticular constant. Variana ca valoare a normei poate fi determinata fr ca s existe, n modnecesar, o msur prealabil a acesteia. Ea poate s se justifice printr-un model teoretic, independentde toate msurtorile efectuate.

    Aplicaie. NUMRUL MAGIC. Cercetrile destinate evalurii memoriei de scurt termen arat captitudinea de memorizare imediat pentru diferite informaii este de 7 2. n scopul de a verifica dacaceast limit o posedi liceenii, doi cercettori au prezentat o serie de 18 cuvinte comune la 193elevi. Cuvintele apar pe display-ul, un cuvnt la dou secunde.

    Imediat dup proiecia listei, subiecii trebuie s-i aminteasc, ct mai repede posibil,cuvintele prezentate pe display. Media amintirii liceenilor este de 7,13. Cercettorii se ntreb dac,adoptnd riscul de 5%, scorul mediu al rezultatului asupra liceenilor este diferit de acela n generalobservat n lucrrile anterioare. n acest caz valoarea 7 este considerat o norm, iar 2 abatereastandard. Formula de calcul este urmtoarea:

    z =

    193

    2

    00,713,7 909,0

    143,0

    13,0

    89,13

    2

    13,0===

    zteoretic, dat de legea normal centrat redus, este de 1.96 la riscul de 5% (fixarea acestei valori afost fcut anterior). Valoarea zcalculat de noi este mult inferioar valorii tabelare. La riscul de 5% nuse aduce proba unei diferene ntre cele dou probe comparate. Ipoteza de nulitate trebuie s fieconservat. Eantionul liceenilor poate fi considerat ca aparinnd populaiei din care a fost extras.Diferena de reamintire de 0.13 poate fi atribuit fluctuaiilor normale de eantionare. Se poate, deci,considera c aceast diferen nu are nimic excepional.

    III.5.CAZUL N CARE VARIANA POPULAIEI ESTE NECUNOSCUT

    n cercetarea psihopedagogic este rar situaia n care se dispune de elemente de informaiecantitativ precis asupra populaiei, plecnd de la care este extras eantionul studiat. n situaia ncare variana populaiei nu este cunoscut se ia n consideraie variana eantionului pentru estimareaerorii standard. Va fi o estimaie fr deformare. Indiferent dac este vorba de mici sau marieantioane, formula de comparaie a unei medii la o norm este totdeauna aceeai.

    tsau z=

    N

    s

    normaX )(.

    Alegerea acestora depinde esenial de mrimea eantionului. Dac mrimea eantionului esteinferioar sau egal cu 30 indicele, ales este t-ul a lui Student. Tabela consultat va fi tabela ta lui

  • 7/30/2019 Statistica II

    29/54

  • 7/30/2019 Statistica II

    30/54

  • 7/30/2019 Statistica II

    31/54

    STATISTIC(II)

    125

    Valoarea lui tegal cu 3,26 o vom compara cu valoarea tabelar a lui tpentru un prag de riscde 0,05 pentru 39 de grade de libertate. n tabel nu vom gsi valoarea 39, ci o valoare apropiat,valoarea 40 a gradului de libertate. Observm c valoarea tabelar gsit de noi (2,02) este mai micdect cea calculat n testul t. Observm, de asemenea, c valorile tabelare mai mari corespund unorpraguri de risc mai mici. Concluzia: vom respinge ipoteza de nul, deci, diferenele dintre mediile celordou eantioane nu sunt ntmpltoare, ci se datoreaz interveniei unor factori sistematici. Formulareaconcluziei este urmtoarea: Dac vom respinge n mod constant ipoteza de nul n mai puin de 5%din cazuri o respingem pe nedrept, deci, n peste 95% din cazuri respingem pe drept ipoteza de nul.

    pf

    0,20 0,10 0,05 0,02 0,01 0,001 0,0001 0,00001

    123

    40 2,02 2,43 2,71 3,55 4,32 5,05

    III.8.COMPARAIA A DOU MEDII PROVENIND DIN DOU EANTIOANEMPERECHIATE SAU CORELATE

    n cazul acestui gen de eantioane indivizii care le compun sunt aceeai n diferite etape aleprelevrii msurrilor sau posed similitudini care se pot considera, dup regruparea prin cupluri, caechivalente (vrst, aptitudini cognitive, funcii ocupate). Msurile distribuiilor mperechiate suntadesea calificate ca "msuri repetate". Din acest motiv calculul diferenelor mediilor i a variaiei se

    realizeaz "n interiorul" indivizilor i nu ntre indivizi. Operaiile se fac, deci, prin cupluri. Dup cazcuplurile se compun din aceeai indivizi cu dou msurtori, din indivizi "asemntori", avnd fiecare omsur distinct. Se presupune c indivizii sunt extrai n respectul tehnicii de eantionare i cdistribuiile diferenelor n interiorul fiecrui cuplu se face ntr-un mod normal.

    Cazul micilor eantioane. Legea lui Student. Deoarece analiza se face n interiorul cuplurilor,pentru a obine indicele (aici t) corespunznd diferenei dintre cupluri, este suficient de a aplica formulaurmtoare:

    N

    s

    Dt

    D

    =

    n care:

    D - media diferenelor cuplurilor de date (suma diferenelor ntre fiecare cuplu de date mprit lanumrul de cupluri de date);

    Ds = 22

    DN

    D

    - abaterea standard a diferenelor.

    Nu exist nimic fundamental diferit cu cea ce s-a vzut n cazul comparrii mediilor rezultate dineantioane independente. Se face totdeauna raportul ntre abaterea mediilor i eroarea standard

    asociat acestei abaterii. n cazul eantioanelor perechi abaterea ntre dou distribuii nu se aplic lamedia distribuiilor, ci pentru fiecare cuplu de date. Aici calculul abaterii ntre medii i mai ales acela al

  • 7/30/2019 Statistica II

    32/54

  • 7/30/2019 Statistica II

    33/54

  • 7/30/2019 Statistica II

    34/54

  • 7/30/2019 Statistica II

    35/54

    STATISTIC(II)

    129

    studiul relaiilor dintre variabilele care satisfac exigenele scalelor ordinale i de interval ne vom ocupade corelaiile simple, deoarece tratarea corelaiilor multiple depete cadrul acestei lucrri. De fiecaredat cnd se studiaz relaiile dintre variabile se urmrete punerea n eviden unor legturi custabilitate variabil, funcie de valoarea unor indici sau coeficieni. Atunci cnd stabilim o

    coresponden dintre dou variabile observm modul n care transformarea sau modificarea uneivariabile dintr-o serie are legtur cu schimbarea survenit n cealalt serie.

    IV.1.RELAIA NTRE DOU VARIABILE NOMINALE

    n privina variabilelor care satisfac exigenele scalelor nominale se utilizeaz foarte frecvent n

    cercetarea psihopedagogic testul 2 (se citete hi ptrat). Acest test statistic poate fi utilizat i n cazul

    variabilelor de interval, dar, din momentul folosirii, intervalele valorice i pierd caracterul ordonat

    cresctor, devenind simple clase de partiie.Testul 2 este un test introdus de Karl Pearson n anul 1904, deci are o utilizare relativ

    ndelungat, dac inem seama de perioada temporal n care s-a acordat psihologiei statutul detiin. Variabila nominal este o variabil calitativ care poate prezenta cel puin dou modaliti saucategorii distincte. De exemplu, variabila sexeste o variabil calitativ care prezint dou modaliti,masculin i feminin. Variabila anotimp are patru modaliti: primvara, vara, iarna, toamna obinuteprintr-o oarecare metoda de investigaie.

    Exist doua feluri distincte de a folosi testul 2 , care corespund unui anumit specific a modului

    de prezentare a datelor, i anume 2 de ajustarei 2 t de independen.

    n cazul testului 2 de ajustare suntem n prezena efectivelor observate ale unei singure

    variabile. Aceste efective sunt comparate fie cu alte efective observate, fie cu efectivele teoretice carese pot calcula n urma emiterii unei ipoteze, de obicei ipoteza de nul. n acest prim caz un cercettorpoate s verifice dac un grup de persoane (selecionate pentru o cercetare sau un studiu) posedaceleai caracteristici generale cunoscute n rndul populaiei (cu date cunoscute n privina claselor devrsta, categoriilor de sex sau provenienei sociale etc.). Se folosete de asemenea cnd dorim scunoatem dac o distribuie de efective observate se conformeaz unei legi n care toate modalitilevariabilei au teoretic aceeai probabilitate de apariie (echipartiia probabil a modalitilor).

    Formula general de calcul pentru testul 2 este urmtoarea:

    2 =( )

    ft

    ftfo2

    n care cu fo s-au notat efectivele observate, cu ftefectivele teoretice sau alte efective observate.

    Abaterea dintre efectivele observate sau reale i cele teoretice (fo-ft) este ridicat la ptrat

    pentru a evita situaia de anulare a sumei algebrice. Deci 2 nu poate avea dect o valoare pozitiv,

    fapt care-l plaseaz n rndul testelor cu o singur ieire (care presupune o singur alternativ decomparare). Avem dou ipoteze la ndemn:

  • 7/30/2019 Statistica II

    36/54

  • 7/30/2019 Statistica II

    37/54

  • 7/30/2019 Statistica II

    38/54

  • 7/30/2019 Statistica II

    39/54

  • 7/30/2019 Statistica II

    40/54

  • 7/30/2019 Statistica II

    41/54

  • 7/30/2019 Statistica II

    42/54

    AUREL STAN

    136

    Distribuie teoreticBiei Fete Total

    Discipline umaniste 46,87 100Discipline exacte

    Total 90 192

    Pentru celula din dreapta sus (valoare observata 58) calculm astfel:

    13,53192

    102100=

    x; pentru celula din stnga jos (valoare observat 48) facem urmtorul calcul:

    ;12,43192

    9290=

    xpentru celula din dreapta jos (valoare observat 44) facem urmtorul calcul:

    88,48192

    10292=

    x. S-a oferit ca exemplu cel mai simplu model care poate exista n testul 2 de

    independen. Se pot construi tablouri de genul: 2x3 (o variabil cu 2 modaliti i o alta cu 3 modaliti); 3x4 (o variabil cu 3 modaliti i o alta cu 4 modaliti).

    Cnd numrul de modaliti crete apar dificulti rezultate din globalizare. Existena uneilegturi nu nseamn c aceast legtur se regsete n fiecare pereche.

    IV.2.RELAIA DINTRE DOU VARIABILE ORDINALE

    n privina irurilor de valori ordonate ale unei variabile ordinale sunt folosite n principal douprocedee de relaionare statistic prin intermediul coeficienilor. Exist un coeficient de concordancreat de Kendall i un coeficientul de corelaie introdus la nceputul secolului XX de Spearman.

    Coeficientul lui Kendall se obine prin aplicarea urmtoarei formule: K=)1(

    2

    nn

    T. El se bazeaz pe

    sistemul diferenei rangurilor n cazul a dou clasificri. Este evident faptul c acest coeficient intervineatunci cnd se opereaz cu clasificri fcute de doi evaluatori n procesul de observare a unor aspectecomportamentale sau de alt natur.

    EXEMPLU. S presupunem c doi evaluatori (specialiti care ntocmesc locul n cadrul unorclasificri) sunt n situaia de a evalua un numr de 10 comportamente indezirabile social(exemplu de astfel de comportamente: comportament A aezarea n faa unei cozi la un

    anumit magazin; comportament B manifestare zgomotoas la o adunare pioas etc.). Se cerecelor doi evaluatori s ordoneze comportamentele notate cu A,B,C,D,E,F,G,H,I,J, n privinaintensitii dezapreciative resimite pentru astfel de comportamente. Numrul 1 l va primicomportamentul considerat cel mai negativ.

    K= 42,090

    38

    90

    192

    )110(10

    )3213(2

    )1(

    2===

    +=

    x

    nn

    T

    n formulKdesemneaz coeficientul Kendall, Tsuma algebric de la rubricile notate ci i+, n numrul cazurilor care se cer apreciate, n cazul nostru numrul comportamentelor.

  • 7/30/2019 Statistica II

    43/54

    STATISTIC(II)

    137

    Comportamentul Evaluator X Evaluator Y +A B C D EH 1 4 3 6B 2 2 1 7G 3 1 0 7

    J 4 7 3 3I 5 3 0 5C 6 8 2 2D 7 10 3 0A 8 6 1 1E 9 5 0 1F 10 9 0 0

    Total -13 +32

    Prima coloan cuprinde codificrile comportamentelor indezirabile social, n funcie deordonarea primului evaluator. Aceast ordonare, n ordinea natural a numerelor, este trecut ncoloana B. n coloana C sunt trecute rangurile atribuite de c

    tre cel de-al doilea evaluator

    comportamentelor notate cu A,B,C,D,E,F,G,H,I,J. Coloanele D i E cuprind cifre notate cu ,respectiv +. S vedem n ce condiii se acord punctaj pentru rubrica i n ce condiii se acordpunctaj pentru +. Vom da explicaii pentru coloana Cn care valorile nu sunt trecute n ordinenatural. Comportamentul notat cu H ocupa n clasamentul ntocmit de evaluatorul X locul 1 i n cel

    ntocmit de evaluatorul Y locul 4. Cu cifre mai mici pe coloana C se gsesc notate comportamenteleG,B si I (notate cu 1,2,3), pentru care se primete punctajul -3, cte un punct negativ pentru fiecarenumerotare inferioar valorii 4. Notri superioare valorii 4 au comportamentele J,C,D,A,E,F, decipunctajul +6 provine din acordarea a cte unui punct pentru fiecare numerotare mai mare dect 4.Comportamentul B are rangul 2, deci are o valoare mai mic dect el, motiv pentru care a fost notatcu 1 i 7 valori mai mari dect el, motiv pentru care i se acord punctajul +7. Pentru a nu existanelmuriri n privina acordrii punctajului + 7 (deoarece diferena ntre 10 i 2 este egal cu 8),menionm c valorile alocate nu se mai consider n calcule. Astfel, valoarea 4 a fost alocat odat.Pentru calculul valorilor + ale comportamentului G, care a primit rangul 1 (se mai folosete expresiarangat cu 1) nu se mai consider comportamentele H i B, rangate cu 4, respectiv 2.

    Dup ce epuizm toate variantele posibile cu astfel de stabiliri, efectum suma algebric avalorilor + i n cazul nostru, T= 13+32 = +19. Aplicarea formulei ne d rezultatul:

    K= 42,090

    38

    )110(10

    192==

    x. Coeficientul K a lui Kendall poate lua valori ntre 1 (cnd seriile de valori

    sunt complet inversate, deci cel mai bun ntr-un clasament este cel mai slab n cellalt clasament) i+1 (cnd exist concordan deplin ntre cele dou clasamente).

    Cu aceast formul intrm practic n domeniul corelaiilor. O corelaie exprim gradul relaieintre dou sau mai multe variabile. n experimentele psihologice, mai ales, aceste proceduri statisticesunt destul de des ntlnite. Tot la fel de des se ntlnete i o serie de confuzii i neclariti n privinavalorii lor. Pe parcursul lucrrii de fa vom prezenta informaii detaliate despre valoarea i limitelecorelaiilor, dar acum ne vom opri asupra corelaiei n cazul a dou serii de valori aparinnd la douvariabile ordinale. Formula a fost elaborat de cunoscutul teoretician Charles Spearman:

    = )1(

    *6

    1 2

    2

    nn

    d

  • 7/30/2019 Statistica II

    44/54

    AUREL STAN

    138

    n care dreprezint diferena dintre rangurile rezultatelor la cele dou variabile diferite i n reprezintnumrul total de cazuri. Formula se poate aplica i pentru dou variabile de interval la care a intervenito operaie de rangare.

    Oferim un exemplu n privina modului de calcul a coeficientului de corelaie Spearman. S

    presupunem c avem la dispoziie rezultatele unui numr de 15 subieci la o proba de atenie (AD-Praga) i la o prob de dexteritate manuala (O'Connor). Prin X vom nota rezultatele la proba de ateniei prin Y rezultatele la proba de dexteritate manual.

    Nr.crt. X Y RX RY d d2

    1 47 6 13.5 14,5 - 1 12 52 9 11 12 - 1 13 75 17 2 1,5 0,50 0,254 81 10 1 10,5 - 9,50 90,255 66 11 5,5 8,5 - 3 96 39 7 16 13 2 47 47 6 13,5 14,5 - 1 1

    8 55 11 10 8,5 1,50 2,259 61 17 6 1,5 6,50 42,25

    10 70 13 3 5 - 2 411 66 12 5,5 6,5 - 1 112 49 14 12 4 8 6413 59 10 9 10,5 - 1,5 2,2514 63 12 7 6,5 0,50 0,2515 69 15 4 3 1 1 223,50

    Coloana notat cu X conine valorile variabilei X, coloana notat cu Y valorile variabilei Y.

    Coloanele notate cu RXi RYconin rangurile acordate celor 15 valori ale variabilelorXi Y. Cum seacord aceste ranguri? Vom exemplifica pe valorile variabilei X. n coloana RXrangul 1 l va avea ceamai mare valoare a variabilei. Dac privim n coloana notat cuXobservm c aceast valoarea este81. Rangul 2 este acordat valorii 75, a doua valoare n ordine descresctoare. Se continu n acest felpn cnd se ajunge la rangul 15. n cazul cnd avem 2 valori identice se trece n dreptul fiecreiamedia rangurilor cresctoare pe care le-am fi atribuit dac valorile nu ar fi fost egale. De exemplu, celedou valorile 66 ar fi avut rangurile 5 i 6. Fiecare valoare 66 a variabilei Xprimete rangul 5,5. Dacam fi avut 3 valori identice media rfi fost efectuat din trei ranguri. Rangul urmtor care se aloc dup5,5 este 7 i nu 6 (deoarece se consider c rangul 6 a fost acordat odat).

    Coloana notat cu d conine diferena algebric dintre valorile coloanelorRXi RY(d = RX RY). Coloana d2 conine ptratele valorilor din coloana d. Suma valorilor din coloana d2 este egal cu223,50. Dup calcularea acestei sume putem calcula coeficientul de corelaie a lui Spearman.

    Din aplicarea formulei rezult:

    = 1- 601,0399,013360

    13411

    )115(15

    50,223*62

    ===

    .

    Acest gen de corelaii se folosete mai ales atunci cnd numrul de subieci este mic (sub 50de perechi de valori). Coeficientul de corelaie Spearman poate lua valori ntre 1 i +1, trecnd prinvaloarea 0,00. Semnificaiile vor fi explicate la tratarea coeficientului de corelaie Bravais-Pearson.

  • 7/30/2019 Statistica II

    45/54

    STATISTIC(II)

    139

    IV.3.RELAIA NTRE DOU VARIABILE DE INTERVAL

    Acest gen de corelaii se ntlnesc frecvent n cercetarea psihopedagogic, atunci cnd dorimstim dac rezultatele a dou teste variaz mpreun ntr-un anumit gradient sau cnd dorim stimacelai lucru n privina a dou serii de date, dintre care una reprezint rezultatele unui test, iar alta

    rezultatele unui criteriu (care reprezint rezultatele colare sau rezultatele randamentului cuantificatntr-o profesie pentru care s-au folosit teste psihologice n procesul de selecie profesional). n cazulunei corelaii de valoare nalt putem prevedea performanele profesionale ale subiecilor sprijinindu-nepe rezultatele de la teste.

    S lum, de exemplu, rezultatele folosite de noi la calculul coeficientului de corela ie bazat dediferena de rang, presupunnd, de aceast dat, c ele ar satisface exigenele unei scale de interval:

    Nr.crt. X Y x y x2 y2 xy1 47 6 - 12,93 - 5,93 167,18 24,81 68,92

    2 52 9 - 7,93 - 2,39 62,88 5,43 18,483 75 17 15,07 5,67 227,10 32,15 85,454 81 10 21,07 - 1,33 443,94 1,77 - 28,025 66 11 6,07 - 0,33 36,84 0,11 - 2,006 39 7 - 20,93 - 4,33 438,06 18,75 90,637 47 6 - 12,93 - 5,33 167,18 24,41 68,928 55 11 - 4,93 - 0,33 24,30 0,11 1,639 61 17 1,07 5,67 1,14 32,15 6,07

    10 70 13 10.07 1,67 101,40 2,79 16,8211 66 12 6,07 0,67 36,84 0,45 4,0712 49 14 - 10,93 2,67 119,46 7,13 - 29,1813 59 10 - 0,93 - 1,33 0,86 1,77 1,24

    14 63 12 3,07 0,67 9,42 0,45 2,0615 69 15 9,07 3,67 82,26 13,47 33,29 899 170 1918,93 173,39 338,33

    Formula de calcul pentru coeficientul de corelaie Bravais-Pearson este urmtoarea:

    rxy =

    22 * yx

    xy

    n care cu rxy se noteaz coeficientul de corelaie prin momentul produselor, cu x i y se noteazvariabilele de deviaie. O alt form n care se poate exprima aceast formul este:

    rxy =yx ssn

    xy

    **

    La aceast formul cu n se noteaz numrul total de pereche de rezultate luate nconsideraie, cu sxi syse noteaz abaterile standard ale distribuiilor valorilor variabilei X, respectiv Y.

    Pentru a putea realiza un tabel n vederea calculrii coeficientului de corelaie prin momentulproduselor sau coeficientul BravaisPearson trebuie, n primul rnd s calculm mediile celor doudistribuii de valori.

    Astfel, 93,5915

    899===

    N

    XX i 33,11

    15

    170===

    N

    YY . Rubricile x i y, coninnd aa

    numitele valori de deviaie, sunt realizate prin scderea din variabilele originaleXi Ya valorii mediilor

  • 7/30/2019 Statistica II

    46/54

  • 7/30/2019 Statistica II

    47/54

  • 7/30/2019 Statistica II

    48/54

    AUREL STAN

    142

    1.ECUAIA DREPTEI DE REGRESIE A LUI X CTRE Y: ybx x *~ =

    n aceast ecuaie (exprimat n variabile de deviaie) XXx =~~ i YYy = . Dacinem seama

    de aceste ultime egaliti putem s scriem ecuaia dreptei de regresie a lui Xctre Yn felul urmtor:

    ( ) XYYbX x += *~

    , n care X~

    este estimarea variabileiXi bx este coeficientul de regresie a luiX

    n raport cu Y. Acest coeficient are urmtoarea formul: bx = rxy*y

    x

    s

    s, n care sx este abaterea standard

    a valorilor serieiXi sy este abaterea standard a seriei de valori Y. i rxy este coeficientul de corelaie

    ntre valorile variabileiXi valorile variabilei Y. NotaiileX, YX,r

    sunt cunoscute din explicaiile noastre

    anterioare.2.ECUAIA DREPTEI DE REGRESIE A LUI Y N RAPORT CU X: xby y *

    ~ =

    n care YYy =~~ , YYy = . Fcnd nlocuirile necesare obinem: ( ) YXXbY y +=

    ~

    Coeficientul de regresie a lui Yn raport cuXeste:x

    y

    xyys

    s

    rb *=

    Vom exemplifica bazndu-ne pe datele ultimului tabel realizat pentru calcularea coeficientului decorelaie prin momentul produselor. Pentru calcularea coeficienilor de regresie avem nevoie de valorile

    abaterilor standard ale distribuiilor. Formula abaterii standard a seriei de date xeste: sx =N

    x 2 .

    Folosind valorile de la tabelul amintit vom avea: sx = 31,1192,12715

    93,1918== . Pentru datele

    seriei Yvaloarea abaterii standard se calculeaz astfel: 39,359,111539,173

    2

    ==== Nx

    sy .

    Deoarece cunoatem valoarea coeficientului de corelaie prin momentul produselor (0,587), putemtrece la calcularea coeficienilor de regresie.

    bx = ==39,3

    31,11*587,0*

    y

    xxy

    s

    sr 95,133,3*587,0 =

    by = 175,029,0*587,031,11

    39,3*587,0* ===

    x

    y

    xys

    sr

    S presupunem c dorim s estimm valoarea pe care un subiect ar obine-o un subiect la

    variabila Yn momentul n care tim c valoarea variabileiXeste egal cu 64. Facem precizarea c nereferim la datele trecute n tabelul pentru calcularea coeficientului de corela ie prin momentulproduselor). Calculele de efectuat sunt urmtoarele:

    ( ) ( ) 14,1233,11712,033,1107,4*175,033,1193,5964175,0~ =+=+=+=+= YXXbY y .Deci, atunci cnd un subiect ar obine la variabilaXrezultatul de 64 se estimeaz pentru Yun rezultatde aproximativ 12.

    S presupunem c dorim s estimm valoarea pe care un subiect ar obine-o un subiect lavariabilaXn momentul n care tim c valoarea variabilei Yeste egal cu 8. Calculele de efectuat sunturmtoarele:

    ( ) ( ) ( ) 43,5393,5949,693.5933,3*95,193,5933,11895,1~

    =+=+=+=+= XYYbX x .Deci, ne vom atepta ca la variabilaXsubiectul s obin aproximativ 54.

  • 7/30/2019 Statistica II

    49/54

    STATISTIC(II)

    143

    O situaie particular n calcularea coeficientului de corelaie avem atunci cnd ne aflm nprezenta a dou iruri de date, din care unul este compus din variabile continue sau discretepolihotomice, iar altul din variabile binare (valori 0 i 1). O astfel de situaie o ntlnim atunci cnd dorims calculm coeficientul de corelaie ntre rezultatele globale obinute de subieci la un test irezultatele acelorai subieci la un item exprimat dihotomic.

    n tabelul care urmeaz redm un exemplu de acest specific. Tabelul cuprinde rubrici necesarecalculrii indicatorilor existeni n formul:

    Nr.crt. X (rezultat global la test) x x2 Y (rezultat item)1 15 - 0,33 0,11 12 19 - 3,67 13,47 03 17 - 1,67 2,79 14 13 - 2,33 5,43 05 21 5,67 31,15 16 20 4,67 21,81 07 12 - 3,33 11,09 1

    8 10 - 5,33 21,41 09 11 - 4,33 18,75 0

    10 17 1,67 2,79 111 13 - 2,33 5,43 112 16 0,67 0,45 113 12 - 3,33 11,09 014 15 - 0,33 0,11 115 19 3,67 13,47 1 230 167,30 9

    Coeficientul de corelaie realizat ntre aceste dou serii de date se numete coeficient decorelaie biserial punctat. Facem o meniune n privina celei de-a doua serii de date, adic ceaexprimat sub forma de 0 si 1. n cazul n care ne aflm n prezena unui item aparinnd unui test derandament valoarea 1 reprezint rezolvarea corect a unei sarcini i valoarea 0 nerezolvarea acesteisarcini. n cazul chestionarelor de personalitate valoarea 1 reprezint rspunsul care pune n evidentrstura specificat n manualul chestionarului sau n titlul chestionarului, iar nota 0 lipsa acesteitrsturi. Aceeai ntrebare poate fi punctat diferit n funcie de scopul testului sau mai bine zis dedestinaia sa psihodiagnostic.

    EXEMPLU la ntrebarea: i este fric s traversezi o pia imens? se poate acorda nota 1 larspunsul "da" n cazul n care chestionarul i propune s diagnosticheze anxietatea i nota 0

    n cazul n care chestionarul i propune s stabileasc echilibrul emotiv i stabilitateacomportamental. Formula coeficientului de corelaiei biserial punctat este urmtoarea:

    pqs

    XXr

    x

    qp

    pbis *

    =

    n care pX este media aritmetic a variabilei continue a subiecilor care au primit la item valoarea 1, iar

    qX este m