Distribuții de probabilitate Sumarizareastatistică a datelor...
Transcript of Distribuții de probabilitate Sumarizareastatistică a datelor...
2
Discrete Probabilitățile asociate fiecărei valori specifice a variabilei aleatoare
Continue Probabilitățile asociate unui şir de valori ale variabilei aleatoare
Vorbim despre distribuții de probabilitate atunci când avem mai multe valori nu o singură valoareProbabilitatea este determinată de aria de sub curba distribuției de probabilitate
Distibuții de probabilitate continue
3
Distribuția normală – Z sau GaussDistribuția STUDENT (t)Distribuția PEARSON (χ2)Distribuția FISHER…
Exemple de distribuţii de probabilitate continue
4
X este o variabilă aleatorie normal distribuită de forma N(μ,σ) dacă distribuția ei depinde de 2 parametrii: media (μ) şi deviația standard (σ)
Distribuţia normală
μ ± 1*σ: contains ~ 68% of cases (34% from each part of distribution)μ ± 2*σ: contains ~ 95% of casesμ ± 3*σ: contains ~ 99.7% of cases
0 1 2 3‐1‐2‐3
area = 0.3413
Distribuţia normală: acoperirea
7
Distribuția Student sau Distribuția tDistribuția de probabilitate care apare în estimarea mediei unui eşantion provenit distr‐o populație în cazul în care volumul eşantionului este mai mic de 30
Distribuţia Student
ProprietățiEste diferită pentru diferite volume de eşantioaneÎn general are aspectul de clopot, dar deoarece este asociată unui volum de eşantion mic prezintă o variabilitate mai mare în comparație cu distribuția normală, devenind mai flată.▪ Distribuția este mai aplatizată în comparație cu distribuția normală iar “cozile” sunt mai voluminoase.
▪ Odată cu creşterea volumului eşantionului, distribuția se apropie tot mai mult de distribuția normală →pentru n > 30 diferența este neglijabilă
Distribuţia Student
Proprietăți:Media este zero (ca şi la distribuția normală standard)Distribuția este simetrică în jurul mediei.Varianția este mai mare decât 1 dar se apropie de 1 pe măsură ce volumul eşantionului creşteIa în considerare faptul că deviația standard a populației este necunoscută.Populația din care a fost extras eşantionul este normal distribuită (unimodală şi simetrică)
Distribuţia Student
13
Principii de sumarizare tabelarăPrincipii de reprezentare graficăSumarizarea tabelară şi/sau reprezentarea grafică a datelor:Atribut (calitative): o variabilăAtribut (calitative): două variabileNumerice (cantitative): o variabilăNumerice (cantitative): două variabile
14
1. Simple: de preferat 2/3 tabele mai mici în loc de unul încărcat
2. Informative prin ele înseleAbrevieri sau simboluri explicate la subsolul tabeluluiEtichete de rând şi coloanăUnități de măsurăTitlul: ce? când? Unde?Linii şi/sau coloane de sinteză (total)
3. Dacă datele nu sunt originale trebuie să se menționeze sursa lor într‐o notă de subsol
15
Orice reprezentare grafică trebui să aibă:TitlulDefinirea axelorUnități de măsură pentru fiecare axă (dacă este cazul)Legendă (dacă este cazul) O reprezentare grafică trebuie să se “înțeleagă” singură!▪ Fără a se citi textul!!!
16
Scopul unei reprezentări grafice este de a transmite o informațieCând construim o reprezentare grafică trebuie să răspundem la întrebarea: Care este scopul acestei reprezentări?Datele trebuie reprezentate grafic în aşa fel încât să fie utile în înțelegerea fenomenului clinicAtenție la compoziția culorilor (nu puneți fundaluricolorate) şi la dimensiunea caracterelor!
17
Se ordonează datele crescătorSe determină frecvența fiecărei valoriSe includ valorile distincte şi frecvențele într‐un tabel pe două coloane:Frecvența absolută (numărul de cazuri care îndeplinesc criteriul)Frecvența relativă = raportul dintre frecvența absolută şi volumul eşantionului/populației (simbol = n). Valorile se pot prezenta şi procentual.
18
Se pot alcătui tabele de frecvențe cu mai multe coloane care să cuprindă:frecvențe absolutefrecvențe absolute cumulate crescător / descrescătorfrecvențe relativefrecvențe relative cumulate crescător / descrescător
Microsoft Excel: funcția COUNTIFTabele Pivot [Data ‐ Pivot Table and Pivot ChartReport ...]
19
Diagnostic fa fr fa cumulat ↑ fr cumulat ↑Asfixia la naştere 527 26.10 527 26.10Traumatisme obstreticale 92 4.56 619 30.66Stare septică 7 0.35 626 31.01Pneumonie 181 8.96 807 39.97Diaree 8 0.40 815 40.37Malformaţii congenitale 598 29.62 1413 69.99Alte cauze 606 30.01 2019 100Total 2019 100
Suma frecvenţelor absolute ale tuturor valorilor seriei care sunt mai mici sau egale decât x
Suma frecvenţelor relative ale tuturor valorilor seriei care sunt mai mici sau egale decât x/n
20
Pentru seria statistică 5, 6, 7, 7, 8, 8, 5, 7, 8, 7 cărei din valorile de mai jos îi corespunde frecvența relativă cumulată crescător de 0.7:
A. 8B. 6 C. 5 D. 7 E. Nici un răspuns nu este corect
21
Greutate (g) fa fr fr cumulată ↑(2800 – 3200] 151 18,60 18,60(3200 – 3400] 299 36,82 55,42(3400 – 3600] 300 36,95 92,37(3600 – 3800] 0 0,00 92,37(3800 – 4000] 62 7,64 100Total 812 100
1 variabilă:Media±Deviația standard – dacă datele sunt normal distribuiteMediana & cvartilele 1 şi 3 [Q1 to Q3] – dacă datele nusunt normal distribuite
2 variabile:Coeficientul de corelație
22
Coloane:Histograma pentru variabile cantitative (clase de frecvență): alegerea intervalelor este importantă (alegerea inadecvată a acestora poate influența modelul distribuției)Variabile calitative: scală ordinală sau nominală –modulul
Plăcinta (PIE): permite identificarea proporțiilorVariabile calitative
Linie:secvență de timpOrdinea evenimentelor 24
Grafic de tip puncte (Scatter)(pune în evidență relația dintre variabile):
Se reprezintă grafic o pereche de valori cantitative pentru fiecare pacient în parte Indică dacă punctele sunt împrăştiate la întâmplare sau nu.
Distribuția de frecvențe 2DReprezentarea a mai multor caracteristici Frecvența fiecărei coloane este citibilă dar cititorul trebuie să extrapoleze înălțimea coloanei, extrapolarea putând fi distorsionată din cauza 3D
25
Relationship between prostatic volume and age
0
10
20
30
40
50
60
70
80
50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80age (years)
pros
tate
vol
ume
(ml)
Informații concise, afişare eficientă.Permit prezentarea nivelului de detaliu şi de precizie dorit.Numerotați tabelele consecutiv în ordinea în care sunt citate în text.Fiecare coloană şi rând trebuie să aibă o denumire şi să prezinte unitățile de măsură.Dacă utilizați abrevieri pentru denumirea coloanelor sau a rândurilor prezentați la subsolul tabelului definiția abrevierilor.Dacă utilizați data care nu sunt ale dvs., fie că aceste date sunt publicate sau nu, trebuie să obțineți permisiunea de folosire şi să specificați sursa acestora.
40
Reprezentarea grafică trebuie să fie auto‐explicativăTitlul şi detaliile cu privire la reprezentarea grafică aparțin legendei – nu le includeți în figură.Figurile trebuie numerotate consecutiv în ordinea citării în text.Dacă figura a fost publicată anterior specificați sursa de unde a‐ti luat‐o şi obțineți de la autori sau de la casa de editură acordul scris de acceptare al utilizării. Explicați clar în legendă semnificația simbolurilor utilizate precum şi a altor semne (de exemplu săgeți, numere, litere, etc.)Evitați reprezentările 3D! 41