CURS STATISTICA˘ CURS 1 - math.ubbcluj.romath.ubbcluj.ro/~tcatinas/CursStatistica2008.pdf · CURS...
Transcript of CURS STATISTICA˘ CURS 1 - math.ubbcluj.romath.ubbcluj.ro/~tcatinas/CursStatistica2008.pdf · CURS...
CURS STATISTICA
CURS 1
Bibliografie:
1. P. Blaga, Calculul probabilitatilor si statistica matematica, vol. 2, Curssi Culegere de probleme, Litografiat Univ. ”Babes-Bolyai”, Cluj-Napoca,1994
2. P. Blaga, Statistica prin Matlab, Presa Universitara Clujeana, 2002
3. I. Mihoc, C. Fatu, Calculul probabilitatilor si statistica matematica, Tran-silvania Press, Cluj-Napoca, 2003
4. R. Trımbitas, Metode statistice, Presa Universitara Clujeana, Cluj-Napoca,2000
1. Notiuni introductive
Statistica se ocupa cu descrierea si analiza numerica a fenomenelor
de masa, dezvaluind particularitatile lor de volum, structura, di-
namica, precum si legile care le guverneaza.
Statistica joaca un rol tot mai important ın diverse domenii
de activitate. O analiza statistica a datelor experimentale sau
observationale necesita stabilirea originii si naturii datelor con-
siderate.
(Lat. status=stat, stare de fapt)
Modele de probabilitate
Elemente aleatoare ıntr-o analiza statistica ⇒ stransa conexiune
ıntre probabilitati si statistica.
2 repetari a unei cercetari pot conduce la rezultate diferite.
Cauza: experimentul nu se repeta ın exact aceleasi conditii.
Rezultate similare la repetarea experimentului ın aceleasi conditii
⇒ experimentul este deterministic. Natura determinista a stiintei
permite folosirea teoriei stiintifice pentru prezicerea unor rezul-
tate ın anumite conditii date.
Exista experimente a caror rezultat variaza in ciuda eforturilor
de a pastra conditiile experimentale constante, de ex.: aruncarea
zarului, aruncarea monezii, alegerea unei carti dintr-un pachet de
carti de joc.
Apar ın toate domeniile de activitate, de ex.: seminte aparent
identice produc plate de ınaltimi diferite, lungimea vietii este
diferita pentru persoane care traiesc ın conditii similare, etc.
Experimentele care nu sunt deterministe, care ın conditii identice
nu produc acelasi rezultat, se numesc experimente aleatoare.
Probabilitatile si statistica se ocupa cu analiza experimentelor
aleatoare.
Exemplu. Aruncarea unui zar (Teoria probabilitatilor ısi are
ınceputurile ın studiul jocului de aruncare a zarurilor.) Aruncam
un zar pe o masa. Notam cu X numarul de puncte ce apar pe
fata zarului dupa aruncare.
Experimentul nu e deterministic deoarece X poate fi oricare din-
tre numerele 1,2,3,4,5,6 si nu se poate prezice. Putem face
orice efort sa controlam conditiile experimentale prin asezarea
zarului ın cupa ın aceeasi pozitie, prin scuturarea cupei de un
numar constant, prin aruncarea ın aceeasi parte a mesei, etc. In
ciuda eforturilor rezultatele raman variabile si neprevazute.
Desi rezultatul unei repetari a unui experiment nu poate fi prevazut,
totusi o succesiune de repetari coduce la o stabilitate care serveste
ca baza pentru preziceri destul de exacte.
Consideram valorile lui X dupa 10 repetari:
Repetarea 1 2 3 4 5 6 7 8 9 10
X 6 3 2 1 5 6 1 3 5 2
Consideram evenimentul: ”Valoarea lui X este mai mica decat
3.” Acest eveniment are loc la repetarile 3, 4, 7, 10. Deci are
loc la 4 repetari din 10. Frecventa relativa de aparitie este
f =4
10= 0.4.
Consideram 20 de serii a cate 10 repetari, prima fiind cea de mai
sus.
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200.6 0.6 0.2 0.4 0 0.3 0.7 0.5 0.2 0.1 0.5 0.3 0.3 0.3 0.6 0.4 0.3 0.1 0.2
Reprezentam grafic aceste date:
0 2 4 6 8 10 12 14 16 18 200
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Seria
f(X
<3)
20 de serii de 10
repetari
0 2 4 6 8 10 12 14 16 18 200
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Seria
f(X
<3)
20 de serii de 50
repetari
Se observa ca f(X < 3) nu depaseste 0.7. Experimentul sug-
ereaza ca o valoare mai mare de 0.7 nu se obtine foarte des.
Avem 0 < f(X < 3) < 0.7
Daca se considera 20 de serii a cate 50 de repetari se va obtine
ca 0.2 < f(X < 3) < 0.48.
Deci, cu cat este mai mare seria de repetari cu atat frecventa
este mai putin variabila si mai usor de prezis. Daca se considera
un numar suficient de mare de repetari frecventa poate deveni
aproape constanta.
Frecventa relativa oscileaza ın jurul unei valori care este proba-
bilitatea evenimentului.
Concepte de baza ale statisticii
Etapele cercetarii statistice:
1. Definirea obiectului studiat: contine definirea unitatilor statis-
tice, conceperea chestionarului, planificarea culegerii datelor.
2. Observarea statistica: culegerea, ınregistrarea datelor.
3. Descrierea statistica: reprezentarea grafica a datelor statis-
tice, sistematizarea acestora, calcularea indicatorilor numerici
pentru punerea ın evidenta a unor proprietati si pentru suger-
area unor ipoteze referitoare la legile care guverneaza fenomenul
cercetat.
4. Modelarea probabilistica: cercetarea fenomenului folosind
ca instrument de lucru teoria probabilitatilor relativa la datele
statistice obtinute.
Definitia 1 Numim colectivitate (populatie) o multime C de
elemente cercetata din punct de vedere al unei sau mai mul-
tor proprietati. Elementele componente se numesc indivizi sau
unitati statistice. Numarul elementelor colectivitatii se numeste
volumul colectivitatii.
Definitia 2 Numim caracteristica sau variabila a colectivitatii
C proprietatea supusa investigarii statistice relativa la C. Cand o
caracteristica poate fi masurata o numim caracteristica can-
titativa sau numerica, iar daca aceasta se exprima printr-o
ınsusire o numim caracteristica calitativa.
Caracteristici cantitative: greutate, volum, concentratie. Carac-
teristici calitative: profesiune, sex, culoarea ochilor, grupa san-
guina.
Observatia 3 Din punct de vedere al teoriei probabilitatilor o
caracteristica a unei populatii C este o variabila aleatoare X.
Scopul principal al cercetarii statistice este de a stabili legea
de probabilitate pe care o urmeaza caracteristica X, utilizand
observatiile (datele statistice) relative la colectivitatea cercetata.
Definitia 4 O caracteristica X ce ia o multime numarabila de
valori se numeste caracteristica de tip discret, iar daca ia valori
ıntr-un interval se numeste caracteristica de tip continuu.
Exemplul 5 C-multimea bolnavilor externati pe parcursul unei
saptamani; X-numarul zilelor de internare avute; Y-greutatea
bolnavilor externati
X,Y-caracteristici ale lui C
X → de tip discret (nr. finit de valori)
Y→ de tip continuu (valori ıntr-un interval, [45kg,145kg])
2. Culegerea, prezentarea si prelucrarea datelor statistice
Tehnici de culegere a datelor:
1. Observarea totala (recensamant): cand toti indivizii colec-
tivitatii C sunt ınregistrati;
2. Observarea partiala (sondaj, selectie): cand, dupa criterii
bine stabilite, sunt ınregistrati o parte dintre indivizii colec-
tivitatii C, numita esantion sau selectie;
3. Observarea curenta: cand ınregistrarea indivizilor se face
odata cu aparitia (producerea) lor;
4. Observarea perodica: cand ınregistrarea indivizilor se face
la intervale de timp stabilite.
2.1 Tabele statistice
Definitia 6 Numim tabel statistic (nesistematizat) un tablou
ın care ınregistrarile sunt trecute ın ordinea aparitiei lor.
Definitia 7 Numim tabel statistic (sistematizat) relativ la car-
acteristica X de tip discret, tabloul care contine valorile distincte
ale caracteristicii si frecventele de aparitie a acestora.
Consideram caracteristica X de tip discret pentru care se obtin
datele primare x′1, ..., x′N . Aceasta ia valorile distincte xi, i =
1, ..., n. Tabelul statistic sistematizat este de forma:
x fx1 f1x2 f2... ...xn fn
unde fi este frecventa absoluta de aparitie a valorii xi ın datele
primare x′k, k = 1, ..., N.
Are loc relatian∑
i=1
fi = N.
Fie caracteristica de tip continuu X, care ia valori ın intervalul
(a, b), descompus ın intervale disjuncte prin punctele care satisfac
relatiile:
a = a0 < a1 < ... < an = b.
Avem (a0, a1)∪(
n⋃
i=2[ai−1, ai)
)= (a, b) si [ai−1, ai)∩[aj−1, aj) = ∅.
Definitia 8 Intervalele disjuncte [ai−1, ai), i = 1, ..., n se numesc
clase.
Definitia 9 Numim tabel statistic (sistematizat) relativ la car-
acteristica X de tip continuu, tabloul care contine clasele carac-
teristicii si frecventele de aparitie a acestor clase.
Daca datele primare ale caracteristicii continue X, care ia valori ın
intervalul (a, b), sunt x′1, ..., x′N atunci tabelul statistic sistematizat
este de forma:
x f(a0, a1) f1[a1, a2) f2... ...[an−1, an) fn
sau
x fx1 f1x2 f2... ...xn fn
unde fi este frecventa absoluta de aparitie a clasei [ai−1, ai)
printre datele primare x′k, k = 1, ..., N, iar xi =ai−1+ai
2 .
Definitia 10 Numim amplitudinea clasei, definita de intervalul
[ai−1, ai), lungimea acestui interval, adica di = ai − ai−1.
Cand amplitudinile claselor sunt egale sunt utilizate frecvent 2
reguli de stabilire a numarului lor:
n =
[1 +
10
3lgN
]regula lui Sturges
sau
d =8
100(xmax − xmin),
unde xmax = max{x′1, ..., x′N} si xmin = min{x′1, ..., x′N}.
Pentru regula lui Sturges se obtine:
d =b − a
nsi ai = a + id, i = 0, ..., n.
Cand (a, b) este infinit atunci
d =xmax − xmin
nsi ai = xmin + id, i = 0, ..., n.
(Aceste formule au rolul de a da o prima informatie relativa la
numarul claselor.)
Exemplu. Se analizeaza un lot de 30 de becuri din punct devede al caracteristii X ce reprezinta durata de viata ın mii de ore.Datele statistice obtinute sunt:
1.31 3.12 1.97 2.31 2.21 1.963.42 1.69 2.64 1.87 2.25 3.383.97 2.63 2.75 2.20 2.26 1.402.12 2.42 3.53 1.63 3.39 2.441.54 2.29 0.84 1.58 1.68 1.97
Scriem tabelul sistematizat al datelor statistice, considerand clasede amplitudini egale.
Consideram numarul claselor n = 5,
ai = 0.8 + id, i = 0, ...,5
cu
d =xmax − xmin
n=
3.97 − 0.84
5= 0.62
Se considera d = 0.7.
Se obtine
x f(0.8,1.5) 3[1.5,2.2) 10[2.2,2.9) 11[2.9,3.6) 5[3.6,4.3) 1
sau
x f1.15 31.85 102.55 113.25 53.95 1
CURS 2
2.1 Tabele statistice (continuare)
Pentru caracteristica X de tip discret tabelul statistic sistemati-
zat este de forma:
x fx1 f1x2 f2... ...xn fn
unde fi este frecventa absoluta de aparitie a valorii xi ıntre datele
primare x′k, k = 1, ..., N.
Pentru caracteristica X de tip continuu tabelul statistic sistema-
tizat este de forma:
x f(a0, a1) f1[a1, a2) f2... ...[an−1, an) fn
sau
x fx1 f1x2 f2... ...xn fn
unde fi este frecventa absoluta de aparitie a clasei [ai−1, ai)
printre datele primare x′k, k = 1, ..., N, iar xi =ai−1+ai
2 .
Definitia 11 Numim frecventa relativa a clasei xi raportul
pi =fi
N.
Definitia 12 Numim frecvente cumulate ascendente, respec-
tiv frecvente cumulate descendente frecventele date de relatiile
Fk =k∑
i=1
fi, F ′k =
n∑
i=k+1
fi, k = 0, ..., n,
unde F0 = 0 si F ′n = 0.
Pentru frecventele relative are loc relatia
n∑
i=1
pi = 1,
iar pentru cele cumulate au loc relatiile
Fk + F ′k = N, Fn = N si F ′
0 = N.
Definitia 13 Numim distributie statistica a caracteristii X tabloul
de forma
X
(xifi
)
i=1,...,n
sau X
(xipi
)
i=1,...,n
unde xi, i = 1, ..., n sunt clasele considerate, iar fi si pi, i = 1, ..., n
sunt frecventele absolute si respectiv frecventele relative.
Exemplul 14 Se analizeaza un lot de 30 de becuri din punct
de vedere al caracteristii X ce reprezinta durata de viata ın mii
de ore. Tabelul sistematizat al datelor statistice, considerand 5
clase de amplitudini egale, este:
x f(0.8,1.5) 3[1.5,2.2) 10[2.2,2.9) 11[2.9,3.6) 5[3.6,4.3) 1
sau
x f1.15 31.85 102.55 113.25 53.95 1
Distributia statistica a caracteristii X poate fi scrisa, fie cu aju-
torul frecventelor absolute:
X
(1.15 1.85 2.55 3.25 3.953 10 11 5 1
)
fie cu ajutorul frecventelor relative:
X
(1.15 1.85 2.55 3.25 3.95
330
1030
1130
530
130
).
Definitia 15 Fie colectivitatea C relativ la care sunt cercetate
doua caracteristici X si Y. Numim tabel de contingenta un
tablou care contine clasele caracteristicilor X si respectiv Y, ımpreuna
cu frecventele absolute ale acestor clase.
Daca pentru caracteristicile X si Y avem respectiv clasele date
prin xi, i = 1, ..., m si yj, j = 1, ..., n, iar datele primare sunt
date prin perechile (x′1, y′1), (x′2, y′2),...,(x′N , y′N), atunci tabelul de
contingenta este de forma:
X/Y y1 y2 ... yn
x1 f11 f12 ... f1n f1·x2 f21 f22 ... f2n f2·... ... ... ... ... ...xm fm1 fm2 ... fmn fm·
f·1 f·2 ... f·n f·· = N
unde fij este frecventa absoluta de aparitie a clasei (xi, yj) ıntre
datele primare (x′k, y′k), k = 1, ..., N si
f·j =m∑
i=1
fij, j = 1, ..., n
fi· =n∑
j=1
fij, i = 1, ..., m
f·· =n∑
j=1
f·j =m∑
i=1
fi· =m∑
i=1
n∑
j=1
fij = N.
Observatia 16 Cand caracteristicile X si Y sunt caracteristici
cantitative si ıntre ele exista o relatie de dependenta, tabelul de
contingenta se numeste tabel de corelatie.
Exemplul 17 Un astfel de tabel de corelatie este prezentat pen-
tru datele statistice ce reprezinta 85 de copii de 10 ani cercetati
din punct de vedere al ınaltimii X (ın cm) si al greutatii (ın kg):
X/Y 27 28 29 30 31 32
128 4 1 2 1 8129 4 1 5 2 3 15130 1 2 1 3 2 2 11131 4 2 5 1 1 13132 3 2 6 2 2 1 16133 1 7 3 4 2 5 22
13 18 18 16 9 11 85
2.2. Reprezentari grafice
Definitia 18 Se numeste diagrama prin batoane (bare) a
distributiei statistice X de tip discret, reprezentarea grafica ıntr-
un sistem de axe rectangulare a segmentelor (batoanelor) date
prin
{(xi, y) | 0 ≤ y ≤ αfi}, i = 1, ..., n,
unde α > 0 este un factor de proportionalitate, iar fi este frecventa
absoluta a valorii xi.
0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Definitia 19 Se numeste diagrama cumulativa (ascendenta)
a unei distributii statistice X de tip discret, linia poligonala care
uneste punctele de coordonate
(x1, αF0), (x1, αF1), (x2, αF1)(x2, αF2), ..., (xn, αFn)
unde Fi este frecventa cumulata (ascendenta) atasata valorii xi,
iar α > 0 este un factor de proportionalitate.
Definitia 20 Se numeste histograma unei distributii statistice
X de tip continuu, diagrama obtinuta prin construirea de drep-
tunghiuri avand drept baze clasele distributiei statistice si ınaltimile
astfel considerate ıncat ariile dreptunghiurilor sa fie proportionale
cu frecventele claselor.
−3 −2 −1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
Observatia 21 Daca factorul de proportionalitate este 1N atunci
se obtine histograma frecventelor relative.
Observatia 22 Histograma frecvetelor relative a distributiei statis-
tice reprezinta o aproximare rudimentara a graficului densitatii de
probabilitate a caracteristicii X.
Definitia 23 Numim poligonul frecventelor unei distributii statis-
tice X de tip continuu, poligonul obtinut prin unirea punctelor
de coordonate (xi, αifi), i = 1, ..., n, unde αi este un factor de
proportionalitate, iar fi este frecventa clasei xi.
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 20
200
400
600
800
1000
1200Poligonul frecventelor
Definitia 24 Numim diagrame integrale (cumulative) ale frecventelor
cumulate ascendente, respectiv descendente, relative la distributia
statistica X de tip continuu, liniile poligonale obtinute prin unirea
punctelor de coordonate (ak, Fk), k = 0, ..., n, si respectiv (ak, F ′k),
k = 0, ..., n.
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50
10
20
30
40
50
60
70
80
90
100Diagrama ascendenta si Diagrama descendenta
Definitia 25 Numim nor statistic atasat caracteristicilor X si
Y, punctele din plan obtinute prin reprezentarea grafica a datelor
primare (x′k, y′k), k = 1, ..., N.
−2 −1 0 1 2 3 4−3
−2
−1
0
1
2
3
4
5
6
7
2.3. Parametrii distributiilor statistice
Se considera datele primare x′k, k = 1, ..., N relative la caracte-
ristica X, pentru care avem distributia statistica
X
(xifi
)
i=1,...,n
.
Definitia 26 Media (aritmetica) a distributiei statistice a carac-
teristicii X este data prin
xa =1
N
N∑
k=1
x′k =1
N
n∑
k=1
fkxk =n∑
k=1
pkxk.
Definitia 27 Media geometica a distributiei statistice a carac-
teristicii pozitive X este data prin
xg = N√
x′1x′2...x′N =N
√x
f11 x
f22 ...x
fnn .
Observatia 28 In aplicatii se lucreaza mai usor cu
lgxg =1
N
N∑
k=1
lg x′k =1
N
n∑
k=1
fk lgxk =n∑
k=1
pk lg xk.
Definitia 29 Media armonica a distributiei statistice a carac-
teristicii nenule X este data prin
xh =N
N∑
k=1
1x′k
=N
n∑
k=1
fkxk
=1
n∑
k=1
pkxk
.
Lema 30 Fie xi > 0, i = 1, ..., n. Are loc relatia:
n1x1
+ ... + 1xn
≤ n√
x1...xn ≤ x1 + ... + xn
n. (1)
Demonstratie. Fie f : (0,∞) → R, f(x) = ln x. Aceasta este
concava pe (0,∞). Conform inegalitatii lui Jensen are loc
f
(x1 + ... + xn
n
)≥ f(x1) + ... + f(xn)
n=
lnx1 + ... + ln xn
n= ln n
√x1...xn,
de unde rezulta
n√
x1...xn ≤ x1 + ... + xn
n.
Pentru prima inegalitate se ia ın a doua
xi :=1
xi, i = 1, ..., n.
Consecinta. Din (1) rezulta ca are loc relatia ıntre medii:
xh ≤ xg ≤ xa.
Definitia 31 Se numeste mediana distributiei statistice a ca-
racteristii X, valoarea numerica m care ımparte datele statistice,
ordonate crescator, ın doua parti egale.
Fie datele statistice primare:
x′(1) ≤ x′(2) ≤ ... ≤ x′(N).
Atunci mediana va fi data prin
m =
x′(k)
, daca N = 2k − 1,
x′(k)
+x′(k+1)
2 daca N = 2k.
Cand datele statistice sunt grupate se determina intervalul me-
dian [aj−1, aj) astfel ıncat pentru frecventele cumulate Fj−1 si
Fj sa fie satisfacute inegalitatile
Fj−1 <N
2< Fj.
Folosind apoi interpolarea liniara se ia ca mediana
m = aj−1 + dj
N2 − Fj−1
fj,
unde dj este amplitudinea intervalului median.
Semnificatie: Se considera punctele A(aj−1, Fj−1) si B(aj, Fj).
Dreapta AB are ecuatia:
x − aj−1
aj − aj−1=
y − Fj−1
Fj − Fj−1. (2)
Tinand cont ca
aj − aj−1 = dj
si
Fj − Fj−1 = fj
ecuatia (2) devine
x = aj−1 +dj
fj(y − Fj−1).
Mediana este abscisa punctului de ordonata N/2.
Definitia 32 Numim cuartile ale distributiei statistice a carac-
teristicii X, valorile numerice care ımpart datele statistice, ordo-
nate crescator, ın patru parti egale: Q1 (cuartila inferioara),
Q2 = m, Q3 (cuartila superioara), .
Cand datele statistice sunt grupate se determina intervalul cuar-
tilic inferior [ai−1, ai) astfel ıncat sa aiba loc:
Fi−1 <N
4< Fi,
respectiv intervalul cuartilic superior [ak−1, ak) astfel ıncat:
Fk−1 <3N
4< Fk.
Folosind interpolarea liniara se considera
Q1 = ai−1 + di
N2 − Fi−1
fi,
Q3 = ak−1 + dk
N2 − Fk−1
fk.
Observatia 33 In mod analog se definesc decilele si centilele.
Definitia 34 Se numeste abatere cuartila (interval intercuar-
tilic) a distributiei statistice a caracteristicii X, diferenta ıntre
cuartila superioara si cuartila inferioara, adica Q3 − Q1.
Definitia 35 Se numeste variatie intercuartila:
Q =(Q3 − m) + (m − Q1)
2=
Q3 − Q1
2
si abatere cuartila relativa:
Qr =Q3 − Q1
m.
CURS 3
2.3. Parametrii distributiilor statistice (continuare)
Se considera datele primare x′k, k = 1, ..., N relative la caracter-
istica X, pentru care avem distributia statistica
X
(xifi
)
i=1,...,n
.
Definitia 36 Numim cuartile ale distributiei statistice a carac-
teristicii X, valorile numerice care ımpart datele statistice, ordo-
nate crescator, ın patru parti egale: Q1 (cuartila inferioara),
Q2 = m, Q3 (cuartila superioara), .
Cand datele statistice sunt grupate se determina intervalul cuar-
tilic inferior [ai−1, ai) astfel ıncat sa aiba loc:
Fi−1 <N
4< Fi,
respectiv intervalul cuartilic superior [ak−1, ak) astfel ıncat:
Fk−1 <3N
4< Fk.
Folosind interpolarea liniara se considera
Q1 = ai−1 + di
N2 − Fi−1
fi,
Q3 = ak−1 + dk
N2 − Fk−1
fk.
Observatia 37 In mod analog se definesc decilele si centilele.
Definitia 38 Se numeste abatere cuartila (interval intercuar-
tilic) a distributiei statistice a caracteristicii X, diferenta ıntre
cuartila superioara si cuartila inferioara, adica Q3 − Q1.
Definitia 39 Se numeste variatie intercuartila:
Q =(Q3 − m) + (m − Q1)
2=
Q3 − Q1
2si abatere cuartila relativa:
Qr =Q3 − Q1
m.
Definitia 40 Numim mod al distributiei statistice a caracteris-
ticii X orice punct mo de maxim local al distributiei statistice.
Cand distributia statistica are un singur mod spunem ca avem
distributie statistica unimodala. Daca exista doua sau mai
multe moduri se numeste distributie statistica bimodala, respec-
tiv multimodala.
Cand datele statistice sunt grupate, pentru determinarea modului
se determina intervalul modal, adica intervalul cu frecventa
maxima locala. Daca intervalul modal este [ak−1, ak), atunci se
considera
mo = ak−1 + dk△fk
△fk −△fk+1, (3)
unde dk = ak − ak−1, △fk = fk − fk−1, △fk+1 = fk+1 − fk.
Formula se obtine ca intersectie a interpolantului liniar al punctelor
(ak−1, fk−1) si (ak, fk) cu interpolantul liniar al punctelor (ak−1, fk)
si (ak, fk+1).
Interpolatul liniar al punctelor (ak−1, fk−1) si (ak, fk) este:
y − fk−1
fk − fk−1=
x − ak−1
ak − ak−1⇔ y = fk−1 +
△fk
dk(x − ak−1)
si interpolantul liniar al punctelor (ak−1, fk) si (ak, fk+1) este:
y − fk
fk+1 − fk=
x − ak−1
ak − ak−1⇔ y = fk +
△fk+1
dk(x − ak−1).
Modul este abscisa punctului de intersectie, adica
fk−1 +△fk
dk(mo − ak−1) = fk +
△fk+1
dk(mo − ak−1)
⇔ (mo − ak−1)△fk −△fk+1
dk= △fk,
de unde rezulta (3).
Exemplul 41 Tabelul sistematizat pentru caracteristica X de tip
discret:
x f1.5 62.2 42.9 103.6 54.3 1
Modurile sunt: mo1 = x1 = 1.5 si mo2 = x3 = 2.9.
Tabelul sistematizat pentru caracteristica X de tip continuu:
x f(0.8,1.5) 3[1.5,2.2) 10[2.2,2.9) 11[2.9,3.6) 5[3.6,4.3) 1
Intervalul modal este:[a2, a3] = [2.2,2.9). Avem d3 = a3 − a2 =
0.7, △f3 = f3 − f2 = 1, △f4 = f4 − f3 = −6. Rezulta ca modul
este:
mo = ak−1 + dk△fk
△fk −△fk+1= 2.9 + 0.7
1
1 + 6= 3.
Definitia 42 Numim moment de ordin k al distributiei statis-
tice a caracteristicii X, valoarea numerica
νk =1
N
N∑
i=1
x′ki =1
N
n∑
i=1
fixki =
n∑
i=1
pixki .
Parametrii distributiilor statistice prezentati masoara tendinta. In
continuare sunt dati parametrii care masoara ımprastierea (dis-
persarea) datelor statistice.
Definitia 43 Se numeste amplitudine (interval de variatie) a
distributiei statistice a caracteristicii X, valoarea numerica
ω = max{x′1, x′2, ..., x′N} − min{x′1, x′2, ..., x′N} = xmax − xmin.
Observatia 44 Daca abaterea cuartila Q3−Q1 < ω2 atunci distributia
se considera intens concentrata, iar ın caz contrar, intens disper-
sata.
Definitia 45 Numim abatere medie (absoluta) a distributiei
statistice X, valoarea numerica
δ =1
N
N∑
i=1
|xi − x| = 1
N
n∑
i=1
fi |xi − x| =n∑
i=1
pi |xi − x| ,
unde x = xa.
Definitia 46 Numim moment centrat de ordin k al distributiei
statistice X, valoarea numerica
µk =1
N
N∑
i=1
(x′i − x)k =1
N
n∑
i=1
fi(xi − x)k =n∑
i=1
pi(xi − x)k.
Definitia 47 Momentul centrat de ordinul 2 al distributiei statis-tice X se numeste dispersie si se noteaza cu σ2 = µ2, iar
σ =√
µ2
se numeste abatere medie patratica sau abatere standard.
Alte formule de calcul pentru dispersie:
σ2 =1
N
n∑
i=1
fix2i − 1
N
n∑
i=1
fixi
2
σ2 =1
N
n∑
i=1
fi(xi − a)2 − (x − a)2, a ∈ R (Formula lui Konig).
Definitia 48 Numim coeficient de variatie al distributiei statis-tice X, raportul
v =σ
x,
care se exprima ın procente.
Definitia 49 Se numesc coeficientii lui Pearson relativi la distributia
statistica X, rapoartele:
s =x − mo
σCoeficientul de asimetrie
β1 =µ23
µ32
Skewness
β2 =µ4
µ22
Kurtosis.
Definitia 50 Se numesc coeficientii lui Fisher relativi la distributia
statistica X, valorile numerice:
γ1 =√
β1 =µ3
σ3Asimetria
γ2 = β2 − 3 =µ4
µ22
− 3 =µ4
σ4− 3 Excesul.
Pentru legea normala avem:
µ3 =∫
R(x−x)3
1√2πσ
e−(x−m)2
2σ2 dx =1√2πσ
∫
Ry3e
− y2
2σ2dy = 0 =⇒ γ1 = 0
Considerand
I(r) :=1√2π
∫
Rx2re−
x2
2 dx = (2r − 1)!!
se obtine
µ4 =1√2πσ
∫
R(x − x)4e
−(x−m)2
2σ2 dx =σ4√
2π
∫
Ry4e−
y2
2 dy = σ4I(2) = 3σ4
=⇒ γ2 = 0
Observatie. Coeficientii lui Fisher (asimetria si excesul) pentru
legea normala sunt 0.
Proprietati. 1) Suma algebrica a abaterilor valorilor caracteris-
ticii X de la valoarea medie a acesteia este nula.
N∑
i=1
(x′i−x) =n∑
i=1
fi(xi−x) =n∑
i=1
fixi−Nx =n∑
i=1
fixi−N · 1N
n∑
i=1
fixi = 0
2) Momentul centrat µk se poate exprima ın functie de mo-
mentele νj, j = 0, ..., k.
µk =1
N
N∑
i=1
(x′i − x)k =1
N
N∑
i=1
k∑
j=0
(−1)jCjk(x
′i)
k−jxj
=k∑
j=0
(−1)jCjkxj
N∑
i=1
1
N(x′i)
k−j =k∑
j=0
(−1)jCjkxjνk−j.
3) Fie caracteristicile X si Y. Daca Y = aX + b atunci β2 si γ2
coincid, pentru X si Y .
β2(Y ) =µ4(Y )
µ22(Y )
=a4µ4(X)
(a2σ2)2= β2(X)
γ2 = β2 − 3.
(Se verifica usor ca µk(Y ) = akµk(X).)
4) Mediana este mai stabila decat media ın raport cu fluctuatiile
valorilor caracteristicii X. De exemplu, mediana nu se modifica
prin ınlaturarea valorilor extreme (x′min, x′max) ale sirului valorilor
caracteristicii X.
CURS 4
2.4. Corelatie si regresie
Corelatie = legatura care exista ıntre o caracteristica depen-
denta si una sau mai multe caracteristici independente. Regre-
sia = metoda prin care se stabileste aceasta legatura.
2.4.1. Parametrii distributiilor statistice bidimensionale
Fie caracteristicile cantitative X si Y relative la colectivitatea C.
Datele statistice primare sunt (x′k, y′k), k = 1, ..., N. Dupa grupare
se reprezinta ın tabelul de corelatie:
X/Y y1 y2 ... yn
x1 f11 f12 ... f1n f1·x2 f21 f22 ... f2n f2·... ... ... ... ... ...xm fm1 fm2 ... fmn fm·
f·1 f·2 ... f·n f·· = N
unde fij este frecventa absoluta de aparitie a clasei (xi, yj) ıntre
datele primare (x′k, y′k), k = 1, ..., N .
Definitia 51 Numim moment de ordinul (k1, k2) al distributiei
statistice a caracteristicii bidimensionale (X, Y ), valoarea numerica
νk1,k2=
1
N
N∑
i=1
x′k1i y
′k2i =
1
N
m∑
i=1
n∑
j=1
fijxk1i y
k2j
=m∑
i=1
n∑
j=1
pijxk1i y
k2j ,
unde pij =fijN este frecventa relativa a clasei (xi, yj).
Definitia 52 Numim moment centrat de ordinul (k1, k2) al
distributiei statistice a caracteristicii bidimensionale (X, Y ), val-
oarea numerica
µk1,k2=
1
N
N∑
i=1
(x′i − x)k1(y′i − y)k2 =1
N
m∑
i=1
n∑
j=1
fij(xi − x)k1(yj − y)k2
=m∑
i=1
n∑
j=1
pij(xi − x)k1(yj − y)k2,
unde
x = ν10 =1
N
m∑
i=1
fi·xi, y = ν01 =1
N
n∑
j=1
f·jyj.
Dispersiile pentru distributiile statistice ale caracteristicilor X si
Y sunt date de:
σ2X = µ20 =
1
N
m∑
i=1
fi·(xi− x)2, σ2Y = µ02 =
1
N
n∑
j=1
f·j(yj − y)2.
Definitia 53 Numim coeficient de corelatie (al lui Pearson)
al distributiei statistice bidimensionale (X, Y ), raportul
r =µ11√
µ20√
µ02=
ν11 − xy
σX σY.
Observatia 54 1) Are loc |r| ≤ 1.
2) Daca |r| = 1 atunci ∃a 6= 0, b ∈ R astfel ıncat Y = aX + b, si
reciproc.
3) Daca r = 0 atunci cele 2 caracteristici sunt necorelate.
4) Daca caracteristica bidimensionala (X, Y ) urmeaza legea nor-
mala bidimensionala, atunci r = 0 implica faptul ca cele doua
caracteristici sunt independente.
5) Folosind datele statistice negrupate formula de calcul pentru
coeficientul de corelatie este:
r =
N∑
i=1
(x′i − x
) (y′i − y
)
√N∑
i=1
(x′i − x
)2√
N∑i=1
(y′i − y
)2
Definitia 55 Se numeste valoare medie conditionata a distributiei
statistice a caracteristicii Y ın raport cu X = xi, valoarea nu-
merica
yi = y(xi) =1
fi·
n∑
j=1
fijyj, i = 1, ..., m,
si respectiv valoare medie conditionata a distributiei statistice
a caracteristicii X ın raport cu Y = yj, valoarea numerica
xj = x(yj) =1
f·j
m∑
i=1
fijxi, j = 1, ..., n.
Definitia 56 Se numeste dispersie conditionata a distributiei
statistice a caracteristicii Y ın raport cu X = xi, valoarea nu-
merica
σ2Y |xi
=1
fi·
n∑
j=1
fij(yj − yi)2, i = 1, ..., m,
si respectiv dispersie conditionata a distributiei statistice a
caracteristicii X ın raport cu Y = yj, valoarea numerica
σ2X|yj
=1
f·j
m∑
i=1
fij(xi − xj)2, j = 1, ..., n.
Definitia 57 Se numeste dispersie conditionata a distributiei
statistice a lui Y ın raport cu distributia statistica a lui X, valoarea
numerica
σ2Y |X =
1
N
m∑
i=1
fi·σ2Y |xi
=m∑
i=1
pi·σ2Y |xi
,
si respectiv dispersie conditionata a distributiei statistice a lui
X ın raport cu distributia statistica a lui Y, valoarea numerica
σ2X|Y =
1
N
n∑
j=1
f·jσ2X|yj
=n∑
j=1
p·jσ2X|yj
,
unde pi· =fi·N este frecventa relativa a clasei xi, iar p·j =
f·jN este
frecventa relativa a clasei yj.
Dispersiile conditionate satisfac relatiile
σ2Y = σ2
Y |X + σ2Y |X, σ2
X = σ2X|Y + σ2
X|Y ,
unde
σ2Y |X =
1
N
m∑
i=1
fi·(yi − y)2 si σ2X|Y =
1
N
n∑
j=1
f·j(xj − x)2,
sunt dispersiile valorilor medii conditionate.
Definitia 58 Numim raport de corelatie al distributiei statis-
tice a caracteristicii Y fata de distributia statistica a lui X, val-
oarea numerica
ηY |X =
√√√√√1 −σ2
Y |Xσ2
Y
=
√√√√√σ2
Y |Xσ2
Y
,
analog avem
ηX|Y =
√√√√√1 −σ2
X|Yσ2
X
=
√√√√√σ2
X|Yσ2
X
.
Observatia 59 1) ηY |X = 0 =⇒ σ2Y |X = 0 =⇒ y = yi, i =
1, ..., m.
2) ηY |X = 1 =⇒ σ2Y |X = 0 =⇒ σ2
Y |xi= 0, i = 1, ..., m, adica
valorile caracteristicii Y sunt aceleasi.
Coeficientul lui Spearman
Consideram datele primare (x′i, y′i), i = 1, ..., N. Fie (uk, vk), k =
1, .., N rangurile datelor statistice primare obtinute printr-o or-donare crescatoare dupa prima, respectiv a doua componenta.
Definitia 60 Se numeste coeficient de corelatie al rangurilorsau coeficientul lui Spearman, valoarea numerica
s = r(U, V ),
unde U si V sunt caracteristicile care definesc rangurile datelorstatistice pentru X si Y.
Teorema 61 Daca notam dk = |uk − vk|, k = 1, ..., N diferentadintre rangurile aceluiasi individ atunci
s = 1 − 6
N(N2 − 1)
N∑
k=1
d2k.
Demonstratie. Prin definitie se obtine
s = r(U, V ) =µ11√
µ20√
µ02=
1N
N∑
k=1(uk − u)(vk − v)
√1N
N∑
k=1(uk − u)2
√1N
N∑
k=1(vk − v)2
.
Avem
u = v =1
N(1 + 2 + ... + N) =
N + 1
2.
si
α :=N∑
k=1
(uk − u)2 =N∑
k=1
(k − N + 1
2
)2
=N∑
k=1
k2 − 2N + 1
2
N∑
k=1
k +
(N + 1
2
)2 N∑
k=1
1
=N(N + 1)(2N + 1)
6− 2
N + 1
2
N(N + 1)
2+ N
(N + 1)2
4
=N(N2 − 1)
12.
Analog,
N∑
k=1
(vk − v)2 =N(N2 − 1)
12.
Pentru numarator avem
d2k = (uk − vk)
2 = (uk − u + v − vk)2
= (uk − u)2 + (v − vk)2 − 2(uk − u)(v − vk).
Insumand se obtine
N∑
k=1
d2k = α + α − 2
N∑
k=1
(uk − u)(vk − v),
de unde rezulta ca
N∑
k=1
(uk − u)(vk − v) = α − 1
2
N∑
k=1
d2k .
In final se obtine
s =
α − 12
N∑
k=1d2k
√α√
α= 1 − 1
2
12
N(N2 − 1)
N∑
k=1
d2k .
Proprietatea 62 1) Coeficientul lui Spearman verifica relatiile
−1 ≤ s ≤ 1.
2) s = 1 cand cele 2 clasamente pentru caracteristicile X si Y
coincid.
3) s = −1 cand cele 2 clasamente pentru caracteristicile X si Y
sunt inverse unul celuilalt ((1, N), (2, N − 1), ..., (N,1)).
4) s = 0 cand caracteristicile X si Y sunt independente.
5) Cand exista doua sau mai multe date statistice primare care
au aceeasi valoare, atunci rangurile acestora se considera toate
egale cu media aritmetica a rangurilor pe care le ocupa aceste
date ın ordonarea crescatoare.
Coeficientul lui Kendall
Definitia 63 Se numeste coeficientul lui Kendall relativ la
distributia statistica a caracteristicii bidimensionale (X, Y ), ra-
portul
k =2t
N(N − 1),
unde
t =N∑
i,j=1i<j
sign{(x′j − x′i)(y′j − y′i)}.
Proprietatea 64 1) Coeficientul lui Kendall satisface relatiile
−1 ≤ k ≤ 1.
2) Pentru k = 1 cele 2 clasamente pentru caracteristicile X si Y
sunt indentice.
3) Pentru k = −1 cele 2 clasamente pentru caracteristicile X si
Y sunt inverse unul celuilalt.
4) Pentru k = 0 caracteristicile X si Y sunt independente.
5) Cand ın cele doua clasamente sunt valori egale se ınlocuiesc
toate rangurile pentru valorile egale prin media aritmetica a ran-
gurilor pe care le ocupa ın ordonare.
Pentru calculul rapid al lui k se poate proceda dupa cum urmeaza.
Se ordoneaza datele primare(x′k, y′k
), k = 1, N , ın mod crescator
dupa prima componenta:(x′ik, y
′ik
), k = 1, N, cu x′i1 6 x′i2 6 · · · 6 x′iN .
Se calculeaza apoi numarul
t =N∑
u,v=1u<v
sign(y′iv − y′iu
),
obtinandu-se astfel k.
Formula lui Daniels
Coeficientul r de corelatie (al lui Pearson), coeficientul s al lui
Spearman si coeficientul k al lui Kendall se pot exprima prin
formula unica
D =
N∑i=1
N∑j=1
aijbij
√√√√N∑
i=1
N∑j=1
a2ij
√√√√N∑
i=1
N∑j=1
b2ij
·
Daca aij = x′i − x′j, bij = y′i − y′j, atunci D = r.
Daca aij = ui − uj, bij = vi − vj, atunci D = s.
Daca aij = sign(x′i − x′j
), bij = sign
(y′i − y′j
), atunci D = k.
CURS 5
2.4.2. Curbe de regresie. Regresie liniara
Definitia 65 Curba de ecuatie y = f(x) pe care se situeaza
punctele de coordonate (xi, yi), i = 1, ..., m se numeste curba de
regresie a lui Y ın raport cu X, iar curba de ecuatie x = f(y)
pe care se situeaza punctele de coordonate (xj, yj), j = 1, ..., n
se numeste curba de regresie a lui X ın raport cu Y.
xi x
yi
y=f(x)
-
6
xj x=f(y)
yj
y
-
6
Determinarea curbelor de regresie
Determinarea ecuatiilor curbelor de regresie se face prin metoda
celor mai mici patrate. Presupunem ca prin reprezentarea punctelor
(xi, yi), i = 1, m, curba de regresie a lui Y ın raport cu X este de
forma
y = y (x) = f (x; a1, a2, . . . , as) .
Se determina parametrii ak, k = 1, s, astfel ıncat
S (a1, a2, . . . , as) =N∑
i=1
(y′i − y
(x′i))2
=m∑
i=1
n∑
j=1
fij
(yj − y (xi)
)2
=m∑
i=1
n∑
j=1
fij
(yj − f (xi; a1, a2, . . . , as)
)2
sa fie minima.
Punctul de minim (a1, a2, . . . , as) al functiei S se obtine prin re-
zolvarea sistemului normal de ecuatii, rezultat din
∂S
∂ak= −2
m∑
i=1
n∑
j=1
fij
(yj−f (xi; a1, a2, . . . , as)
)∂f (xi; a1, a2, . . . , as)
∂ak= 0,
pentru k = 1, s. Ecuatia curbei de regresie va fi
y = f (x; a1, a2, . . . , as) .
La fel se determina si ecuatia curbei de regresie a lui X ın raport
cu Y .
Drepte de regresie
Cazul liniar cand ecuatia curbei de regresie este y = y (x) = ax+b.
Ecuatiile dreptelor de regresie a lui Y ın raport cu X si, respectiv,
a lui X ın raport cu Y sunt:
y − y = rσY
σX(x − x)
si
x − x = rσX
σY(y − y) .
Coeficientul unghiular al dreptei de regresie a lui Y ın raport cu
X, notat cu
aY |X = rσY
σX,
se numeste coeficientul de regresie al lui Y ın raport cu X si
aX|Y = rσX
σY
se numeste coeficientul de regresie al lui X ın raport cu Y.
Avem
|r| =√
aY |XaX|Ysi
sign(aX|Y
)= sign
(aY |X
).
Unghiul α format de cele doua drepte de regresie este dat prin
relatia
tgα =1 − r2
r2σXσY
σ2X + σ2
Y
Folosind aceasta relatie se pot trage urmatoarele concluzii:
• Daca |r| = 1 atunci α = 0, deci dreptele de regresie se con-
funda, cu specificatia ca pentru r = −1 dreptele au panta
(coeficientul unghiular) negativa, iar pentru r = 1 panta este
pozitiva.
• Daca X si Y sunt independente atunci r = 0, deci α = π2
(dreptele de regresie sunt perpendiculare).
Tipuri de curbe de regresie care pot fi liniarizate sunt:
1. y = abx (exponentiala), care prin logaritmare se liniarizeaza
log y = log a + x log b, luand z = log y, A = log a, B =
log b =⇒ z = A + Bx
2. y = ax+b (hiperbolica), care se liniarizeaza daca se noteaza
z = 1x
3. 1y = a
x + b sau y = 1ax+b
, care se liniarizeaza daca se
noteaza u = 1x, v = 1
y
4. y = a log x + b (logaritmica), care se liniarizeaza daca se
noteaza z = log x
5. y = beax (exponentiala), care prin logaritmare se liniarizeaza
ln y = ln b + ax, luand z = ln y
6. y = beax, care prin logaritmare se liniarizeaza ln y = ln b + a
x,
luand u = 1x, v = ln y
7. y = bxa, care prin logaritmare se liniarizeaza, log y = log b +
a log x, luand u = log x, v = log y
8. 1y = ae−x + b sau y = 1
ae−x+b,care se liniarizeaza daca se
fac notatiile u = e−x, v = 1y
Curbe de regresie ce nu pot fi liniarizate:
1. y = a0 + a1x + · · · + anxn, n > 2 (polinomiala),
2. y = axb + c log x,
3. y = axbecx,
4. y = a + bx + cex. (Ultimele trei se pot aduce la forma polino-
miala.)
Capitolul 3. TEORIA SELECTIEI
Definitia 66 Se numeste esantion (selectie, sondaj) relativ la
colectivitatea C o submultime de indivizi E a lui C, care urmeaza
sa fie cercetati din punct de vedere al uneia sau mai multor
caracteristici. Numarul indivizilor din esantionul E se numeste
volumul esantionului.
Modurile de obtinere a esantionului E ne conduc la metode nealeatoare
si respectiv metode aleatoare de selectie.
Metodele nealeatoare:
• selectia sistematica, cand indivizii care intra ın esantion
sunt considerati dupa o anumita regula, de exemplu din 10
ın 10
• selectie tipica, cand, cunoscandu-se informatii anterioare
referitoare la colectivitate, sunt considerati indivizi cu valori
medii apropiate de valoarea medie a ıntregii colectivitati
• selectie stratificata, cand colectivitatea este clasificata (stra-
tificata) dupa anumite criterii, cunoscandu-se proportia indi-
vizilor pentru fiecare strat. Esantionul se ia astfel ıncat sa
fie respectate aceste proportii pentru fiecare strat
Metodele aleatoare – fiecare individ al colectivitatii C poate sa
intre ın esantion cu aceeasi probabilitate (selectie cu probabilitati
egale) sau cu probabilitati diferite.
Metode aleatoare de selectie sunt:
• repetate (bernoulliene), cand individul ce intra ın esantion,
dupa ce a fost cercetat, este reintrodus ın colectivitate
• nerepetate, cand individul ce intra ın esantion, dupa ce a fost
cercetat, nu este reintrodus ın colectivitate
Observatia 67 Daca volumul colectivitatii este mult mai mare
decat volumul esantionului, atunci o selectie nerepetata poate fi
considerata ca fiind de tip repetat.
In cele ce urmeaza vom considera ca avem de fiecare data o
selectie repetata. Fie colectivitatea C cercetata din punct de
vedere al caracteristicii X.
Definitia 68 Se numesc date de selectie relative la caracteris-
tica X datele statistice (observate) x1, x2, . . . , xn privind indivizii
care intra ın esantion.
Definitia 69 Se numesc variabile de selectie variabilele aleatoare
X1, X2, . . . , Xn, care iau ca valori datele de selectie. In cazul unei
selectii repetate sunt variabile aleatoare independente, identic
repartizate cu X.
3.1. FUNCTII DE SELECTIE
Se numeste functie de selectie sau statistica – variabila alea-
toare
Zn = hn (X1, X2, . . . , Xn) ,
unde hn : Rn −→ R este o functie masurabila, iar
zn = hn (x1, x2, . . . , xn)
se numeste valoarea functiei de selectie.
Definitia 70 Se numeste medie de selectie – functia de selectie
X =1
n
n∑
k=1
Xk, iar x =1
n
n∑
k=1
xk
se numeste valoarea mediei de selectie.
Proprietatea 71 Fie caracteristica X pentru care exista val-
oarea medie m = M (X) si dispersia σ2 = D2 (X), atunci
M(
X)= m si D2
(X)=
1
nσ2.
Demonstratie. Folosind proprietatile valorii medii si ale disper-
siei si avand ın vedere ca selectia este repetata avem succesiv
M(
X)=
1
n
n∑
k=1
M (Xk) =1
n
n∑
k=1
M (X) =1
nn m = m,
respectiv
D2(
X)=
1
n2
n∑
k=1
D2 (Xk) =1
n2
n∑
k=1
D2 (X) =1
n2n σ2 =
1
nσ2.
Observatia 72 In cazul ın care caracteristica X urmeaza legea
normala N (m, σ), atunci X, fiind o combinatie liniara de vari-
abile aleatoare independente ce urmeaza fiecare legea normala,
va urma de asemenea legea normala. X va urma legea normala
N
(m, σ√
n
).
Proprietatea 73 Fie caracteristica X pentru care exista val-
oarea medie m = M (X) si dispersia σ2 = D2 (X), atunci
statistica
Zn =X − m
σ√n
converge ın repartitie la legea normala N (0,1), cand n → ∞.
(Convergenta ın repartitie: Sirul de variabile aleatoare (Xn)n∈N
converge ın repartitie la variabila aleatoare X daca limn→∞Fn(x) =
F(x).)
Definitia 74 Se numeste moment de selectie de ordin k –
functia de selectie
νk =1
n
n∑
i=1
Xki , iar νk =
1
n
n∑
i=1
xki ,
se numeste valoarea momentului de selectie de ordin k.
Se observa ca ν1 = X.
Proprietatea 75 Fie caracteristica X pentru care exista mo-
mentul teoretic ν2k = M(X2k
)atunci
M ( νk) = νk si D2 ( νk) =1
n
(ν2k − ν2
k
).
Demonstratie. Deoarece selectia este repetata putem scrie suc-
cesiv
M ( νk) =1
n
n∑
i=1
M(Xk
i
)=
1
n
n∑
i=1
M(Xk
)=
1
nnνk = νk
si respectiv
D2 ( νk) =1
n2
n∑
i=1
D2(Xk
i
)=
1
n2
n∑
i=1
D2(Xk
)
=1
n2n(ν2k − ν2
k
)=
1
n
(ν2k − ν2
k
).
CURS 6
3.1. FUNCTII DE SELECTIE (continuare)
Definitia 76 Se numeste moment centrat de selectie de or-
din k – functia de selectie
µk =1
n
n∑
i=1
(Xi − X
)k, iar µk =
1
n
n∑
i=1
(xi − x)k ,
se numeste valoarea momentului centrat de selectie de ordin
k.
Se observa ca µ1 = 0 si µ2 = ν2 − ν21.
Proprietatea 77 Fie caracteristica X pentru care exista mo-
mentul teoretic ν4, atunci pentru momentul centrat de ordinul
doi avem
M (µ2) =n − 1
nσ2
si
D2 (µ2) =n − 1
n3[(n − 1)µ4 − (n − 3)σ4],
unde σ2 = D2 (X).
Definitia 78 Se numeste dispersie de selectie – functia deselectie
σ2 =1
n − 1
n∑
k=1
(Xk − X
)2,
iar valoarea numerica
σ2 =1
n − 1
n∑
k=1
(xk − x)2 ,
se numeste valoarea dispersiei de selectie.
Observatia 79 Intre momentul centrat de selectie de ordinul doi
si dispersia de selectie exista relatia
σ2 =n
n − 1µ2,
ca urmare, avem
M(
σ2)=
n
n − 1M (µ2) =
n
n − 1
n − 1
nµ2 = µ2 = σ2,
D2(
σ2)=
n2
(n − 1)2D2 ( µ2) =
[(n − 1)2
n3µ4 − (n − 1) (n − 3)
n3µ22
]
=1
n (n − 1)
[(n − 1)µ4 − (n − 3)µ2
2
].
Proprietatea 80 Fie caracteristica X pentru care exista mo-
mentul centrat teoretic
µk = M
[(X − M (X)
)k],
atunci avem
M (µk) = µk + O
(1
n
)
si
D2 (µk) =µ2k − 2kµk−1µk+1 − µ2
k + k2µkµ2k−1
n+ O
(1
n2
)·
Fie caracteristica bidimensionala (X, Y ) si o selectie repetata
de volum n, cu datele de selectie (xk, yk), k = 1, n si respectiv
variabilele de selectie (Xk, Yk), k = 1, n.
Definitia 81 Se numeste coeficient de corelatie de selectie
– functia de selectie
r =
n∑i=1
(Xi − X
) (Yi − Y
)
√n∑
i=1
(Xi − X
)2√
n∑i=1
(Yi − Y
)2,
iar valoarea numerica
r =
n∑i=1
(xi − x ) (yi − y )
√n∑
i=1(xi − x )2
√n∑
i=1(yi − y )2
,
se numeste valoarea coeficientului de corelatie de selectie.
Lema 82 (Fisher) Daca variabilele aleatoare X1, X2, . . . , Xn sunt
independente, fiecare urmand legea normala N (0,1) si daca se
considera matricea ortonormata A =(aij
)
i,j=1,n, atunci vari-
abilele aleatoare
Yi =n∑
k=1
aikXk, i = 1, n,
sunt independente, fiecare urmand legea normala N (0,1).
Obs. Matricea A este ortonormata = produsul scalar a doua
linii distincte este 0, iar produsul scalar al unei linii cu ea ınsasi
este 1.
Proprietatea 83 Fie caracteristica X ce urmeaza legea normala
N (0,1) si variabilele de selectie X1, X2, . . . , Xn ce corespund unei
selectii repetate de volum n, atunci statisticile
Un =√
n X =1√n
n∑
k=1
Xk,
Vn =n∑
k=1
(Xk − X
)2,
sunt variabile aleatoare independente ce urmeaza legea normala
N (0,1) si respectiv legea χ2 cu n − 1 grade de libertate.
Proprietatea 84 Fie caracteristica X ce urmeaza legea norma-
la N (m, σ) si variabilele de selectie X1, X2, . . . , Xn ce corespund
unei selectii repetate de volum n, atunci statisticile
Un =X − m
σ√n
,
Vn =1
σ2
n∑
k=1
(Xk − X
)2,
sunt variabile aleatoare independente ce urmeaza legea normalaN (0,1) si respectiv legea χ2 cu n − 1 grade de libertate.
Demonstratie. Se considera variabilele aleatoare Zk =Xk−m
σ ,k = 1, n, care sunt variabile aleatoare independente, fiecare urmandlegea normala N (0,1). Se aplica Proprietatea 83 pentru vari-abilele aleatoare Zk, k = 1, n. Intr-adevar avem
1√n
n∑
k=1
Zk =1√n
n∑
k=1
Xk − m
σ=
1√n
n
(1
n
n∑
k=1Xk
)− nm
σ= Un
urmeaza legea normala N (0,1) si
n∑
k=1
(Zk − Z
)2=
n∑
k=1
(Xk − m
σ− 1
n
n∑
i=1
Xi − m
σ
)2
=1
σ2
n∑
k=1
(Xk − m − 1
n
n∑
i=1
Xi +1
nnm)2 =
1
σ2
n∑
k=1
(Xk − X
)2
= Vn.
urmeaza legea χ2 cu n − 1 grade de libertate.
Proprietatea 85 Fie caracteristica X ce urmeaza legea normala
N (m, σ) si variabilele de selectie X1, X2, . . . , Xn ce corespund unei
selectii repetate de volum n, atunci statistica
T =X − m
σ√n
=X − m√
µ2n−1
,
urmeaza legea Student cu n − 1 grade de libertate.
Demonstratie. Cu notatiile de la Proprietatea 84, aratam ca
T =Un√
Vnn−1
.
Avem succesiv
Un√Vn
n−1
=X − m
σ√n
·√
n − 1
1σ
√n∑
k=1
(Xk − X
)2=
X − m
1√n
√1
n−1
n∑
k=1
(Xk − X
)2
=X − m
σ√n
= T.
Din teoria probabilitatilor se stie ca raportul dintre o variabila
aleatoare ce urmeaza legea normala N (0,1) si radicalul unei vari-
abile aleatoare ce urmeaza legea χ2, raportata la numarul grade-
lor de libertate, ın cazul ın care cele doua variabile aleatoare
sunt independente, este o variabila aleatoare ce urmeaza legea
Student cu acelasi numar al gradelor de libertate ca legea χ2
considerata.
Proprietatea 86 Fie caracteristicile independente X ′ si X ′′, fiecare
urmand legea normala, respectiv N(m′, σ
)si N
(m′′, σ
)si vari-
abilele de selectie X ′1, . . . , X ′
n′, respectiv X ′′1, . . . , X ′′
n′′, ce corespund
unei selectii repetate de volum n′ pentru caracteristica X ′ si unei
selectii repetate de volum n′′ pentru caracteristica X ′′, atunci
statistica
T =
(X
′ − X′′ )− (
m′ − m′′)√(
n′ − 1)σ ′2 +
(n′′ − 1
)σ ′′2
√√√√n′ + n′′ − 21n′ +
1n′′
,
urmeaza legea Student cu n′ + n′′ − 2 grade de libertate, con-
siderand
X′=
1
n′n′∑
k=1
X ′k, X
′′=
1
n′′n′′∑
k=1
X ′′k ,
σ ′2 =1
n′ − 1
n′∑
k=1
(X ′
k − X′ )2
, σ ′′2 =1
n′′ − 1
n′′∑
k=1
(X ′′
k − X′′ )2
.
Demonstratie. Mediile de selectie X′si X
′′urmeaza fiecare
legea normala, respectiv N
(m′, σ√
n′
)si N
(m′′, σ√
n′′
)([Curs 5,
Observatia 8]). Prin urmare statistica
U =
(X
′ − X′′ )− (
m′ − m′′)
σ√
1n′ +
1n′′
,
urmeaza legea normala N (0,1) (teoria probabilitatilor).
Pe de alta parte, folosind Proprietatea 84, se obtine ca statistica
V =1
σ2
n′∑
k=1
(X ′
k − X′ )2
+1
σ2
n′′∑
k=1
(X ′′
k − X′′ )2
,
urmeaza legea χ2 cu n′ + n′′ − 2 grade de libertate, fiind suma
a doua variabile aleatoare independente ce urmeaza legea χ2 cu
n′ − 1 grade de libertate si respectiv n′′ − 1 grade de libertate.
Statistica U√V
n′+n′′−2
urmeaza legea Student cu n′ + n′′ − 2 grade
de libertate (ca si ın demonstratia Proprietatii 85). Se arata ca
aceasta statistica este chiar T . Avem
U√
Vn′+n′′−2
=
(X
′ − X′′ )− (
m′ − m′′)
σ√
1n′ +
1n′′
·√
n′ + n′′ − 2
1σ
√√√√ n′∑
k=1
(X ′
k − X′ )2
+n′′∑
k=1
(X ′′
k − X′′ )2
=
(X
′ − X′′ )− (
m′ − m′′)√(
n′ − 1)σ ′2 +
(n′′ − 1
)σ ′′2
√√√√n′ + n′′ − 21n′ +
1n′′
= T.
Observatia 87 Daca se considera caracteristicile independente
X ′ si X ′′, fiecare urmand legea normala N(m′, σ′) si respectiv
N(m′′, σ′′) si daca avem variabilele de selectie X ′
1, X ′2, . . . , X ′
n′ ce
corespund unei selectii repetate de volum n′ relativa la carac-
teristica X ′ si respectiv variabilele de selectie X ′′1, X ′′
2, . . . , X ′′n′′ ce
corespund unei selectii repetate de volum n′′ relativa la caracter-
istica X ′′, atunci statistica
Z =
(X
′ − X′′ )− (
m′ − m′′)√
σ′2n′ + σ′′2
n′′
,
urmeaza legea normala N (0,1).
Proprietatea 88 Fie caracteristicile independente X ′ si X ′′, fiecare
urmand legea normala, respectiv N(m′, σ′) si N
(m′′, σ′′) si vari-
abilele de selectie X ′1, . . . , X ′
n′, respectiv X ′′1, . . . , X ′′
n′′, ce corespund
unei selectii repetate de volum n′ pentru caracteristica X ′ si unei
selectii repetate de volum n′′ pentru caracteristica X ′′, atunci
statistica
F =σ ′2
σ′2
/σ ′′2
σ′′2
urmeaza legea Snedecor-Fisher cu m = n′−1 si n = n′′−1 grade
de libertate.
Demonstratie. Din Proprietatea 84 avem ca functiile de selectie,
V ′ =1
σ′2n′∑
k=1
(X ′
k − X ′)2
=(n′ − 1
) σ ′2
σ′2 ,
V ′′ =1
σ′′2n′′∑
k=1
(X ′′
k − X′′)2
=(n′′ − 1
) σ ′′2
σ′′2
urmeaza fiecare legea χ2 cu m = n′ − 1 si n = n′′ − 1 grade de
libertate.
Pe de alta parte, X ′ si X ′′ sunt independente =⇒ V ′ si V ′′ sunt
independente. Din calculul probabilitatilor se stie ca raportul a
doua variabile aleatoare independente, ce urmeaza legea χ2, ra-
portate fiecare la numarul gradelor de libertate corespunzator,
este o variabila aleatoare ce urmeaza legea Snedecor–Fisher cu
numarul gradelor de libertate dat de numerele gradelor de liber-
tate ale celor doua legi χ2. Asadar avem ca
V ′
n′ − 1
/V ′′
n′′ − 1=
σ ′2
σ′2
/σ ′′2
σ′′2 = F
urmeaza legea Snedecor-Fisher cu m = n′−1 si n = n′′−1 grade
de libertate.
CURS 7
3.1. FUNCTII DE SELECTIE (continuare)
Fie caracteristica X, datele de selectie x1, x2, . . . , xn si variabilele
de selectie X1, X2, . . . , Xn.
Definitia 89 Se numeste functie de repartitie de selectie –
functia de selectie definita prin
Fn (x) =νn (x)
n, x ∈ R,
unde
νn (x) = card{Xi |Xi < x, i = 1, n },iar valoarea functiei de repartitie de selectie este
Fn (x) =card{xi |xi < x, i = 1, n }
n, x ∈ R.
Proprietatea 90 1) Fn este crescatoare si Fn(R) ⊂[0,1].
2) Daca datele de selectie sunt ordonate crescator atunci
Fn(x) =
0, x ≤ x1kn, xk ≤ x ≤ xk+1,1, x > xn.
Teorema 91 (Glivenko) Fie caracteristica X, care are functia
de repartitie teoretica F, si fie o selectie repetata de volum n rel-
ativa la caracteristica X, cu variabilele de selectie X1, X2, . . . , Xn
si functia de repartitie de selectie corespunzatoare Fn, atunci
P
(lim
n→∞ supx∈R
∣∣∣Fn (x) − F (x)∣∣∣ = 0
)= 1,
adica functia de repartitie de selectie converge aproape sigur la
functia de repartitie teoretica.
Teorema 92 (Kolmogorov) Fie caracteristica X care are functia
de repartitie teoretica F continua si fie o selectie repetata de
volum n relativa la caracteristica X cu variabilele de selectie
X1, X2, . . . , Xn si functia de repartitie de selectie corespunzatoare
Fn, atunci
limn→∞P
(√nDn < x
)= K (x) , x > 0,
unde Dn = supx∈R
∣∣∣Fn (x) − F (x)∣∣∣, iar
K (x) =+∞∑
k=−∞(−1)k e−2k2x2
, x > 0,
este functia lui Kolmogorov.
4. TEORIA ESTIMATIEI
Se obtin datele statistice ın urma cercetarii selective → Se fac
generalizari relative la populatia din care se extrage selectia.
Generalizarile - estimarea parametrilor statistici necunoscuti.
Estimarea - printr-o marime cat mai apropiata de valoarea reala.
Daca nu se reuseste se cauta limite ın interiorul carora se afla,
cu o anumita probabilitate.
Fie colectivitatea C, caracteristica X cu functia de probabilitate
f (x; θ) , (=functia de frecventa daca X este de tip discret; den-
sitatea de probabilitate daca X este de tip continuu), θ ∈ A este
un parametru real necunoscut. Se considera o selectie repetata
de volum n avand variabilele de selectie X1, X2, . . . , Xn.
4.1. FUNCTII DE ESTIMATIE
Definitia 93 Se numeste functie de estimatie (estimator) pen-
tru parametrul θ, functia de selectie
Θ = θ (X1, X2, . . . , Xn) ,
care ia valori ın domeniul A, iar valoarea numerica θ = θ (x1, x2, . . . , xn)
se numeste estimatia lui θ.
Definitia 94 Estimatorul Θ = θ (X1, X2, . . . , Xn) este estimator
(functie de estimatie) nedeplasat pentru parametrul necunos-
cut θ daca
M(Θ) = θ,
iar valoarea numerica θ = θ (x1, x2, . . . , xn) se numeste estimatie
nedeplasata pentru parametrul θ.
Definitia 95 Estimatorul Θ = θ (X1, X2, . . . , Xn) se numeste es-
timator consistent pentru parametrul necunoscut θ daca
Θp−→ θ,
adica
limn→∞P
(| Θ − θ | < ε
)= 1,
pentru orice ε > 0, iar valoarea numerica θ = θ (x1, x2, . . . , xn) se
numeste estimatie consistenta pentru parametrul θ.
FUNCTII DE ESTIMATIE ABSOLUT CORECTE
Definitia 96 Se numeste functie de estimatie (estimator) ab-
solut corecta pentru parametrul θ – functia de selectie Θ =
θ (X1, X2, . . . , Xn) care satisface conditiile
(i) M(Θ)= θ,
(ii) limn→∞D2
(Θ)= 0,
iar valoarea numerica θ = θ (x1, x2, . . . , xn) se numeste estimatie
absolut corecta pentru parametrul θ.
Proprietatea 97 Un estimator absolut corect este un estimator
consistent.
Demonstratie. Fie estimatorul Θ = θ (X1, X2, . . . , Xn) un esti-
mator absolut corect pentru parametrul θ. Din inegalitatea lui
Cebısev avem
1 > P(| Θ − θ | < ε
)> 1 − D2(Θ)
ε2,
pentru orice ε > 0. Facand pe n → ∞ din (ii) rezulta
limn→∞P
(| Θ − θ | < ε
)= 1,
pentru orice ε > 0, ceea ce trebuia demonstrat.
Proprietatea 98 Fie caracteristica X pentru care exista mo-
mentul teoretic de ordinul 2k, ν2k = M(X2k
), si fie o selectie
repetata de volum n, atunci momentul de selectie de ordin k
νk =1
n
n∑
i=1
Xki
este functie de estimatie absolut corecta pentru parametrul νk.
Demonstratie. Din [Curs 5, Propr. 11] avem ca
M (νk) = νk
si
D2 (νk) =ν2k − ν2
k
n.
Rezulta
limn→∞D2 (νk) = lim
n→∞ν2k − ν2
k
n= 0.
Deci conditiile pentru o functie de estimatie absolut corecta sunt
satisfacute.
Observatia 99 Media de selectie X (= ν1) este functie de estimatie
absolut corecta pentru media teoretica M (X) (= ν1).
FUNCTII DE ESTIMATIE CORECTE
Definitia 100 Se numeste functie de estimatie (estimator)
corecta pentru parametrul necunoscut θ, functia de selectie Θ =
θ (X1, X2, . . . , Xn) care satisface conditiile
(i) limn→∞M
(Θ)= θ,
(ii) limn→∞D2
(Θ)= 0,
iar valoarea numerica θ = θ (x1, x2, . . . , xn) se numeste estimatie
corecta pentru parametrul θ.
Proprietatea 101 Un estimator corect este un estimator con-
sistent.
Demonstratie. Fie estimatorul Θ = θ (X1, X2, . . . , Xn) corect
pentru parametrul θ, atunci din conditiile (i) si (ii) avem ca pen-
tru orice ε > 0 si δ > 0 exista numarul natural N = N (ε, δ) astfel
ıncat
|M(Θ)− θ | <
ε
2si D2
(Θ)
<ε2δ
4, pentru n > N.
Putem scrie
| Θ − θ | 6 | Θ − M(Θ)| + |M
(Θ)− θ | < | Θ − M
(Θ)| +
ε
2,
pentru n > N , de unde daca | Θ − M(Θ)| < ε
2, vom avea ca
| Θ − θ | < ε, pentru n > N . Prin urmare avem(| Θ − M
(Θ)| <
ε
2
)⊂(| Θ − θ | < ε
), n > N,
care conduce la inegalitatea
P(| Θ − M
(Θ)| <
ε
2
)6 P
(| Θ − θ | < ε
), n > N.
Pe de alta parte, folosind inegalitatea lui Cebısev,
P(| Θ − M
(Θ)| <
ε
2
)> 1 −
4D2(Θ)
ε2·
Deoarece D2(Θ)
< ε2δ4 , pentru n > N , rezulta ca
P(| Θ − M
(Θ)| <
ε
2
)> 1 − δ, n > N.
Prin urmare se ajunge la
P(| Θ − θ | < ε
)> P
(| Θ − M
(Θ)| <
ε
2
)> 1 − δ, n > N
si tinand cont ca P(| Θ − θ | < ε) ≤ 1, rezulta
limn→∞P
(| Θ − θ | < ε
)= 1
adica Θp−→ θ, ceea ce trebuia aratat.
Proprietatea 102 Fie caracteristica X pentru care exista mo-
mentul teoretic ν2k = M(X2k
)si fie o selectie repetata de
volum n, atunci momentul centrat de selectie de ordin k, µk =
1n
n∑i=1
(Xi − X
)k, este functie de estimatie corecta pentru mo-
mentul centrat teoretic de ordin k, µk = M((X − M (X))k
).
Demonstratie. Conform [Curs 6, propr. 5] avem
limn→∞M (µk) = lim
n→∞
(µk + O
(1
n
))= µk.
si
limn→∞D2 (µk) = lim
n→∞
[µ2k − 2kµk−1µk+1 − µ2
k + k2µkµ2k−1
n+O
(1
n2
)]= 0.
Asadar, conditiile pentru o functie de estimatie corecta sunt
satisfacute.
Observatia 103 Momentul centrat de selectie µ2, este functie
de estimatie corecta pentru dispersia teoretica D2(X) = µ2.
Dispersia de selectie,
σ2 =1
n − 1
n∑
k=1
(Xk − X)2,
este functie de estimatie absolut corecta pentru dispersia teo-
retica D2(X) = µ2.
FUNCTIA DE VEROSIMILITATE
Definitia 104 Se numeste functie de verosimilitate – functia
de frecventa (ın cazul discret), respectiv densitatea de proba-
bilitate (ın cazul continuu) a vectorului aleator (X1, X2, . . . , Xn) ,
adica
g (x1, x2, . . . , xn; θ) =n∏
k=1
f (xk; θ) .
Definitia 105 Statistica S = S (X1, X2, . . . , Xn) se numeste statis-
tica suficienta, pentru parametrul θ, daca accepta descompunerea
g (x1, x2, . . . , xn; θ) = ϕ (x1, x2, . . . , xn)hθ (s) = ϕ (x1, x2, . . . , xn)h (s; θ) ,
unde ϕ : Rn → R+ si hθ : R → R+ sunt functii masurabile nenega-
tive si s = S (x1, x2, . . . , xn).
Definitia 106 Se numeste cantitatea de informatie (a lui
Fisher) a unei selectii de volum n, relativ la parametrul θ ∈ R
necunoscut, valoarea medie
In (θ) = M
[(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
)2],
cand functia de verosimilitate g este derivabila ın raport cu θ.
Teorema 107 Daca domeniul valorilor caracteristicii X nu de-
pinde de parametrul θ, iar functia de verosimilitate este derivabila
de doua ori ın raport cu θ, atunci
In (θ) = −M
(∂2 ln g (X1, X2, . . . , Xn; θ)
∂θ2
)·
Demonstratie. Se porneste de la relatia pe care o satisface
densitatea de probabilitate:∫
· · ·∫
Rng (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = 1. (4)
Se tine seama de faptul ca
∂ln g (x1, x2, . . . , xn; θ)
∂θ=
1
g (x1, x2, . . . , xn)
∂g (x1, x2, . . . , xn; θ)
∂θ
adica
∂g (x1, x2, . . . , xn; θ)
∂θ=
∂ln g (x1, x2, . . . , xn; θ)
∂θg (x1, x2, . . . , xn) ,
(5)
si se deriveaza (4) ın raport cu θ obtinandu-se
∫· · ·
∫
Rn
∂ln g (x1, x2, . . . , xn; θ)
∂θg (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = 0.
(6)
Derivand ınca odata ın raport cu θ rezulta
∫· · ·
∫
Rn
∂2ln g (x1, x2, . . . , xn; θ)
∂θ2g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn
+
∫· · ·
∫
Rn
∂ln g (x1, x2, . . . , xn; θ)
∂θ
∂g (x1, x2, . . . , xn; θ)
∂θdx1dx2 . . . dxn = 0
si avand ın vedere relatia (5) se poate scrie
∫· · ·
∫
Rn
∂2ln g (x1, x2, . . . , xn; θ)
∂θ2g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn
+
∫· · ·
∫
Rn
(∂ln g (x1, x2, . . . , xn; θ)
∂θ
)2
g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = 0.
Am obtinut ca
M
(∂2ln g (X1, X2, . . . , Xn; θ)
∂θ2
)+M
[(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
)2]= 0,
de unde avem relatia dorita.
Observatia 108 In demonstratie s-a considerat cazul cand X
este de tip continuu. In mod analog se procedeaza si ın cazul
discret, integrala multipla fiind ınlocuita cu o suma multipla.
CURS 8
4.1. FUNCTII DE ESTIMATIE (continuare)
Corolar 109 Are loc
In (θ) = nI1 (θ) ,
cu In (θ) = M
[(∂ln g(X1,X2,...,Xn;θ)
∂θ
)2](cantitatea de informatie
(a lui Fisher)), θ ∈ R parametrul necunoscut.
Demonstratie. Deoarece selectia este repetata, avem ca
∂2ln g (x1, x2, . . . , xn; θ)
∂θ2=
∂2lnn∏
k=1f (xk; θ)
∂θ2=
n∑
k=1
∂2ln f (xk; θ)
∂θ2·
Folosind [Curs 7, Teorema 19] se obtine
In (θ) = −M
(∂2 ln g (X1, X2, . . . , Xn; θ)
∂θ2
)= −
n∑
k=1
M
(∂2ln f (Xk; θ)
∂θ2
)
=n∑
k=1
I1 (θ) = nI1 (θ) ,
deoarece
I1 (θ) = −M
(∂2ln f (X; θ)
∂θ2
)·
Observatia 110 Are loc
In (θ) = D2
(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
).
Demonstratie. Avem
D2
(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
)= M
((∂ln g (X1, X2, . . . , Xn; θ)
∂θ(7)
− M
(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
))2).
Din [Curs 7, dem. Teoremei 19 - relatia (3)], rezulta ca
M
(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
)= 0,
deci (7) devine
D2
(∂ln g (X1, X2, . . . , Xn; θ)
∂θ
)= M
((∂ln g (X1, X2, . . . , Xn; θ)
∂θ
)2)= In (θ) .
Exemplul 111 Se considera caracteristica X ce urmeaza legea
normala N (m, σ), unde m ∈ R este necunoscut, iar σ > 0 este
cunoscut.
Avem
f (x;m) =1
σ√
2πe−(x−m)2
2σ2 , x ∈ R.
Rezulta ca
I1 (m) = M
[(∂ln f (X;m)
∂m
)2]= M
[(∂(−(x−m)2
2σ2 )
∂m
)2]
= M
[(−2 (x − m) (−1))
2σ2
)2]= M
((X − m)2
σ4
)=
1
σ2·
Deci cantitatea de informatie continuta (adusa) de observatie
este cu atat mai mare cu cat dispersia este mai mica.
ESTIMATORI EFICIENTI
Teorema 112 (Inegalitatea Rao–Cramer) Fie caracteristica X
avand functia de probabilitate f (x; θ), θ ∈ (a, b), pentru care ex-
ista derivata partiala de ordinul ıntai ın raport cu θ si fie esti-
matorul nedeplasat Θ = θ (X1, X2, . . . , Xn), pentru parametrul θ,
atunci
D2(Θ) >1
In (θ)·
Demonstratie. Estimatorul Θ e nedeplasat ⇒ M(Θ) = θ, adica∫
· · ·∫
Rnθ (x1, x2, . . . , xn) g (x1, x2, . . . , xn; θ) dx1dx2 . . . dxn = θ,
unde g (x1, x2, . . . , xn; θ) =n∏
k=1f (xk; θ) este functia de verosimili-
tate.
Derivand ın raport cu θ se obtine:
∫· · ·
∫
Rnθ (x1, . . . , xn)
(∂f (x1; θ)
∂θf (x2; θ) . . . . . . f (xn; θ) + ...
+∂f (xn; θ)
∂θf (x1; θ) . . . . . . f
(xn−1; θ
))
dx1 . . . dxn = 1
echivalenta cu∫
· · ·∫
Rnθ (x1, . . . , xn)
(1
f (x1; θ)
∂f (x1; θ)
∂θ+ ... +
1
f (xn; θ)
∂f (xn; θ)
∂θ
)
·f (x1; θ) f (x2; θ) . . . . . . f (xn; θ) dx1 . . . dxn = 1,
care este∫
· · ·∫
Rnθ (x1, . . . , xn)
( n∑
k=1
∂ lnf (xk; θ)
∂θ
)( n∏
i=1
f (xi; θ)
)dx1 . . . dxn = 1.
(8)
Pe de alta parte, avem∫
Rf (x; θ) dx = 1
si derivand in raport cu θ se obtine∫
R
∂ f (x; θ)
∂θdx = 0.
Rezulta∫
R
∂ lnf (x; θ)
∂θf (x; θ) dx =
∫
R
1
f (x; θ)
∂ f (x; θ)
∂θf (x; θ) dx =
∫
R
∂ f (x; θ)
∂θdx = 0,
(9)
de unde se obtine
θn∑
k=1
∫· · ·
∫
Rn
∂ lnf (xk; θ)
∂θ
( n∏
i=1
f (xi; θ)
)dx1dx2 . . . dxn (10)
= θ∫
· · ·∫
Rn
(∂ lnf (x1; θ)
∂θ+ ... +
∂ lnf (xn; θ)
∂θ
)( n∏
i=1
f (xi; θ)
)dx1dx2 . . . dxn
= 0.
Scadem (10) din egalitatea (8) si se obtine
∫· · ·
∫
Rn
(θ (x1, . . . , xn)−θ
)( n∑
k=1
∂ lnf (xk; θ)
∂θ
)g (x1, . . . , xn; θ) dx1 . . . dxn = 1
adica
M
[(θ (X1, X2, . . . , Xn) − θ
)( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)]= 1.
Se aplica inegalitatea lui Schwarz: M2(|XY |) ≤ M(X2)M(Y 2),
si tinand cont ca M(θ) = θ si de (9) se obtine:
1 =
[M
[(θ (X1, X2, . . . , Xn) − θ
)( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)]]2
6M
[(θ (X1, X2, . . . , Xn) − θ
)2]M
[( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)2]
=D2(Θ)
D2
( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)= D2
(Θ)· nD2
(∂ lnf (X; θ)
∂θ
),
adica
D2(Θ)
>1
nD2
(∂ ln f(X;θ)
∂θ
)· (11)
Dar avem ca
In (θ) = nI1 (θ) = n M
[(∂ lnf (X; θ)
∂θ
)2]= nD2
(∂ lnf (X; θ)
∂θ
),
care ınlocuita ın (11) conduce la ineg. lui Rao-Cramer.
Observatia 113 Rezultatul a fost stabilit de Fisher (1922) si
ulterior de Rao (1945) si Cramer (1946).
Definitia 114 Se numeste eficienta a unei functii de estimatie
nedeplasate Θ = θ (X1, X2, . . . , Xn) , pentru parametrul θ, rapor-
tul
e(Θ) =I−1n (θ)
D2(Θ)·
Observatia 115 Din inegalitatea Rao-Cramer avem ca 0 6 e(Θ) 6
1, iar cand e(Θ) = 1, avem
limn→∞D2(Θ) = 0,
deci Θ = θ (X1, X2, . . . , Xn) este functie de estimatie absolut
corecta pentru parametrul θ.
Definitia 116 O functie de estimatie absolut corecta Θ = θ (X1, X2, . . . , Xn) ,
pentru parametrul θ, este eficienta daca inegalitatea Rao-Cramer
este verificata prin egalitate, adica e(Θ) = 1.
Teorema 117 (Rao–Cramer) Fie caracteristica X cu functia
de probabilitate f (x; θ), θ ∈ (a, b), care satisface conditiile Teore-
mei 112, si fie functia de estimatie absolut corecta Θ = θ (X1, X2, . . . , Xn)
pentru parametrul θ. Conditia necesara si suficienta ca Θ sa fie
functie de estimatie eficienta pentru parametrul θ este ca
ln f (x; θ) = A′ (θ) (L (x) − θ) + A (θ) + N (x) ,
ın plus, are loc formula
Θ = θ (X1, X2, . . . , Xn) =1
n
n∑
k=1
L (Xk) .
Exemplu. Fie caracteristica X ce urmeaza legea binomiala.
Aratam ca media de selectie este estimator eficient pentru parametrul
necunoscut θ = M (X) = mp, unde m ∈ N este valoarea maxima
a lui X, iar p ∈ (0,1).
Consideram o selectie repetata de volum n. Functia de frecventa
a lui X este
f (x; θ) =(m
x
) ( θ
m
)x (1 − θ
m
)m−x
,
de unde
ln f (x; θ) = ln(m
x
)+ x ln
θ
m+ (m − x) ln
(1 − θ
m
)
= x
(ln
θ
m− ln
m − θ
m
)+ mln
m − θ
m+ ln
(mx
)
= xlnθ
m
m
m − θ+ m ln (m − θ) − m lnm + ln
(mx
)
= (x − θ) lnθ
m − θ+ θ ln
θ
m − θ+ m ln (m − θ) + ln
(mx
)− m lnm.
Considerand
A (θ) = θ ln θ + (m − θ) ln (m − θ),
L (x) = x si N (x) = ln(m
x
)− m lnm
Avem
A′ (θ) = ln θ + 1 − ln (m − θ) − (m − θ)1
(m − θ)
= lnθ
m − θ.
Rezulta
ln f (x; θ) = (L (x) − θ)A′ (θ) + A (θ) + N (x) .
Pe baza teoremei Rao-Cramer se obtine ca
Θ =1
n
n∑
k=1
L (Xk) =1
n
n∑
k=1
Xk = X
este estimator eficient pentru parametrul θ = mp.
ESTIMATORI OPTIMALI
Definitia 118 Estimatorul nedeplasat Θ = θ (X1, X2, . . . , Xn) pen-
tru parametrul necunoscut θ este optimal daca are dispersia cea
mai mica dintre toti estimatorii nedeplasati ai lui θ.
Observatia 119 Estimatorul optimal al unui parametru este unic.
Observatia 120 Un estimator eficient este optimal. (Invers pro-
prietatea nu are loc.)
Demonstratie. Fie E multimea estimatorilor nedeplasati ai parametru-
lui necunoscut θ. Fie S ∈ E estimator eficient.
Avem
infT∈E
D2(T) ≥ 1
In(θ)= D2(S), S ∈ E ⇒ S − optimal.
4.2. METODE DE ESTIMARE A PARAMETRILOR
METODA MOMENTELOR
Se considera caracteristica X care are functia de probabilitate
f (x; θ) , cu parametrul necunoscut θ = (θ1, θ2, . . . , θp) ∈ A ⊂ Rp si
o selectie repetata de volum n.
Definitia 121 Se numeste estimator pentru parametrul θ obtinut
prin metoda momentelor – solutia Θ =(Θ1,Θ2, . . . ,Θp
)a sis-
temului
νk = νk, k = 1, p,
unde νk este momentul teoretic ( νk = M(Xk
)), iar νk este mo-
mentul de selectie de ordinul k, adica
νk =1
n
n∑
i=1
Xki .
Exemplul 122 Se considera caracteristica X care urmeaza legea
Gamma cu parametrii a, b > 0 necunoscuti. Densitatea de prob-
abilitate pentru X este
f (x; a, b) =1
Γ(a) baxa−1e−
xb , x > 0.
Vrem sa estimam parametrii a si b prin metoda momentelor.
Avem
ν1 = M (X) =
∫
Rxf (x; a, b) dx =
1
Γ(a) ba
∫ ∞
0xae−
xbdx
=1
Γ(a) ba
∫ ∞
0batae−tbdt =
Γ(a + 1) b
Γ (a)=
a!b
(a − 1)!= ab
ν2 = M(X2
)=∫
Rx2f (x; a, b) dx =
1
Γ(a) ba
∫ ∞
0xa+1e−
xbdx
=1
Γ(a) ba
∫ ∞
0ba+1ta+1e−tbdt =
b2Γ(a + 2)
Γ (a)=
b2(a + 1)!
(a − 1)!= ab2 (a + 1) .
Se obtine sistemul de ecuatii:
ab = ν1 = X
ab2 (a + 1) = ν2 = X2+ µ2,
care are solutia
a =X
2
µ2, b =
µ2
X·
CURS 9
METODA VEROSIMILITATII MAXIME
Se considera caracteristica X cu functia de probabilitate f (x; θ),
parametrul θ ∈ A ⊂ Rp. Se considera o selectie repetata de volum
n.
Definitia 123 Se numeste estimator de verosimilitate maxima
pentru parametrul θ statistica
Θ = θ (X1, X2, . . . , Xn)
pentru care se obtine maximul functiei de verosimilitate
g (X1, X2, . . . , Xn; θ) =n∏
k=1
f (Xk; θ) ,
iar
θ = θ (x1, x2, . . . , xn)
se numeste estimatie de verosimilitate maxima pentru parametrul
θ.
• In definitia estimatorului de verosimilitate maxima Θ nu este
necesar ca f (x; θ) sa fie diferentiabila ın raport cu θ.
• Estimatorul de verosimilitate maxima nu este neaparat nede-
plasat si nici unic.
• Daca functia de verosimilitate este diferentiabila de doua ori
ın raport cu θ, atunci estimatorul de verosimilitate maxima
se obtine ca solutie a sistemului
∂g (X1, X2, . . . , Xn; θ)
∂θk= 0, k = 1, p, (12)
la care se adauga conditia
∂2g (X1, X2, . . . , Xn; θ)
∂θ2
∣∣∣∣∣θ=Θ
< 0.
• Sistemul (12) este echivalent cu
∂ ln g (X1, X2, . . . , Xn; θ)
∂θk=
n∑
i=1
∂ ln f (Xi; θ)
∂θk= 0, k = 1, p
Acest sistem se numeste sistemul ecuatiilor verosimilitatii
maxime
Exemplul 124 Fie caracteristica X care urmeaza legea normala
N (m, σ). Determinam estimatorii de verosimilitate maxima pen-
tru valoarea medie si abaterea standard.
Avem M (X) = m si σ (X) = σ, iar
f (x;m, σ) =1
σ√
2πe−(x−m)2
2σ2 ,
si
ln f (x;m, σ) = − ln√
2π − lnσ − (x − m)2
2σ2,
de unde
∂ ln f (x;m, σ)
∂m=
x − m
σ2,
∂ ln f (x;m, σ)
∂σ= −1
σ+
(x − m)2
σ3·
Sistemul de verosimilitate maxima:
∂ ln g∂m =
n∑
k=1
∂ ln f(Xk;m,σ)∂m =
n∑
k=1
Xk−mσ2 = 0
∂ ln g∂σ =
n∑
k=1
∂ ln f(Xk;m,σ)∂σ =
n∑
k=1[−1
σ + (Xk−m)2
σ3 ] = 0,
sau
n∑
k=1(Xk − m) = 0
n∑
k=1
[−σ2 + (Xk − m)2
]= 0,
⇔
nm =n∑
k=1Xk
nσ2 =n∑
k=1
[(Xk − m)2
],
de unde se obtin estimatorii de verosimilitate maxima pentru
parametrii m si σ :
m⋆ =1
n
n∑
k=1
Xk = X, σ⋆ =
√√√√1
n
n∑
k=1
(Xk − X
)2=√
µ2.
Exemplul 125 Caracteristica X urmeaza legea uniforma pe in-
tervalul (0, θ], θ > 0 necunoscut. Se considera o selectie repetata
de volum n. Determinam estimatorul de verosimilitate maxima
Θ pentru parametrul necunoscut θ.
Estimatorul Θ de verosimilitate maxima pentru θ se determina
astfel ıncat functia de verosimilitate
g(X1, X2, . . . , Xn; θ) =n∏
k=1
f (Xk; θ)
sa fie maxima pentru Θ = θ(X1, X2, . . . , Xn).
Nu se poate folosi ecuatia de verosimilitate maxima, deoarece
domeniul valorilor caracteristicii X, care este (0, θ], depinde de
parametrul estimat.
Avem
f(x, θ) =
{1θ , x ∈ (0, θ]0, x ≤ 0 sau x > θ,
de unde
g(x1, x2, ..., xn; θ) =n∏
k=1
f (Xk; θ) =1
θn, cu 0 < xi ≤ θ, i = 1, n.
Valoarea maxima a lui g corespunde celei mai mici valori a parametru-
lui θ, θ > 0, ın conditiile
0 < xi ≤ θ, i = 1, ..., n. (13)
Cea mai mica valoare a lui θ care satisface (13) este θ = max{xi, i =
1, n}.
Se obtine ca
Θ = θ(X1, X2, . . . , Xn) = max{Xi, i = 1, n
}.
Vom arata ca estimatorul Θ astfel construit este estimator corect
pentru parametrul θ. Apoi vom folosi acest estimator pentru
obtinerea unui estimator absolut corect pentru θ.
Functia de repartitie a statisticii Θ este
FΘ
(x; θ) = P(Θ < x
)=
n∏
i=1
P (Xi < x) = (FX (x; θ))n ,
deci Θ are densitatea de probabilitate
fΘ
(x; θ) =∂F
Θ(x; θ)
∂x= n
∂FX (x; θ)
∂x(FX (x; θ))n−1 = nf (x; θ) (FX (x; θ))n−1
Avem
FX (x; θ) =
0, x ≤ 0xθ , x ∈ (0, θ]1, x > θ,
de unde rezulta
fΘ
(x; θ) = n1
θ
xn−1
θn−1=
nxn−1
θn, cand x ∈ (0, θ) .
Se calculeaza
M(Θ)=
n
θn
∫ θ
0x · xn−1dx =
n
n + 1θ,
M(Θ2
)=
n
θn
∫ θ
0xn+1dx =
n
n + 2θ2.
Astfel se obtine ca
limn→∞M
(Θ)= θ
limn→∞D2
(Θ)= lim
n→∞[M(Θ2
)− M2
(Θ)]
= limn→∞
[n
n + 2θ2 − n2
(n + 1)2θ2
]= lim
n→∞n
(n + 1)2 (n + 2)θ2 = 0.
Prin urmare, Θ este estimator corect pentru θ.
Cautam estimatorul absolut corectΘ pentru θ.
Punand conditia M(
Θ)= θ, rezulta ca
θ = M(
Θ)= κnM
(Θ)= κn
n
n + 1θ,
de unde se obtine κn = n+1n . Se obtine
Θ =n + 1
nΘ =
n + 1
nmax
{Xi, i = 1, n
}.
Deoarece M(
Θ)= θ si
D2(
Θ)=
(n + 1
n
)2
D2(Θ)=
(n + 1)2
n2· n
(n + 1)2 (n + 2)θ2
=1
n(n + 2)θ2 → 0, cand n → ∞
rezulta ca Θ este estimator absolut corect pentru parametrul θ.
Proprietatea 126 Daca S = S (X1, X2, . . . , Xn) este statistica
suficienta pentru θ, iar Θ este estimator de verosimilitate maxima
pentru θ, atunci Θ este o functie de S.
Demonstratie. Deoarece statistica S este suficienta rezulta ca
g (x1, x2, . . . , xn; θ) = ϕ (x1, x2, . . . , xn)h (s, θ) ,
deci maximul lui g, dupa θ, se obtine atunci si numai atunci cand
se obtine maximul lui h dupa θ. Deci Θ se exprima ın functie de
S.
Teorema 127 Daca Θ = θ (X1, X2, . . . , Xn) este functie de estimatie
eficienta pentru parametrul θ, atunci Θ este estimator de verosimil-
itate maxima pentru θ.
Demonstratie. In demonstratia Inegalitatii lui Rao-Cramer ([Curs
8]) avem, dupa aplicarea inegalitatii lui Schwarz, relatia:
1 =
[M
[(θ (X1, X2, . . . , Xn) − θ
)( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)]]2
6M
[(θ (X1, X2, . . . , Xn) − θ
)2]M
[( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)2].
Deoarece Θ este estimator eficient pentru θ, din inegalitatea
Rao-Cramer (cu egalitate), rezulta ca trebuie sa avem
[M
[(θ (X1, X2, . . . , Xn) − θ
)( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)]]2
=M
[(θ (X1, X2, . . . , Xn) − θ
)2]M
[( n∑
k=1
∂ lnf (Xk; θ)
∂θ
)2].
Aceasta are loc daca si numai daca variabilele aleatoare consid-
erate depind ın mod liniar, adica
∂ ln g (X1, X2, . . . , Xn; θ)
∂θ= K (θ)
(Θ − θ
), K 6= 0.
De unde rezulta ca
∂ ln g(X1, X2, . . . , Xn; Θ
)
∂θ= K
(Θ) (
Θ − Θ)= 0,
deci Θ verifica ecuatia verosimilitatii maxime.
CURS 10
METODA INTERVALELOR DE INCREDERE
Fie caracteristica X cu legea de probabilitate f (x; θ), θ ∈ A ⊂ R
parametru necunoscut. Consideram o selectie repetata de volum
n si numarul α ∈ (0,1), numit probabilitate de risc; 1 − α se
numeste probabilitate de ıncredere.
Estimam parametrului θ prin determinarea unui interval caruia θ
ıi apartine cu probabilitatea 1 − α.
Definitia 128 Se numeste interval de ıncredere pentru parametrul
θ intervalul aleator(Θ1,Θ2
)=(
θ1 (X1, X2, . . . , Xn) , θ2 (X1, X2, . . . , Xn))
,
unde statisticile Θ1 si Θ2 sunt astfel ıncat
P(Θ1 < θ < Θ2
)= 1 − α,
iar intervalul numeric(θ1, θ2
)=(
θ1 (x1, x2, . . . , xn) , θ2 (x1, x2, . . . , xn))
se numeste valoarea intervalului de ıncredere pentru parametrul
θ.
Interval de ıncredere pentru media teoretica a legii
normale cu dispersia cunoscuta
Se considera caracteristica X ce urmeaza legea normala N (m, σ),
cu m ∈ R necunoscut, σ > 0 cunoscut.
Construim un interval de ıncredere pentru media teoretica m
necunoscuta: efectuam o selectie repetata de volum n si con-
sideram probabilitatea de ıncredere 1 − α, α ∈ (0,1).
Se construieste statistica
Z =X − m
σ√n
,
care urmeaza legea normala N (0,1) ([Curs 6, Propr. 9]). Pentru
α dat determinam intervalul numeric (z1, z2) astfel ıncat
P(Z ∈ (z1, z2)
)= FZ (z2) − FZ (z1) = 1 − α,
echivalenta cu
P(Z ∈ (z1, z2)
)= Φ (z2) − Φ (z1) = 1 − α,
unde
Φ (x) =1√2π
∫ x
0e−
t2
2 dt,
este functia lui Laplace (tabelata pentru valori pozitive ale
argumentului-Anexa 1; Φ (−x) = −Φ (x)).
Deoarece dubla inegalitate
z1 <X − m
σ√n
< z2
este echivalenta cu
m1 = X − z2σ√n
< m < X − z1σ√n
= m2
rezulta ca
P (m1 < m < m2) = 1 − α,
adica (m1, m2) este un interval de ıncredere pentru media teo-
retica m.
Intervalul numeric (z1, z2) nu este ın mod unic determinat. In-
tervalul de ıncredere de lungime minima pentru α fixat se obtine
cand z1 = −z2. In acest caz z2 := z1−α2, va fi dat prin relatia
Φ
(z1−α
2
)−Φ
(−z1−α
2
)= 1−α, ceea ce este echivalent cu Φ
(z1−α
2
)=
1−α2 ·
Cand se foloseste functia lui Laplace definita prin
Φ (x) =1√2π
∫ x
−∞e−
t2
2 dt,
atunci avem
P(Z ∈ (z1, z2)
)= Φ(z2) − Φ(z1) = 1 − α.
Tinand cont ca
Φ(−x) = 1 − Φ(x)
si z1 = −z2
rezulta
Φ(z2) − Φ(z1) = 1 − α
⇔ Φ(z2) − Φ(−z2) = Φ(z2) − 1 + Φ(z2) = 1 − α
⇔ Φ(z2) = 1 − α
2,
deci z2 = z1−α2
se determina din relatia Φ
(z1−α
2
)= 1 − α
2 si
reprezinta cuantila de ordin 1 − α2·
(Caracteristica xγ se numeste cuantila daca F(xγ) = γ, unde
F este functia de repartitie. Daca γ = 14, 2
4, 34 atunci se obtin
cuartilele.)
Intervalul de ıncredere pentru parametrul m are extremitatile
m1 = m1 (X1, X2, . . . , Xn) = X − z1−α2
σ√n
, (14)
m2 = m2 (X1, X2, . . . , Xn) = X + z1−α2
σ√n·
Observatia 129 Pe baza teoremei limita centrala avem ca rezul-tatul obtinut se mentine cand X urmeaza o lege de probabilitateoarecare, pentru n > 30.
Exemplul 130 Consideram populatia C. Stiind ca dispersia teo-retica a caracteristicii X este D2 (X) = 0.35, sa se stabileasca uninterval de ıncredere pentru media teoretica M(X)=m cu proba-bilitatea de ıncredere 1− α = 0.95, utilizand distributia empiricade selectie:
X
(22.7 22.8 22.9 23.0 23.1 23.2 23.3 23.4
1 3 7 4 6 7 5 2
).
Deoarece volumul selectiei este n = 35 > 30, putem considera
ca statistica
Z =X − m
σ√n
, unde σ =√
D2 (X),
urmeaza legea normala N (0,1).
Extremitatile intervalului de ıncredere pentru m sunt date prin
(14). Calculam aceste valori pe baza datelor de selectie.
Valoarea mediei de selectie X este
x=1
35(1·22.7+3·22.8+7·22.9+4·23+6·23.1+7·23.2+5·23.3+2·23.4)=23.077,
iar din Anexa 1, pentru 1−α2 = 0.475, se gaseste z1−α
2= 1.96.
Avem
σ√n
=
√D2 (X)
n=
√0.35
35= 0.1.
Obtinem intervalul de ıncredere pentru m = M (X) :(
x − σ√n
z1−α2
; x +σ√n
z1−α2
)= (22.881 ; 23.273) .
Interval de ıncredere pentru media teoretica a legii
normale cu dispersia necunoscuta
In conditiile exemplului precedent, consideram σ > 0 necunoscut
si statistica
T =X − m
σ√n
=X − m√
µ2n−1
,
care urmeaza legea Student cu n−1 grade de libertate ([Curs 6,
Propr. 10]).
Se determina intervalul numeric (t1, t2) astfel ıncat
P(T ∈ (t1, t2)
)= Fn−1 (t2) − Fn−1 (t1) = 1 − α,
unde
Fm (x) =Γ(
m+12
)
√mπΓ
(m2
)∫ x
−∞
(1 +
t2
m
)−m+12
dt, x ∈ R,
este functia de repartitie a legii Student cu m grade de libertate
(tabelata-Anexa 2).
Avem
t1 <X − m
σ√n
< t2
este echivalenta cu
m1 = X − t2σ√n
< m < X − t1σ√n
= m2,
adica (m1, m2) este un interval de ıncredere pentru media teo-
retica m.
Luand t2 = tn−1,1−α2, t1 = −t2, si tinand cont ca Fn−1 (−t) =
1 − Fn−1 (t) rezulta
Fn−1 (t2) − Fn−1 (t1) = 1 − α
⇔ Fn−1 (t2) − Fn−1 (−t2) = Fn−1 (t2) − 1 + Fn−1 (t2) = 1 − α
⇔ Fn−1(tn−1,1−α2) = 1 − α
2,
iar P (m1 < m < m2) = 1−α, deci intervalul de ıncredere pentru
media teoretica m are extremitatile date prin
m1 = X − tn−1,1−α2
σ√n
, (15)
m2 = X + tn−1,1−α2
σ√n·
Observatia 131 Din teorema limita centrala rezulta ca rezul-
tatele pot fi aplicate pentru o caracteristica X ce urmeaza o
lege de probabilitate oarecare, pentru n > 30.
Exemplul 132 Pentru receptionarea unei marfi ambalata ın cu-
tii, se efectueaza un control prin sondaj privind greutatea X a
cutiilor. Pentru 22 de cutii cantarite s-a obtinut distributia em-
pirica de selectie:
X
2.7 2.8 2.9 3.0 3.1 3.2 3.3
1 2 5 3 5 4 2
.
Folosind probabilitatea de ıncredere 0.98, determinam un inter-
val de ıncredere pentru valoarea medie a greutatii cutiilor, pre-
supunand ca X urmeaza legea normala N (m, σ).
Deoarece abaterea standard σ =√
D2 (X) este necunoscuta, se
considera statistica
T =X − m
σ√n
,
care urmeaza legea Student cu n − 1 grade de libertate.
Extremitatile intervalului de ıncredere pentru m = M (X) sunt
date prin (15). Pentru n−1 = 21 si 1−α = 0.98 (α = 0.02), din
Anexa 2 se determina tn−1,1−α2
= 2.518.
De asemenea, folosind datele de selectie, obtinem valoarea me-
diei de selectie X:
x =1
22(1·2.7 + 2·2.8 + 5·2.9 + 3·3 + 5·3.1 + 4·3.2 + 2·3.3) = 3.032
si valoarea abaterii standard de selectie
σ =
√√√√√ 1
21
7∑
k=1
fk (xk − x )2 = 0.167.
Intervalul de ıncredere:(
x − tn−1,1−α2
σ√n
; x + tn−1,1−α2
σ√n
)= (2.942 ; 3.122) .
Interval de ıncredere pentru dispersia legii normale
Fie caracteristica X ce urmeaza legea normala N (m, σ) , m ∈ R
necunoscut si σ > 0 necunoscut. Determinam un interval de
ıncredere pentru dispersia teoretica σ2 a caracteristicii X.
Se considera statistica
χ2 =(n − 1)σ2
σ2=
1
σ2
n∑
k=1
(Xk − X
)2,
care urmeaza legea χ2 cu n−1 grade de libertate, conform ([Curs
6, Propr. 9]).
Se determina intervalul numeric(χ21, χ2
2
)astfel ıncat
P(χ2 ∈
(χ21, χ2
2
))= Fn−1
(χ22
)− Fn−1
(χ21
)= 1 − α,
unde
Fm (x) =1
2m2 Γ
(m2
)∫ x
0tm2−1e−
t2dt, x > 0,
este functia de repartitie a legii χ2 cu m grade de libertate(tabelata ın Anexa 3). Avem Fn−1 (−t) = 0, t > 0.
Daca se alege χ21 = χ2
n−1,α2si χ2
2 = χ2n−1,1−α
2adica astfel ıncat
Fn−1
(χ2
n−1,α2
)=
α
2si Fn−1
(χ2
n−1,1−α2
)= 1 − α
2,
se obtine
P(χ21 < χ2 < χ2
2) = P
(χ2
n−1,α2<
(n − 1)σ2
σ2< χ2
n−1,1−α2
)= 1 − α.
De unde
P(σ21 < σ2 < σ2
2
)= 1 − α,
cu
σ21 = σ2
1 (X1, X2, . . . , Xn) =(n − 1)σ2
χ2n−1,1−α
2
,
σ22 = σ2
2 (X1, X2, . . . , Xn) =(n − 1)σ2
χ2n−1,α2
·
Intervalul de ıncredere este (σ21, σ2
2).
CURS 11
Interval de ıncredere pentru diferenta mediilor
Caracteristicile independente X ′ si X ′′ urmeaza legile normale
N(m′;σ′) si respectiv N
(m′′;σ′′). Folosind cate o selectie repetata
de volume n′ si n′′ pentru X ′ si X ′′, determinam un interval de
ıncredere pentru diferenta m′ − m′′.
Sunt considerate urmatoarele situatii:
A. abaterile standard ale celor doua caracteristici sunt cunoscute,
B. abaterile standard sunt necunoscute, dar se stie ca sunt egale,
C. abaterile standard sunt necunoscute si diferite.
A. Abaterile standard σ′ si σ′′ sunt cunoscute.
Se considera statistica
Z =
(X
′ − X′′)− (
m′ − m′′)√
σ′2n′ + σ′′2
n′′
, (16)
care urmeaza legea normala N (0,1) ([Curs 6, Obs. 12]). Pentru
probabilitatea de risc α ∈ (0,1) data, se determina intervalul
(z1, z2) =
(−z1−α
2, z1−α
2
)astfel ıncat
P (z1 < Z < z2) = 1 − α.
Anume, z1−α2
se calculeaza din relatia Φ
(z1−α
2
)= 1−α
2 , unde
Φ (x) =1√2π
∫ x
0e−
t2
2 dt,
este functia lui Laplace, (Anexa 1). Se ajunge la relatia
P
−z1−α
2<
(X
′ − X′′)− (
m′ − m′′)√
σ′2n′ + σ′′2
n′′
< z1−α2
= 1 − α,
de unde se obtine intervalului de ıncredere pentru m′−m′′:(
X′−X
′′−z1−α2
√σ′2
n′ +σ′′2
n′′ , X′−X
′′+z1−α
2
√σ′2
n′ +σ′′2
n′′
). (17)
B. Abaterile standard σ′ si σ′′ sunt egale cu σ (necunoscut).
Se considera statistica
T =
(X
′ − X′′)− (
m′ − m′′)√(
n′ − 1)σ ′2 +
(n′′ − 1
)σ ′′2
√√√√n′ + n′′ − 21n′ +
1n′′
,
care urmeaza legea Student cu m = n′+n′′−2 grade de libertate
(cf. [Curs 6, Propr. 11]).
Ca si la punctul A. se obtin extremitatile intervalului de ıncredere:
m1,2 = X′−X
′′± tm,1−α2
√√√√1n′ +
1n′′
n′ + n′′ − 2
√(n′ − 1
)σ′2 +
(n′′ − 1
)σ′′2,
unde tm,1−α2
este cuantila de ordin 1− α2 pentru legea Student cu
m grade de libertate.
C. Abaterile standard σ′ si σ′′ sunt diferite si necunoscute.
Se considera statistica
T =
(X
′ − X′′)− (
m′ − m′′)√
σ ′2n′ + σ ′′2
n′′
,
care urmeaza legea Student cu n grade de libertate care se cal-
culeaza prin formula
1
n=
c2
n′ − 1+
(1 − c)2
n′′ − 1, unde c =
σ ′2
n′
/(σ ′2
n′ +σ ′′2
n′′
).
Ca si la punctul A. se obtine intervalului de ıncredere cu ex-
tremitatile :
m1,2 = X′ − X
′′ ± tn,1−α2
√σ ′2
n′ +σ ′′2
n′′ ,
unde tn,1−α2
este cuantila de ordin 1− α2 pentru legea Student cu
n grade de libertate.
Interval de ıncredere pentru raportul dispersiilor a doua
legi normale
Fie caracteristicile independente X ′ si X ′′ care urmeaza legile
normale, respectiv N(m′, σ′) si N
(m′′, σ′′). Se considera cate o
selectie repetata, de volume n′ si respectiv n′′. Determinam un
interval de ıncredere pentru σ′2σ′′2 corespunzator probabilitatii de
ıncredere 1 − α data.
Se considera statistica
F =σ ′′2
σ′′2
/σ ′2
σ′2 ,
care urmeaza legea Snedecor-Fisher cu m = n′′ − 1 si n = n′ − 1
grade de libertate ([Curs 6, Propr. 13]).
Se determina intervalul numeric (f1, f2) astfel ıncat
P(F ∈ (f1, f2)
)= Fm,n (f2) − Fm,n (f1) = 1 − α,
unde
Fm,n (x) =
(m
n
)m2 Γ
(m+n
2
)
Γ(
m2
)Γ(
n2
)∫ x
0tm2−1
(1 +
m
nt
)−m+12
dt, x > 0,
este functia de repartitie a legii Snedecor-Fisher cu m si n gradede libertate (Anexa IV), si Fm,n (x) = 0, x ≤ 0.
Daca se alege f1 = fm,n;α2si f2 = fm,n;1−α
2astfel ıncat
Fm,n
(fm,n;α2
)=
α
2si Fm,n
(fm,n;1−α
2
)= 1 − α
2,
atunci se obtine
P
(fm,n;α2
σ ′2
σ ′′2 <σ′2
σ′′2 < fm,n;1−α2
σ ′2
σ ′′2
)= 1 − α,
si rezulta intervalul de ıncredere pentru raportul celor doua dis-
persii:(
fm,n;α2
σ ′2
σ ′′2, fm,n;1−α2
σ ′2
σ ′′2
).
METODA INTERVALELOR DE INCREDERE PENTRU
SELECTII MARI
Fie caracteristica X cu legea de probabilitate f (x; θ), unde θ ∈A ⊂ R necunoscut. Consideram o selectie repetata de volum n
relativa la X, pentru care avem variabilele de selectie X1, X2, . . . , Xn.
Proprietatea 133 Fie variabilele aleatoare Y1, Y2, . . . , Yn definite
prin relatia
Yk =∂ ln f (Xk; θ)
∂θ, k = 1, ..., n
pentru care dispersia D2 (Yk) = d2 > 0, atunci statistica
Z =1
d√
n
n∑
k=1
Yk =1
d√
n
n∑
k=1
∂ ln f (Xk; θ)
∂θ,
pentru n → ∞, urmeaza legea normala N (0,1).
Demonstratie. Variabilele aleatoare Xk, k = 1, n, - indepen-
dente si identic repartizate ⇒ variabilele aleatoare Yk, k = 1, n,
sunt independente si identic repartizate. Conform teoremei limita
centrala avem ca
Y(n) =1
d√
n
n∑
k=1
(Yk − M (Yk)
)
converge ın repartitie la legea normala N (0,1).
Deoarece
M (Yk) = M
(∂ ln f (Xk; θ)
∂θ
)= 0,
[Curs 7 - relatia (3)], rezulta ca Y(n) = Z.
Pentru probabilitatea de ıncredere 1 − α data se va determina
intervalul numeric
(−z1−α
2, z1−α
2
)astfel ıncat
P(Z ∈ (−z1−α
2, z1−α
2))= Φ
(z1−α
2
)−Φ
(−z1−α
2
)= 2Φ
(z1−α
2
)= 1−α.
Ceea ce revine la determinarea cuantilei z1−α2
astfel ıncat
Φ
(z1−α
2
)=
1 − α
2.
Prin operatii algebrice se ınlocuieste inegalitatea
−z1−α2
< Z < z1−α2⇔ |Z | < z1−α
2
cu o inegalitate echivalenta dubla de forma
θ1 (X1, X2, . . . , Xn) < θ < θ2 (X1, X2, . . . , Xn) ,
care defineste intervalul de ıncredere pentru parametrul θ.
Exemplul 134 Fie caracteristica X ce ia numai valorile 1 si 0 cu
probabilitatile p si respectiv 1− p, adica are functia de frecventa
f (x; p) = px (1 − p)1−x , x = 0,1,
unde p ∈ (0,1) este un parametru necunoscut.
Consideram o selectie repetata de volum (mare) n (n > 30) si
probabilitatea de ıncredere 1 − α. Estimam parametrul p.
Deoarece
ln f (x; p) = x ln p + (1 − x) ln (1 − p)
avem ca
∂ ln f (x; p)
∂p=
x
p− 1 − x
1 − p=
x − p
p (1 − p),
si prin urmare se obtine statistica
Z =1
d√
n
n∑
k=1
Xk − p
p (1 − p)=
1
p (1 − p) d√
n
(n X − np
)=
√n
p (1 − p) d
(X − p
).
Stiind ca D2 (X) = M(X2) − M(X)2 = p − p2 = p (1 − p) rezulta
ca
d2 =D2
(∂ ln f (Xk; p)
∂p
)= D2
(Xk − p
p (1 − p)
)=
1
p2 (1 − p)2D2 (Xk)
=1
p2 (1 − p)2p (1 − p) =
1
p (1 − p)> 0·
Statistica Z devine
Z =
√n
√p (1 − p)
(X − p
)
si urmeaza legea normala N (0,1) cand n → ∞.
Pentru α dat se determina z = z1−α2
astfel ıncat
P ( |Z | < z) = 1 − α.
Putem scrie ca |Z | < z este echivalenta cu Z2 < z2, adica
n(
X − p)2
p (1 − p)< z2,
sau
nX2 − 2n Xp + np2 − z2p + z2p2 < 0 ⇐⇒
⇔(n + z2
)p2 −
(2nX + z2
)p + nX
2< 0.
Discriminantul trinomului este pozitiv, anume
∆ =(2nX + z2
)2 − 4(n + z2
)nX
2= z2[z2 + 4nX(1 − X)]
= z2[z2 + 4nX(nX − X)] = z2[z2 + 4nX
2(n − 1)
]> 0,
deci inecuatia ın p are solutia de forma unui interval (p1, p2), care
va reprezenta intervalul de ıncredere pentru parametrul p.
Extremitatile intervalului de ıncredere au expresiile:
p1 =
(2nX+z2
)−√
z4+4nXz2−4nX2z2
2(n+z2)=
(2X+z2
n
)−√
z4
n2+4X z2
n −4X2z2
n
2(1+z2
n
) ,
p2 =
(2nX+z2
)+
√z4+4nXz2−4nX
2z2
2(n+z2)=
(2X+z2
n
)+
√z4
n2+4X z2
n −4X2z2
n
2(1+z2
n
) ·
Aceste formule au fost deduse pentru n mare, rezulta ca putem
folosi urmatoarea scriere asimptotica:
2X + z2
n
2(1 + z2
n
) ≅ X,
iar apoi√√√√√
z4 + 4Xnz2 − 4X2nz2
4(n + z2
)2 =
√√√√z4 + 4Xnz2 − 4X2nz2
4n2 + 8nz2 + 4z4
=
√√√√ z4
4n2 + 8nz2 + 4z4+
Xnz2 − X2nz2
n2 + 2nz2 + z4
≅
√√√√Xnz2 − X2nz2
n2= z
√√√√X(1 − X
)
n·
S-a ajuns la intervalul de ıncredere pentru p :
(p1, p2) =
X − z1−α
2
√√√√X(1 − X
)
n, X + z1−α
2
√√√√X(1 − X
)
n
.
Observatia 135 Daca se doreste sa se determine parametrul p
cu o incertitudine ∆p (∆p- raza intervalului de ıncredere), pentru
o probabilitate de ıncredere 1 − α, atunci volumul n al selectiei
se determina astfel:
z1−α2
√√√√X(1 − X
)
n6
z1−α2√
n· 12
,
deoarece maxt∈[0,1]
t(1 − t) = 14.
Consideram
1
2
z1−α2√
n≤ ∆p,
de unde se obtine
n >
z21−α
2
4 (∆p)2·
Tabel cu valorile optime ale volumului selectiei pentru diferite
valori ale nivelului de ıncredere si ale lui ∆p:
∆p \ 1 − α 0.90 0.95 0.98
0.01 6760 9600 13530
0.02 1700 2400 3380
0.05 270 380 540
CURS 12
5. VERIFICAREA IPOTEZELOR STATISTICE
Fie colectivitatea C cercetata din punct de vedere al caracteristicii
X, care are legea de probabilitate data prin functia de proba-
bilitate f (x; θ) (functia de frecventa ın cazul discret, respectiv
densitatea de probabilitate ın cazul continuu).
Definitia 136 Se numeste ipoteza statistica – o presupunere
relativa la legea de probabilitate pe care o urmeaza caracteristica
X.
Definitia 137 Metoda de stabilire a veridicitatii unei ipoteze
statistice se numeste test (criteriu) de verificare a ipotezei
statistice.
Cand ipoteza statistica se refera la parametrii de care depinde
legea de probabilitate a caracteristicii X se obtine un test para-
metric, ın caz contrar se obtine un test neparametric.
Definitia 138 Pentru testele parametrice se considera ca θ ∈A = A0 ∪ A1, unde A0 ∩ A1 = ∅. Ipoteza H0 : θ ∈ A0 o vom
numi ipoteza nula, iar ipoteza H1 : θ ∈ A1 o vom numi ipoteza
alternativa.
Definitia 139 O ipoteza parametrica se numeste ipoteza simpla
daca multimea la care se presupune ca apartine parametrul ne-
cunoscut este formata dintr-un singur element, iar ın caz contrar
se numeste ipoteza compusa.
Ipoteza nula este aceea pe care o intuim a fi cea apropiata de
realitate.
Construirea unui test revine la obtinerea unei regiuni critice
U ⊂ Rn, pentru un nivel de semnificatie (probabilitate de
risc) α dat, astfel ıncat
P((X1, X2, . . . , Xn) ∈ U
∣∣∣ H0
)= α,
unde X1, X2, . . . , Xn sunt variabilele de selectie corespunzatoare
selectiei de volum n considerata.
Folosind datele de selectie si regiunea critica, ipoteza nula H0 va
fi admisa (acceptata) daca (x1, x2, . . . , xn) /∈ U , iar ın caz contrar
va fi respinsa (ın acest caz ipoteza alternativa H1 va fi admisa
(acceptata)).
5.1. TESTUL Z PRIVIND MEDIA TEORETICA
Se considera caracteristica X care urmeaza legea normala N (m, σ),
unde m ∈ R este necunoscut, iar σ > 0 este cunoscut.
Relativ la media teoretica m = M (X) facem ipoteza nula
H0 : m = m0 cu una din alternativele:
H1 : m 6= m0 (testul Z bilateral)
H1 : m > m0 (testul Z unilateral dreapta)
H1 : m < m0 (testul Z unilateral stanga)
Pentru verificare ipotezei nule H0, cu una din alternativele pre-
cizate, consideram o selectie repetata de volum n si un nivel de
semnificatie α ∈ (0,1).
Se cunoaste ca statistica
Z =X − m
σ√n
,
urmeaza legea normala N (0,1) , [Curs 5, Propr. 9]. Pentru
α ∈ (0,1) putem determina un interval numeric (z1, z2) astfel
ıncat
P (z1 < Z < z2) = Φ (z2) − Φ (z1) = 1 − α.
Intervalul (z1, z2) nu este determinat ın mod unic, dar avand ın
vedere alternativa H1 considerata, adaugam conditia suplimen-
tara:
• z1 = −z2, daca se considera ipoteza alternativa H1 : m 6= m0;
cu z2 = z1−α2, unde Φ
(z1−α
2
)= 1−α
2 ;
• z1 = −∞, z2 = z1−α, daca se considera ipoteza alternativa
H1 : m > m0, unde Φ(z1−α
)= 1
2 − α;
• z1 = zα, z2 = +∞, daca se considera ipoteza alternativa
H1 : m < m0, unde Φ (zα) = α − 12.
Corespunzator celor trei alternative definim regiunea critica re-
spectiv prin:
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣ |u−m0|σ√n
> z1−α2
},
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣ u−m0σ√n
> z1−α
},
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣ u−m0σ√n
6 zα
},
unde u = 1n
n∑
k=1uk.
Regiunea critica U corespunde multimii complementare interval-
ului (z1, z2).
Pentru fiecare dintre cele trei regiunui critice avem ca
P((X1, X2, . . . , Xn) ∈ U | H0) = α.
Ipoteza nula va fi admisa daca datele de selectie satisfac conditia
(x1, x2, . . . , xn) /∈ U , iar ın caz contrar va fi respinsa.
Etapele aplicarii testului Z
1. Se dau: α; x1, x2, . . . , xn; m0; σ
2. Se calculeaza intervalul (z1, z2) astfel ıncat
Φ (z2) − Φ (z1) = 1 − α.
3. Se calculeaza
z =x − m0
σ√n
, unde x =1
n
n∑
k=1
xk.
4. Concluzia: daca z ∈ (z1, z2) ipoteza H0 este admisa, ın caz
contrar ipoteza este respinsa
Observatia 140 Testul Z se poate aplica si ın cazul unei carac-
teristici X care nu urmeaza legea normala, daca volumul selectiei
este mare (n > 30), considerandu-se media teoretica m = M (X)
necunoscuta si abaterea standard σ =√
D2 (X) cunoscuta.
Exemplul 141 Caracteristica X reprezinta cheltuielile lunare ın
mii lei pentru abonamentele la ziare si reviste ale unei familii.
Sa se verifice, cu nivelul de semnificatie α = 0.01, daca media
acestor cheltuieli lunare pentru o familie este de 16 mii lei, stiind
ca abaterea standard σ = 3 mii lei si considerand o selectie
repetata de volum n = 40, care ne da distributia empirica de
selectie
X
11 13 15 17 20
4 6 12 10 8
.
Deoarece n = 40 > 30 si abaterea standard σ = 3 este cunoscuta,
vom folosi testul Z pentru verificarea ipotezei nule
H0 : m = M (X) = 16, cu ipoteza alternativa H1 : m 6= 16.
Pentru α = 0.01, folosind Anexa I, se determina z1−α2
= z0.995,
astfel ıncat
Φ (z0.995) =1 − α
2= 0.495.
Se obtine z0.995 = 2.58 ⇒intervalul numeric (−2.58 ; 2.58) pen-
tru statistica
Z =X − m
σ√n
.
Calculam succesiv
x =1
n
n∑
k=1
fkxk = 15.8;
z =x − m0
σ√n
=15.8 − 16
3√40
= −0.422.
Deoarece z = −0.422 ∈ (−2.58 ; 2.58), rezulta ca se accepta
ipoteza H0, cu probabilitatea de risc 0.01.
Definitia 142 Daca se considera un test relativ la ipoteza nula
H0 cu alternativa H1, se numeste eroare de genul (speta) ıntai
respingerea unei ipoteze adevarate, iar probabilitatea acestei erorise numeste risc de speta ıntai (risc al furnizorului) si estedata de nivelul α de semnificatie, adica
α = P
((X1, X2, . . . , Xn) ∈ U
∣∣∣ H0
).
Definitia 143 Se numeste eroare de genul (speta) al doilea ad-miterea unei ipoteze false, iar probabilitatea acestei erori senumeste risc de speta a doua (risc al beneficiarului) si estenotata β,
β = P
((X1, X2, . . . , Xn) /∈ U
∣∣∣ H1
).
DECIZIA H0 e adevarata H0 e falsa
Acceptam H0 decizie corecta [prob. 1 − α] eroare de speta a II-a [prob. β]
Respingem H0 eroare de speta a I-a [prob. α] decizie corecta [prob. 1 − β]
Observatia 144 Este mai grava eroarea de speta I daca se
verifica calitatea la ımbracaminte si respectiv cea de speta a
II-a daca se verifica concentratia la medicamente.
Definitia 145 Se numeste puterea unui test – probabilitatea
respingerii unei ipoteze false, adica
π(θ)= π
(U ; θ
)= P
((X1, X2, . . . , Xn) ∈ U
∣∣∣ θ = θ),
cand θ este parametrul asupra caruia se face ipoteza statistica,
iar U este regiunea critica construita sub ipoteza nula cu nivelul
de semnificatie α ∈ (0,1) fixat.
Observatia 146 Daca testul considerat se refera la ipoteza nula
H0 : θ = θ0 cu ipoteza alternativa H1 : θ = θ1, atunci
π (θ0) = α si π (θ1) = 1 − β, α, β ∈ (0,1).
Observatia 147 Testul pentru care puterea este maxima se numeste
cel mai puternic test.
Definitia 148 Testul pentru care are loc inegalitatea
1−β = P((X1, X2, . . . , Xn) ∈ U |H1
)> P
((X1, X2, . . . , Xn) ∈ U |H0
)= α,
adica puterea testului este mai mare decat riscul de speta ıntai
se numeste test nedeplasat.
CURS 13
5. VERIFICAREA IPOTEZELOR STATISTICE
Fie colectivitatea C cercetata din punct de vedere al caracteristicii
X, care are legea de probabilitate data prin functia de proba-
bilitate f (x; θ) (functia de frecventa ın cazul discret, respectiv
densitatea de probabilitate ın cazul continuu).
5.2. TESTUL T (STUDENT) PRIVIND MEDIA TEORETICA
Se considera caracteristica X ce urmeaza legea normala N (m, σ)
cu parametrii m ∈ R si σ > 0 necunoscuti. Relativ la aceasta
caracteristica se face ipoteza nula H0 : m = m0 cu una din
alternativele:
H1 : m 6= m0 (testul T bilateral);
H1 : m > m0 (testul T unilateral dreapta);
H1 : m < m0 (testul T unilateral stanga).
Pentru verificarea ipotezei se considera o selectie repetata de
volum n, cu datele de selectie x1, x2, . . . , xn si corespunzator vari-
abilele de selectie X1, X2, . . . , Xn.
Conform Proprietatii [Curs 6, Propr. 10] statistica
T =X − m
σ√n
=X − m√
µ2n−1
,
unde
X =1
n
n∑
k=1
Xk, σ2 =1
n − 1
n∑
k=1
(Xk − X
)2=
n
n − 1µ2,
urmeaza legea Student cu n − 1 grade de libertate.
Pentru nivelul de semnificatie α ∈ (0,1) dat, se poate determina
intervalul numeric (t1, t2) astfel ıncat
P(T ∈ (t1, t2)
)= Fn−1 (t2) − Fn−1 (t1) = 1 − α,
unde
Fm (t) =Γ(
m+12
)
√mπΓ
(m2
)∫ t
−∞
(1 +
x2
m
)−m+12
dx, t ∈ R,
este functia de repartitie pentru legea Student cu m grade de
libertate (Anexa II).
Intervalul (t1, t2) pentru statistica T nu este determinat ın mod
unic din conditia de mai sus. In functie de alternativa H1 aleasa,
se considera suplimentar:
• t1 = −t2, t2 = tn−1,1−α2, daca H1 : m 6= m0
• t1 = −∞, t2 = tn−1,1−α, daca H1 : m > m0
• t1 = tn−1,α, t2 = +∞, daca H1 : m < m0
unde tm,γ este cuantila de ordin γ a legii Student cu m grade de
libertate, adica Fm (tm,γ) = γ.
Corespunzator intervalului (t1, t2) se considera respectiv regiunea
critica definita prin:
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣∣∣|u−m0|
σ√n
> tn−1,1−α2
}
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣∣∣u−m0
σ√n
> tn−1,1−α
}
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣∣∣u−m0
σ√n
6 tn−1,α
},
cu u = 1n
n∑
k=1uk, σ2 = 1
n−1
n∑
k=1(uk − u)2.
Se verifica ca P((X1, X2, . . . , Xn) ∈ U |H0
)= α.
Folosind datele de selectie x1, . . . , xn, ipoteza nula H0 va fi admisa
daca (x1, . . . , xn) /∈ U , iar ın caz contrar va fi respinsa.
Regiunea critica U corespunde multimii complementare interval-
ului (t1, t2).
Etapele aplicarii testului T :
1. Se dau: α; x1, x2, . . . , xn; m0.
2. Se calculeaza intervalul (t1, t2) astfel ıncat
Fn−1 (t2) − Fn−1 (t1) = 1 − α.
3. Se calculeaza
t =x − m0
σ√n
, unde x =1
n
n∑
k=1
xk, σ2 =1
n − 1
n∑
k=1
(xk − x)2 .
4. Concluzia: daca t ∈ (t1, t2) ipoteza H0 este admisa, ın caz
contrar ipoteza este respinsa.
Observatia 149 Cand numarul gradelor de libertate tinde la in-
finit, conform teoremei limita centrala, avem ca legea Student
converge ın repartitie la legea normala N (0,1). Prin urmare,
daca volumul n al selectiei este mare (n > 30) se poate utiliza
testul Z pentru verificarea ipotezei nule H0 : m = m0, prin uti-
lizarea statisticii T ın loc de statistica Z. Toate rezultatele de la
testul Z raman adevarate ın acest caz.
5.3. TESTUL χ2 PRIVIND DISPERSIA TEORETICA
Fie caracteristica X ce urmeaza legea normala N (m, σ), unde
dispersia teoretica σ2 = D2 (X) este necunoscuta si media teo-
retica m ∈ R necunoscuta.
Relativ la dispersia teoretica se face ipoteza nula H0 : σ2 = σ20
cu una din alternativele:
H1 : σ2 6= σ20 (testul χ2 bilateral);
H1 : σ2 > σ20 (testul χ2 unilateral dreapta);
H1 : σ2 < σ20 (testul χ2 unilateral stanga).
Pentru verificarea ipotezei nule H0 cu una din alternativele H1
precizate, se considera o selectie repetata de volum n, cu datele
de selectie x1, x2, . . . , xn si variabilele de selectie X1, X2, . . . , Xn.
Conform Proprietatii [Curs 6, Propr. 9], statistica
χ2 =1
σ2
n∑
k=1
(Xk − X
)2=
(n − 1)σ2
σ2,
urmeaza legea χ2 cu n − 1 grade de libertate.
Pentru un nivel de semnificatie α ∈ (0,1) dat, se poate determina
un interval numeric(χ21, χ2
2
)astfel ıncat
P(χ2 ∈
(χ21, χ2
2
))= Fn−1
(χ22
)− Fn−1
(χ21
)= 1 − α,
unde
Fm (x) =1
2m2 Γ
(m2
)∫ x
0tm2−1e−
t2dt, x > 0,
este functia de repartitie pentru legea χ2 cu m grade de libertate
(Anexa III).
Intervalul de ıncredere(χ21, χ2
2
)pentru statistica χ2 nu este de-
terminat ın mod unic din conditia de mai sus.
In functie de alternativa H1 aleasa se considera suplimentar:
• χ21 = χ2
n−1,α2, χ2
2 = χ2n−1,1−α
2, daca H1 : σ2 6= σ2
0
• χ21 = 0, χ2
2 = χ2n−1,1−α, daca H1 : σ2 > σ2
0
• χ21 = χ2
n−1,α, χ22 = +∞, daca H1 : σ2 < σ2
0,
unde χ2m,γ este cuantila de ordin γ a legii χ2 cu m grade de
libertate, adica Fm
(χ2
m,γ
)= γ.
Cu ajutorul intervalului numeric(χ21, χ2
2
)astfel determinat se con-
sidera regiunea critica:
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣∣∣1σ20
n∑
k=1(uk − u)2 /∈
(χ2
n−1,α2, χ2
n−1,1−α2
)}
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣∣∣1σ20
n∑
k=1(uk − u)2 > χ2
n−1,1−α
}
• U =
{(u1, u2, . . . , un) ∈ Rn
∣∣∣∣∣1σ20
n∑
k=1(uk − u)2 6 χ2
n−1,α
}
Se verifica ca P((X1, X2, . . . , Xn) ∈ U |H0
)= α, pentru cele trei
moduri de definire a regiunii critice.
Folosind datele de selectie, ipoteza nula H0 va fi admisa daca
(x1, x2, . . . , xn) /∈ U , iar ın caz contrar va fi respinsa.
Regiunea critica corespunde multimii complementare intervalului(χ21, χ2
2
).
Etapele aplicarii testului χ2
1. Se dau: α; x1, x2, . . . , xn; σ = σ0.
2. Se determina intervalul(χ21, χ2
2
)astfel ıncat
Fn−1
(χ22
)− Fn−1
(χ21
)= 1 − α.
3. Se calculeaza
χ2 =1
σ20
n∑
k=1
( xk − x )2 , unde x =1
n
n∑
k=1
xk.
4. Concluzia: daca χ2 ∈(χ21, χ2
2
)ipoteza H0 este admisa, ın caz
contrar este respinsa.
Observatia 150 Cand caracteristica X nu urmeaza legea nor-
mala, atunci pentru a verifica ipoteza nula cu una din alterna-
tivele precizate, unde σ2 = D2 (X), se tine seama de faptul ca
statistica
S2 =σ2 − σ2
σ2√
2n
, unde σ2 =1
n − 1
n∑
k=1
(Xk − X
)2,
urmeaza legea normala N (0,1), cand n → ∞.
De exemplu, daca ipoteza alternativa este H1 : σ2 6= σ20, se va
ajunge la regiunea critica
U =
{(u1, u2, . . . , un) ∈ R
n
∣∣∣∣∣√
n|σ2 − σ2
0|σ20
√2
> z1−α2
},
unde z1−α2
este cuantila de ordin 1 − α2 pentru legea normala
N (0,1).
Observatia 151 Daca se considera statistica
H2 =σ2
σ2=
1
(n − 1)σ2
n∑
k=1
(Xk − X
)2,
atunci ıntre statisticile H2 si χ2 exista relatia χ2 = (n − 1)H2.
Deoarece se cunoaste legea de probabilitate pentru statistica χ2
(legea χ2 cu n−1 grade de libertate), se poate determina si legea
de probabilitate a statisticii H2. Descrierea testului χ2, folosind
statistica H2, urmeaza aceeasi cale ca si pentru statistica χ2.
Observatia 152 Cand se cunoaste parametrul m ∈ R (ceea ce
se ıntampla mai rar) se poate considera statistica
χ2 =1
σ2
n∑
k=1
(Xk − m)2 =n∑
k=1
(Xk − m
σ
)2
·
DeoareceXk−m
σ urmeaza legea normala N (0,1) avem ca statis-
tica χ2 urmeaza legea χ2 cu n grade de libertate. Cele prezentate
mai ınainte pot fi rescrise cu aceasta statistica.
5.4. TESTUL F (SNEDECOR–FISHER) PENTRU
COMPARAREA DISPERSIILOR
Se considera doua populatii independente C′ si C′′ cercetate din
punct de vedere al aceleiasi caracteristici. Aceasta caracteristica
este X ′ pentru C′ si urmeaza legea normala N(m′, σ′) si respectiv
X ′′ pentru C′′ si urmeaza legea normala N(m′′, σ′′).
Relativ la dispersiile teoretice ale celor doua caracteristici se face
ipoteza nula H0 : σ′2 = σ′′2 cu una din alternativele:
H1 : σ′2 6= σ′′2 (testul F bilateral);
H1 : σ′2 > σ′′2 (testul F unilateral dreapta);
H1 : σ′2 < σ′′2 (testul F unilateral stanga).
Pentru verificarea ipotezei nule H0 cu una din alternativele H1
considerate, se efectueaza cate o selectie repetata de volume n′
si respectiv n′′ din cele doua populatii C′ si C′′. Notam datele de
selectie cu x′1, x′2, . . . , x′n′ si respectiv x′′1, x′′2, . . . , x′′n′′, cu variabilele
de selectie X ′1, X ′
2, . . . , X ′n′ si X ′′
1, X ′′2, . . . , X ′′
n′′.
Conform Proprietatii [Curs 6, Propr. 13], statistica F = σ ′2σ ′2
/σ ′′2σ′′2 ,
cu
σ ′2 =1
n′ − 1
n′∑
k=1
(X ′
k − X′)2
, X′=
1
n′n′∑
k=1
X ′k,
σ ′′2 =1
n′′ − 1
n′′∑
k=1
(X ′′
k − X′′)2
, X′′=
1
n′′n′′∑
k=1
X ′′k ,
urmeaza legea Snedecor-Fisher cu m = n′−1 si n = n′′−1 grade
de libertate.
Pentru un nivel de semnificatie α ∈ (0,1) fixat se poate determina
un interval numeric (f1, f2) astfel ıncat
P(F ∈ (f1, f2)
)= Fm,n (f2) − Fm,n (f1) = 1 − α,
unde
Fm,n (f) =
(m
n
)m2 Γ
(m+n
2
)
Γ(
m2
)Γ(
n2
)∫ f
0x
n2−1
(1 +
m
nx
)−m+n2
dx, f > 0,
este functia de repartitie pentru legea Snedecor-Fisher cu m si n
grade de libertate (Anexa IV).
Intervalul de ıncredere (f1, f2) pentru statistica F nu este unic
determinat. In functie de alternativa H1 aleasa se considera:
• f1 = fm,n;α2, f2 = fm,n;1−α
2, daca H1 : σ′2 6= σ′′2
• f1 = 0, f2 = fm,n;1−α, daca H1 : σ′2 > σ′′2
• f1 = fm,n;α, f2 = +∞, daca H1 : σ′2 < σ′′2.
Cu ajutorul intervalului numeric (f1, f2) astfel determinat, se con-
sidera regiunea critica:
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣σ′2
uσ ′′2
v/∈(fm,n;α2
, fm,n;1−α2
)},
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣σ′2
uσ ′′2
v> fm,n;1−α
},
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣σ′2
uσ ′′2
v6 fm,n;α
},
cu
σ′2u =
1
n′ − 1
n′∑
k=1
(uk − u)2 , u =1
n′n′∑
k=1
uk,
σ′′2v =
1
n′′ − 1
n′′∑
k=1
(vk − v)2 , v =1
n′′n′′∑
k=1
vk.
Se verifica ca P((
X ′1, X ′
2, . . . , X ′n′;X ′′
1, X ′′2, . . . , X ′′
n′′)
∈ U |H0
)=
α, iar cele trei alternative ne conduc la cele trei regiuni critice,
care definesc respectiv testul F bilateral, unilateral dreapta si
unilateral stanga.
Ipoteza nula va fi admisa daca(x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′
)/∈ U ,
iar ın caz contrar va fi respinsa.
Regiunea critica U corespunde multimii complementare interval-
ului (f1, f2).
Etapele aplicarii testului F
1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′.
2. Se determina intervalul (f1, f2) astfel ıncat
Fm,n (f2) − Fm,n (f1) = 1 − α.
3. Se calculeaza f = σ ′2σ ′′2, unde
σ ′2 =1
n′ − 1
n′∑
k=1
(x′k − x ′)2 , x ′ =
1
n′n′∑
k=1
x′k,
σ ′′2 =1
n′′ − 1
n′′∑
k=1
(x′′k − x ′′)2 , x ′′ =
1
n′′n′′∑
k=1
x′′k.
4. Concluzia: daca f ∈ (f1, f2) ipoteza H0 este admisa, ın caz
contrar este respinsa.
Observatia 153 Daca se noteaza prin θ = σ′σ′′, atunci ipoteza
nula devine H0 : θ2 = 1, iar ipotezele alternative se scriu core-
spunzator
H1 : θ2 6= 1, H1 : θ2 > 1, respectiv H1 : θ2 < 1,
iar statistica F se rescrie sub forma F = 1θ2
σ ′2σ ′′2·
CURS 14
5.5. TESTE PENTRU COMPARAREA MEDIILOR
Se considera doua populatii independente C′ si C′′ cercetate din
punct de vedere al aceleasi caracteristici. Aceasta este X ′ pentru
C′ si urmeaza legea normala N(m′, σ′) si respectiv X ′′ pentru C′′
si urmeaza legea normala N(m′′, σ′′).
Relativ la mediile teoretice ale celor doua caracteristici indepen-
dente se face ipoteza nula H0 : m′ = m′′ cu una din alternativele:
H1 : m′ 6= m′′, test bilateral
H1 : m′ > m′′, test unilateral dreapta
H1 : m′ < m′′, test unilateral stanga
Se considera cate o selectie repetata de volum n′ si respectiv n′′.
Distingem urmatoarele cazuri:
a) Dispersiile σ′2 si σ′′2 sunt cunoscute. Se considera statistica
Z =
(X
′ − X′′)− (
m′ − m′′)√
σ′2n′ + σ′′2
n′′
,
care urmeaza legea normala N (0,1). Se aplica testul Z.
Pentru nivelul de semnificatie α ∈ (0,1) dat se obtin regiunile
critice corespunzatoare celor trei alternative:
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣|u−v|√σ′2n′ +
σ′′2n′′
> z1−α2
}
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣u−v√
σ′2n′ +
σ′′2n′′
> z1−α
}
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣u−v√
σ′2n′ +
σ′′2n′′
6 zα
},
cu
u =1
n′n′∑
k=1
uk, v =1
n′′n′′∑
k=1
vk. (18)
Etapele aplicarii testului Z
1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′; σ′, σ′′;
2. Se determina intervalul (z1, z2) astfel ıncat
Φ (z2) − Φ (z1) = 1 − α,
unde Φ (x) este functia lui Laplace (Anexa I). Intervalul (z1, z2)
este:
(−z1−α
2, z1−α
2
),(−∞, z1−α
), (zα,+∞);
3. Se calculeaza
z =x ′ − x ′′
√σ′2n′ + σ′′2
n′′
,
unde
x ′ =1
n′n′∑
k=1
x′k, x ′′ =1
n′′n′′∑
k=1
x′′k; (19)
4. Concluzia: daca z ∈ (z1, z2) ipoteza H0 este admisa, ın caz
contrar este respinsa.
b) Dispersiile σ′2 si σ′′2 sunt necunoscute si egale σ′2 =
σ′′2 = σ2. Se considera statistica
T =
(X
′ − X′′)− (
m′ − m′′)√(
n′ − 1)σ ′2 +
(n′′ − 1
)σ ′′2
√√√√n′ + n′′ − 21n′ +
1n′′
,
care urmeaza legea Student cu n = n′+n′′−2 grade de libertate.
Se aplica testul T . Pentru nivelul de semnificatie α ∈ (0,1) dat
se obtin regiunile critice corespunzatoare celor trei alternative:
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′ ∣∣∣K|u − v| > tn,1−α
2
},
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′ ∣∣∣K (u − v) > tn,1−α
},
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′ ∣∣∣K (u − v) 6 tn,α
},
cu u si v date prin (18) si
K =1
√(n′ − 1
)σ ′2 +
(n′′ − 1
)σ ′′2
√n
1n′ +
1n′′
,
σ ′2 =1
n′ − 1
n′∑
k=1
(uk − u)2 , σ ′′2 =1
n′′ − 1
n′′∑
k=1
(vk − v)2 . (20)
Etapele aplicarii testului T
1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′;
2. Se determina intervalul (t1, t2) astfel ıncat
Fn (t2) − Fn (t1) = 1 − α,
unde Fn (x) este functia de repartitie pentru legea Student
cu n = n′ + n′′ − 2 grade de libertate. Intervalul (t1, t2) este:(−tn,1−α
2; tn,1−α
2
),(−∞; tn,1−α
), (tn,α;+∞);
3. Se calculeaza
t =x ′ − x ′′
√(n′ − 1
)σ ′2 +
(n′′ − 1
)σ ′′2
√√√√n′ + n′′ − 21n′ +
1n′′
,
cu x ′ si x ′′ date ın (19) si
σ ′2 =1
n′ − 1
n′∑
k=1
(x′k − x′
)2, σ ′′2 =
1
n′′ − 1
n′′∑
k=1
(x′′k − x′′
)2.
(21)
4. Concluzia: daca t ∈ (t1, t2) ipoteza H0 este admisa, ın cazcontrar este respinsa.
c) Dispersiile σ′2 si σ′′2 sunt necunoscute si diferite. Seconsidera statistica
T =
(X
′ − X′′)− (
m′ − m′′)√
σ ′2n′ + σ ′′2
n′′
,
care urmeaza legea Student cu n grade de libertate. Numarul nal gradelor de libertate se calculeaza cu formula
1
n=
c2
n′ − 1+
(1 − c)2
n′′ − 1,
unde
c =σ ′2
n′
/(σ ′2
n ′ +σ ′′2
n′′
).
Se aplica testul T. Pentru nivelul de semnificatie α ∈ (0,1) dat,
se obtin regiunile critice:
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣|u−v|√
σ ′2n′ +σ ′′2
n′′> tn,1−α
2
}
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣u−v√
σ ′2n′ +σ ′′2
n′′> tn,1−α
}
• U =
{(u1, . . . , un′; v1, . . . , vn′′) ∈ Rn′+n′′
∣∣∣∣∣u−v√
σ ′2n′ +σ ′′2
n′′6 tn,α
},
cu u si v date prin (18) si σ ′2 si σ ′′2 date prin (20).
Etapele aplicarii testului T
1. Se dau: α; x′1, x′2, . . . , x′n′; x′′1, x′′2, . . . , x′′n′′;
2. Se determina intervalul (t1, t2) astfel ıncat
Fn (t2) − Fn (t1) = 1 − α,
unde Fn (x) este functia de repartitie pentru legea Student cu
n grade de libertate. Intervalul (t1, t2) este:
(−tn,1−α
2; tn,1−α
2
),
(−∞; tn,1−α
), (tn,α;+∞);
3. Se calculeaza
t =x ′ − x ′′
√σ ′2n′ + σ ′′2
n′′
,
cu x ′ si x ′′ date ın (19) si σ ′2 si σ ′′2 date ın (21).
4. Concluzia: daca t ∈ (t1, t2) ipoteza H0 este admisa, ın caz
contrar este respinsa.
Exemplu. S-au elaborat doua metode de producere a anvelopelor,
pentru care producatorul apreciaza ca nu exista o diferenta sem-
nificativa ın ceea ce priveste durata de viata. Pentru a testa
aceasta ipoteza, se iau 9 anvelope produse cu metoda 1 si 7
anvelope cu metoda 2. Primul set se testeaza ın locatia A iar al
doilea ın B. Se stie ca durata pentru oricare din anvelope este
o variabila aleatoare ce urmeaza legea normala cu dispersie ın
functie de locatie. Pentru locatia A deviatia standard este 3000
km, iar pentru B este de 4000 km. (Unitatea de masura pentru
duarata de viata se considera 1000 km.)
Permit datele din tabel acceptarea ipotezei cu nivelul de semnificatie
5%?
Anvelope testate ın A Anvelope testate ın B66,4 58,261,6 60,460,5 55,259,1 62,063,6 57,361,4 58,762,5 56,164,460,7
Se considera ipoteza nula H0 : m′ = m′′ cu alternativa H1 : m′ 6=m′′.
Avem α = 0.05; σ′ = 3, σ′′ = 4; n′ = 9, n′′ = 7
x′ =1
n′n′∑
k=1
x′k = 62.2444, x′′ =1
n′′n′′∑
k=1
x′′k = 58.2714
Se calculeaza
z =x ′ − x ′′
√σ′2n′ + σ′′2
n′′
=62.2444 − 58.2714
√99 + 16
7
= 2.192.
Avem (1−α)/2 = 0.475, deci (z1, z2) =
(−z1−α
2, z1−α
2
)= (−1.96,1.96).
Concluzia: z /∈ (z1, z2) ⇒ipoteza H0 este respinsa.