Chap01.5120

download Chap01.5120

of 93

Transcript of Chap01.5120

  • 7/25/2019 Chap01.5120

    1/93

    Act5120 UQM

    Chapitre 1: Rappel de la statistique mathmatique

    UQM - Chapitre 1. Page 1 de 93

  • 7/25/2019 Chap01.5120

    2/93

    Plan de lexpos

    Introduction

    Lestimation ponctuelle de paramtres.

    Diffrentes mthodes destimation.

    Ltude sur la qualit des estimateurs.

    Lestimation par intervalle de confiance.

    Les tests dhypothses.

    Exemples et exercices.

    UQM - Chapitre 1. Page 2 de 93

  • 7/25/2019 Chap01.5120

    3/93

    IntroductionPourquoi faut-il un cours sur le modle de survie? La rponse est relativementsimple: parce que les donnes qui servent modliser la dure de vie dunindividu ou dun item donn ou, de faon plus gnrale, le temps avant quunvnement bien dfini (par exemple dcs, divorce, gurison, rechute, faillite,panne, emploi, etc), se produise sont souvent incompltes ( i.e. les donnes sontcensures ou tronques). Comme nous voulons effectuer des analysesstatistiques partir de ces donnes, il faut modifier les modles et mthodes

    "traditionnels" afin quils puissent composer avec la censure ou la troncation.

    UQM - Chapitre 1. Page 3 de 93

  • 7/25/2019 Chap01.5120

    4/93

    Commenons avec quelques notions de bases, survenant assez frquemment enpratique, pour saisir le rle appliqu de la thorie destimation, une composanteimportante de la thorie de linfrence statistique.

    Pour faire de lestimation dun paramtre, disons , au niveau de la population,et de rpondre des questions, survenant assez frquemment en pratique, noussupposons que chaque membre de la population en question possde uncaractre observable X, que la connaissance de X(pour un ou plusieurs

    lments) nous donnera de linformation sur , et enfin que la rpartition (deslments par rapport aux valeurs possibles) de Xdpend du paramtre .Donc, il sagit dobserver un certain nombre de fois, disons n fois, ce caractreXet extraire linformation sur ce paramtre en question.

    UQM - Chapitre 1. Page 4 de 93

  • 7/25/2019 Chap01.5120

    5/93

    Plus formellement, nous supposons lexistence dune variable alatoire X(caractre observable) dont la distribution de probabilit F(x|) (i.e.rpartition des lments par rapport aux valeurs possibles de X) dpend deparamtre. Nous reposons le problme destimation de sur nobservations

    indpendantes sur X, autrement dit sur n variables alatoires indpendantesX1, X2, , Xn suivant une loi identique celle de X. En langage statistique(ou probabiliste) lorsquon parle dun chantillon alatoire de taille nsur unevariable alatoire X F(x|)on sous-entend n variable alatoire

    X1, X2, , Xn i.i.d. X (oui.i.d. F(x|)).

    UQM - Chapitre 1. Page 5 de 93

  • 7/25/2019 Chap01.5120

    6/93

    Pour obtenir des rsultats prcis et intressants, nous faisons un certain nombredhypothses lies lexprience effectue sur la loi commune F(x|)desvariables X1, X2, , Xn de lchantillon.

    Nous restreindrons notre tude, dans les chapitres 12 et 15, la statistique dite

    paramtrique. Dans cette approche, les diffrentes lois considres possibles apriori pour les variables Xi sont dans la famille paramtrique, cest dire danslensemble{F(x|)} de lois de probabilits sur. Nous chercherons alors dterminer une fonction de rpartition F(x|) qui est en accord avec lesdonnes et estimer le paramtre inconnu . Nous tudierons les cas o lesdonnes sont compltes et individuelles, groupes, tronques ou censures.

    Lorsquon ignore la forme spcifique de la loi inconnue F(x|) et quon na pasde bonnes raisons pour supposer quelle appartienne telle ou telle familleparamtrique, nous aborderons alors, dans les chapitres 13 et 14, lanalysestatistique de ces modles dite non paramtrique.

    UQM - Chapitre 1. Page 6 de 93

  • 7/25/2019 Chap01.5120

    7/93

    Une statistique

    Une statistique (ou une rgle de calcul) calcule partir dun chantillonalatoire ou dune exprience randomise est une variable alatoire. On appelledistribution dchantillonnage la loi de probabilit dune statistique.

    Exemples:

    Moyenne chantillonnale: T1 = 1nn

    i=1 Xi =X

    Variance chantillonnale: T2 = 1n1

    ni=1(Xi

    X)2 =S2

    Fonction de rpartition chantillonnale:T3 =

    1n

    (Nombres dobservations pour lesquelles Xi x) =Fn(x) Statistique dordre n: T4 =M ax{X1, X2, , Xn} =X(n)

    Statistique dordre 1: T5 =M in{X1, X2, , Xn} =X(1) tendue chantillonnale: T6 =X(n) X(1)

    UQM - Chapitre 1. Page 7 de 93

  • 7/25/2019 Chap01.5120

    8/93

    Chaque ralisation x1, x2, , xn de lchantillon alatoire X1, X2, , Xn,quon appelle les donnes statistiques ou observations, produit une valeur dechacune des statistiques. Par exemple, les donnes 4,3; 2,2; 2,7; 2,8 produirontles valeurs X= 3, S2 = 0, 82, F4(2, 3) = 0, 25.

    Le traitement thorique dun problme dinfrence portant sur une populationX F(x|)consiste choisir une statistique approprie (par exemple,X , S2 , Fn(x) etc.) et associer chaque valeur de la statistique choisie unedcision propos du paramtre. Ladcisionpeut prendre diffrentes formes,trois desquelles seront traites ici:

    1. Estimation ponctuelle: On peut dcider que le paramtre a telle ou tellevaleur.

    2. Estimation par intervalle: On peut dcider que le paramtre se trouvevraisemblablement dans tel ou tel intervalle.

    3. Test dhypothses: On peut dcider que la valeur du paramtre est ounest pas gale un nombre fix davance.

    UQM - Chapitre 1. Page 8 de 93

  • 7/25/2019 Chap01.5120

    9/93

    Lestimation ponctuelleconsiste trouver unestimateur dun paramtreinconnu , cest--dire, une statistique dont les valeurs auraient tendance, en uncertain sens, sapprocher du paramtre. Par exemple, la moyennearithmtique

    (X1, X2, , Xn) =Xest gnralement utilise comme

    estimation de lesprance mathmatique des variables X1, X2,

    , Xn, et la

    variance chantillonnale2(X1, X2, , Xn) =S2 est utilise commeestimation de leur variance.

    Lestimation par intervalle de confianceconsiste dterminer deux bornes et, toutes deux fonctions des observations, et affirmer que le paramtre se situeentre ces deux bornes. Une telle affirmation peut, bien sr, tre errone, maisles bornes sont dtermines de faon que la probabilit derreur soit faible.

    Un test dhypothseconsiste dterminer une rgle pour dcider quand unehypothse H0 concernant un paramtre doit tre rejete. Par exemple, RejeterlhypothseH0 que = 10si X >14, 3est une rgle, ouun test statistique.

    UQM - Chapitre 1. Page 9 de 93

  • 7/25/2019 Chap01.5120

    10/93

    Estimation ponctuelle

    Toute statistique T =T(X1, X2, , Xn)utilise pour faire une estimationdun paramtre est appele estimateur de et note

    (X1, X2, , Xn).

    Dans certains cas, le choix dun estimateur est naturel et intuitif: nous

    estimons la moyenne dune population par la moyenne Xde lchantillon; etnous estimons une probabilit de succs par la proportion de succs danslchantillon. Mais il nous faut des critres objectifs pour choisir un estimateur,car parfois

    1) plusieurs estimateurs semblent aussinaturels lun que lautre;2) aucun estimateur ne se prsente lesprit comme particulirement naturel;

    3) certains estimateurs peuvent sembler naturels alors que dautres sont enfait meilleurs. Un exemple du dernier est le cas dune variance 2.

    Lestimateur le plus naturel premire vue est

    S2 = 1

    n

    ni=1

    (Xi X)2 ;

    mais il se trouve que lestimateur S2 est en un certain sens prfrable.

    UQM - Chapitre 1. Page 10 de 93

  • 7/25/2019 Chap01.5120

    11/93

    Lestimateur et lestimation

    Rsumons, un estimateur(X1, X2, , Xn)est une entit alatoire et uneestimation de

    (x1, x2, , xn)est une entit fixe quon obtient en utilisant les

    donnes(x1, x2,

    , xn)sur (X1, X2,

    , Xn). Lequel faut-il juger,

    lestimateur ou lestimation?Nous savons que cest lestimateur qui produit lestimation, donc il fautsinterroger sur les qualits de lestimateur. tant donne quun estimateur estune variable alatoire, on ne peut porter de jugement sur ses qualits et ses

    dfauts quen terme probabiliste et/ou frquentiste.La thorie destimation ponctuelle suggre des techniques destimation avecleur heuristique (mthode des moindres carrs, vraisemblance maximum,mthodes des moments, etc...) et propose des proprits objectives (meilleurque, sans biais, convergent, efficace, asymptotiquement...,etc...) quon pourraitsouhaiter pour un estimateur.

    UQM - Chapitre 1. Page 11 de 93

  • 7/25/2019 Chap01.5120

    12/93

    Au niveau mathmatique, les qualits quon souhaite dun estimateur(X1, X2, , Xn)et ceci pour tout , sont traduites par: E

    = ;

    E ou E 2 est petit ; quand n , il faut bien sr prciser aussi le mode de

    convergence ;

    E 2 0quand n ;

    n / en loi vers N(0, 1) ; etc...

    UQM - Chapitre 1. Page 12 de 93

  • 7/25/2019 Chap01.5120

    13/93

    Biais

    Lebiais dun estimateur(X1, , Xn) pour le paramtre est la diffrenceentre la valeur moyenne de

    (X1, , Xn) et quon dsigne parB

    ,alors

    B =E(X1, , Xn) On peut aussi voirB comme la valeur moyenne de lerreur .Remarque: Les variables X1, X2, , Xn suivent une loi identique qui dpendde . videment, la valeur moyenne de va dpendre de et n. Soit

    =, n .Ainsi lebiais de dpend aussi de et n;

    B = B, n .

    UQM - Chapitre 1. Page 13 de 93

  • 7/25/2019 Chap01.5120

    14/93

    Un estimateur est ditesans biaispour si sonbiaisest identiquement nul i.e.B, n =E = 0,

    ou galement, si sa valeur moyenne est identiquement gale , cest--dire

    E = .

    Il est diteasymptotiquement sans biais si

    B, n 0 lorsque n

    UQM - Chapitre 1. Page 14 de 93

  • 7/25/2019 Chap01.5120

    15/93

    Exemple 1.

    Soient X1, X2,

    , Xn un n-chantillon de loi fx|(, ) Xest un estimateur sans biais pour .

    2 = 1n

    ni=1(X1 )2 est un estimateur sans biais pour 2.

    2 = 1n ni=1(X1 X)2 est un estimateur biais pour 2. Le biais de cetestimateur:B2 = 2/n.On remarque que le biais est ngatif, ce quimontre que lestimateur2

    est infrieur la vraie valeur du paramtre 2

    en moyenne.

    UQM - Chapitre 1. Page 15 de 93

  • 7/25/2019 Chap01.5120

    16/93

    Exemple 2. (plus pratique!)

    Une caisse populaire aimerait connatre le nombre moyen de transactions faites un guichet automatique par ses clients. La recherche de cette informationimplique certains cots, et on prfre utiliser un chantillon plutt que depasser en revue le dossier de tous les clients. Nous allons supposer que:

    Cette caisse populaire na que 5 clients (N= 5) Lchantillon alatoire simple sera form de deux clients (n= 2) que nous

    identifierons leur numro de compte (de 1 5).Numro du compte Nombre de transactions

    1 15

    2 18

    3 22

    4 25

    5 10

    = 1

    N

    i

    yi = 18 ; 2 =

    1

    N

    i

    (yi )2 = 27, 6.

    UQM - Chapitre 1. Page 16 de 93

  • 7/25/2019 Chap01.5120

    17/93

    chantillons de taille 2La liste de tous les chantillons possibles de taille 2:

    (15,18) (15,22) (15,25) (15,10) (18,22)

    (18,25) (18,10) (22,25) (22,10) (25,10)

    La moyenne de tous les chantillons possibles de taille 2:

    y1=16,5 y2 =18,5 y3 =20 y4 =12,5 y5 =20

    y6=21,5 y7=14 y8=23,5 y9=16 y10=17,5

    On peut rsumer la distribution de la moyenne chantillonnale de Y dans latableau suivant:

    Y = y 12,5 14 16 16,5 17,5 18,5 20 21,5 23,5

    pY

    (y) 1/10 1/10 1/10 1/10 1/10 1/10 2/10 1/10 1/10

    Lesprance mathmatique de notre estimateur de la moyenne est:

    E() = E(Y) = y

    ypY(y)

    = 12, 5 1

    10+ 14

    1

    10+ + 23, 5

    1

    10= 18

    Yest donc un estimateur sans biais de.

    UQM - Chapitre 1. Page 17 de 93

  • 7/25/2019 Chap01.5120

    18/93

    Exemple 3.

    Supposons une population avec fonction de densit ou de probabilit

    f(x | ) = 1

    ex/ , x >0

    0 sinon

    o est un paramtre positif inconnu. Comme E(X) =, on peut estimer ceparamtre par:

    =X= 13 (X1+ X2+ X3)o X1, X2, X3 (disons dun chantillon de taille 3) sont i.i.d. X. LestimateurXest sans biais pour .

    Proposons un autre estimateur de , disons Y = Mdiane(X1, X2, X3). Est-il

    sans biais pour , c--d. E(Y| ) =?

    UQM - Chapitre 1. Page 18 de 93

  • 7/25/2019 Chap01.5120

    19/93

    Solution:Trouvons dabord la densit de Y, fY(y), comme E(Y | ) =

    y fY(y)dy et utilisons le fait

    que fY(y) = ddy

    FY(y), nous commenons par FY(y):

    FY(y) = Pr[Y y] = Pr[Mdiane (X1, X2, X3) y]

    = Pr[X1, X2, X3 y] + Pr[X1, X2 y, X3 > y]

    + Pr[X1, X3 y, X2 > y]

    + Pr[X2, X3 y, X1 > y]

    = F3X (y) + 3 F2X (y) (1 FX (y)) comme Xisont i.i.d. FX

    =

    (1 ey/ )3 + 3(1 ey/ )2ey/ si y > 0

    0 si y 0

    de faite que

    FX (y) =

    y

    fX (x)dx =

    y0

    1

    ex/ dx = ex/y

    0= 1 ey/ si y > 0

    0 si y 0

    UQM - Chapitre 1. Page 19 de 93

  • 7/25/2019 Chap01.5120

    20/93

    La fonction de densit fY(y) de Y est donc:

    fY(y) =

    ddy FY(y) = . . . = 6 [e2y/ e3y/ ], y > 0

    0 si y 0

    finalement:

    E(Y | ) =

    0 y6

    [e2y/ e3y/ ]dy

    = 3

    0

    y2

    e2y/ dy 2

    0

    y3

    e3y/ dy

    = 3/2 2/3 =5

    6=

    Alors la mdiane est un estimateur biais pour , si X1, X2, X3 sont i.i.d. de loi Exp (). Le biaisest

    BY = E(Y | ) =5

    6 =

    6

    UQM - Chapitre 1. Page 20 de 93

  • 7/25/2019 Chap01.5120

    21/93

    Exemple 4.

    Supposons que X1, X2, , Xn sont i.i.d. U(0, ), o > 0 c--d.

    fX

    (x | ) = 1

    si 0 < x <

    0 sinon

    Montrons que n = Max(X1, . . . , Xn) est asymptotiquement sans biais pour .

    Solutions:

    Il faut montrer que

    limn

    E(n | ) = limn

    y fn

    (y)dy =

    o la densit de la variable alatoire n est fn(y) = d

    dyF

    n(y) avec F

    n(y) est la fonction de

    rpartition de n.

    Fn

    (y) = Pr[n y] = Pr[max(X1, X2 , Xn) y]

    = Pr[X1 y, X2 y, , Xn y]

    = Pr[X1 y] Pr[X2 y] Pr[Xn y] comme X1, X2, . . . , Xn sont indpendants

    = (FX (y))n comme X1, X2, . . . , Xn sont i.i.d. FX.

    UQM - Chapitre 1. Page 21 de 93

  • 7/25/2019 Chap01.5120

    22/93

    Comme

    FX (y) = Pr(X y) =

    y

    fX (x)dx

    =

    0 si y < 0

    y

    01

    dy = y

    si 0 < y <

    1 si y >

    Alors

    Fn

    (y) =

    0 si y < 0y

    nsi 0 y

    1 si y >

    et par consquent:

    fn

    (y) =d

    dyF

    n(y) =

    0 si y < 0

    nyn1

    n si 0 y

    0 si y >

    UQM - Chapitre 1. Page 22 de 93

  • 7/25/2019 Chap01.5120

    23/93

    ce qui implique enfin:

    E(n | ) =

    0

    y

    nyn1n

    dy = nn

    0

    yndy

    =n

    n

    yn+1

    n+ 1

    0 =

    n n+1

    n(n+ 1)

    = n

    n+ 1

    On voit que n est biais:

    E(n | ) = ,

    mais asymptotiquement sans biais:

    limn

    E(n | ) = limn

    n

    n+ 1

    = .

    UQM - Chapitre 1. Page 23 de 93

  • 7/25/2019 Chap01.5120

    24/93

    Estimateur convergent

    Lestimateur

    (X1, X2, , Xn) tant une fonction de lchantillon, il est fonction de la taille de

    lchantillon et ainsi on a une suite de variables alatoires n, n = 1, 2, . On peut alorsparler de convergence en probabilit dun estimateur vers la valeur du paramtre cest--dire den vers la constante .On dit alors quun estimateurn du paramtre est convergent si > 0,

    limn

    Pr

    n

    >

    = 0

    et on noten Pr .

    En mots, un estimateur convergent scarte du paramtre avec une faible probabilit, si la taillede lchantillon est assez grande.

    Lexemple de base destimateur convergent est la moyenne empirique Xn. La loi faible des grandsnombres affirme que Xn est un estimateur convergent de lesprance de X.

    UQM - Chapitre 1. Page 24 de 93

  • 7/25/2019 Chap01.5120

    25/93

    Puisque la convergence est vers une constante, on peut utiliser le critre dfini suivant:

    Si

    E

    n

    et V ar

    n

    0

    alors n Pr .

    Ce rsultat est beaucoup plus simple dmontrer que la convergence en probabilit selon ladfinition. Par contre si ce critre ne fonctionne pas, il ne faut pas conclure que lestimateur nest

    pas convergent puisque ce sont uniquement des conditions suffisantes. On peut interprter lecritre de convergence en probabilit comme tant le fait que si la taille de lchantillon est assezgrande alors la valeur sera suffisamment prs du paramtre.

    Pour la preuve de ce critre, utilisez lingalit de Chebychev.

    Exemples: Soit X un caractre tudi tel que E (X) = , V ar (X) = 2 alors

    i. X est un estimateur convergent pour

    ii. S2 = 1n

    Xi

    2 est un estimateur convergent pour 2iii. S2 est un estimateur convergent pour 2

    UQM - Chapitre 1. Page 25 de 93

  • 7/25/2019 Chap01.5120

    26/93

    Un exempleSoit X1, X2 , Xn un chantillon de variable alatoire dont la densit

    f(x | ) =

    x1 , si 0 < x < 1

    0 sinon

    o est un paramtre positif inconnu. Montrer que X1X

    est un estimateur convergent pour .

    Solution: Pour tout c > 0,

    E(Xc) = 10

    xcx1 dx = x+c +c

    10

    =

    +c.

    En particulier, en prenant c = 1 puis c = 2, on obtient:

    E(X) =

    + 1, E(X

    2) =

    + 2, et V ar(X) =

    ( + 1)2( + 2).

    Nous dduisons alors pour la moyenne dchantillon X:

    E(X) = +1

    .

    V ar(X) = n(+1)2(+2)

    qui 0 quand n + .

    X est un estimateur convergent pour

    + 1.

    UQM - Chapitre 1. Page 26 de 93

  • 7/25/2019 Chap01.5120

    27/93

    La suite de la solution de cet exemple est base sur la proposition suivante:

    Soit n un estimateur convergent du paramtre , et une fonction de R dans R, continue au

    point . Alors ((n)) est un estimateur convergent de ().

    Une application simple de cette proposition: Considrons comme modle la loi uniforme sur [0, ],o le paramtre est inconnu. La moyenne empirique Xn est un estimateur convergent de

    lesprance de la loi, qui vaut /2. Donc n = 2Xn est un estimateur convergent de .

    Revenons notre exemple prcdent et considrons la fonction h(y) = y1y

    . Cette fonction est

    continue en tout point de y = 1. Comme X est un estimateur convergent pour +1

    , il sensuit

    que h(X) est un estimateur convergent pour h( +1 ) si +1 = 1. Il ne reste plus qu observer

    que h(X) = X1X

    , que

    h(

    1 + ) =

    1+

    1 1+

    =

    et que la condition

    1+ = 1 est satisfaite car > 0.

    UQM - Chapitre 1. Page 27 de 93

  • 7/25/2019 Chap01.5120

    28/93

    Prcision dun estimateur

    La proprit que la moyenne de lentit alatoire

    soil gale (ou que la

    moyenne de lerreur soit gale zro) est certainement dsirable du pointde vue de lestimation, car tout autre chose tant gale, on va certainement

    prfrer un estimateur sans biais un autre qui ne le serait pas.

    Cependant, la valeur moyenne nest pas une bonne mesure de lerreur delestimation car les erreurs positives jouent contre les erreurs ngatives dans lecalcul de la moyenne. Donc, part le biais, il faut aussi tenir compte de lavaleur moyenne de

    ou de

    2. Nous allons opter pour la deuximecar la fonction valeur absolue nest pas plaisante du point de vue du calcul

    analytique.

    UQM - Chapitre 1. Page 28 de 93

  • 7/25/2019 Chap01.5120

    29/93

    Erreur quadratique moyenne

    On appelleerreur quadratique moyennede lestimateur

    par rapport au

    paramtreest la valeur moyenne de 2 quon dsigne parEQM; alors

    EQM =E 2

    Remarque 1. La variance V ar(

    )dun estimateur est un critre important dans

    la mesure o il caractrise la dispersion des valeurs de dans lespace des

    chantillons possibles. Toutefois il sagit de la dispersion autour de lamoyenne E()et non pas autour de . Pour prendre en compte lcart parrapport on introduit alors ce critre derreur quadratique moyenne

    Remarque 2. Lorsque

    constitue un estimateur sans biais de , son erreur

    quadratique moyenne est gale sa variance.Remarque 3. Lerreur quadratique moyenne peut se dcomposer alors sous la

    forme:

    EQM

    =V ar

    + B2

    UQM - Chapitre 1. Page 29 de 93

  • 7/25/2019 Chap01.5120

    30/93

    Remarque 4. Lapplication des deux premiers critres peut mener un conflitpuisquun estimateur biais peut avoir un cart quadratique moyen pluspetit quun estimateur non biais. Par exemple, si on considre uncaractre lune loi normale de moyenne et de variance 2, on peutconsidrer deux estimateurs de 2 bass sur un chantillon de taille n :

    S2 = 1

    n 1ni=1

    Xi X

    2et S2 =

    1

    n

    ni=1

    Xi X

    2On peut montrer que E

    S2

    =2 et que V ar

    S2

    = 24/ (n 1)ce qui

    implique que EQM2 S2 = 24/ (n 1).Dun autre ct, on a S2 = (n 1) S2/ncest--dire que

    E

    S2

    = n 1

    n 2 et V ar

    S2

    = 2 (n 1)

    n2 4

    et ainsi

    EQM2 S2 = 2n 1n2 4Selon le critre 1, lestimateur S2 est meilleur que S2 et selon le critre 2,S2 est meilleur que S2. La diffrence est minime et on prfre partradition utiliser S2 comme estimateur.

    UQM - Chapitre 1. Page 30 de 93

  • 7/25/2019 Chap01.5120

    31/93

    Remarque 5. En adaptant ce critre deEQMpour juger de la prcision dun

    estimateur, le problme est de chercher le meilleur estimateur au sens dece critre, ce qui nous conduit la dfinition suivante:

    Soient1 et2 deux estimateurs du paramtre , on dit que1 domine(ou plus prcis) que

    2 si

    EQM(1) EQM(2) .Pour lexemple prcdent, S2 est plus efficace que S2:

    EQM(S2) EQM(S2) = 3n 1(n 1)n2

    4

    qui est toujours positif.

    Un estimateur qui est sans biais pour est dit donc variance minimalesi pour tout autre estimateur

    sans biais pour on a

    V ar() V ar() .On souhaite alors de trouver parmi les estimateurs sans biais dunparamtre celui dont la variance est la plus faible. Il sagit l dunestimateur sans biais de variance minimale.

    UQM - Chapitre 1. Page 31 de 93

  • 7/25/2019 Chap01.5120

    32/93

    Exemple 1:

    Soit X1, X2 , Xn un chantillon de variable alatoire de loi de bernoullide paramtre inconnu . Considrons comme estimateur de :

    = 0.5. Il

    est biais car pour tout , E() = 0.5 =. De plusEQM() = E(0.5 )2

    = (0.5 )2

    Cet estimateur est le meilleur selon le critre de lEQM lorsque =0,5 carlerreur quadratique moyenne au point 0,5 est nul. Par contre, cet EQMaugmente quand sloigne de 0,5.

    RemarquezEQM0() =EQM1()=0,25.

    UQM - Chapitre 1. Page 32 de 93

  • 7/25/2019 Chap01.5120

    33/93

    Exemple 2:

    X = nombre de clients le samedi dans un supermarch, X P(). Laralisation dun chantillon de taille 7 donne:

    501, 522, 475, 526, 481, 498, 506

    Nous proposons comme estimateur de :1 =x= 501.3 ou, commeE(X) =V ar(X) =, lestimateur

    2 =s2 = 362.6.

    Les deux sont des estimateurs sans biais et nous retiendrons plutt la

    premire estimation. En effet

    V ar(1)V ar(

    2)

    = 2

    n n

    2

    2(n 1)4 = n

    2(n 1) 1 ,

    1 est donc plus prcis que2

    UQM - Chapitre 1. Page 33 de 93

  • 7/25/2019 Chap01.5120

    34/93

    Exemple 3: Soit estimer le paramtre pdune loi de Bernoulli (ou en

    situation pratique, une proportion ppar sondage dans une population).Soit X le total (ou leffectif) empirique de succs observe. Montrons quesi pest au voisinage de 1/2la statistique

    p1 =

    X+ 1

    n + 2

    est prfrable au sens de EQM la proportion empirique naturellep2 =X/npour estimer p.Comme Xest de loiB(n, p), on a E(

    p2) =pet

    EQM(p2) =V ar(p2) = p(1 p)n

    .

    Pour lestimateurp1, on aE(p1) =

    np + 1

    n + 2

    et V ar(p1) = np(1 p)

    (n + 2)2

    do

    EQM(

    p1) =

    np(1 p)(n + 2)2

    +np + 1

    n + 2p

    2=

    (1 2p)2 + np(1 p)(n + 2)2

    .

    UQM - Chapitre 1. Page 34 de 93

  • 7/25/2019 Chap01.5120

    35/93

    En faisant le rapport de cette EQMpar rapport celle dep2, on obtientn

    (n + 2)2

    n +

    (1 2p)2p(1 p)

    Or pour p= 1/2ceci veut dire que n2

    /(n + 1)

    2

  • 7/25/2019 Chap01.5120

    36/93

    Exemple 4: la page 18, nous avons vu que 1 = Xet 2 = 65Y sont tous

    deux estimateurs sans biais pour o Y =Mdiane(X1, X2, X3) avecX1, X2, X3 sont i.i.d. de loi exponentielle de paramtre . De ce quiprcde:

    EQM(

    1) =V ar(X) =

    1

    3V ar(Xi) =

    1

    3 2 .

    De mme

    EQM(2) = V ar(2) =E(22) E2(2)= E

    6

    5Y

    2 2 =

    6

    5

    2 E(Y2) 2

    = 6

    5

    2 19

    182 2 = 0, 52 2 ,

    comme

    E(Y2) =

    0

    y2fY(y)dy=

    0

    y2 6 (e2y/ e3y/)dy= = 1918 2 .

    1 est donc plus prcis que

    2.

    UQM - Chapitre 1. Page 36 de 93

  • 7/25/2019 Chap01.5120

    37/93

    Exemple 5: Supposons que X1, X2, , Xn sont i.i.d. X U(0, ), o >0.

    Comparez les EQM de 1 = 2

    X,

    2 =

    n+1

    n X(n),et 3 =X(n) pourestimer .

    Rappelons que EQM() =V ar(| ) + B2(), E(X) = 2

    et

    V ar(X) =

    2

    12 . Alors:E(1) = 2E(X) = 1 est sans biais pour .

    E(2) = E

    n + 1

    n X(n)

    =2 est de mme sans biais pour .

    E(3) = E(X(n)) = n

    n + 1 E(2) =

    n

    n + 1 3 est biais pour

    dont le biais est:B3

    = n

    n + 1 =

    n + 1.

    Donc:

    EQM(1) = V ar(1| )

    = 4V ar(X)

    n=

    2

    3n.

    UQM - Chapitre 1. Page 37 de 93

  • 7/25/2019 Chap01.5120

    38/93

    De mme: EQM(2) =V ar(2| ) =E(22| ) 2 o

    E(22| ) = E n + 1

    n Y2 | = n + 1

    n

    2E(Y2 | )

    = n + 1n 2

    0

    y

    2 nyn1

    n dy

    =

    n + 1

    n

    2 nyn+2nn + 2

    0

    =n + 1

    n

    2 n2n + 2

    = (n + 1)22

    n(n + 2) .

    Ce qui donne:

    EQM(2) = (n + 1)22

    n(n + 2) 2 =

    2

    n(n + 2).

    UQM - Chapitre 1. Page 38 de 93

  • 7/25/2019 Chap01.5120

    39/93

    Et enfin lerreur quadratique moyenne pour lestimateur 3 est:

    EQM(3) = V ar(3| ) + (E(3| ) )2

    = V ar n

    n + 12

    | +

    2

    (n + 1)2

    = n2

    (n + 1)2

    2

    n(n + 2)

    +

    2(n + 2)

    (n + 1)2(n + 2)

    = 2

    (2n + 2)(n + 1)2(n + 2)

    = 22

    (n + 1)(n + 2).

    UQM - Chapitre 1. Page 39 de 93

  • 7/25/2019 Chap01.5120

    40/93

    Remarques: Pour n = 1

    1 = 2X1 2 = 2X

    3 = X1

    EQM (i ) 2

    32

    32

    33 a un biais mais une variance plus petite pour compenser.

    Pour n = 2

    1 = X1 +X2 2 =

    32

    max(X1, X2) 3 = max(X1, X2)

    EQM (i) 2

    62

    82

    6

    2 est un estimateur plus prcis que 1 et 3.

    Pour n 3

    1 = 2X 2 =

    n+1n X(n)

    3 = X(n)

    EQM (i ) 2

    3n2

    n(n+2)22

    (n+1)(n+2)

    2 est un estimateur plus prcis que1 et

    3, en effet:

    2

    n(n + 2)< 22

    (n+ 1)(n + 2)< 2

    3n.

    UQM - Chapitre 1. Page 40 de 93

  • 7/25/2019 Chap01.5120

    41/93

    Estimation par intervalle

    Un estimateur donne une valeur unique comme estimation, et cette valeur apeu de chance de concider avec celle du paramtre. Un statisticien qui, avecun chantillon de botes de conserves, obtient le poids moyen 7,50 onces,

    donnera cette valeur comme estimation de la moyenne de la population. Cestla meilleure estimation que lui fournissent ses donnes, mais laffirmation lamoyenne de la population est de 7,50est presque certainement fausse. Uneaffirmation du genre la moyenne de la population se trouve entre 7,25 et 7,75,qui est une affirmation plus faible que la prcdente, a plus de chance dtrevraie. Lestimation par intervalle de confiance consiste entourer dunintervalle(I, S)la valeur de lestimateur et affirmer plutt se trouve dans(I, S). On peut alors choisir Iet Sde telle sorte que la probabilit que cetteproposition soit vraie soit assez leve.

    Le but de lestimation par intervalle est de fournir la prcision duneestimation par un intervalle - lintervalle de confiance - auquel on peutassocier une probabilit fixe lavance de contenir la vraie valeur.

    UQM - Chapitre 1. Page 41 de 93

  • 7/25/2019 Chap01.5120

    42/93

    Dfinition: Un intervalle de confiance de niveau100(1 )% pour leparamtre est un intervalle alatoire de bornes I(X1, . . . , X n) et

    S(X1, . . . , X n) tel quePr

    (I, S) 1 . 0<

  • 7/25/2019 Chap01.5120

    43/93

    Intervalle de confiance pour

    Si X1, X2, . . . , X n sonti.i.d. Xde moyenne alors la distribution de estapproximativementN(, )par le thorme central limite.Pour construire un intervalle de confiance de niveau 100(1

    )%, il faut trouver

    lepoint critique suprieur z de la distribution normale standardtel que:

    P(Z z) = 2

    o Z N(0, 1) .

    En choisissant alors le point critique z(/2) de cette faon, on obtient

    Prz/2

    z/2 = 1 et les manipulations donnent

    Pr z/2 + z/2 = 1 donc lintervalle

    z/2 ; + z/2

    contient avec probabilit 100(1 )%o P(z(/2) Z z(/2)) = 1 .

    UQM - Chapitre 1. Page 43 de 93

  • 7/25/2019 Chap01.5120

    44/93

    Remarque 1:

    Lcart-type de lestimateur

    =

    V ar()est fonction de , disons

    (),

    alors si la solution des ingalits

    z/2

    () z/2

    savre trop complexe, on remplace

    () par

    ()et lintervalle est alors z/2() ; + z/2()

    Voir lexemple 1 la page 54 et lexemple 3 la page 58.

    UQM - Chapitre 1. Page 44 de 93

  • 7/25/2019 Chap01.5120

    45/93

    Remarque 2:

    Lintervalle de confiance nest pas unique. Dans lexemple prcdant il tait

    possible de poser Prz(3/4) z(/4) = 1 au dpart et dedduire lintervalle

    z(3/4) ; + z(/4)

    qui est unI.C.respectant la dfinition. Il est plus raisonnable de partager lerisque en deux parties gales mais non obligatoire.

    UQM - Chapitre 1. Page 45 de 93

  • 7/25/2019 Chap01.5120

    46/93

    Intervalle de confiance pour une moyenne

    On va considrer le cas dobservations provenant dune distribution F(x|, )o la variance est connue, un cas simple mais peu raliste. On fait a afin de seconcentrer sur le raisonnement derrire linfrence statistique.

    Si X1, X2, . . . , X n sonti.i.d. X N(, )alors X N(,/n).Si X1, X2, . . . , X n sonti.i.d. Xde moyenne et dcart type alors ladistribution de Xest approximativementN(,/n)par le thorme centrallimite.

    Un intervalle de confiance de niveau1 pour estx z/2

    n

    oz/2 est le point critique suprieur/2 de la distribution normale standard.

    Cet intervalle est exact si la distribution de la population est normale etapproximativement correct si nest grand dans les autres cas.

    UQM - Chapitre 1. Page 46 de 93

  • 7/25/2019 Chap01.5120

    47/93

    Remarque: I.C. pour la moyenne: cas de inconnu

    Soit X1, X2, . . . , X n i.i.d. F(x|, ). Alors lintervalle de confiance avec connu est bas sur le fait que:

    X /

    n

    N(0, 1) .

    Si est inconnu, il faut le remplacer par s, lcart type de lchantillon.

    Note: Lcart type de la distribution de Xest: X =/n. On lestime pars/

    n quon appelle lerreur standard(standard deviation vs standard error).

    UQM - Chapitre 1. Page 47 de 93

  • 7/25/2019 Chap01.5120

    48/93

    Considrons

    T = X

    s/

    n .

    On a vu que si nest grand, Tsuit approximativement une loiN(0, 1) . En fait,est distribu selon une distribution t avecn

    1 degrs de libert.

    Les ailes de ces distributions sont plus lourdes que celles de la normalestandard. Ceci implique que les quantiles suprieurs dune tn sont plusgrands que ceux duneN(0, 1).

    Une loi de Student est symtrique par rapport 0, sa moyenne est 0 et sa

    variance est n/(n 2)pour n >2.

    Un intervalle de confiance de niveau1 pour est:

    x t s

    no t, note aussi tn1;/2, est le point critique suprieur/2 dune t(n 1),soitP(T > t) =/2 oT t(n 1).

    UQM - Chapitre 1. Page 48 de 93

  • 7/25/2019 Chap01.5120

    49/93

    I.C. et la mthode de la fonction pivot

    Nous introduisons maintenant la mthode de la fonction pivot qui permet dersoudre la plus part des cas classiques de la construction des intervalles deconfiance.

    Dfinition: Une fonctionpv(X1, X2, Xn|) est appele fonction pivot si:1. la loi depv(X1, X2, Xn|) est connue et ne dpend pas de.

    2. pour tous rels u1 etu2 tels queu1 u2 et tout(x1, x2, xn), la doubleingalitu1 pv(x1, x2, xn|) u2

    peut se rsoudre ou pivoter en selon:

    t1(x1, x2, xn) t2(x1, x2, xn).

    UQM - Chapitre 1. Page 49 de 93

  • 7/25/2019 Chap01.5120

    50/93

    Lexistence dune fonction pivot assure une procdure dintervalle de confiancede niveau donne quelconque.

    En effet, il suffit de choisir, sur la loi connue, des quantiles u1 et u2 tels que:

    Pr u1 pv(x1, x2, xn| u2) = 1 puis de faire pivoterpour encadrer . Cest ce qui a t effectu pourlintervalle de confiance pour la moyenne inconnue pour une populationnormale de variance connue.

    UQM - Chapitre 1. Page 50 de 93

  • 7/25/2019 Chap01.5120

    51/93

    Exemple 1: Soient X1, X2, Xniid

    Exp(), la fonctionpv(X1, X2, Xn|) =X

    est un pivot.

    Exemple 2: Soient X1, X2, Xniid

    N(, ), si connu, la fonction

    pv(X1, X2, Xn|) = X /

    n

    est un pivot.

    Si est inconnu (voir le prochain chapitre), la fonction

    pv(X1, X2, Xn|) = X s/

    n

    et la fonction

    pv(X1, X2, Xn|) = S2

    2

    sont des pivots.

    UQM - Chapitre 1. Page 51 de 93

  • 7/25/2019 Chap01.5120

    52/93

    Un exemple

    Soit X1, X2, . . . , X n un chantillon de taille n dune population de fonction dedensit

    f(x) = 1

    x(1

    ) pour 0< x 0 .

    a. Montrer que Yi = ln(Xi)est de loi exponentielleb. Concluez que = 1

    n

    ni=1 ln(Xi)est un estimateur sans biais de

    c. Dterminer la variance ded. Si n= 1et la seule observation est X1 = 0, 25, dterminer un intervalle deconfiance 90% pour . (Considrez Y =Y1/ comme pivot).

    e. Soit Y =X(n). Montrer que Z=Yn/ est de loi uniforme sur (0; 1).

    Utiliser ce fait pour dterminer un intervalle de confiance 90% pour

    tant donn lchantillon suivant:0, 3 0, 5 0, 12 0, 15 0, 17 0, 21 0, 32 0, 45 0, 68 0, 78 0, 85

    UQM - Chapitre 1. Page 52 de 93

  • 7/25/2019 Chap01.5120

    53/93

    f. Utiliser le fait que = 111

    i=1 ln(1/Xi)est de loi gamma de paramtres= 11 et = 1 pour dterminer un intervalle de confiance 90% pour

    tant donn lchantillon ene. Voici quelques valeurs de la fonction derpartitionF(x)dune loi gamma de paramtres = 11 et = 1:

    x 0, 01 0, 05 0, 10 0, 15 0, 20 0, 80 0, 85 0, 90 0, 95 0, 99

    F(x) 4, 77 6, 17 7, 02 7, 64 8, 16 13, 65 14, 41 15, 41 16, 96 20, 14

    h. Utiliser le fait que

    = 1

    11i=1 ln(1/Xi)est peu prs de loi normale pour

    dterminer un intervalle de confiance 90% pour tant donnlchantillon ene.

    UQM - Chapitre 1. Page 53 de 93

  • 7/25/2019 Chap01.5120

    54/93

    Exemple 1: I.C. approximatif pour p dans une population binomiale

    On considre un caractre Xde loi Bin (1, p), on veut un I.C.pour leparamtrepbas sur un chantillon de taille n. On se base sur la statistique

    p= 1n ni=1 Xi cest--dire la proportion de succs observe dans lchantillon.On sait par leT.C.L.que

    n p p

    p (1 p) N(0, 1)

    On utilise la relation

    Pr

    z/2

    n p p

    p (1 p) z/2

    1

    UQM - Chapitre 1. Page 54 de 93

    t i lI C A i l ti bti t

  • 7/25/2019 Chap01.5120

    55/93

    pour construire lI.C.Aprs manipulations, on obtient

    Pr(p p)2p (1 p) n z

    2/2 1

    Pr

    (

    p p)2 n z2/2p (1 p)

    1

    Prp2 2pp +p2 n z2/2 p p2 0 1 Pr

    np2 2pn + z2/2p + n + z2/2p2 0 1 On a une quation du second degr qui est ngative lorsque pest entre les deuxracines puisque 2pn + z

    2/2

    est toujours positif. Les racines de cette quations

    sont

    r1 =

    1

    2

    n + z2/2

    2

    pn + z2/2+

    4

    pnz2

    /2+ z4

    /2 4z2

    /2n

    p2

    ,

    r2 = 12 n + z2/2

    2pn + z2/2 4pnz2/2+ z4/2 4z2/2np2

    UQM - Chapitre 1. Page 55 de 93

  • 7/25/2019 Chap01.5120

    56/93

    Cela veut dire que Pr(r1 p r2) 1 et lI.C.est

    p

    2

    pn + z2

    /2

    4

    pnz2

    /2(1

    p) + z4

    /2

    2n + z2/2

    Cet intervalle est assez difficile valuer mais on peut simplifier en utilisant lastatistique

    n

    p pp (1 p)

    qui est approximativement N(0, 1). LIC est alors donn par

    p

    p z/2

    p (1

    p)

    n

    UQM - Chapitre 1. Page 56 de 93

  • 7/25/2019 Chap01.5120

    57/93

    Exemple 2: Intervalle de confiance pour 2

    dans une population normale

    On utilise la statistique(n 1) S2

    2 2n1

    pour construire lIC. La relation de base est

    Pr

    2n1;1/2

    (n 1) S22

    2n1;/2

    = 1

    et lIC est

    2 (n 1) S22n1;/2

    ; (n 1) S22n1;1/2

    Remarque: La taille de lchantillon a une influence sur la longueur de

    lintervalle de confiance : si la taille augmente alors lI.C.

    a une longueur quidiminue. On appelle prcision la demi longueur de lintervalle de confiancelorsque ce dernier est symtrique par rapport la statistique. On utilise laprcision pour dterminer une taille dchantillon.

    UQM - Chapitre 1. Page 57 de 93

  • 7/25/2019 Chap01.5120

    58/93

    Exemple 3: I.C. approximatif pour dans une population dune variablealatoire poissonienne.

    Soit X1, X2, . . . , X n un chantillon de taille n dune population de fonction de

    probabilit p(x) = xe

    x!

    . En se basant sur la statistique = 1nni=1 Xi,E(X) =, V ar(X) =/n et enfin sur le pivot correspondant:Pr

    z/2

    X

    /n

    z/2 1 ,

    nous pivotons(!) pour dduire unI.C. 100(1 )%comme suit:1 = Pr[|X | z/2

    /n]

    = Pr

    (X )2 z2/2

    n= Pr

    2

    2X+ z2/2

    1

    n

    + X2 0

    UQM - Chapitre 1. Page 58 de 93

    soit encore

  • 7/25/2019 Chap01.5120

    59/93

    soit encore

    = Pr 2X+ z2/2 1n2X+ z2/2 1n

    2

    4X22

    = Pr X+ z2/22n z/22n z2/2+ 4nXqui donne comme I.C. 100(1 )% pour :

    x +z2/2

    2n z/2

    2n

    z2/2

    + 4nx .

    Une deuxime mthode alternative pour cet intervalle est, comme V ar() = n

    ,

    de lestimer parV ar() =n = Xn, ce qui dduit comme I.C. 100(1 )%pour:

    x z/2

    x

    n

    UQM - Chapitre 1. Page 59 de 93

    T t dh th

  • 7/25/2019 Chap01.5120

    60/93

    Tests dhypothses

    La thorie des tests dhypothses est quivalente celle de lestimation par intervallede confiance. Nous tentons de dcider si les donnes confirment ou contredisent uneopinion a priori concernant la valeur dun paramtre de la population. Voici desexemples:

    situation bernouillinne: Un organisme anticipe que la proportion p desindividus dune population(trs grande) possdant une certaine particularit(fumeurs. protestants. chmeurs etc) est suprieure 1/2, (ou une valeur p0dintrt particulier).

    situation poissonnienne: Un chercheur postule que le taux de ralisationdun vnement (nombre moyen de naissances par jour, nombre moyen decollisions par semaine, nombre moyen dappels par heure pour un servicetlphonique, etc) est infrieur 4 (ou une valeur 0 dintrt particulier).

    La valeur moyenne dun certain caractre X (poids, taille, temps dattente

    entre deux appels ou deux accidents) soumis des perturbations des auhazard est infrieure ou gale 0

    Une compagnie nonce que la dure moyenne de vie des pneus, dune certainemarque, est au moins 20,000 milles

    UQM - Chapitre 1. Page 60 de 93

  • 7/25/2019 Chap01.5120

    61/93

    Un agronome se demande si lemploi dun nouvel engrais produirait une rcoltede bl plus leve compare un engrais employ frquemment par des fermiers.

    Une compagnie dassurance veut sassurer, avant la mise en march dunenouvelle police dassurance, que les individus gs de 50 ans vivent en moyenne15 ans de plus.

    Une association de mdecins veut confirmer quune nouvelle piluleanticonception- nelle, mise en march par une compagnie pharmaceutique, estau moins scure 99%.

    Un chercheur prtend que la relation entre deux caractres X et Y est linairesauf pour une perturbation alatoire de moyenne zro et de variance 2:Y = + X +

    Une quipe de recherche postule quil ny a pas de diffrence significative entreles rcoltes moyennes de tabac par acre obtenues par quatre mthodes

    diffrente dirrigations utilises dans un pays; elle postule de plus quil ny apas dinteraction significative entre diffrents types dengrais et diffrents typedirrigation,

    UQM - Chapitre 1. Page 61 de 93

    Dfinitions:

  • 7/25/2019 Chap01.5120

    62/93

    fi

    Unehypothse statistiqueest un nonc (une affirmation) concernant lescaractristiques (valeurs des paramtres, forme de la distribution desobservations etc.) dune population.

    Un test dhypothse(ou test statistique) est une dmarche qui a pour but de

    fournir une rgle de dcision permettant, sur la base de rsultats dchantillon,de faire un choix entre deux hypothses statistiques.

    Lhypothseselon laquelle on fixe priori un paramtre de la population unevaleur particulire sappelle lhypothse nulleet est note H0. Le test est fait

    pour mesurer la force de linformation contreH0. Elle est habituellement sousla forme dun nonc reprsentant aucun effet ou aucune diffrence.

    Nimporte quelle autre hypothse qui diffre de lhypothse H0 sappellelhypothse alternative(ou contre-hypothse) et est note Ha. Lnonc

    reprsentant ce quon pense tre la ralit si H0 nest pas satisfaite.

    Note: Cest lhypothse nulle qui est soumise au test et toute la dmarche dutest seffectue en considrant cette hypothse comme vraie.

    UQM - Chapitre 1. Page 62 de 93

    Axiomatique: Nous traitons seulement de situations pour lesquelles une et une

  • 7/25/2019 Chap01.5120

    63/93

    seule des hypothses H0 et Ha est vraie. Par consquent le rejet de lhypothseH0 entrainerait implicitement lacceptation de Ha et vice versa.

    Problmatique et modlisation: Une vrification sans erreur dune hypothseconcernant une population est impossible moins quon observe la populationentire. Or nous cherchons une thorie rationnelle pour trouver de bons critres

    de dcision qui, dpendant dun nombre fini dobservations de la population,peuvent conduire aumeilleur choix possible entreH0 etHa.

    Nous supposons donc quil existe une caractristique numrique X, observablechez chaque lment de la population et que la rpartition de Xdpend dun

    paramtre, Xsuit une loi f(x|). Nous supposons aussi que lensemble Hdesvaleurs admissibles pour est connu, et la connaissance exacte de conduit la vraie hypothse H0 ou Ha. Donc nous postulons que le problme H0 versusHa divise lespace paramtrique en deux parties non vides H0 et Ha:

    H0Ha = HH0Ha = et H0 : H0Ha : Ha

    UQM - Chapitre 1. Page 63 de 93

    nonc du problme: Nous avons notre disposition une variable alatoire X

  • 7/25/2019 Chap01.5120

    64/93

    p pqui suit une loi f(x

    |)dont le paramtre est inconnu; on sait cependant que

    H. Nous avons deux hypothses complmentaires concernant la valeur :

    H0 : H0Ha : Ha

    .

    Comme exemple: on sintresse au taux de polluant dans la fabrication dunecomposante lectronique. Supposons que le taux acceptable est de 75 p.p.m.(parties par million), on sintresse au paramtre qui donne le taux moyen,lhypothse nulle est H0 : 75 et lalternative est Ha : >75.

    Nous avons donc choisir entre deux actions complmentaires: d0 :rejeter H0et d1 :rejeter H1. Pour guider notre choix nous observons nfois la variable X.Nous devons prendre soit laction d0 soit laction d1 en se basant surlchantillon alatoire X1, X2, . . . , X n.

    Le critre de la dcision: Par lexemple qui suit, nous tudions pas pas cecritre et nous dfinissons le langage correspondant.

    UQM - Chapitre 1. Page 64 de 93

    Exemple 1

  • 7/25/2019 Chap01.5120

    65/93

    Exemple 1.

    Un manufacturier de gouttes optomtriques met sur le march une nouvellesolution dans des bouteilles de 30 mlpour lesquelles il prtend quil y a enmoyenne 5ml dun certain produit chimiqueAdans chaque bouteille.Toutefois, on suspecte quil pourrait y avoir plus de 5 mlpar bouteille, ce quiserait dangereux pour les yeux. Par exprience du processus de fabrication, onsait que la quantit du produit chimique dans une bouteille de 30 mlestdistribue selon une loi normale de moyenne 5 ml(si on met la quantitannonce) et un cart type de 2,1 ml. Si on en met trop, alors la moyenne

    devrait tre plus grande que 5 ml.

    On prend donc un chantillon de 15 bouteilles et on mesure la quantit duproduit chimiqueAdans chacune dentre elles. On obtient la quantit moyennede produit chimique pour les 15 bouteilles: x= 6, 2. Est ce une indicationsuffisante quon met une trop grande quantit du produit chimiqueAdans lesbouteilles?

    UQM - Chapitre 1. Page 65 de 93

    Suite

  • 7/25/2019 Chap01.5120

    66/93

    Suite...

    Question: Si on met la bonne quantit, alors = 5 ml. Quelle est laprobabilit que la moyenne de 15 observations sous cette hypothse donne unrsultat au moins aussi lev que la valeur observe, soit 6,2 ml?

    Rponse(voir la page 10 ci-dessous): Si on met vraiment 5 ml par bouteille enmoyenne, alors la probabilit est de 0,013.

    Conclusion: Puisque cette probabilit est faible (en moyenne 1,3% deschantillons de taille 15 donneraient des rsultats plus levs que a si onmettait5 mlpar bouteille) on a une bonne indication que le manufacturier metune trop grande quantit du produit chimique

    A.

    UQM - Chapitre 1. Page 66 de 93

  • 7/25/2019 Chap01.5120

    67/93

    Notes: Nous savions lavance(avant de voir les donnes) que sil tait pour y

    avoir un problme, alors >5. Si la moyenne tait moins que 5, ce neserait pas dangereux pour les yeux.

    Le test est bas sur une statistique qui estime le paramtre dans H0.LorsqueH0 est vraie, on sattend ce que la valeur de lestimateur soitproche de celle spcifie par H0.

    Des valeurs estimes loignes de la valeur du paramtre dans H0 sont uneindication lencontre de H0. Lhypothse alternative dtermine ladirection qui va lencontre de H0.

    Les hypothses sont donc:

    H0 : 5. Cest la quantit indique sur ltiquette.Ha : >5. Ce quon pense tre la ralit siH0 nest pas satisfaite

    UQM - Chapitre 1. Page 67 de 93

    Seuil de signification empirique

  • 7/25/2019 Chap01.5120

    68/93

    Seuil de signification empirique

    La probabilit,calcule en faisant lhypothse queH0 soit vraie, que lastatistique de test est au moins aussi extrme que la valeur observe sappelle leseuil de signification empiriquedu test ouP-valeur.

    Plus cette valeur est petite, moins H0 semble plausible la lumire des donnes.

    Exemple du produit chimique: Soit X1, X2 Xn i.i.d.N(, = 2.1). Nousobservonsx = 6, 2.

    H0 := 5 v.s. H a : > 5La P-valeurdu test est donc

    P(X 6.2|H0 : = 5) = P

    X 0/

    n

    6.2 52.1/

    15

    = P(Z

    2.22)

    = 0, 0132

    o la variable alatoire Z=

    n(X 0)/ est de loi normale standard, du fait quela loi de la statistique du test, X, est une loi normaleN(x = 5, x = 2.1/

    15).

    UQM - Chapitre 1. Page 68 de 93

    Signification statistique

  • 7/25/2019 Chap01.5120

    69/93

    S g fi q

    Dans notre dmarche, nous allons tablir des rgles de dcision qui vont nousconduire lacceptation ou au rejet de lhypothse nulle H0. Toutefois cettedcision est fonde sur une information partielle, les rsultats dun chantillon.Il est donc statistiquement impossible de prendre la bonne dcision coup sr.

    En pratique, on met en oeuvre une dmarche qui nous permettrait, longterme de rejeter tort une hypothse nulle vraie dans une faible proportion decas. La conclusion qui sera dduite des rsultats de lchantillon aura uncaractre probabiliste: on ne pourra prendre une dcision quen ayantconscience quil y a un certain risque quelle soit errone. Ce risque nous estdonn parle seuil de signification du test.

    Le seuil de signification du test est la mesure statistique qui indique laprobabilit avec laquelle on est dispos risquer de commettre lerreur derejeter tort lhypothse nulle.

    Ce risque, consenti donc lavance et que nous notons , snonce enprobabilit ainsi:

    =P(rejeter H0| H0 vraie) .

    UQM - Chapitre 1. Page 69 de 93

    Rgion critique

  • 7/25/2019 Chap01.5120

    70/93

    g q

    Aprs avoir tablir lhypothse nulle, le seuil de signification du test , lanature de la statistique (ou de la variable observe Xde la population) utiliser, il sagit maintenant de determiner la (ou les ) valeur(s) critique(s) de lastatistique du test. Il peut y avoir une ou deux de ces valeurs selon le test est

    unilatral ou bilatral. Cest cette valeur critique qui donne(nt) la valeur de lavariable statistique partir de laquelle on rejettera lhypothse nulle.

    Largion critique(appele galement rgion de rejet) dun test est lensembledes valeurs de lchantillon pour lesquels on rejette lhypothse nulle, on dit

    que cest la rgion de rejet de lhypothse nulle associ au test statistique.Laire de cette rgion correspond la probabilit . Si par exemple, on choisit= 0.05, cela signifie que lon admet davance que la variable dchantillonnagepeut prendre, dans 5% des cas, une valeur se situant dans la zone de rejet deH0, bien que H0 soit vraie et ceci uniquement daprs le hasard de

    lchantillonnage.

    Sur la distribution dchantillonnage correspondra aussi une rgioncomplmentaire, dite rgion dacceptationde H0 (ou rgion de non-rejet) deprobabilit 1 .

    UQM - Chapitre 1. Page 70 de 93

    Dans lexemple de produit chimique et sous lhypothse H0, la loi de lastatistique du test X est une loi normale ( = 5 = 2 1/

    15)

  • 7/25/2019 Chap01.5120

    71/93

    statistique du test, X, est une loi normale

    N(x = 5, x = 2.1/

    15).

    Schma de dcision: Il sagit de reprsenter graphiquement le seuil designification du test et la rgion de rejet de H0 et de dterminer la valeurcritique pour X sous H0:

    la rgion de rejet de lhypothse H0 au seuil de risque 5% est [5, 891; +[.

    UQM - Chapitre 1. Page 71 de 93

  • 7/25/2019 Chap01.5120

    72/93

    Exemple 3.

  • 7/25/2019 Chap01.5120

    73/93

    Un standardiste prtend quil reoit en moyenne 2 appels par minutes. Lepatron voudrait dmontrer que le nombre dappels par minute est infrieur 2.Pour ce faire, il procde de la faon (peu recommandable) suivante. unmoment alatoire de la journe, il entre chez le standardiste et attend larrivedu prochain appel. Il note son temps dattente: 3 minutes. A-t-il lvidencequil faut pour dclarer que le nombre moyen dappels est infrieur 2?Formulez une hypothse et une alternative et trouver une rgion critique detaille = 0, 05?.

    Solution: Soit X le temps dattente. On suppose que X Exp(). Soit lenombre moyen dappels par minute. On veut tester H0 := 2contreHa : 1/2. On rejetteH0 si{X C}o Cdoit satisfaire P(X C| = 1/2) = 0, 05.

    P(X C| = 12

    ) =exp(2C) = 0, 05 C= 12

    ln(0, 05) = 1, 479.

    Donc on rejette H0 si X 1, 479. Puisque X= 3, 5% de risque derreur, onrejette H0 et on conclut que

  • 7/25/2019 Chap01.5120

    74/93

    Test pour le paramtre dune variable de loi de Poisson: Un dfaut dans lafabrication des bouteilles se prsente sous la forme de minuscules bulles dans leverre. Le nombre moyen de bulles dans le verre des bouteilles fabriques par

    une certaine compagnie est sens tre de 3 par bouteille si le processus est bienrgl. On dcide de prlever une bouteille au hasard pour tester lhypothseque le procd est bien rgl, cest--dire, H0 := 3. Si la bouteille contient 8bulles, doit-on rejeter H0 5% de risque derreur?

    Solution: Si limportant est de dtecter un procd pour lequel est tropgrand, cest dire si on pose Ha : >3, on rejettera alors H0 := 3 lorsqueX Co Xest le nombre de boules dans une bouteille et Cdoit satisfaire laP(X C| H0 := 3) 5%.

    UQM - Chapitre 1. Page 74 de 93

  • 7/25/2019 Chap01.5120

    75/93

    On calcule donc P(X C| = 3)pour diverses valeurs de C, jusqu ce quontrouve la plus petite valeur qui satisfait P(X C| = 3) 5%(la loi deXest uneP(= 3)).

    C 5 6 7 8 9 10P(X C| = 3) 0,1847 0,0839 0,0335 0,0119 0,0038 0,0011

    On choisira donc comme point critique C= 7 et la rgion critique est{X 7}(la taille de cette rgion critique est 0,0335). La rgion critique{X 6}neserait pas acceptable car

    P(X 6|= 3) = 0, 0839 0, 05 .

    X= 8 se trouve dans le rgion critique, on doit alors rejeter H0 5% de risquederreur.

    UQM - Chapitre 1. Page 75 de 93

  • 7/25/2019 Chap01.5120

    76/93

    Une faon moins onreuse deffectuer ce test consiste dterminer laP-valeurau point X = 8, sans ncessairement dterminer le point critique. On a trouvque P(X 8|= 3) = 0, 0119; et puisque P-valeur< 0,05, on rejette alors cetest 5% derreur (voir le graphique suivant.)

    UQM - Chapitre 1. Page 76 de 93

    Remarques...

  • 7/25/2019 Chap01.5120

    77/93

    1. Les seuils de signification les plus utilises sont = 0.05 et = 0.01, dpendantdes consequences de rejeter tort lhypothse H0.

    2. La P-valeurest le plus petit niveau auquel les donnes sont significatives.

    3. La P-valeurcontient plus dinformation que le rsultat dun test avec niveaude signification fixe. Si un rsultat est significatif au niveau 5%, lest-il auniveau 1%?

    4. Si la P-valeurest infrieure ou gale , le rsultat du test est considrestatistiquement significative au niveau .

    5. Un test dhypothse bilatral de niveau rejette lhypothse H0 : =0 si etseulement si lintervalle de confiance de niveau 1 pour ne contient pas .

    6. tapes dun test

    noncer les hypothses nulle et alternative.

    (Optionnel) Spcifier le niveau de signification.

    Calculer la valeur de la statistique de test.

    Calculer la P-valeurpour les donnes observes. Si elle est plus petite que, le rsultat est significatif au niveau .

    UQM - Chapitre 1. Page 77 de 93

    Test dhypothses et dcision

  • 7/25/2019 Chap01.5120

    78/93

    Lorsquon confronte deux hypothses statistiques laide dun test, on doitconsidrer quil y a la ralit (la valeur relle du paramtre) et la dcision quiest prise. Cela mne deux types derreurs:

    Si lhypothse H0 est fausse, on aimerait rejeter H0 le plus souvent possible. Laprobabilit quun test de niveau fixe rejette H0 lorsquune alternativeparticulire est vraie sappelle la puissance du test envers cette alternative.

    La probabilit dune erreur de type Iest le niveau de signification et laprobabilit dune erreur de type II, note aussi par , pour une alternativeparticulire est 1 moins sa puissance.

    UQM - Chapitre 1. Page 78 de 93

    Dans lexemple de produit chimique: Les hypotheses confronter taient

  • 7/25/2019 Chap01.5120

    79/93

    p p q yp

    H0 := 5versus Ha : >5. Supposons quon veut calculer la puissance duntest de niveau 5% pour lalternative Ha := 5, 5.Puisquon fait le test auniveau 5% et que P(Z >1, 645) = 0, 05, alors on rejette H0 lorsque

    X

    5.89, (la rgion critique)

    cest dire P(X 5, 89|H0) = 0, 05 .

    Lapuissance du testest donc

    P(X 5, 89|Ha := 5, 5) = P( X 5, 52.1/

    15

    5, 89 5, 52.1/

    15

    )

    = P(Z 0, 904)= 0, 1736 .

    UQM - Chapitre 1. Page 79 de 93

    Illustration

  • 7/25/2019 Chap01.5120

    80/93

    Densit de la moyenne sous H0 et Ha

    UQM - Chapitre 1. Page 80 de 93

    Remarques

  • 7/25/2019 Chap01.5120

    81/93

    Le risque de premire espce est choisi priori. Toutefois le risque dedeuxime espce dpend de lhypothse alternative Ha et on ne peut lecalculer que si on spcifie des valeurs particulires du paramtre danslhypothse Ha que lon suppose vraie.

    Pour un mme risque et une mme taille dchantillon n, on constateque, si lcart entre la valeur du paramtre pose en H0 et celle supposedans lhypothse vraie Ha augmente, le risque diminue.

    Une rduction du risque de premire espce (de = 0.05 = 0.01parexemple) largit la zone dacceptation de H0. Toutefois, le test estaccompagne dune augmentation du risque de deuxime espce . On nepeut donc diminuer lun des risques quen consentant augmenter lautre.

    Pour une valeur fixe de et un dtermin, laugmentation de la tailledchantillon aura pour effet de donner une meilleure prcision puisqueX =/

    n diminue. La zone dacceptation de H0 sera alors plus

    restreinte, conduisant une diminution du risque . Le test est alors pluspuissant.

    UQM - Chapitre 1. Page 81 de 93

  • 7/25/2019 Chap01.5120

    82/93

    Plus lhypothse alternative sloigne de H0, plus la puissance augmente.Si tout le reste demeure fixe, on peut augmenter la puissance dun test enaugmentant la taille de lchantillon.

    Considrons lexemple prcdent, on a vu quon rejet H0 := 5 lorsque

    X 5 + 1, 645 2.1/15ou de faon gnrale si X 0+ z /npourun test unilatrale droite de niveau : H0 :=0 v.s. H a : > 0.

    La puissance pour Ha :=a devient

    (a) = PX 0+ z /

    n |

    Ha := a= P

    X a/

    n

    0+ z /

    n a/

    n

    = PZ z+0 a

    /n Cette fonction de puissance (a)( cest aussi1 (a) ) est unefonction croissante en a > m0 et en net dcroissante en .

    UQM - Chapitre 1. Page 82 de 93

    Exemple 2.

  • 7/25/2019 Chap01.5120

    83/93

    Pour tester lhypothse H0 :p= 0, 4. On prlve des observations une unejusqu ce quon ait un succs. Soit Xle nombre dessais effectus.

    a. Montrer que X

    6est une rgion critique de niveau 10% .

    Solution: X G(p) etP(X 6|p= 0, 4) = (1 0, 4)5 = 0, 077760, 10.

    La rgion critique{X 5} ne serait pas acceptable car

    P(X 5|p = 0, 4) = (1 0, 4)4

    = 0, 12960, 10 .

    b. Dterminer la puissance de ce test au point p= 0, 3.

    Solution: La fonction de puissance est

    (pa) =P(X 6|p=pa) = (1 pa)5.

    au point pa = 0, 3, la puissance du test est: (0, 3) = 0, 16807.

    UQM - Chapitre 1. Page 83 de 93

    c. Une autre approche consiste tirer des observations jusqu ce quon aitdeux succs. Si Yest le nombre dessais effectu considrons la rgion

  • 7/25/2019 Chap01.5120

    84/93

    critique{Y :Y > C}. Pour quelle valeur de Ca-t-on un test de niveau10%? Dterminez la puissance de ce test au point p= 0, 3. Lequel desdeux tests est meilleur?

    Solution: Ici X BN(n = 2, p= 0, 4) et on cherche P(X C|p = 0, 4), orcette probabilit est la mme que la probabilit que les

    C premiers essais

    donnent 0 ou 1 succs: cest dire: P(Y < 2|p= 0, 4) oY B(n=C, p = 0, 4). Soit alors

    P(X C|p=p0) =C

    0

    p00(1 p0)C +

    C1

    p10(1 p0)C1

    Partant de petites valeurs de C, on sarrte la premire pour laquelle 0, 10. On trouve que P(X > 8|p = 0, 4) = 0, 106 etP(X > 9|p= 0, 4) = 0, 0705. La rgion critique sera donc{Y >9}.

    La fonction de puissance est

    (pa) = P(X > 9

    |p= pa)

    = (1 pa)9 + 9pa(1 pa)8

    = 0, 196 pour pa = 0, 3

    Ce deuxime test est nettement plus puissant.

    UQM - Chapitre 1. Page 84 de 93

  • 7/25/2019 Chap01.5120

    85/93

    d. Une troisime approche consiste choisir un nombre fixe dobservations.Supposons quon prlve un chantillon de taille n= 13. Si Zest lenombre de succs, considrons la rgion critique{z :z C}. Pour quellevaleur de Ca-t-on un test de niveau 10%? Comment ce test compare-t-ilaux deux premiers?

    Solution: Z B(n= 13;p), et

    P(Z 3|p = 0, 4) = 0, 169 et P(Z 2|p= 0, 4) = 0, 057 .

    La rgion critique sera donc{Z 9}. De mme, la puissance du test aupoint p= 0, 3 est

    (0, 3) = P(Z 2|p= 0, 3)

    =13

    0

    (0, 3)0(0, 7)13 +

    131

    (0, 3)1(0, 7)12 +

    132

    (0, 3)2(0, 7)11

    = 0, 202 .

    Puissance suprieure encore celle des deux premiers, malgr une rgion

    critique de taille infrieure.

    UQM - Chapitre 1. Page 85 de 93

  • 7/25/2019 Chap01.5120

    86/93

    e. Remarquez quavec le test en (a), il ne sera jamais ncessaire de traiterplus de 5 patients. Ainsi la comparaison avec le test en (d) qui utilise 13patients, est injuste. Reprenez le test avec n= 5.

    Solution: Soit W le nombre de succs en 5 essais. On rejette H0 si

    {W0}; la taille de cette rgion critique estP(W 0|p = 0, 4) = (1 p)5 = (1 0, 4)5 = 0, 07776 .

    La fonction de puissance est (p) = (1 p)5. Soit (0, 3) = 0, 16807 . Ce testest donc identique au premier.

    UQM - Chapitre 1. Page 86 de 93

    Test pourdune normale avec connue

  • 7/25/2019 Chap01.5120

    87/93

    Soit X1, X2, . . . , X n i.i.d.N(, )avec lcart type connu. Considronslhypothse nulle

    H0 :=0 .

    Sous cette hypothse, X N(0, /n), lavaleur de la statistique de testestz =

    x 0/

    n

    (1)

    et Za une distribution normale standard. Donc la P-valeurde H0 v.s.

    Ha : > 0 est P(Z > z)

    Ha : < 0 est P(Z < z)

    Ha : =0 est 2P(Z > |z|)

    o Z N(0, 1)et z est donne par (1).CesP-valeurssont exactes si les Xi sont normales et approximativementcorrectes lorsque nest grand si la loi des Xi nest pas normale.

    UQM - Chapitre 1. Page 87 de 93

    Exemple

  • 7/25/2019 Chap01.5120

    88/93

    Le National Center for Health Statistics rapporte que la moyenne de la pressionsystolique pour les cadres masculins de 35-44 ans est de 128 avec un cart typede 15. Le directeur mdical dune compagnie se rend compte que pour les 72

    cadres dans ce groupe dge de sa compagnie, x= 126, 07. Est-ce suffisant pourconclure que la pression artrielle systolique moyenne dans la compagnie diffrede la moyenne nationale?

    Les hypothses sont H0 := 128 versus Ha : = 128. La statistique de test apour valeur

    z = x 0

    /

    n =

    126, 07 12815/

    72

    = 1, 09 .

    LaP-valeurest 2P(Z > | 1, 09|) = 0, 2758, donc on na pas beaucoupdinformation lencontre de H0

    Note: Les donnes ne dmontrent pas que la moyenne est de 128. Tout au plus,on peut dire que les donnes ne contredisent pas H0. Mais on na pas dmontrque H0 est vraie.

    UQM - Chapitre 1. Page 88 de 93

    Test avec niveau de signification fixe

  • 7/25/2019 Chap01.5120

    89/93

    LaP-valeurde certains tests nest pas toujours facile calculer. Parfois ondtermine lavance leniveau de signification. Pour ce faire, on doit dterminerlargion critique, soit les valeurs de Zpour lesquelles on va rejeter H0.

    Pour tester H0 :=0 lorsque X1, X2, . . . , X n i.i.d.N(, )avec lcarttype connu, on calcule la valeur de la statistique de test

    z = x 0

    /

    n .

    On rejette H0 auniveau de signification contre lhypothse unilatrale

    Ha : > 0 si z > z

    ou Ha : < 0 si z < z

    o z est le point critique suprieur de niveau .Si lalternative est bilatrale, Ha : =0, alors on rejette H0 lorsque|z| > z/2 o z/2 est le point critique suprieur de niveau /2.

    UQM - Chapitre 1. Page 89 de 93

    Exemple

  • 7/25/2019 Chap01.5120

    90/93

    Test SAT dadmission luniversit. Le pointage typique la partie mathmatiquede cet examen est habituellement de 475. La distribution du pointage est normaleavec un cart type de 100. Mais comme ce nest quune minorit des finissants dusecondaire qui font lexamen, quelquun fait le commentaire suivant: Si tous les

    finissants du secondaire faisaient lexamen, la moyenne ne dpasserait pas 450.Afin de vrifier cette hypothse, on fait une exprience. On prend un E.A.S. de 500finissants de la Californie et la moyenne de leur pointage est de x = 461. Y a-t-ilsuffisamment dvidence pour rejeter lhypothse que la moyenne ne dpasse pas450?

    On fait le test au niveau 1%. Les hypothses sont H0 := 450 versus Ha : > 450.On obtient

    z = x 0

    /

    n=

    461 450100/

    500

    = 2, 46 .

    Parce que lhypothse Ha est unilatrale, on rejette H0 si z est suprieur au point

    critique. Puisque P(Z >2, 326) = 0.01, dans notre cas, z = 2, 46> 2, 326et onrejette alors H0 au niveau 1%.

    Notez que la P-valeurest P(Z > 2, 326) = 0, 0069

  • 7/25/2019 Chap01.5120

    91/93

    Soit X1, X2, . . . , X n i.i.d.N(, )avec lcart type inconnu. Considronslhypothse nulle

    H0 :=0 .

    Sous cette hypothse, T = n(X 0)/s t(n 1), lavaleur de la statistiquede testest

    t= x 0

    s/

    n . (2)

    Donc laP-valeurde H0 v.s.

    Ha : > 0 est P(T > t)

    Ha : < 0 est P(T < t)

    Ha : =0 est 2P(T > |t|)

    o T t(n 1)et test donne par (2).CesP-valeurssont exactes si les Xi sont normales et approximativementcorrectes lorsque nest grand si la loi des Xi nest pas normale.

    UQM - Chapitre 1. Page 91 de 93

    Test avec niveau de signification fixe

  • 7/25/2019 Chap01.5120

    92/93

    Si on dtermine lavance le niveau de signification, on dtermine alors largion critique, soit les valeurs de T o T t(n 1)pour lesquelles on varejeter H0.

    Pour tester H0 :=0 lorsque X1, X2, . . . , X n i.i.d.N(, )avec lcarttype inconnu, on calcule la valeur de la statistique de test

    t= x 0

    s/

    n .

    On rejette H0 auniveau de signification contre lhypothse unilatrale

    Ha : > 0 si t > t

    ou Ha : < 0 si t < t

    o t est le point critique suprieur de niveau dune t(n 1).Si lalternative est bilatrale, Ha : =0, alors on rejette H0 lorsque|t| > t/2o t/2 est le point critique suprieur de niveau /2.

    UQM - Chapitre 1. Page 92 de 93

    Test pour une proportion

  • 7/25/2019 Chap01.5120

    93/93

    Soitpla proportion de succs dans un E.A.S.de taille ndune population o laprobabilit de succs est p(ou encore X B(n, p)etp=X/n). On a vu dansun des chapitres que si n est grand, la distribution de

    pest approximativement

    N(p,p(1 p)/n).

    Pour faire de linfrence, on a besoin destimer lcart type. Pour testerH0 :p=p0, on peut alors utiliser

    p0(1 p0)/n(puisque si p=p0 alors

    V ar(

    p) =p(1 p)/n =p0(1 p0)/n). La statistique du test est:

    Z= p p0p0(1 p0)/n (3)LaP-valeurapproximative de H0 v.s.

    Ha : p > p0 est P(Z > z)

    Ha : p < p0 est P(Z < z)

    Ha : p =p0 est 2P(Z > |z|)o Z N(0, 1)et z est donne par (3).

    UQM - Chapitre 1. Page 93 de 93