Cours VETE0432-4Distributions théoriques
F. Farnir – A. Rives – L. Massart
Faculté de Médecine Vétérinaire
Université de Liège
Vue synoptique du cours
1. Récolte de données Quoi ? Combien ? Comment ?
2. Représentation des données Tables, graphiques, paramètres synthétiques
3. Calcul de probabilités Simples, conjointes, conditionnelles,
marginales
4. Distributions Bernoulli, binomiale, hypergéométrique,
Poisson, uniforme, normale, χ²
Existe-t-il des calculs théoriques de distributions ?
Partons d’une situation simple: un événement pour lequel seules deux issues sont possibles.
Exemples: mâle (0) ou femelle (1), mort (0) ou vivant (1), malade (0) ou sain (1).
Une variable aléatoire X, représentant un tel événement, ne peut prendre que deuxvaleurs, 0 ou 1. On parle de variable de Bernoulli.
Quelle est la distribution d’une variable de Bernoulli ?
La distribution d’une variable de Bernoulli peut s’écrire:
θ est un paramètre, représentant la proba que X = 1
Exemple: si la prévalence d’une maladie est 0.2, X représente l’expérience aléatoire consistant à prélever un individu dans la population. L’événement aléatoire « choix d’un individu sain (malade) » correspond à X = 0 (1).
( ) XXX
−−= 11)Pr( θθ
Et si on répète l’expérience aléatoire ?
Si on fait n fois l’expérience aléatoire, une question est: combien de fois l’événement aléatoire a-t-il eu lieu ?
Exemple: si je prélève n=5 individus, combien d’individus malades vais-je avoir ?
Théoriquement, je peux avoir entre 0 et n fois l’événement qui m’intéresse, chaque valeur possible ayant une certaine probabilité (à déterminer). On représente ce nombre de réalisations par une variable aléatoire, notée r.
Comment calculer la distribution de r ?
Repartons de l’exemple des n = 5 individus prélevés dans une population où la prévalence d’une maladie est π = 0.2
On peut représenter tous les cas de figure pouvant se présenter lors d’une expérience de ce type (soit, prélever 5 individus dans une population binaire)
Quels sont tous les cas possibles dans l’expérience ?
Sain Malade
Comment calculer la probabilité d’avoir 0 malade ?
On a fait les hypothèses que:
Les tirages successifs sont indépendants
La prévalence reste constante de tirage en tirage (on parle de tirage avec remise).
�� � � 0|�, � � 1 � � � 1 0.2 � � 0.328
Comment calculer la probabilité d’avoir 1 malade ?
9
�� � � 1|�, � � 5 ∗ �� ∗ 1 � ��� � 5 ∗ 0.2 ∗ 0.8� � 0.410
Comment calculer la probabilité d’avoir 2 malades ?
�� � � 2|�, � � 10 ∗ �� ∗ 1 � ���� 10 ∗ 0.2� ∗ 0.8� � 0.205
Comment calculer la probabilité d’avoir r malades ?
Dans chaque situation, il y aura r malades et (n - r) sains. La probabilité de chaque situation est donc:
Combien de situations (mutuellement exclusives) y a-t-il ?
�� ∗ 1 � ���
��� � �!�! ∗ � � !
Comment calculer la probabilité d’avoir r malades ?
En sommant (probabilités totales), on obtient la probabilité globale d’avoir r malades:
Cette distribution de r comporte donc deux paramètres n et π. Elle s’appelle « distribution binomiale »
�� �|�, � � ��� ∗ �� ∗ 1 � ���
Calcul des combinaisons
Réaliser r fois l’événement étudié en n essais revient à réaliser (r-1) fois l’événement lors des (n-1) premiers essais puis le réaliser encore au dernier essai, ou à le réaliser r fois lors des (n-1) premiers essais et ne pas le réaliser lors du dernier essai. Par conséquent:
��� � ������� � ����� Par ailleurs, il est évident que:
��� � ��� � 1
Triangle de Pascal
D’où, la disposition pratique du triangle de Pascal
n�0n�1n�2n�3
n-1n
r�0 r�1 r�2 r�3 r�n-1 r�n
Calculs avec la distribution binomiale dans R
Fonctions binomiales de R
dbinom(x,size=n,prob=p)
donne la probabilité de B(r = x | n,p)
Exemple : si la probabilité d ’une affection est de 0.2, quelle est la probabilité d ’avoir exactement 2 atteints parmi 10 animaux ?
> dbinom(2,size=10,prob=0.2)
[1] 0.3019899
Calculs avec la distribution binomiale dans R
Fonctions binomiales de R
pbinom(x,size=n,prob=p)
donne la probabilité cumulée B(r <= x | n,p)
Exemple : si la probabilité d ’une affection est de 0.2, quelle est la probabilité d ’avoir jusqu’à 2 atteints parmi 10 animaux ?
> pbinom(2,size=10,prob=0.2)
[1] 0.6777995
Calculs avec la distribution binomiale dans R
Fonctions binomiales de R
qbinom(q,size=n,prob=p)
donne la valeur de x: B(r <= x | n,p) = q
Exemple : si la probabilité d ’une affection est de 0.2, à combien d’atteints maximum doit on s’attendre avec une probabilité de 0.8 parmi 10 animaux ?
> qbinom(0.8,size=10,prob=0.2)
[1] 3
> pbinom(3,size=10,prob=0.2)
[1] 0.8791261
Calculs avec la distribution binomiale dans R
Fonctions binomiales de R
rbinom(v,size=n,prob=p)
tire v valeurs de x dans B(r | n,p)
Exemple : simulez le nombre de malades obtenus dans 20 échantillons si la probabilité d ’une affection est de 0.2 et qu’on échantillonne parmi 10 animaux ?
> rbinom(20,size=10,prob=0.2)
[1] 2 2 4 2 1 3 3 2 1 1 1 2 2 1 1
[16] 4 1 3 2 3
Représentation graphique d’une distribution binomiale.
Représentons la distribution binomiale ayant pour paramètres n = 50 et p = 0.3 (par exemple)
> r<-0:50
> pr<-dbinom(r,size=50,prob=0.3)
> plot(r,pr,main=ʺBinomiale(r=50,p=0.3)ʺ,
+ type= ʺhʺ)
Représentation graphique d’une distribution binomiale.
Représentons la distribution binomiale ayant pour paramètres n = 50 et p = 0.3 (par exemple)
Utilisation d’une distribution binomiale.
Exemple : si une affection est présente dans une population avec une fréquence de 0.02, combien d ’animaux dois-je examiner pour être sûr à 99% de détecter l ’affection ?
r Pr(r)
0 Pr(0)
1 Pr(1)
n Pr(n)
Détection
� ! � 1 � "! � 1 � � � 0
Utilisation d’une distribution binomiale.
Exemple (suite) :
> log(1-0.99)/log(1-0.02)
[1] 227.9482
Réponse: on choisit n pour que la probabilité de non-détection (c’est-à-dire Pr(r=0)) soit 1%:
1 � � # 1 0.99⇒ � ∗ &'( 1 � # &'( 1 0.99
La moyenne et la vraince sont les espérances mathématiques de r et de (r - µr)², respectivement.
On peut les calculer puisque toutes les valeurs de r et les probabilités associées sont connues.
Paramètres d’une binomiale
Calcul avec R
> n<-50 # Par exemple
> p<-0.3 # Par exemple
> r<-0:n
> pr<-dbinom(r,size=n,prob=p)
> mu<-sum(r*pr)
> var<-sum((r-mu)**2*pr)
> cat(“mu = “,mu,”\n”)
mu = 15
> cat(“var = “,var,”\n”)
var = 10.5
Paramètres d’une binomiale
La distribution binomiale se généralise à des situations avec k issues (distribution polynomiale)
Que faire si j’ai plus de deux issues dans mon expérience ?
�� ��, ��, … , �*|��, ��, … , �* , � � �!��! ��! … �*! ∗ ���+ ∗ ���, ∗ ⋯ ∗ �*�.
/ �**
01�� � / �*
*
01�� 1
Exemple: s’il y a 20% de labradors chocolats, 30% de noirs et 50% de dorés, quelle est la probabilité d’avoir 5 dorés et 5 chocolats dans un échantillon de taille 10 ?
Un exemple
Solution: calcul « trinomial »
�� 5,0,5|0.2,0.3,0.5,10 � 10!5! 0! 5! ∗ 0.2� ∗ 0.3� ∗ 0.5�
> r<-c(5,0,5)
> p<-c(0.2,0.3,0.5)
> dmultinom(r,size=10,prob=p)
[1] 0.00252
Exemple: 60% des labradors sont dorés, 30% sont noirs et 10% sont chocolat. Si on prend 10 labradors au hasard, quelle est la composition la plus probable en termes de robes ?
Solution: voir les dias suivantes
Un exemple (cfr cours de math)
> n<-10
> p<-c(0.6,0.3,0.1)
> maxpr<-0
> for (d in 0:n) {
+ for (b in 0:(n-d)) {
+ c<-n-d-b
+ pr<-dmultinom(c(d,b,c),size=n,prob<-p)
+ if (pr>maxpr) {
+ maxpr<-pr
+ maxd<-d;maxb<-b;maxc<-c
+ }
+ }
+ }
> cat("Dores: ",maxd,", Noirs: ",maxb,", Chocolat: ",maxc,"\n")
Dores: 6 , Noirs: 3 , Chocolat: 1
> cat("Proba maximale: ",maxpr,"\n")
Proba maximale: 0.1058158
La mortalité, mesurée sur une longue période dans un exploitation aquacole, est de 1.2 poissons/jour en moyenne (soit, 6 poissons tous les 5 jours). Dans ces conditions, quelle est la probabilité d’avoir 3 poissons morts la même journée ?
Réponse: lorsque la variable aléatoire correspond à un nombre d’événements/unité (de temps, d’espace, …), on utilise la « loi de Poisson »
Un autre cas de figure
Loi de Poisson
Il s’agit d’une loi avec un seul paramètre (µ). La variable aléatoire k (= # de fois que l’événement se produit) peut prendre n’importe quelle valeur entière positive ou nulle.
Propriétés:
P 3|4 � 5�6 ∗ 4*3!
4 � 7 3 8� � 7 3 4 � � 4
Exemple: revenons au problème sur la mortalité. On sait que 4 � 1.2 et on demande � 3 � 3 ?
Solution:
Solution avec R:
Un exemple
� 3 � 3|4 � 1.2 � 5��.� ∗ 1.2�3! � 0.0867
> # La moyenne est fourni par l’argument lambda
> dpois(3,lambda=1.2)
[1] 0.08674393
Un autre exemple en bactériologie
Dilution 0 ([X])20 tubes avec bactéries
…
Dilution k ([X]*10-k):17 tubes avec bactéries
Exemple: après ensemencement de 20 tubes avec 0.1 ml d’une solution, 3 sont restés stériles. Quelle est la concentration moyenne de ce liquide en bactéries ?
Solution:
µ est inconnue
Pr (0 | µ) = 3 / 20 = 0.15 = exp(-µ)
µ = -ln (0.15) = 1.897 (bactéries par 0.1 ml)
La concentration initiale était donc 1.897*10k (bactéries/0.1 ml)
Un autre exemple en bactériologie
Exercice: le nombre de cas de BSE en Belgique, au moment de la crise de la « vache folle », était de 1 toutes les 5 semaines. Quelle est la probabilité d’avoir 2 cas en 3 semaines ?
Un autre exemple
Solution:
– µ(#cas / sem) = 0.2 => µ(# cas / 3 sem) = 0.6
– Pr (2 | µ) = exp(-µ) * µ² / 2! ≈ 0.099
> dpois(2,lambda=0.6)
[1] 0.09878609
Que faire si la probabilité entre tirages successifs varie ?
On parle toujours d’événements binaires (malade ou pas, mâle ou femelle, vivant ou mort, …), répétés n fois, mais sans remise (ce qui revient à dire que p varie de tirage en tirage)
Exemple: quelle est la probabilité de tirer deux individus malades en tirant deux individus au hasard dans une aquarium contenant 10 individus dont 2 sont malades ?
Que faire si la probabilité entre tirages successifs varie ?
Exemple:
P( E1 = ) = 0.2
P( E1 = et E2 = ) = 0.2 * 0.111 = 0.0222
P( E2 = | E1 = ) = 0.111
36
Et pour une situation plus compliquée ?
Exemple: Un lot de 30 poissons en contient 5 qui sont contaminés. Quelle est la probabilité de prélever 2 de ces 5 poissons contaminés en prélevant 10 poissons du lot ?
Idée: compter le nombre de choix possibles de 10 poissons parmi 30 (nombre de cas possibles N). Ensuite, compter le nombre cas n parmi ceux-là qui répondent à la question. La probabilité cherchée est le rapport n/N
Distribution hypergéométrique: exemple
Exemple (solution I) :
Une solution (parmi les possibles) consiste à prendre d’abord 2 poissons contaminés puis ensuite 8 sains.
La probabilité correspondante est:
Comme chaque solution est équiprobable:
2
10C
!30
!20*
!17
!25*
!3
!5
21
18**
27
24*
28
25*
29
4*
30
5 == Lp
!30
!10!*20*
!8!*17
!25*
!2!*3
!5
!30
!20*
!17
!25*
!3
!5*
!8!*2
!10*
2
10 === pCP
Distribution hypergéométrique: exemple
Exemple :
25 5
8 2
Lot:
Prélevé:
ContaminéSain
10
30CN = 8
25
2
5CCn =
36.030045015
10815750
C
CCPr
1030
825
25 ===
Distribution hypergéométrique: exemple
Calcul avec R :
25 5
8 2
Lot:
Prélevé:
ContaminéSain
30
10
d
b
a
c
> a<-2;b<-5;c<-25;d<-10
> dhyper(a,b,c,d)
[1] 0.3599848
cC
bB
aA
C
CC)C;c;A;a(H =
CBA
cba
=+=+
Formule hypergéométrique
Distribution hypergéométrique: encore un autre exemple
Exemple : Un lot de 30 poissons en contient 20% qui sont contaminés. Quelle est la probabilité d’avoir plus de 4 poissons contaminés en prélevant 10 poissons ?
Solution avec R:
> # En employant ‘dhyper’
> dhyper(5,6,24,10)+dhyper(6,6,24,10)
[1] 0.008841733
> # En employant ‘phyper’
> phyper(4,6,24,10,lower.tail=F)
[1] 0.008841733
> p<-0
> for (i in 5:6) { p<-p+dhyper(i,6,24,10) }
> p
[1] 0.008841733
Distribution hypergéométrique: un dernier exemple
Exemple : probabilité de rang à euro-million
5 45 5 0
2 10 2 0
� � ��� ∗ �������� ∗ ��� ∗ ����
���� � 550 ∗ 4
49 ∗ 348 ∗ 2
47 ∗ 146 ∗ 2
12 ∗ 111 � 1
139838160
Comment fait-on avec une variable continue ?
Problème : Il n’est pas possible d’attribuer une probabilité à chaque valeur de la variable aléatoire X (il y en a une infinité !).
Solution : on définit une fonction f(X) appelée « densité de probabilité ». La probabilité d’être entre X1 et X2 se calcule par la surface sous la courbe entre ces deux valeurs
Comment fait-on avec une variable continue ?
� ; < = < > � ? @ = ∗ A=B
C
� ∞ < = < �∞ � ? @ = ∗ A= � 1EF
�F
Exemple de distribution continue
� La distribution la plus simple est la distribution uniforme:
◦ Si X < P, f(X) = 0
◦ Si P ≤ X ≤ Q, f(X) = 1/(Q-P)
◦ Si Q < X, f(X) = 0
f (X)
P QX
1/(Q-P)
� L’utilisation est très simple, le calcul de la surface (rectangulaire) étant trivial !
◦ P[a ≤ X ≤ b] = (b-a)/(Q-P)
f (X)
P QX
a b
1/(Q-P)
Exemple de distribution continue
� Exemple: dans une distribution uniforme entre 0 et 10, quelle est la probabilité de tomber entre 3 et 5 ?
� Réponse: P = (5-3)/(10-0) = 0.2
� Réponse avec R:
> punif(5,min=0,max=10)-punif(3,min=0,max=10)
[1] 0.2
Exemple de distribution continue
Proba de 0 à 5 = 0.5 Proba de 0 à 3 = 0.3
Les distributions normales
� La distribution probablement (!) la plus utilisée est la distribution normale
◦ Une justification théorique: le « théorème de la limite centrale »
◦ Propriétés:
� 7 = � 4 et 7 = 4 � � 8�
@ = � 5� G�6 ,�∗H,
8 ∗ 2 ∗ �I
Formes de ces distributions
Un exercice théorique avec un résultat intéressant...
� On tire 1000 valeurs dans une distribution uniforme entre 0 et 1, et on calcule la somme S de ces 1000 valeurs
� Quelle forme prend la distribution de (la variable continue) S?
Un exercice théorique avec un résultat intéressant...
Distribution normale réduite
� Toutes les distributions normales sont définies uniquement par les deux paramètres 4 et 8, et notées " 4, 8
� Tous les calculs sur ces distributions peuvent être ramenés à des calculs sur la distribution " 0,1 par un changement de variable. Cette distribution est appelée distribution normale réduite.
Distribution normale réduite� Le changement de variable est le
suivant:
� Exemple: si =~"K100,10L, quelle est la probabilité que 88 < = < 105 ?◦ � � � 88 < = < 105
⇒ � � � 88 10010 < M < 105 100
10◦ ⇒ � � � 1.2 < M < 0.5◦ Résultat: voir un peu plus loin…
=~" 4G, 8G ⇒ O � G�6PHP
⇒ M~" 0,1
Distribution normale réduite� L’intérêt de ce changement de variable
de X vers Z est que les probabilités sont tabulées pour Z
Extrait de la tabledes surfaces de Z
P( X1 < X < X2 ) = ?
Z1 = ( X1 - µ ) / σ Z2 = ( X2 - µ ) / σ
P( Z1 < Z < Z2 ) = P
Utilisation de la distribution normale réduite
Valeurs classiques de la distribution normale réduite
� Valeur de Z qu’on excède dans 95% des cas ?
> qnorm(0.05)
[1] -1.644854
Valeurs classiques de la distribution normale réduite
� Valeur de Z qu’on excède dans 97.5% des cas ?
> qnorm(0.025)
[1] -1.959964
Calcul des probabilités avec R
On remplace donc le calcul d’une intégralepar la consultation d’une table
Alternativement, on utilise un logiciel (R…)
> proba<-pnorm(x,mu,sigma)
> sample<-rnorm(1,mu,sigma)
> fx<-dnorm(x,mu,sigma)
Distribution normale réduite
◦ Exemple: si =~"K100,10L, quelle est la probabilité que 88 < = < 105 ?
# En travaillant avec X
> pnorm(105,mean=100,sd=10)-pnorm(88,mean=100,sd=10)
[1] 0.5763928
# En travaillant avec Z
> pnorm((105-100)/10)-pnorm((88-100)/10)
[1] 0.5763928
Autres exemples
Exemple 1: Sachant qu ’en moyenne, une espèce pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, quelle est la probabilité:- qu ’un individu pèse entre 4 et 4.3 kgs ?
- qu ’un individu pèse plus de 4.5 kgs ?
> pnorm(4.3,mean=4,sd=0.3)-pnorm(4,mean=4,sd=0.3)
[1] 0.3413
> 1-pnorm(4.5,mean=4,sd=0.3)
[1] 0.0478
Une autre utilisation de la distribution normale…
Représentons (par exemple) la distribution binomiale suivante: n=100, π=0.4.
Histogrammede B(r|n=100,π=0.4)
Diagrammede N(r|µ=40,σ²=24)
A toutes fins utiles, les deux distributions >K�, QLet N(µ � � ∗ �,8 � � ∗ � ∗ 1 �I
) coïncident.
On passe de l ’une à l ’autre par le changement de variable:
En général, si n augmente, et p est « proche » de 0.5, une binomiale peut être approchée par une distribution normale.
Une autre utilisation de la distribution normale…
Z � � 4�8�
� � � ∗ �� ∗ � ∗ 1 �I ~" 0,1
Un exemple d’utilisation de l’approximation normale ?
Exemple 1: sachant qu ’en moyenne, une espèce de poissons pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, combien de poissons dois-je prélever pour être sûr à 95% d ’avoir au moins 20 poissons de plus de 4.5 kgs ?
Approximation normale: exemple
Solution 1: si on suppose le poids réparti normalement, la probabilité de peser plus de 4.5 kgs pour un poisson prélevé au hasard est :
> 1-pnorm(4.5,mean=4,sd=0.3)
[1] 0.0478
Approximation normale: exemple (suite)
Solution 1A: Approche binomiale
Choisir n tel que B(0) + B(1) + … + B(19) <= 0.05
Équation non linéaire en n…
On peut résoudre le problème avec un logiciel.
> p<-1-pnorm(4.5,mean=4,sd=0.3)
> n<-1:1000
> pr<-pbinom(19,size=n,prob=p)
> for (i in 2:1000) {
+ if ((pr[i-1]>0.05) && (pr[i]<0.05)) {
+ print(i)
+ }
+ }
[1] 579
Approximation normale: exemple (suite)
Solution 1B: Approche normale
Choisir n tel que: -1.64 < z
z = (20 - n*π) / (n*π*(1-π))1/2
=> (n*π*(1-π)) z2 = (20 -n*π)2
=> n = 601
L ’approximation n ’est pas très bonne (π << 0.5) dans ce problème.
Distribution normale: autre utilisation
Divisant le numérateur et le dénominateur par n dans le changement de variable donné plus haut, on obtient:
Distribution d ’une proportion (r/n estime π, et la racine est la déviation standard)
O ��� �
� ∗ 1 ��
I
Distribution d’une proportion: exemple
Exemple 2: dans un échantillon de 100 poissons, 68 sont des mâles. Peut on conclure à une distorsion de la proportion des sexes ?
Solution 2: on répond à cette question en calculant la probabilité d ’avoir 68% des mâles si la vraie proportion (π) est 50%.
Distribution d’une proportion: exemple
Solution 2 (suite): le calcul est le suivant:
La probabilité d ’avoir une telle valeur de z (ou une plus grande encore) est 1.6E-4, et donc très peu probable. On en déduit que π=0.5 n ’est probablement pas la valeur correcte.
O ��� �
� ∗ 1 ��
I� 0.68 0.5
0.5 ∗ 0.5100
I� 3.6
En résumé:
Il est possible de déduire (ou tout du moins de prendre pour hypothèse) la distributioncorrespondant à de nombreuses variables aléatoires.
L’utilisation de ces distributions permet de calculer les probabilités correspondant à une situation observée sous une hypothèse donnée.
Si la probabilité est faible, on peut mettre en doute la validité de l’hypothèse sur laquelle le calcul repose (avec un certain risque, voir plus loin)
Top Related