Statistique descriptive
2011-2012
Pr Hinde HAMIFaculté des Sciences, Université Ibn Tofail, Kénitra, Maroc
Se familiariser avec le vocabulaire de la statistique descriptive;
OBJECTIFS
Fournir des outils de base permettant de décrire des données statistiques.
La Statistique,… c’est quoi ?
DÉFINITIONS
Statistiques: Ensemble cohérent de données numériques relatives à un groupe d’individus.Ex: Statistiques démographiques, Statistiques du chômage
Statistique descriptive: Ensemble des méthodes permettant de décrire, de résumer et de présenter les données observées sous la forme la plus accessible : Tableaux, graphiques, pourcentages et indicateurs ou résumés numériques (moyenne, médiane…..)
Statistique: Ensemble des méthodes qui permettent de rassembler, de présenter, d’analyser et d’interpréter les données associées à une situation ou à un phénomène.
Toute étude statistique se fonde sur une population formée de nombreux individus sur lesquels on peut observer des caractères (variables).
LA DÉMARCHE STATISTIQUE
Population IndividuEchantillon
VOCABULAIRE DE BASE
Population: ensemble des personnes, objets ou éléments sur lesquels on veut effectuer l’étude statistique;
Individu (ou unité statistique): chacun des éléments de la population;
Échantillon: c’est un sous-ensemble de la population;
Variable (ou caractère): caractéristique relative à chacun des individus de la population
Sur la même population, on peut s'intéresser à plusieurs variables telles l'âge, le sexe, la filière…
variable
QualitativeQuantitative
Discrète ContinueNominal
eordinale
Nombre d’enfants
PoidsTailleSalaire
Groupes sanguins CouleurProfessionEtat matrimonial
MentionStade d’une maladieTaille vestimentaire
Exemple 1
Une étude sur le poids de chacun des enfants d’un groupe d’enfants de 7 ans donne la série suivante (en Kg)
22 25 23 25 24 19 23 18 20 21 19 22 20 1721 23 24 23 17 21 20 20 19 22 19 20 19 21
Il s'agit d'une série statistique brute résultant de la mesure de la variable (ou caractère)………………sur les individus (ou unités statistiques)……………La population étudiée comporte……………individus. La nature de la variable étudiée: ……………
Poids des enfants
xi
17 18 19 20 21 22 23 24 25 Total
Nombre d’enfants
ni
2 1 5 5 4 3 4 2 2 282. Le nombre d’enfants ayant un poids moins de 21 kg est 13 enfants
Exemple 1
Série brute
22 25 23 25 24 19 23 18 20 21 19 22 20 1721 23 24 23 17 21 20 20 19 22 19 20 19 21
1. Classer le caractère étudié par ordre croissant en fonction de son effectif2. Quel est l’effectif des enfants ayant moins de 21 kg ?
1.
Nombre de jours d’absence xi
Nombre d’employés
concernés ni
0 51 82 63 34 25 16 2Total
Absentéisme dans le service « Achats » (pendant une période donnée)
Exemple 2
1. Le tableau de données ci-dessus comporte :…………individus2. Quel est le caractère étudié ? Donner sa nature
27
Destination des voyages/Heure xi
Nombre de voyageurs ni
Europe 2300Afrique 1200Asie 850Amérique du Nord 4800Amérique du sud 1100Total 10250
Pour l’«Afrique» par exemple, l’effectif est 1200, il y a 1200 voyageurs qui se dirigent vers l’Afrique (à chaque heure) La fréquence pour l’Afrique est 1200/10250=0,12 (12%)
Exemple 3
Effectif total n
Effectif
1. Quel est le caractère étudié ? Est-il qualitatif, quantitatif ?
Fréquencefi=ni/n
0,220,120,080,470,11
1
REPRÉSENTATION DES DONNÉES
Pour exploiter au mieux les données, on fait :
Classement des valeurs par ordre croissant ou décroissant;
Transformation des effectifs en fréquences;
Répartition des valeurs en classes;
Tableaux statistiques (effectifs et fréquences) et Graphiques; Calcul des mesures caractéristiques.
INDICATEURS NUMERIQUES
Indicateurs de position (tendance centrale)MoyenneModeMédiane
Quartiles
Indicateurs de dispersion (variabilité)VarianceEcart type
Coefficient de variation
Les indicateurs numériques ont pour but de résumer, à partir de quelques nombres clés, l'essentiel de l'information relative à l'observation d'une variable quantitative.
INDICATEURS DE POSITIONLA MOYENNE
ni: Effectifn: Effectif totalci: Centre de la classe
=1/n Σ nixi n=Σ niVariable discrèteVariable continue
=1/n Σ nici
La moyenne s'exprime toujours dans la même unité que les observations Xi
INDICATEURS DE POSITIONLA MOYENNE
Exemple 1
Soit la série statistique correspondant à la taille de 6 étudiants: 160, 170, 180, 180, 190, 200 (en cm)
n=6, Σxi=1080 =1080/6=180 cm
Nb de voitures xi1 2 3 4 5 6 7 8 9 10 11 12 T
Nb d’observations
ni
2 8 14 20 19 15 9 6 2 3 1 1 100
=1/n Σnixi
INDICATEURS DE POSITIONLA MOYENNE
ni xi2 16 42 80 95 90 6
348 18 30 11 1
2507
n=Σni=100
=507/100=5,07
Exemple 2
Au poste de péage, on compte le nombre de voitures se présentant sur une période de 5 mn. Sur 100 observations de 5 mn, on obtient les résultats suivants :
=1/n Σnici
INDICATEURS DE POSITIONLA MOYENNE
n=Σni=100
=1065500/100=10655
Exemple 3
Soit le tableau suivant donnant les salaires en dirhams des cadres d’une entreprise
Salaires xi Effectif ni
[5000, 7000[ 21[7000, 9000[ 34[9000,14000[ 25[14000, 20000[
15
[20000, 30000[
5
Total 100
ci
60008000
115001700025000
nici
126000272000287500255000125000
1065500
LES AUTRES VALEURS CENTRALESLE MODE
Le mode: Correspond à la valeur la plus fréquente dans une distribution. Il peut y avoir plusieurs modes : 2 (bimodale) ; 3 (trimodale); 4 modes ou plus (plurimodale).
Variable discrète: le mode correspond à la valeur qui admet le plus grand effectif;
Variable continue: on parle de la classe modale, la classe qui admet le plus grand effectif.
LES AUTRES VALEURS CENTRALESLE MODE
Nb de voitures xi1 2 3 4 5 6 7 8 9 10 11 1
2T
Effectif ni 2 8 14 20 19 15 9 6 2 3 1 1 10
0
Le mode est le nombre de voitures qui revient plus fréquemment dans la série (20 observations)
Mode=4
Exemple 1
LES AUTRES VALEURS CENTRALESLA MÉDIANE
La médiane: correspond au centre de la série statistique classée par ordre croissant.
Sur une distribution non groupée :
Si n est impair, la médiane est l’observation de rang (n+1)/2
Si n est pair, la médiane est tout nombre situé entre xn/2 et x(n/2)+1
LES AUTRES VALEURS CENTRALESLA MÉDIANE
Nb de voitures xi1 2 3 4 5 6 7 8 9 10 11 12 T
Nb d’observations
ni
2 8 14 20 19 15 9 6 2 3 1 1 100
N est pair: X100/2 ; X(100/2)+1 X50 ; X51??
Effectif cumulé Ni2 10 24 44 63 78 87 93 95 98 99 10
0
Médiane=5
Exemple 1
Sur une distribution groupée, la classe médiane est celle qui contient la médiane.
LES AUTRES VALEURS CENTRALESLA MÉDIANE
On suppose que [xm, x’m[ est la classe médiane
Médiane=xm+am [(n/2)-Nm-1)]/nm am= x’m –xm
xm: limite inférieure de la classe médiane am: amplitude de la classe médiane n: taille de l’échantillon (effectif total)Nm-1: effectif cumulé de la classe inférieure à la classe médiane
(la somme des effectifs des classes inférieures à la classe médiane)nm: effectif de la classe médiane
Exemple 2
LES AUTRES VALEURS CENTRALESLA MÉDIANE
On a mesuré la longueur de la grande nervure de 75 feuilles de plantes. L’étude de la répartition des mesures a donné les résultats suivants :Longueur
en mm xi
Nombre de feuilles
ni
[100-110[ 1[110-120[ 6[120-130[ 6[130-140[ 9[140-150[ 15[150-160[ 16[160-170[ 11[170-180[ 8[180-190[ 3T 75
Effectif cumulé
Ni
17
13223753647275
N est impair: X(75+1)/2
X38??La classe médiane: [150-160[
Médiane=150+10 [(75/2)-37)]/16
Médiane=150,31 mm
Médiane=xm+am
[(n/2)-Nm-1)]/nm
INDICATEURS DE DISPERSIONLA VARIANCE
Nb de voitures xi1 2 3 4 5 6 7 8 9 10 11 12 T
Nb d’observations
ni
2 8 14 20 19 15 9 6 2 3 1 1 100
Exemple 1
nixi2 2 32 12
6320
475
540
441
384
162
300
121
144
3047
S2 =1/100*3047-(5,07)2=4,77
La variance: est la moyenne arithmétique des carrés des écarts à la moyenne
2= 1/n Σnixi2 -2S2 = 1/n Σni(xi- )
INDICATEURS DE DISPERSIONL’ÉCART TYPE
Nb de voitures xi1 2 3 4 5 6 7 8 9 10 11 12 T
Nb d’observations
ni
2 8 14 20 19 15 9 6 2 3 1 1 100
Exemple 1
nixi2 2 32 12
6320
475
540
441
384
162
300
121
144
3047
S2=4,77
S = S2
L’écart type: est la racine carrée de la variance et sa formule est la suivante:
S =2,18
INDICATEURS DE DISPERSIONCOEFFICIENT DE
VARIATIONLe coefficient de variation: est le rapport de l'écart-type à la moyenne. Il est souvent utilisé pour comparer la variabilité de deux groupes de données par rapport à leur niveau moyen.
Plus la valeur du coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande. Il est généralement exprimé en pourcentage.
C.V.=100*S /
Situation familiale xi
Effectif ni
Célibataire 30Marié 80Divorcé 20Veuf 20Total 150 Diagramme circulaire ou sectoriel
Situation familiale
CélibataireMarié
DivorcéVeuf
Exemple 1: Situation familiale de 150 employés d’une entreprise
REPRÉSENTATION GRAPHIQUE DES DONNÉES
2468
101214161820
1 2 3 4 5 6 7 8 9 10 11 12
12%
Nb de voitures
fi(%)
Diagramme en bâtons des fréquences
Exemple 2: Nombre de voitures se présentant sur une période de 5 mn au poste de péage
REPRÉSENTATION GRAPHIQUE DES DONNÉES
Nb de voitures
xi
1 2 3 4 5 6 7 8 9 10 11 12
T
fi (%) 2 8 14
20
19
15
9 6 2 3 1 1 100
[2-10[ [10-20[ [20-30[ [30-40[ [40-50[ [50-60[ Groupes d’âges (en années)
%Histogramme
Répartition des patients en fonction de l’âge
Exemple 3: Age de 240 patients intoxiqués par une plante
REPRÉSENTATION GRAPHIQUE DES DONNÉES
Top Related