1
Introduction aux Données Biologiques et Médicales
2
Plan
1. Mesures biologiques et médicales
2. Données (variables) quantitatives
3. Données (variables) qualitatives
4. Données (variables) censurées
5. Description des données
3
1. Données Biologiques et Médicales
• permettent d’étudier des phénomènes biologiques/médicaux– distinguer le “normal” du “pathologique”– mesurer/prévoir l’évolution d’une maladie
4
• Ces mesures sont dites des « variables »– car elles varient d’un individu à l’autre– variable : « Any quantity that varies. Any
attribute, phenomenon, or event that can have different values » A dictionary of Epidemiology (JM Last, Oxford University Press, 1995)
5
• Données/variables de plusieurs types :quantitatives qualitativescensurées
6
2. Données (variables) quantitatives
mesurables sur une échelle … avec une unité
• de valeurs réelles : donnée continue– poids, taille, âge, PA, glycémie, ...
• de valeurs isolées : donnée discrète– dilutions, nombres d’enfants, de métastases,
âge au dernier anniversaire...
7
• Notion de “continuité” relativerelative à l’échelle de mesure et à la précision de la mesure :
• Age– Échelle continue– Échelle discrète (ans) : 10, 15, 65
• Taille– Échelle continue– Échelle discrète (cm) : 115, 165, 187
8
Données continues ou discrètes ?
• On peut grouper une donnée continue ou discrète en classes de valeurs : donnée ordinale– ex : âge < 20, 20-25, 25-30, 30– ex : nb cigarettes/j = 0, 1-10, 11-20, > 20– ex : PAS (mm Hg) < 140 ou 140
binarisation
• mais au prix d’une perte d’informationperte d’information
9
non mesurables sur une échelle (notion de jugement), mais ...
• avec relation d’ordre : données ordinale (semi-quantitative)– intensité d’une douleur (0, +, ++, +++)– stades d ’un cancer : I, II, III, IV– consommation de tabac : absence, modéré,
important
3. Données (variables) qualitatives
10
• sinon : données catégorique (nominale)– homme/femme– marié/célibataire– fumeur/non fumeur– localisations tumorales – groupes sanguins : A/B/AB/O
11
• Attention : une donnée ordinale n’est pas une donnée quantitative discrète– ex :
– intensité d’une douleur (0, +, ++, +++)– Nombre d’enfants : 1, 2, 3, 4, 5+
Notion d’espacement inter-classes
12
4. Données (variables) censurées• Abusivement appelée « données de survie »• Elles définissent le délai de survenue d’un
événement en « tout ou rien »
“Survival analysis is the phrase used to describe the analysis of data that correspond to the time from a well-defined time origin until the occurrence of some particular event or end-point. ”Collett D. Modelling survival data in medical research, Chapman & Hall, 1994
13
• Une date origine– ex : date de diagnostic
homogénéité nécessaire sur l’ensemble des patients
14
• Un événement binaire (en “ tout ou rien ”)– ex : décès, rechute …
événement parfaitement défini et reproductibilité inter-centres
délai : entre la date origine et la survenue de l’événement
le plus précis possible suivi ad hoc des patients
15
• Date de point : date à laquelle on fait le point – Tout sujet chez qui l’événement d’intérêt n’a
pas été observé à la date de point est censuré à cette date
– Un sujet perdu de vue à la date de point sera censuré à la date de dernière nouvelle
16
Sujet 1
Sujet 2
Sujet 3
Sujet 4
Sujet 5
01/01/01 01/01/02
176 mois 1 an
Sujet 1
Sujet 2
Sujet 3
Sujet 4
Sujet 5
Diagnostic
18
• Durée de survie de patients atteints d’un lymphome malin non Hodgkinien
– (Diagnostic décès)
• Durée d’attente d’une nouvelle transfusion de plaquettes chez des patients en aplasie post chimiothérapie en onco-hématologie
– (Transfusion de plaquettes nombre de plaquettes en deçà d’une valeur seuil)
19
• Durée de survenue d’une aggravation d’une occlusion veineuse rétinienne
– (Hémodilution faisant suite à un diagnostic d’hémodilution passage d’une forme non ischémique de l’occlusion à une forme ischémique)
• Durée de survenue d’une récidives locales post reconstruction mammaire
– (Reconstruction mammaire récidive locale)
20
5. Description des données
• Variables continues– mesures de position/centralité– mesures de la variabilité/dispersion
• Variables qualitatives– Distributions de fréquence
• Variables censurées– Courbes de survie
21
5.1 Histogramme
• Données quantitatives continues
• Suite de rectangles dont la surface est proportionnelle aux fréquences dans des intervalles de valeurs (classes)
s h
l
lhs ..relfreqsouns
22
• Si toutes les classes ont même largeur (l), la hauteur des rectangles est directement proportionnelle à l’effectif de la classe (h = n)
s h
l
nklhs
23Distribution de la créatinine plasmatique dans le PR
0
20
40
60
80
100
120
140
Nom
bre
0 100 200 300 400 500 600 700Créatinine J PBR
Histogramme 45,000 95,000 120
95,000 145,000 71
145,000 195,000 24
195,000 245,000 11
245,000 295,000 5
295,000 345,000 3
345,000 395,000 4
395,000 445,000 0
445,000 495,000 0
495,000 545,000 2
545,000 595,000 2
Total 242
De(>) à(<=) Nombre
Distribution en fréquence pour Créatinine J PBR
24
45,000 95,000 120 ,496 49,587
95,000 145,000 71 ,293 29,339
145,000 195,000 24 ,099 9,917
195,000 245,000 11 ,045 4,545
245,000 295,000 5 ,021 2,066
295,000 345,000 3 ,012 1,240
345,000 395,000 4 ,017 1,653
395,000 445,000 0 0,000 0,000
445,000 495,000 0 0,000 0,000
495,000 545,000 2 ,008 ,826
545,000 595,000 2 ,008 ,826
Total 242 1,000 100,000
De(>) à(<=) Nombre Fréq. Rel. Pourcentage
Distribution en fréquence pour Créatinine J PBR
0
,1
,2
,3
,4
,5
,6
Fré
q. R
el.
0 100 200 300 400 500 600 700Créatinine J PBR
Histogramme
25
• Si toutes les classes n’ont pas la même largeur (l), seule la surface des rectangles est directement proportionnelle à l’effectif de la classe (h = n/l)
s h
l
nklhs
26
S = h x l h = S/l = n/lClasses l h0-4 5 28/5=5.65-9 5 46/5=9.210-15 6 58/6=9.716 1 2017 1 3118-19 2 64/2=3220-24 5 149/5=29.825-59 35 316/35=9.060-79 20 103/20=5.1
a
b
27
• L’”histogramme” a (incorrect) suggère la classe 25-59 comme étant la plus concernée par les accidents de la route alors que l’histogramme b (correct) indique que ce sont les classes 17, 18-19, 20-24. En effet, la fréquence des accidents de la route par année d’âge est plus importante dans ces dernières classes!
28
5.2 Caractéristiques des distributions
• Distributions synthétisées par des quantités – de tendance centrale
Mode/classe modale
Médiane
Moyenne– de dispersion
Etendue
Intervalle inter-quartiles
Variance, écart-type
29
Mode(s)
Définition
valeur(s) la (les) plus fréquente(s)– sommet(s) de la distribution– le plus facile à calculer– dépend du regroupement (arbitraire) en classes– parfois non unicité
30
45 98 150 203 256 309 361 414 467 519 572
Créatinine (µmol/l)
0
20
40
60
80
N
45 98 150 203 256 309 361 414 467 519 572
Créatinine (µmol/l)
0
40
80
120
N
Mode : classe [71 - 97] Mode : classe [45 - 97]
Mode : regroupement en classes
31
2.1 3.3 4.6 5.8 7.0 8.3 9.5 10.8 12.0 13.3 14.5
Glycémie (mmol/l)
0
50
100
150
200
250
N
Mode : non unicité
32
Médiane (50ème percentile)
Définition
valeur centrale de la distribution – partage la distribution en 2 parties égales– peu sensible aux valeurs extrêmes– difficile à manipuler mathématiquement
33
Exemple : âge de 5 étudiants (n = 5)
{19, 20, 22, 20, 21}
âge effectif effectif cumulé
19 1 1
2020 22 33
21 1 4
22 1 5
médiane = 200
1
2
3
17 18 19 20 21 22 23 24
Age
Fré
qu
ence
34
Exemple : âge de 5 étudiants (n = 5)
âge effectif effectif cumulé
19 1 1
2020 22 33
21 1 4
42 1 5
médiane = 20
35
Moyenne (expérimentale)
Définition
moyenne arithmétique des observations
– centre de gravité
– utilise toute l’information
– sensible aux valeurs extrêmes
– manipulation mathématique
n
iix
nx
1
1
36
Exemple : âge des 5 étudiants (n = 5)
{19, 20, 20, 21, 22}
• valeur non observée
• sensible aux valeurs extrêmes
4.205
1022221202019
5
111
n
iix
nx
0
1
2
3
17 18 19 20 21 22 23 24
Age
Fréq
uenc
e
37
• n = 5
{19, 20, 20, 21, 42}
• n = 5
{19, 20, 20, 21, 15}
4,245
1224221202019
5
111
n
iix
nx
195
951521202019
5
111
n
iix
nx
38
Positions relatives mode, médiane, moyenne
• Si distribution unimodale, symétrique– les 3 coïncident
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
ddp
Mode = Médiane = Moyenne
18 22 23 25 27
39
• Si distribution dissymétrique
à droite à gauchemode < médiane < moyenne moyenne < médiane < mode
2 4 6 8 10
Notes
Histogramme
0
2
4
6
8
10
12
14
16
18
20
1 2 3 4 5 6 7 8 9
PSA (ng/l)
%
Mode
Médiane
Moyenne
Mode
MédianeMoyenne
40
Etendue
Définition
différence entre les valeurs extrêmes (minimale, maximale) observées
étendue = valeur maximale - valeur minimale
– dépend entièrement de 2 observations– n’est pas manipulable mathématiquement
41
0
20
40
60
80
100
120
140
160
180
200
Nom
bre
0 100 200 300 400 500 600 700 800 900 1000Créatinine J PBR
Histogramme
Valeur min = 45µmol/l
Valeur max = 939 µmol/l
Etendue = 894 µmol/l
Valeur min = 45µmol/l
Valeur max = 572 µmol/l
Etendue = 527 µmol/l
0
20
40
60
80
100
120
140
Nom
bre
0 100 200 300 400 500 600 700 800 900Créatinine J PBR
Histogramme
42
Variance
Estimation
– estimée à partir des carrés des écarts à la moyenne (écart quadratique moyen)
n
ii xx
ns
1
221
1
43
n
i
n
ii
i
n
ii
n
x
xn
s
xxn
s
1
2
122
1
22
1
1
1
1
44
Exemple : âge de 5 étudiants
n = 5 {19, 20, 20, 21, 22} 1022221202019
1
n
iix
3,15
1022086
4
1
1
1 2
1
2
122
n
i
n
ii
i n
x
xn
s
208622212020191
222222
n
iix
45
Ecart-type
Estimation : racine carrée positive de la variance
• mesure l’écart à la moyenne– s’exprime avec la même unité que la variable
n
ii xx
nss
1
221
1
46
19 20 21 22 24 25 26 27 28 30 31
Sample
0.00
0.05
0.10
0.15
0.20
Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8Std Dev.: 2.0
68%
95%
- 1DS- 2DS + 1DS + 2DS
4736.0 36.6 37.2 37.8 38.4
Température
0
5
10
15
Min : 36.6 1er Qu. : 36.9 Moyenne : 37.3 Médiane : 37.1 3em Qu. : 37.7 Max : 38.6écart-type:0.54481
5.3 Box-and-Whisker plot
36.6
37.1
37.6
38.1
38.6
Tem
pé
ratu
re
Min
25ème percentile ou Q1
Médiane
75ème percentile ou Q1
Max
IQR = Q3 - Q1 = 0.8
48
20
25
30
Sam
ple
Min: 18.7 1st Qu.: 23.7 Mean: 25.0 Median: 25.0 3rd Qu.: 26.3 Max: 30.8Std Dev.: 2.0
IQR = 26.3 - 23.7 = 2.6
Box-and-Whisker plot : distribution symétriqueA
g e
49
5.4 Distributions de fréquence
• Figure (ou distribution de fréquence) qui donne le nombre (le %) d’individus selon les valeurs de la mesure
• Moyen le plus simple de caractériser les variables qualitatives
• Fréquences relatives ou cumulées
50
Motif d’admission en réanimation
Motif Fréquence Fréquence % %relative cumulée relatif
cumulé
Respiratoire 25 25 36.2% 36.2%Neurologique 14 39 20.3% 56.5%Hémodynamique 12 51 17.4% 73.9%Métabolique 10 61 14.5% 88.4%Traumatologique 5 66 7.2% 95.6%Divers 3 69 4.3% 100%
Total 69 69 100% 100%
51
Distribution de fréquence : effectifsDiagramme en bâtons
Motif : n
Respiratoire : 25Neurologique : 14Hémodynamique : 12Métabolique : 10Traumatologique : 5Divers : 3
n total = 69
0
5
10
15
20
25
30
n
52
Motif (%)
Respiratoire (36%)Neurologique (20%)Hémodynamique (17%)Métabolique (14%)Traumatologique (7%)Divers (4%)
Distribution de fréquence : %Diagramme en bâtons
0%5%
10%15%20%25%30%35%40%
%
53
Diagramme en secteurs
Respiratoire37%
Hémodynamique17%
Métabolique14%
Traumatologique7%
Divers4%
Neurologique21%
54
5.5 Courbe de survie
• Estimation de la fonction de “ survie ” = fonction de non-survenue de l’événement considéré au cours du temps (“ survival curve ”)
• Approche classique : estimateur de Kaplan-Meier (1958) (“ the product-limit estimate ”)
• Fonction en escalier
55
0.0
0.2
0.4
0.6
0.8
1.0
0 12 24 36 48 60 72 84 96 108 120 132 144 156
Temps (mois)
Prob
abili
té d
e su
rvie
Courbe de survie globale à partir du début de la première ligne de chimiothérapie chez des patients atteints de cancer colorectal (86 patients - 76 décès)
Patients à risqueM0 M12 M24 M36 M48 M60 M7286 69 42 26 17 10 5
56
Paramètres de survie
• Estimation de statistiques descriptives :– médiane de “ survie ”– taux de survie à une date donnée
57
0.0
0.2
0.4
0.6
0.8
1.0
0 12 24 36 48 60 72 84 96 108 120 132 144 156
Temps (mois)
Prob
abili
té d
e su
rvie
Médiane de survie = 24 mois
Taux de survie à 3 ans = 37,5%
Top Related