Biostatistiques Descriptives Dr Marc CUGGIA 1ere Annee Univ Rennes
BIOSTATISTIQUES AVANCEES - edu.upmc.fr · même probabilité d’être choisi ... • Méthode...
Transcript of BIOSTATISTIQUES AVANCEES - edu.upmc.fr · même probabilité d’être choisi ... • Méthode...
BIOSTATISTIQUESAVANCEES
Yves DesdevisesObservatoire Océanologique de Banyuls-sur-Mer
(www.obs-banyuls.fr)04 68 88 73 13
[email protected]://desdevises.free.fr
http://www.edu.upmc.fr/sdv/desdevises
Master Biologie Intégrative et Physiologie1ère année
2017-2018
PLAN1. Rappels : données, tests, plans d’expérience, distributions
2. Comparaison de 2 groupes : variances et moyennes
3. Comparaison de plus de 2 groupes : test d’homogénéité des variances, analyses de variance à 1 et 2 facteurs
4. Relations entre variables : corrélation
5. Relations entre variables : régression simple
6. Régression multiple et analyse de covariance
7. Analyse multivariable
8. Analyse de survie
Quelques références• Générales• Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition,
Freeman and co., New York.
• Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson.
• Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod.
• Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 (2ème édition 2012) : Biostatistiques pour les sciences de la vie et de la santé.
• Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Morin.
• Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3ème édition. De Boeck.
• Simplifiées
• Dytham C. 2011. Choosing and Using Statistics. A Biologist’s Guide. 3rd Edition. Blackwell Publishing.
• McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press.
• van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing.
• Plus spécialisées
• Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier.
• Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press.
• R (www.r-project.org)
• Statdisk (http://statdisk.com/)
• XLStat (www.xlstat.com) €
• Minitab (www.minitab.com) €
• JMP (www.jmp.com) €
• Statistica (www.statsoft.com) €
• SAS (www.sas.com/technologies/analytics/stat) €
Quelques logiciels
1. INTRODUCTION
RAPPELS
• Statistique : Etude scientifique des données numériques décrivant les variations naturelles
• Biostatistique
• Application à la biologie
• Important : savoir décider de la méthode à utiliser
• Bien connaître les méthodes : conditions d’utilisation, limitations, ...
• Penser aux statistiques avant de collecter les données
Utilité et utilisation des statistiques en biologie
• Description
• Vue synthétique et rationnelle des données
• Inférence
• Economie de travail par l’étude d’échantillons représentatifs
• Décision
• Test d’hypothèse
• Biologie : incertitude des résultats expérimentaux ou des observations
• Variabilité génétique
• Variabilité de réaction individuelle
• Variabilité du développement
Pourquoi utiliser les statistiques en biologie?
Définitions• Objet = observation = élément = unité
d’échantillonnage : élément sur lequel on mesure des caractéristiques (variables)
• Echantillon : ensemble des objets
• Population cible : ensemble des objets visés par une étude scientifique
• Population statistique : ensemble des objets représentés par l’échantillon. C’est sur elle que se fait l’inférence
• Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température, ...
• Variable dépendante (Y) = réponse
• Variable indépendante (X) = explicative
• Variable aléatoire : résultat d’un processus aléatoire, valeur précise inconnue avant la mesure
• Variable contrôlée : décidée par l’expérimentateur, erreur = mesure seulement
• Paramètre : caractéristique quantitative permettant une représentation condensée d’information contenue dans un ensemble de données. Ex : moyenne, pente, ...
• Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d’objets (paramètre de dispersion)
• Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable
Sx = √Sx2
• Erreur-type (standard error) : écart-type de la distribution d’échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d’une même population). Sert à calculer un intervalle de confiance
• Interprétation de l'écart-type
• Barres d'erreurs : attention !
?
Variables
• Terme déterministe : loi du phénomène
• Terme aléatoire : variabilité du phénomène
• Hasard, fluctuations
• Autres facteurs, souvent à expliquer
1 cause : 1 effet1 cause : n effets
variabilité
●
Modèle déterministe
Force de frappeInte
nsité
de
la d
éfor
mat
ion
●●●●
Modèle aléatoire
Dose d'engrais
Cro
issa
nce
●●
●●●●●●
●
●●
• Analyse statistique : étude des phénomènes stochastiques
• Discrimination de la loi du phénomène et de sa variabilité
Différents types de variables
• Binaire : 2 états. Ex : présence-absence
• Multiple : plus de 2 états
• Non-ordonnée = qualitative = nominale. Ex : couleur
• Ordonnée
• Semi-quantitative = ordinale = de rang. Ex : classes
• Quantitative
• Discontinue = discrète. Ex : nombre d’individus
• Continue. Ex : longueur
• Transformations
• Standardisation : y' = (y - y)̅/s (s = écart-type ; on obtient une variable centrée et réduite). y’̅ = 0 et s = 1, variables non-dimensionnelles
• Normalisation et stabilisation des variances : y' = log (b0 + b1y) ; y' = √y ; ...
• Linéarisation
Statistiques descriptives
• Exploration des données
• A calculer avant chaque test
• Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantile-normale), ...
• Identifier les valeurs extrêmes ou aberrantes
• A ne pas oublier...
Statdisk - ScatterplotPrinted on Mer 10 sep 2008 at 9:08
X Value
Statdisk - Explore DataPrinted on Mer 10 sep 2008 at 9:08
Plans d’échantillonnage• Principalement pour organismes fixes (ou localités, ...)
• Echantillonnage aléatoire : représentatif
• Aléatoire : chaque membre de la population a la même probabilité d’être choisi
• Aléatoire simple : chaque échantillon de taille n a la même probabilité d’être choisi. Condition pour de nombreux tests
• Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale)
• Risque (faible) de coïncider avec une périodicité naturelle
• Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation, ...)
• Echantillonnage en grappe
• Division de la population en sections (grappes)
• Sélection aléatoire des grappes
• Choix de tous les membres des grappes sélectionnées
• Echantillonnage opportun
• En fonction des circonstances
• Sur les objets faciles à obtenir
• Exemple : réponses seulement de ceux qui participent de façon active à un sondage
• Pas un bon plan d'échantillonnage !
Plans d’expérience• Méthode expérimentale
• Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois
• Important : rigueur
• Construction : hypothèse nulle et hypothèse contraire
• Répondre spécifiquement à une question (critère de validité générale)
• Minimiser l’erreur de Type I
• Application : analyse de variance (ANOVA)
Concepts
• Elément d’observation
• Sur lequel on fait les mesures de la (des) variable(s)
• Ex : individus, quadrats, ...
• Unité d’expérimentation
• Contient les éléments
• Reçoit le traitement
• Ex : parcelle, bassin, ...
• Facteur : plusieurs valeurs possibles
• Niveaux ou traitements
• Contrôle
• Groupe non traité
• Traitement (placebo, manipulation seule, ...)
• Bloc
• Groupe d’unités d’échantillonnage, défini a priori
• Expérience de mesure d’un phénomène naturel
• En milieu naturel : pas (peu) de contrôle des variables
• Mesure du profil de variabilité du phénomène
• Expérience contrôlée
• Utilisation de traitements contrôlés
• Réduction de l’influence des autres facteurs
• Elimination
• Constance
• Inclusion dans l’analyse
• Répétition (= replication)
• Mesure de la variabilité du système (répétitions biologiques, pas techniques)
• Pseudoréplication
• Due à la non-indépendance des observations, qui ne sont pas alors de “vrais réplicats”
➡Validité générale
• Variations dues exclusivement au facteur étudié
➡Validité externe
• Généralisation à d’autres systèmes
• Simplification pas trop importante
Aléatoire
Blocs randomisés
Systématique
Ségrégation simple
Ségrégation agrégée
Ségrégation isolative
Répétitions physiquement interdépendantes
Pas de répétitions
• Important de bien définir l’hypothèse nulle (H0)
• La seule que l’on étudie = hypothèse principale
• Contient généralement "="
• La statistique testée possède une distribution connue
• Hypothèse contraire (H1 ; "hypothèse alternative")
• Contient généralement "≠", ">"ou "<"
• On ne peut la prouver, elle est plausible si H0 est rejetée
• Grande importance de l’hypothèse biologique
Tests statistiques
• En général 3 conditions pour un test :
• Loi (Normale, Student, F, ...)
• Indépendance des observations
• Homogénéité des variances (homoscédasticité)
• Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d’apparition de toutes les valeurs d’une variable
• Besoin de tester la distribution observée sur l’échantillon (impossible sur la population)
Conditions
• Erreur de Type I (α) : probabilité de se tromper en rejetant H0 (donc H0 est vraie). Seuil fixé
• Robustesse d’un test : sensibilité aux conditions d’applications
• Un test est robuste s’il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales
• Puissance d’un test : capacité à mettre en évidence de petites différences
• Aptitude à rejeter H0 lorsqu’elle est fausse (= 1 - ß
(erreur de Type II))
• Fonction de : test, nombre d’observations, variance, α
H0 H1
• Test : calcul d’une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l’aide des données
• On peut calculer (logiciel) la probabilité d’obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c’est la p-value, P
• Interprétation en terme de rejet ou non de H0, en fonction du seuil α choisi, généralement 0,05 (5 %) :
• P > 0,05 : non rejet de H0
• P ≤ 0,05 : rejet de H0
p-value ("valeur-p")
Puissance d’un test : n optimal
• Question récurrente : de combien d’objets (observations, prélèvements, ...) a-t-on besoin pour établir une différence significative, s’il y en a une ?
• Exemple : utilisation de la statistique-test t
• Il faut d’abord estimer la variance et avoir une idée de l’écart entre populations (étude préalable)
• Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l’aide de la valeur critique de t
• Importance de l’amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse
• On affine la puissance (en modifiant α, n, ...) en fonction de l’écart choisi (qui dépend du degré de précision souhaité)
• Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu’une valeur de 0,6
• On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse
Test unilatéral ou bilatéral
• Dépend de la formulation de H1 : hypothèse biologique
• Unilatéral : la différence est attendue dans un certain sens (> ou <).
• Bilatéral : on cherche seulement à savoir s’il y a une différence, quel qu’en soit le sens.
• Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H0
➡Différence au niveau de la puissance
• But du test : savoir si on doit rejeter ou non H0
• Risque d’erreur due à la variabilité des observations
• Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée
• Loi de distribution théorique
• Exemple de la loi Normale : tests paramétriques
• Génération empirique de la distribution
• Tests par permutations
• Pas de distribution
• Tests non paramétriques
• Les tests non paramétriques sont basés sur la notion de rang
• Permettent de mettre en évidence des relations monotones
• Pour 2 variables : augmentation ou diminution constante d’une variable quand l’autre augmente
monotones non monotone
• 20 individus en 2 groupes de 10 ; variable = taille
• Question : la taille moyenne est-elle différente dans chaque groupe ?
• H0 : la taille moyenne est la même
• Statistique testée (= variable auxiliaire) : différence entre les moyennes
• Sous H0, elle devrait se situer “autour de 0”
Test par permutations : exemple
• N’importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H0
• Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande
• Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H0
• Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations
• On compare ensuite la valeur observée de la statistique à cette distribution
t* < –!t! t* = –!t! –!t!< t* <!t! t* = !t! t* > !t!Statistic t 8 0 974 1† 17
Distribution théoriques
• Variables discontinues
• Loi binomiale
• Loi de Poisson
• Variables continues
• Loi Normale
• Loi du Khi-2 (X2)
• Loi de Fisher
• Loi de Student
• Distribution la plus importante : distribution Normale (= Gaussienne)
• Théorème de la limite centrale (central limit theorem)
• “Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n’est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution”
• Souvent le cas dans la nature
• Normalité : évaluation visuelle de la distribution des données
• Histogramme : “en cloche”
• Graphe quantile-normale (= quantile-quantile) : points en ligne droite
• Mieux pour petits échantillonsStatdisk - Normal Quantile PlotPrinted on Mar 9 sep 2008 at 14:40
X Value
Tests de normalité
• A faire avant d’utiliser les tests paramétriques
• Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, …
• H0 : Distribution normale
• Données multinormales : test de multinormalité
• Test de Dagnelie
Transformations
• Beaucoup de méthodes d’analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale
• Si la distribution n’est pas normale
• Méthodes non-paramétriques
• Transformation des données : normalité
• Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes)
Exemples
• Données d’abondance
• Distribution asymétrique
• Distribution de Poisson
• Distribution contagieuse
• Données en proportions ou pourcentages
• Transformation Logarithme
• y’ = ln(y + c)
• Distributions contagieuses
• Transformation racine
• y = √(y + c)
• Distributions de Poisson : variance = moyenne
• Transformation arcsinus
• y = arcsin√p
• Distributions en proportions
• Transformation Box-Cox
• Formule générale
• Quand tout le reste a échoué
• Pas calculable à la main : technique itérative
Choix d’une méthode• 1 variable
• 2 groupes : test t, test U, ...
• > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis, ...
• 2 variables
• Liaison : corrélation, test du Χ2
• Modèle : régression simple
• > 2 variables
• Description : ordination sans contrainte, groupement
• Test : test de Mantel, régression multiple, analyse canonique, MANOVA