BIOSTATISTIQUES AVANCEES - edu.upmc.fr · même probabilité d’être choisi ... • Méthode...

BIOSTATISTIQUESAVANCEES

Yves DesdevisesObservatoire Océanologique de Banyuls-sur-Mer

(www.obs-banyuls.fr)04 68 88 73 13

[email protected]://desdevises.free.fr

http://www.edu.upmc.fr/sdv/desdevises

Master Biologie Intégrative et Physiologie1ère année

2017-2018

PLAN1. Rappels : données, tests, plans d’expérience, distributions

2. Comparaison de 2 groupes : variances et moyennes

3. Comparaison de plus de 2 groupes : test d’homogénéité des variances, analyses de variance à 1 et 2 facteurs

4. Relations entre variables : corrélation

5. Relations entre variables : régression simple

6. Régression multiple et analyse de covariance

7. Analyse multivariable

8. Analyse de survie

Quelques références• Générales• Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition,

Freeman and co., New York.

• Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson.

• Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod.

• Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 (2ème édition 2012) : Biostatistiques pour les sciences de la vie et de la santé.

• Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Morin.

• Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3ème édition. De Boeck.

• Simplifiées

• Dytham C. 2011. Choosing and Using Statistics. A Biologist’s Guide. 3rd Edition. Blackwell Publishing.

• McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press.

• van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing.

• Plus spécialisées

• Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier.

• Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press.

• R (www.r-project.org)

• Statdisk (http://statdisk.com/)

• XLStat (www.xlstat.com) €

• Minitab (www.minitab.com) €

• JMP (www.jmp.com) €

• Statistica (www.statsoft.com) €

• SAS (www.sas.com/technologies/analytics/stat) €

Quelques logiciels

http://www.r-project.org

http://statdisk.com

http://www.xlstat.com

http://www.minitab.com

http://www.jmp.com

http://www.statsoft.com

http://www.sas.com/technologies/analytics/stat

1. INTRODUCTION

RAPPELS

• Statistique : Etude scientifique des données numériques décrivant les variations naturelles

• Biostatistique

• Application à la biologie

• Important : savoir décider de la méthode à utiliser

• Bien connaître les méthodes : conditions d’utilisation, limitations, ...

• Penser aux statistiques avant de collecter les données

Utilité et utilisation des statistiques en biologie

• Description

• Vue synthétique et rationnelle des données

• Inférence

• Economie de travail par l’étude d’échantillons représentatifs

• Décision

• Test d’hypothèse

• Biologie : incertitude des résultats expérimentaux ou des observations

• Variabilité génétique

• Variabilité de réaction individuelle

• Variabilité du développement

Pourquoi utiliser les statistiques en biologie?

Définitions• Objet = observation = élément = unité

d’échantillonnage : élément sur lequel on mesure des caractéristiques (variables)

• Echantillon : ensemble des objets

• Population cible : ensemble des objets visés par une étude scientifique

• Population statistique : ensemble des objets représentés par l’échantillon. C’est sur elle que se fait l’inférence

• Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température, ...

• Variable dépendante (Y) = réponse

• Variable indépendante (X) = explicative

• Variable aléatoire : résultat d’un processus aléatoire, valeur précise inconnue avant la mesure

• Variable contrôlée : décidée par l’expérimentateur, erreur = mesure seulement

• Paramètre : caractéristique quantitative permettant une représentation condensée d’information contenue dans un ensemble de données. Ex : moyenne, pente, ...

• Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d’objets (paramètre de dispersion)

• Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable

Sx = √Sx2

• Erreur-type (standard error) : écart-type de la distribution d’échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d’une même population). Sert à calculer un intervalle de confiance

• Interprétation de l'écart-type

• Barres d'erreurs : attention !

?

Variables

• Terme déterministe : loi du phénomène

• Terme aléatoire : variabilité du phénomène

• Hasard, fluctuations

• Autres facteurs, souvent à expliquer

1 cause : 1 effet1 cause : n effets

variabilité

●

Modèle déterministe

Force de frappeInte

nsité

de

la d

éfor

mat

ion

●●●●

Modèle aléatoire

Dose d'engrais

Cro

issa

nce

●●

●●●●●●

●

●●

• Analyse statistique : étude des phénomènes stochastiques

• Discrimination de la loi du phénomène et de sa variabilité

Différents types de variables

• Binaire : 2 états. Ex : présence-absence

• Multiple : plus de 2 états

• Non-ordonnée = qualitative = nominale. Ex : couleur

• Ordonnée

• Semi-quantitative = ordinale = de rang. Ex : classes

• Quantitative

• Discontinue = discrète. Ex : nombre d’individus

• Continue. Ex : longueur

• Transformations

• Standardisation : y' = (y - y)̅/s (s = écart-type ; on obtient une variable centrée et réduite). y’̅ = 0 et s = 1, variables non-dimensionnelles

• Normalisation et stabilisation des variances : y' = log (b0 + b1y) ; y' = √y ; ...

• Linéarisation

Statistiques descriptives

• Exploration des données

• A calculer avant chaque test

• Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantile-normale), ...

• Identifier les valeurs extrêmes ou aberrantes

• A ne pas oublier...

Statdisk - ScatterplotPrinted on Mer 10 sep 2008 at 9:08

X Value

Statdisk - Explore DataPrinted on Mer 10 sep 2008 at 9:08

Plans d’échantillonnage• Principalement pour organismes fixes (ou localités, ...)

• Echantillonnage aléatoire : représentatif

• Aléatoire : chaque membre de la population a la même probabilité d’être choisi

• Aléatoire simple : chaque échantillon de taille n a la même probabilité d’être choisi. Condition pour de nombreux tests

• Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale)

• Risque (faible) de coïncider avec une périodicité naturelle

• Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation, ...)

• Echantillonnage en grappe

• Division de la population en sections (grappes)

• Sélection aléatoire des grappes

• Choix de tous les membres des grappes sélectionnées

• Echantillonnage opportun

• En fonction des circonstances

• Sur les objets faciles à obtenir

• Exemple : réponses seulement de ceux qui participent de façon active à un sondage

• Pas un bon plan d'échantillonnage !

Plans d’expérience• Méthode expérimentale

• Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois

• Important : rigueur

• Construction : hypothèse nulle et hypothèse contraire

• Répondre spécifiquement à une question (critère de validité générale)

• Minimiser l’erreur de Type I

• Application : analyse de variance (ANOVA)

Concepts

• Elément d’observation

• Sur lequel on fait les mesures de la (des) variable(s)

• Ex : individus, quadrats, ...

• Unité d’expérimentation

• Contient les éléments

• Reçoit le traitement

• Ex : parcelle, bassin, ...

• Facteur : plusieurs valeurs possibles

• Niveaux ou traitements

• Contrôle

• Groupe non traité

• Traitement (placebo, manipulation seule, ...)

• Bloc

• Groupe d’unités d’échantillonnage, défini a priori

• Expérience de mesure d’un phénomène naturel

• En milieu naturel : pas (peu) de contrôle des variables

• Mesure du profil de variabilité du phénomène

• Expérience contrôlée

• Utilisation de traitements contrôlés

• Réduction de l’influence des autres facteurs

• Elimination

• Constance

• Inclusion dans l’analyse

• Répétition (= replication)

• Mesure de la variabilité du système (répétitions biologiques, pas techniques)

• Pseudoréplication

• Due à la non-indépendance des observations, qui ne sont pas alors de “vrais réplicats”

➡Validité générale

• Variations dues exclusivement au facteur étudié

➡Validité externe

• Généralisation à d’autres systèmes

• Simplification pas trop importante

Aléatoire

Blocs randomisés

Systématique

Ségrégation simple

Ségrégation agrégée

Ségrégation isolative

Répétitions physiquement interdépendantes

Pas de répétitions

• Important de bien définir l’hypothèse nulle (H0)

• La seule que l’on étudie = hypothèse principale

• Contient généralement "="

• La statistique testée possède une distribution connue

• Hypothèse contraire (H1 ; "hypothèse alternative")

• Contient généralement "≠", ">"ou "<"

• On ne peut la prouver, elle est plausible si H0 est rejetée

• Grande importance de l’hypothèse biologique

Tests statistiques

• En général 3 conditions pour un test :

• Loi (Normale, Student, F, ...)

• Indépendance des observations

• Homogénéité des variances (homoscédasticité)

• Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d’apparition de toutes les valeurs d’une variable

• Besoin de tester la distribution observée sur l’échantillon (impossible sur la population)

Conditions

• Erreur de Type I (α) : probabilité de se tromper en rejetant H0 (donc H0 est vraie). Seuil fixé

• Robustesse d’un test : sensibilité aux conditions d’applications

• Un test est robuste s’il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales

• Puissance d’un test : capacité à mettre en évidence de petites différences

• Aptitude à rejeter H0 lorsqu’elle est fausse (= 1 - ß

(erreur de Type II))

• Fonction de : test, nombre d’observations, variance, α

• Test : calcul d’une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l’aide des données

• On peut calculer (logiciel) la probabilité d’obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c’est la p-value, P

• Interprétation en terme de rejet ou non de H0, en fonction du seuil α choisi, généralement 0,05 (5 %) :

• P > 0,05 : non rejet de H0

• P ≤ 0,05 : rejet de H0

p-value ("valeur-p")

Puissance d’un test : n optimal

• Question récurrente : de combien d’objets (observations, prélèvements, ...) a-t-on besoin pour établir une différence significative, s’il y en a une ?

• Exemple : utilisation de la statistique-test t

• Il faut d’abord estimer la variance et avoir une idée de l’écart entre populations (étude préalable)

• Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l’aide de la valeur critique de t

• Importance de l’amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse

• On affine la puissance (en modifiant α, n, ...) en fonction de l’écart choisi (qui dépend du degré de précision souhaité)

• Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu’une valeur de 0,6

• On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse

Test unilatéral ou bilatéral

• Dépend de la formulation de H1 : hypothèse biologique

• Unilatéral : la différence est attendue dans un certain sens (> ou <).

• Bilatéral : on cherche seulement à savoir s’il y a une différence, quel qu’en soit le sens.

• Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H0

➡Différence au niveau de la puissance

• But du test : savoir si on doit rejeter ou non H0

• Risque d’erreur due à la variabilité des observations

• Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée

• Loi de distribution théorique

• Exemple de la loi Normale : tests paramétriques

• Génération empirique de la distribution

• Tests par permutations

• Pas de distribution

• Tests non paramétriques

• Les tests non paramétriques sont basés sur la notion de rang

• Permettent de mettre en évidence des relations monotones

• Pour 2 variables : augmentation ou diminution constante d’une variable quand l’autre augmente

monotones non monotone

• 20 individus en 2 groupes de 10 ; variable = taille

• Question : la taille moyenne est-elle différente dans chaque groupe ?

• H0 : la taille moyenne est la même

• Statistique testée (= variable auxiliaire) : différence entre les moyennes

• Sous H0, elle devrait se situer “autour de 0”

Test par permutations : exemple

• N’importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H0

• Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande

• Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H0

• Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations

• On compare ensuite la valeur observée de la statistique à cette distribution

t* < –!t! t* = –!t! –!t!< t* <!t! t* = !t! t* > !t!Statistic t 8 0 974 1† 17

Distribution théoriques

• Variables discontinues

• Loi binomiale

• Loi de Poisson

• Variables continues

• Loi Normale

• Loi du Khi-2 (X2)

• Loi de Fisher

• Loi de Student

• Distribution la plus importante : distribution Normale (= Gaussienne)

• Théorème de la limite centrale (central limit theorem)

• “Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n’est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution”

• Souvent le cas dans la nature

• Normalité : évaluation visuelle de la distribution des données

• Histogramme : “en cloche”

• Graphe quantile-normale (= quantile-quantile) : points en ligne droite

• Mieux pour petits échantillonsStatdisk - Normal Quantile PlotPrinted on Mar 9 sep 2008 at 14:40

X Value

Tests de normalité

• A faire avant d’utiliser les tests paramétriques

• Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, …

• H0 : Distribution normale

• Données multinormales : test de multinormalité

• Test de Dagnelie

Transformations

• Beaucoup de méthodes d’analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale

• Si la distribution n’est pas normale

• Méthodes non-paramétriques

• Transformation des données : normalité

• Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes)

Exemples

• Données d’abondance

• Distribution asymétrique

• Distribution de Poisson

• Distribution contagieuse

• Données en proportions ou pourcentages

• Transformation Logarithme

• y’ = ln(y + c)

• Distributions contagieuses

• Transformation racine

• y = √(y + c)

• Distributions de Poisson : variance = moyenne

• Transformation arcsinus

• y = arcsin√p

• Distributions en proportions

• Transformation Box-Cox

• Formule générale

• Quand tout le reste a échoué

• Pas calculable à la main : technique itérative

Choix d’une méthode• 1 variable

• 2 groupes : test t, test U, ...

• > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis, ...

• 2 variables

• Liaison : corrélation, test du Χ2

• Modèle : régression simple

• > 2 variables

• Description : ordination sans contrainte, groupement

• Test : test de Mantel, régression multiple, analyse canonique, MANOVA

BIOSTATISTIQUES AVANCEES - edu.upmc.fr · même probabilité d’être choisi ... • Méthode...

Documents

Transcript of BIOSTATISTIQUES AVANCEES - edu.upmc.fr · même probabilité d’être choisi ... • Méthode...