M2 [email protected]...

34
en´ etique Statistique - Cours 2 M2 [email protected] Version pr´ eliminaire, ne pas diffuser 2018-2019 V. Perduca Gen Stat - Cours 2 2018-2019 1 / 34

Transcript of M2 [email protected]...

  • Génétique Statistique - Cours 2M2

    [email protected] préliminaire, ne pas diffuser

    2018-2019

    V. Perduca Gen Stat - Cours 2 2018-2019 1 / 34

  • 1 Introduction à l’épidémiologie génétique

    2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association

    V. Perduca Gen Stat - Cours 2 2018-2019 2 / 34

  • Epidémiologie génétique

    Les objetifs de l’épidémiologie génétique sont d’étudier la composantegénétique des maladies humaines :

    I Mettre en évidence l’existence d’une composante génétique et lacaractériser (1 ou plusieurs gènes ? Mode d’action de chacun ?)

    I Identifier les gènes et les polymorphismes fonctionnels dans ces gènesI Préciser leurs effets :

    I Estimer les risques associés aux différents génotypesI Etudier leurs interactions avec l’environnement ou avec d’autres gènes

    V. Perduca Gen Stat - Cours 2 2018-2019 3 / 34

  • Étiologie

    Maladie monogénique : la modification (mutation) d’un gène majeur estresponsable à elle seule de l’apparition de la maladie

    I En général, maladies rares et graves

    I Transmission selon les lois de Mendel. La transmission peut êtrerecessive ou dominante

    I Ex. mucoviscidose (freq : 4/10000), myopathie de Duchenne (freq :3/100000), dystrophie musculaire, hémophilie...

    Maladie multifactorielle : maladie avec composantes génétiques (etenvironnementales) multiples.

    I Le nombre de facteurs impliqués en général n’est pas connu

    I Gènes impliqués sont dits de susceptibilité, petits effets individuels

    I Maladies communes, ex. maladies cardio-vasculaires, maladiesauto-immunes (asthme, diabète de type I, sclérose en plaques),schizophrénie, cancers

    V. Perduca Gen Stat - Cours 2 2018-2019 4 / 34

  • Modèle monogénique général (1)

    I On note Y le phénotype (i.e. ce qu’on observe : la maladie).

    I On note X le génotype étudié (i.e. la mutation responsable duphénotype dans les maladies monogéniques)

    I La pénétrance en génétique est la proportion d’individus quiexpriment le phénotype étudié (i.e. malades) parmi ceux possédant uncertains génotypes (e.g. les mutés) :

    f = P(Y = Ddisease |X = Mmutation)

    V. Perduca Gen Stat - Cours 2 2018-2019 5 / 34

  • Modèle monogénique général (2)

    On a un modèle probabiliste :

    I Si tous les porteurs de l’allèle à risque ne sont pas nécessairementatteints :La pénétrance est incomplète

    I Si un individu non porteur de l’allèle pathologique peut être atteint :Cas sporadique

    I L’allèle peut être fréquent

    V. Perduca Gen Stat - Cours 2 2018-2019 6 / 34

  • Maladies multifactorielles et sous-entités mendeliennes (1)

    Maladie d’Alzheimer

    I Maladie neurodégénérative dont les causes sont multiples.

    I La majorité des cas ne sont pas héréditaires, cependant certainesgènes constituent un facteur de risque.

    I Le gène ApoE4 est le facteur de risque le plus important de la formesporadique :

    I 3 allèles : apoE2, apoE3 et apoE4I apoE3(78%) et apoE4(15%) sont les plus fréquentsI apoE4 est associé à un risque très accru de la maladie.

    I environ 0,1% des cas sont des formes génétiques familiales :I transmission autosomique dominanteI maladie due à une mutation dans un de ces 3 gènes :

    I gène APP sur le chromosome 21I gène PSEN1 (préséniline1) sur le chromosome 14I gène PSEN2 (préséniline2) sur le chromosome 1.

    I apparition précoce des signes (avant 65 ans)

    V. Perduca Gen Stat - Cours 2 2018-2019 7 / 34

  • Maladies multifactorielles et sous-entités mendeliennes (2)

    Cancer du sein

    I 25% des nouveaux cas de cancer chez la femme

    I 5 à 10% de cas familiaux dont 3 à 4% dus à des mutations dans lesgènes BRCA1 et BRCA2 (transmission autosomique dominante)

    I Leurs ”caractérisations” reposent sur :I concentration familialeI âge plus précoceI formes souvent plus sévères

    V. Perduca Gen Stat - Cours 2 2018-2019 8 / 34

  • Etapes de l’Epidémiologie génétique (1)Le processus qui permet de trouver une ou plusieurs composantes génétiquesassociées à une maladie est souvent le fruits d’une succession d’étapes :

    I Agrégation Familiale : Mise en évidence d’une concentration familiale

    I Analyse de ségrégation : Teste différents modèles génétiques

    I Analyse de liaison : Trouver la localisation d’un gène majeur

    I Estimation de risque associé au gène majeur

    I Fine mapping (cartographie fine) : Localisation d’un gène en utilisant leshaplotypes et les déséquilibre de liaison.

    I Analyse d’association : Teste des gènes candidats ou tous les gènes

    I Cloning : Determine la séquence moléculaire du gène

    I Caractérisation : Décrit les effets du gène

    V. Perduca Gen Stat - Cours 2 2018-2019 9 / 34

  • Etapes de l’Epidémiologie génétique (2)

    Burton, Key concepts in genetic epidemiology

    V. Perduca Gen Stat - Cours 2 2018-2019 10 / 34

  • Contents

    1 Introduction à l’épidémiologie génétique

    2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association

    V. Perduca Gen Stat - Cours 2 2018-2019 11 / 34

  • Concentration familiale (1)

    I On recrute des patients ”au hasard”.

    I On considère leurs apparentés.

    I La mise en évidence d’un risque plus élevé chez les apparentés d’unmalade que dans la population générale plaide pour l’existence defacteurs génétiques (et/ou environnementaux de type familial).

    V. Perduca Gen Stat - Cours 2 2018-2019 12 / 34

  • Concentration familiale (2)

    Exemple : diabète de type 1 et schizophrénie en Europe

    ! ! !"#$%&'()'(&*+'(,((

    -./"01+/234"'(

    5236#7'4.'('4(+1+87#&"14((

    ! "#$!%!&!'!(")*! (")&!

    9":;8'(+182(7

  • Concentration familiale (3)Une concentration familiale n’indique pas nécessairement qu’il y a unecomposante génétique ! Il pourrait s’agir d’une composanteenvironnementale spécifique des familles.

    Exemple : études de médecine

    ! ! !"#$%&$%&'($%)*+%&&

    ,-(./0%+)%&%+&121#0/"*2+&&

    ! "#"!$!%&'(!!)*+,-!""./!!

    3*45#%&12#-&06/11/-%+"(&$6#+&'/0/$%&&

    01234,5! "#"!$!%&'%!)*+,-!""./!

    64215-! 7$!%&'"!)*+,-!7./!

    !Les membres d’une famille partagent plus que leurs gènes... Uneconcentration familiale peut être due à une corrélation pour des facteursd’environnement et/ou génétiques.

    V. Perduca Gen Stat - Cours 2 2018-2019 14 / 34

  • Twin studies (études de jumeaux) (1)

    I Permet de séparer la corrélation environnementale et la corrélationgénétique.

    I jumeaux monozygotes : issus d’un même oeuf, ils partagent le mêmepatrimoine génétique (donc même sexe)

    I jumeaux dizygotes : 2 ovules fécondés par 2 spermatozöıdes(génétiquement comme des germains)

    I On compare les risques relatifs chez des jumeaux monozygotes et desjumeaux dizygotes.

    I Postulat : les MZ et les DZ partagent leur environnement de la mêmefaçon.⇒ Une difference de concentration de la maladie entre les jumeauxMZ et les jumeaux DZ indique que la maladie a une composantegénétique.

    V. Perduca Gen Stat - Cours 2 2018-2019 15 / 34

  • Etudes de jumeaux (2)

    Taux de concordance = taux de similarité pour une certaine caractéristique(ex : si taux concordance = 80% entre deux jumeaux MZ pour une maladie M ; alors si unjumeau est atteint de M, la probabilité que l’autre le soit est de 80%)

    les jumeaux MZ et DZ sont supposés partager leur environnement dans la mêmemesure

    V. Perduca Gen Stat - Cours 2 2018-2019 16 / 34

  • Quelques études de jumeaux

    V. Perduca Gen Stat - Cours 2 2018-2019 17 / 34

  • Limites des études de jumeaux

    I Biais de recrutement en faveur des paires concordantes.

    I Nombre de paires disponibles parfois faible.

    I Discordances environnementales plus importantes pour les DZ quepour les MZ

    V. Perduca Gen Stat - Cours 2 2018-2019 18 / 34

  • Adoption studies

    I Les études d’adoption cherche à séparer les effets génétiques deseffets environnementaux (comme les études de jumeaux)

    I On compare des individus qui partagent un même environnementmais qui ont des ancêtres différents.

    I Inconvénient : échantillons petits, particulièrement pour les maladiesrares.

    V. Perduca Gen Stat - Cours 2 2018-2019 19 / 34

  • Contents

    1 Introduction à l’épidémiologie génétique

    2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association

    V. Perduca Gen Stat - Cours 2 2018-2019 20 / 34

  • Pénétrance et prevalence

    I On note Y le phénotype associé au statut de la maladie, par exemple

    Y = 1 pour les maladesY = 0 pour les sains

    On note X le génotype d’un marquer donnée. Par exemple, pour un marquerbi-allélique, X ∈ {aa,Aa,AA} où A est l’allèle de susceptibilité (ie associé àla maladie)

    I La pénétrance d’une malade est la loi conditionnelle de la maladie sachant legénotype⇒ fonctions de pénétrances :

    faa = P(Y = 1|X = aa)fAa = P(Y = 1|X = Aa)fAA = P(Y = 1|X = AA)

    I La prevalence est la fréquence de la maladie dans la population, ie laprobabilité d’être malade : f = P(Y = 1)

    I Un modèle génétique est une loi de probabilité pour les génotypes :P(X = aa), P(X = Aa), P(X = AA)

    V. Perduca Gen Stat - Cours 2 2018-2019 21 / 34

  • Risques relatifs, ORs

    I On a f = faaP(X = aa) + fAaP(X = Aa) + fAAP(X = AA)I Si l’allèle de susceptibilité est rare, on a P(X = aa) ' 1 et donc

    f ' faaI Les risques relatifs (par rapport au genotype de référence aa) sont

    RR1 = fAa/faaRR2 = fAA/faa

    I Les Odds ratios (par rapport au genotype de référence aa) sont

    ORAavs aa =fAa

    1− fAa· 1− faa

    faa

    ORAAvs aa =fAA

    1− fAA· 1− faa

    faa

    V. Perduca Gen Stat - Cours 2 2018-2019 22 / 34

  • Modèles de maladieA est l’allèle de susceptibilité

    I Modèle recessif :fAa = faa, fAA = c + faa avec c constante,

    ie RR1 = fAa/faa = 1, RR2 = 1 + c/faa

    I Modèle dominant :fAa = fAA = c + faa

    ie RR1 = RR2 = 1 + c/faa

    I Modèle additif :fAa = c + faa, fAA = c + fAa = 2c + faa

    ie RR1 = 1 + c/faa et RR2 = 1 + 2c/faa

    I Modèle multiplicatif :fAa = c · faa, fAA = c · fAa = c2 · faa

    ie RR1 = c et RR2 = c2.

    I Modèle codominant : les fonctions de pénétrances ne sont pas identiques (pas d’hypothèsespécifique)

    I Penetrance complète : si la maladie est sûrement déterminée en presence d’un certaingénotype. Par exemple, un modèle est recessif à penetrance complète et sans cassporadiques si

    faa = fAa = 0 et fAA = 1

    V. Perduca Gen Stat - Cours 2 2018-2019 23 / 34

  • Contents

    1 Introduction à l’épidémiologie génétique

    2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association

    V. Perduca Gen Stat - Cours 2 2018-2019 24 / 34

  • Analyse de ségrégation (1)

    I Objetif : Détecter l’existence et préciser le mode d’action defacteur(s) génétique(s) susceptible(s) d’expliquer les distributionsfamiliales d’un caractére donné, en particulier une maladie, enconfrontant ces observations à différents modèles génétiques.

    I Les transmissions sont-elles compatibles avec la présence d’un ”gènemajeur” impliqué dans la maladie ?

    I Si oui, peut on caractériser l’effet de ce gène (estimation de lafréquence ? estimation des pénétrances ?)

    I On cherche donc à déterminer un modèle génétique

    Gène majeur = gène dont l’effet est suffisamment important pour pouvoir être discerné parmil’ensemble des autres effets contribuant à la variabilité du caractère.

    V. Perduca Gen Stat - Cours 2 2018-2019 25 / 34

  • Exemple : ségrégation d’une maladie récessive dans desfamilles nucléaires

    On observe les familles :

    Modèle : maladie récessive,autosomique,pas de cas sporadiquesFréquence allélique P(S) = q = 0.3Pénetrances P(Mal |SS) = f = 0.5

    P(Mal |Ss) = 0P(Mal |ss) = 0

    Prévalence de la maladie P(Mal) = F = fq2 = 4.5%

    Vraisemblence de la famille :Présence d’un gène majeur q4f 4 = 0.05% q2fq2(1− f )f 2+

    q2f 2q(1− q)1/4f 2 = 0.28%

    Pas d’effet familial F 4 = 4/000000 (1− F )F 3 = 8/00000

    V. Perduca Gen Stat - Cours 2 2018-2019 26 / 34

  • Proportions relatives des configurations

    En posant d’autres modèles :

    Gène majeur 0.65% 1.28% 4.37%Aléatoire 0.004% 0.2% 0.2%

    Gène majeur 21.1% 10.81% 61.79%Aléatoire 8.5% 2% 89%

    V. Perduca Gen Stat - Cours 2 2018-2019 27 / 34

  • Analyse de ségrégation (2)

    Selon le modèle considéré, la proportion des différentes configurations estvariable. Ces proportions apportent une information sur l’existence d’unmodèle génétique et sur ses caractéristiques (fréquences, pénétrance...)

    TEST :La présence d’un gène majeur explique-t-elle mieux les données que

    I le hasard

    I des corrélations familiales ne correspondant pas à un seul gène majeurmais à plusieurs gènes à faible effet et/ou à des corrélationsenvironnementales.

    V. Perduca Gen Stat - Cours 2 2018-2019 28 / 34

  • Contents

    1 Introduction à l’épidémiologie génétique

    2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association

    V. Perduca Gen Stat - Cours 2 2018-2019 29 / 34

  • Introduction à l’analyse de liaison

    I Deux loci sont liés si leurs allèles sont transmis de façon non indépendantedans les gamètes. On parle de co-segregation (ie co-transmission) des allèles.

    I A cause de la recombinaison, plus deux loci sont proches plus il est probableque leur allèles soient co-transmis.

    I Si le gène responsable d’une maladie est situé près d’un marqueur, les allèlesdu marqueur et le statut maladie sont plus souvent co-transmis

    I L’analyse de liaison cherche à établir si un marqueur génétique estco-transmis avec le phénotype d’intérêt

    I On utilise des données familiales

    I L’analyse de liaison repose sur des test basés sur le taux de recombinaison θ.

    Désavantages de l’analyse de liaison :

    I identifie des régions vastes

    I n’identifie pas nécessairement les allèles causaux

    I fonctionne bien pour les maladies monogéniques pour les quelles le modèlegénétique est connu, mais elle n’est pas très puissante dans le cas demaladies multifactorielles.

    V. Perduca Gen Stat - Cours 2 2018-2019 30 / 34

  • Contents

    1 Introduction à l’épidémiologie génétique

    2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association

    V. Perduca Gen Stat - Cours 2 2018-2019 31 / 34

  • Introduction à l’analyse d’association

    I Association : une forme de dépendence entre genotype and phénotype(ie malades/témoins)

    I Données populationnelles ou données familiales.

    I Population : on recherche des marqueurs pour lesquels la fréquencedes allèles est différente chez les malades et chez les témoins.

    I Pour comparer la fréquence des allèles chez les cas et les témoins :

    A1 A2 totalMalades (N) a1 a2 2NTémoins (N ′) a′1 a

    ′2 2N

    Par exemple on peut faire un test d’indépendance du χ2

    V. Perduca Gen Stat - Cours 2 2018-2019 32 / 34

  • Association directe et indirecte

    I Si le phénotype est associé avec un marquer génétique dans un gène(par exemple un SNP), alors il est aussi associé avec le gène

    I En général, l’association entre le phénotype et locus de susceptibilitépeut être directe ou indirecte :

    M. Guedj, thèse

    V. Perduca Gen Stat - Cours 2 2018-2019 33 / 34

  • Liaison vs association

    Analyse de liaison :

    I but : identifier la position du gène responsable (gene mapping)

    I étudie la co-ségregation de la maladie avec les marqueurs dans despedigrees, pour établir la distance entre les marqueurs et le gèneresponsable

    Analyse de association (données populationnelles) :

    I but : déceler association entre gène (ou marquer) et maladie, mesurerl’effet des allèles

    I cadre épidémiologique classique des études d’association cas-témoins,population d’individus non apparentés

    V. Perduca Gen Stat - Cours 2 2018-2019 34 / 34

    Introduction à l'épidémiologie génétiqueEtapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d'association