Post on 04-Aug-2015
CRCM's Bioinformatics Integrative
Centre de Recherche en Cancérologie de Marseille
Découverte de biomarqueurs prédictifs
en cancer du sein par
Intégration Transcriptome-Interactome
Soutenance de thèse - 20 décembre 2013Maxime U Garcia
Directeur Pr. François Bertucci Oncologie Médicale
Co-directeur Dr. Ghislain Bidaut Bioinformatique Intégrative
2/60
Plan
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusion
Discussion, perspectives
Introduction
3/60Principe général de l'expression des gènes
Introduction
ADN
ARN
Protéine
Transcription
Traduction
4/60
L'expression des gènesvarie suivant les types cellulaires
Introduction
5/60L'importance du contrôle hormonal
Prolifération des cellules
Apoptose (Mort cellulaire)
Système immunitaire
Métabolisme
Puberté
Grossesse
Cycle reproductif
Développement des caractères sexuels secondaires
Introduction
6/60Une multitude de causes à l'origine du cancer
PhysiqueUV, Radioactivité
ChimiquePerturbateurs endocriniens, Radicaux libres
BiologiqueVirus, Bactéries, Parasites
HéréditéBRCA1, RB1, APC
Introduction
7/60Les catégories de gènes à l'origine des cancers
Les oncogènes
Favorisent les cancers
Les gènes suppresseurs de tumeurs
Inhibent la prolifération cellulaire
Les gènes de réparation de l'ADN
Protègent l'ADN
Introduction
8/60
Les caractéristiques des cancers (Hallmarks)
Introduction
Hannahan et al. 2000, 2011
9/60
Les caractéristiques des cancers (Hallmarks)
Introduction
Hannahan et al. 2000, 2011
10/60
Les caractéristiques des cancers (Hallmarks)
Introduction
Hannahan et al. 2000, 2011
11/60
L'apport des technologies à haut débit
Médecine prédictivePrédire l'évolution de la maladie
Prévenir la maladie ou en amoindrir ses effets
Médecine personnaliséeÉtablir un traitement personnalisé suivant le patient et/ou la maladie
Introduction
12/60
Les statistiques des cancers
Introduction
Organe Homme Femme
Poumon 42,3 9,9
Prostate 12,6 -
Côlon-rectum 14,4 8,3
Foie 9,9 2,2
Pancréas 7,9 4,7
Sein - 17,2
Tous cancers 158,6 79,1
Taux observé standardisé (pour 100 000 personnes) à la population mondialede mortalité des cancers pour 2004-2008
13/60
Les caractéristiques du cancer du sein
1 an 3 ans 5 ans
Taux de survie 97 % 90 % 85 %
Il est souvent hormono-dépendant
Stade Local Régional Métastatique
Taux de survie à 5 ans 98.3 % 83.5 % 23.3 %
Introduction
Le cancer le plus fréquent et le plus mortel chez la femme
14/60
Traitements
ChirurgieAblation chirurgicale de la tumeur
ChimiothérapieSubstance chimique ciblant les cellules cancéreuses
RadiothérapieIrradiation des cellules
HormonothérapiePour les cancers hormono-dépendants
Introduction
15/60
Les classifications des cancers
Tumeur-Ganglion-Métastase (TNM)(0 – I – II – III – IV)
Scarff-Bloom-Richardson (SBR)( 1 – 2 – 3)
Biomarqueurs(ESR1 (ER), PGR (PR), ERBB2 (HER2))
Sous-typage moléculaire
Introduction
16/60
Intérêt du sous-typage moléculaire
Introduction
Perou et al. 2000
17/60
Intérêt du sous-typage moléculaire
Introduction
Hu et al. 2006
18/60Les signatures prédictives
(2002) Van't veer et al. 117 patients → signature à 70 gènes
essai clinique (MINDACT)
(2005) Wang et al. 286 patients → signature à 76 gènes (ER)
seulement 3 gènes en commun
(2005) Michiels et al. Plusieurs signatures à 70 gènes possibles
Forte dépendance au jeu de données d'apprentissage
(2007) Ein-Dor et al. Des milliers d'échantillons seraient nécessaires
pour générer une liste robuste
Introduction
19/60
Des limitations inhérentes à la technologie utilisée et à l'hétérogénéité de la maladie étudiée
Introduction
Variabilité expérimentale
Biologie du cancer
Fléaux de la dimensionnalité et de la parcimonie
Solutions :Augmenter le nombre d'échantillons (Dobbin et al. 2008)
Ajouter des informations biologiques supplémentaires (Chuang et al. 2007)
20/60
L'ajout de données d'interactions protéiques améliore la performance de la classification
(2008) Chuang et al. Ajout de données d'interactions protéiques
→ biomarqueurs robustes
→ augmentation de la performance
Un seul jeu de données d'apprentissage utilisé
Introduction
21/60
Plan
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusions
Discussion, perspectives
L'Intégration Transcriptome-Interactome
22/60
Question biologique posée et données utilisées
Signature pronostique de la rechute métastatique à 5
ans dans le cancer du sein
Données d'expression (Transcriptome)
Données d'interactions protéine-protéine (Interactome)
Algorithme Intégration Transcriptome-Interactome
(ITI)
L'Intégration Transcriptome-Interactome
23/60
Élaboration d'un Compendiumde données d'expression
Exploration des dépôts de données publiques (GEO,
ArrayExpress, Stanford Microarray Database)
26 jeux de données considérés
12 jeux de données avec données cliniques
Statuts DMFS (Distant Metastasis-Free Survival)Suivi minimal de 5 ans
Statuts ER
Nature du traitement éventuel
L'Intégration Transcriptome-Interactome
24/60
Douze jeux de données assembléspour réunir 2103 tumeurs du sein
Jeu de données Échantillons DMFS + DMFS -
Desmedt 198 62 136
Ivshina 249 89 160
Loi 117 26 91
Parker 199 45 154
Pawitan 159 40 119
Sabatier (IPC) 31 9 22
Schmidt 200 46 154
Sotiriou 179 40 139
Van de Vijver 295 88 207
Wang 286 107 179
Zhang 136 20 116
Zhou 54 9 45
Total 2103 581 1522
L'Intégration Transcriptome-Interactome
25/60Assemblage de l'Interactome
L'Intégration Transcriptome-Interactome
Base de données Protéines Interactions
HPRD 9 386 36 577
INTact 7 471 25 616
DIP 918 810
MINT 5 559 12 143
Cocite 5 568 31 533
Total 13 202 70 530
26/60
Principes de l'Intégration Transcriptome-Interactome
Exemple d'un réseau d'interactions
-Changement d'expression
+
L'Intégration Transcriptome-Interactome
27/60
Jeu de données 1
Principes de l'Intégration Transcriptome-Interactome
-Changement d'expression
+
L'Intégration Transcriptome-Interactome
28/60
Jeu de données 2
Principes de l'Intégration Transcriptome-Interactome
-Changement d'expression
+
L'Intégration Transcriptome-Interactome
29/60
Principes de l'Intégration Transcriptome-Interactome
-Changement d'expression
+
L'Intégration Transcriptome-Interactome
Le gène à l'origine de la dérégulation est peu différentiellement exprimé
30/60Principe de l'algorithme ITI
L'Intégration Transcriptome-Interactome
2 types de données+ annotations cliniques
(Statuts DMFS, ER)
Garcia et al. 2012
31/60Principe de l'algorithme ITI
L'Intégration Transcriptome-Interactome
2 types de données+ annotations cliniques
(Statuts DMFS, ER)
Mesure de corrélationentre les profils
d'expression des gènes et les conditions cliniques
Garcia et al. 2012
32/60Principe de l'algorithme ITI
L'Intégration Transcriptome-Interactome
2 types de données+ annotations cliniques
(Statuts DMFS, ER)
Mesure de corrélationentre les profils
d'expression des gènes et les conditions cliniques
Détection desous-réseauxdiscriminants
Garcia et al. 2012
33/60
∑ ∈=
DSd dss SNS
S ,
1
- Corrélation Profils d'expression des gènes – Conditions cliniques (DMFS)
- Normalisation par la taille du jeu de données
- Somme sur tous les jeux de données
= ∑ ∈
)(,),(1
)(max, dccdge
ncorr
DSn
nS
sgd
dds
Calcul du score des sous-réseaux
Garcia et al. 2012
34/60Validation statistique
L'Intégration Transcriptome-Interactome
Génération de sous-réseaux aléatoires
● Mélange des conditions cliniques
● Utilisation d'un interactome aléatoire
● Décision aléatoire de l'ajout d'un nœud
Sélection de sous-réseaux
score
score
Sou
s-ré
seau
xS
ous-
rése
aux
35/60Création d'une ressource bioinformatique
36/60
Plan
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusion
Discussion, perspectives
Résultats
37/60Analyse non-supervisée
Jeu de données Échantillons DMFS + DMFS -
Desmedt 198 62 136
Ivshina 249 89 160
Loi 117 26 91
Parker 199 45 154
Pawitan 159 40 119
Sabatier (IPC) 31 9 22
Schmidt 200 46 154
Sotiriou 179 40 139
Van de Vijver 295 88 207
Wang 286 107 179
Zhang 136 20 116
Zhou 54 9 45
Total 2103 581 1522
Résultats
38/60
Quatre études dans l'analyse non-supervisée
Tous les jeux de données sauf van de Vijver119 sous-réseaux
Tous les jeux de données sauf Wang103 sous-réseaux
Tous les jeux de données profilés sous Affymetrix127 sous-réseaux
Tous les jeux de données profilés sous Affymetrix sauf
Wang100 sous-réseaux
Résultats
39/60Gène Rang
CDC2 1
CCND1 2
STMN2 3
GRB2 4
LUC7L3 5
SF3B3 6
TK1 7
TSC1 8
HNRNPA1 9
ACTN1 10
HSPB1 11
MAPKAPK2 12
AGTPBP1 13
CYCS 14
BAX 15
PPFIA1 16
SFN 17
CRMP1 18
PRKCI 19
YWHAZ 20
• Apoptose [Sous-réseau 291, 5714]
• Adhésion cellulaire [Sous-réseau 6513]
• Contrôle du cycle cellulaire [Sous-réseau 1537, 581,7013, 5339]
• Réponse immunitaire [Sous-réseau 291, 2810, 3251]
• Développement [Sous-réseau 387, 58, 3420,7013,60312,3251,375]
• Metabolisme [Sous-réseau 29959, 3420, 581,4291,5339, 2068,374291]
Détection de nouveaux biomarqueursreliés à la rechute métastatique
Résultats
40/60
Les sous-réseaux possèdentles caractéristiques du cancer (Hallmarks)
Sous-réseaux Enrichissement terme GO
55971-32 Apoptose
1942-10 Angiogénèse
57167-34, 4291-24 Régulation des kinases
3987-23 Vieillissement cellulaire
163786-8 Voie de signalisation de Wnt *
23759-14 Cycle cellulaire, réplication ADN
59349-35 Adhésion cellulaire *
7398-41 Différentiation cellulaire
* Sous-réseaux reliés à la rechute métastatique
Résultats
41/60
Détails du sous-réseau 59349-35(Adhésion cellulaire)
Résultats
42/60
Détails du sous-réseau 59349-35(Adhésion cellulaire)
Résultats
43/60
Résultats
Détails du sous-réseau 59349-35(Adhésion cellulaire)
44/60
Résultats
Détails du sous-réseau 59349-35(Adhésion cellulaire)
45/60Analyse supervisée
Jeu de données Échantillons DMFS +/- ER +/-
Desmedt 190/198 62/127 61/129
Loi 101/327 27/74 29/72
Sabatier 31/255 9/22 11/20
Schmidt 182/200 46/136 37/145
Van de Vijver 150/295 56/94 36/114
Wang 276/286 107/169 72/204
Total 930/1561 307/623 246/684
Critères:- DMFS (Distant Metastasis Free Survival)- Patients sans chimiothérapie adjuvante- 5 ans de suivis
Sélection- 6 jeux de données- 930 ćhantillons
Résultats
46/60
Quatre études explorant la spécificitébiologique des cancers du sein ER+ et ER-
Résultats
Tous ER+, validation sur Desmedt6 sous-réseaux
Tous ER-, validation sur Desmedt165 sous-réseaux
Tous ER+, validation sur Wang14 sous-réseaux
Tous ER-, validation sur Wang122 sous-réseaux
47/60Organisation des données
Résultats
48/60Validation des sous-réseaux
Validation croisée à 10 couches
Préservation des proportions en statuts cliniques et moléculaires dans les jeux d'apprentissage et de validation
Détection des sous-réseaux et validation statistique :
- mélange des conditions cliniques
- mélange des interactions
- ajout aléatoire
Génération de 10 listes de sous-réseaux
Combinaison des listes
Sous-réseaux gardés pour classification sur des données indépendantes
Résultats
49/60
Sous-réseaux démontrantla pertinence de la méthode ITI
Résultats
50/60
Gene Ontology GO CorrectedP-value
ER+
Clivage des ARNm GO:0006379 125E-08
Régulation de la secrétion d'hormone
de croissanceGO:0060123 218E-07
Régulation positive de l'organisation du
cytosqueletteGO:0051495 206E-04
Regulation de la secrétion d'insuline
GO:0050796 155E-05
Régulation du chimiotactisme
GO:0050920 429E-07
ER−
Immunité à la médiation cellulaire
des cellules NKGO:0002228 293E-06
Régulation positive des activités MAP
kinasesGO:0043406 476E-10
Développement des cellules musculaires
GO:0055001 106E-11
Interphase du cycle cellulaire mitotique
GO:0051329 408E-11
Voie de signalisation de Wnt par
l'intermédiaire de la β-catenin
GO:0060070 622E-10
L'exploration fonctionnelle des sous-réseaux reflète la spécificité biologique du cancer
Résultats
51/60Classification plus performante
Résultats
Statuts ER- ER+
Jeux de données
Desmedt van de Vijver Desmedt van de Vijver
Signature 70 g 76 g ITI(165) 70 g 76 g ITI(122) 70 g 76 g ITI(6) 70 g 76 g ITI(14)
N 61 61 61 36 36 36 129 129 129 114 114 114
ACC 0.442 0.377 0.541 0.528 0.556 0.528 0.411 0.604 0.736 0.623 0.632 0.518
Signature plus stable (de 11.5 à 32.8 % de gènes en commun) entre différents jeux de données d'apprentissage
52/60
Amélioration de la prédictionpar rapport aux signatures existantes
Résultats
53/60
Plan
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusion
Discussion, perspectives
Conclusion
54/60
Conclusion
Conclusion
Construction d'un compendium de jeux de données
d'expression en cancer du sein
Assemblage d'un Interactome humain
Détection de sous-réseaux
Validation des sous-réseaux (3 méthodes)
Classification plus performante que les précédentes
signatures
Ressource bioinformatique disponible en ligne
55/60
Publications
Conclusion
Linking Interactome to Disease: A Network-Based Analysis of Metastatic
Relapse in Breast Cancer, IGI Global 2011
Interactome–transcriptome integration for predicting distant metastasis
in breast cancer, Bioinformatics 2012
Detection of driver protein complexes in breast cancer metastasis by
large scale transcriptome-interactome integration, Methods in Molecular Biology 2013
CNV-Interactome-Transcriptome Integration to detect driver genes in
cancerology, Microarray Image and Data Analysis, Accepted
Conferences : Cancer Bioinformatics Workshop 2010 (Cambridge),
Mathematical and Statistical Aspects of Molecular Biology 2011 (Vienne)
Posters : JOBIM 2011 (Paris), JOBIM 2012 (Rennes), ECCB 2012 (Bâle)...
56/60
Perspectives
Conclusion
Ajout d'autres types de données (CGH)
Refonte de l'algorithme de détection des sous-réseaux
(linéaire → concentrique)
Intégration dans Mobyle
Applications à d'autres types de cancers, d'autres
maladies
57/60Remerciements
Ghislain, François, Daniel, Pascal, Arnaud, Renaud, Sabrina, Max,
Samuel, Claire, Guillaume, Quentin, Olivier, Alexandre
Jean-Paul, Françoise, Secrétariat, Service Informatique
Mes parents, ma famille
Célia
Conclusion
58/60La régulation de l'expression des gènes
Suppléments
59/60
Les caractéristiques des cancers (Hallmarks)
Hannahan et al. 2000, 2011
Suppléments
60/60Classification plus performante
Statuts ER- ER+
Jeux de données
Desmedt van de Vijver Desmedt van de Vijver
Signature 70 g 76 g ITI(165) 70 g 76 g ITI(122) 70 g 76 g ITI(6) 70 g 76 g ITI(14)
N 61 61 61 36 36 36 129 129 129 114 114 114
ACC 0.442 0.377 0.541 0.528 0.556 0.528 0.411 0.604 0.736 0.623 0.632 0.518
SV 1 0.333 0.407 1 0.471 0.118 0.714 0.714 0.257 0.821 0.564 0.256
SP 0 0.411 0.647 0.106 0.632 0.895 0.298 0.563 0.915 0.520 0.667 0.653
Signature plus stable (de 11.5 à 32.8 % de gènes en commun) entre différents jeux de données dápprentissage
Suppléments