PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in...
-
Upload
jacqui-lecuyer -
Category
Documents
-
view
102 -
download
0
Transcript of PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in...
PhyloJava : une application de phylogénie sur la grille DATAGRID
WP10 - Biomedical applications in EU-DataGrid
T. SILVESTRE, L. DURET
Laboratoire de Biométrie et Biologie Evolutive (BBE)
CNRS UMR 5558 - Lyon
Réunion Datagrid France
IN2P3 - Centre de calcul
Lyon, 12 Février 2003
T. SILVESTRE, GiGn 15 Janvier 2003
Un peu d ’ étymologie...
Phylogenèse : [...] du grec phulon « race, tribu » et genèse, histoire évolutive des espèces, des lignées, et des groupes d ’organismes
Définition du « Petit Robert », édition Juin 2000
La phylogénétique est donc la phylogenèse réalisée à partir des gènes (séquences nucléiques ou protéiques)
Les résultats sont souvent représentés par des arbres (sous formes parenthésées ou graphique)
T. SILVESTRE, GiGn 15 Janvier 2003
Exemples d ’arbres phylogenétique
XenopusHomoBosMusRattusGallus0.02
(Xenopus,(Gallus,(((Rattus,Mus),Bos),Homo)))
T. SILVESTRE, GiGn 15 Janvier 2003
A quoi sert la phylogenétique ?
reconstruire l ’ « arbre de la vie »
aide à la découverte de fonction de nouveaux gènes
identification de souches bactériennes ou virales
traçabilité des aliments ( viandes, poissons…)
T. SILVESTRE, GiGn 15 Janvier 2003
Calcul d ’ arbre phylogenétique
CLUSTAL W (1.74) multiple sequence alignment
Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTAGallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATGBos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATGHomo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGMus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGRattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** **** ********* * *** * * *** * * *
XenopusHomoBosMusRattusGallus0.02
T. SILVESTRE, GiGn 15 Janvier 2003
PhyloJava
PhyloJava est une application qui permet le calcul d’arbres phylogenétiques à partir de fichiers d’alignements de séquences (protéiques ou nucléiques).
PhyloJava est constituée par 3 éléments :
1. un client qui permet de visualiser et d’ éditer les alignements et les arbres phylogenétiques.
2. un serveur de méthodes phylogenétique qui exécute les calculs “rapides”.
3. une interface à la grille de calcul DATAGRID (UI : User Interface) permettant de soumettre des calculs plus “lourds”.
T. SILVESTRE, GiGn 15 Janvier 2003
Méthodes de calcul
Il existe 3 familles de méthodes :
basées sur des distances (NJ,BIONJ) => O(n3)
maximum de parsimonie (DNAPars)
maximum de vraisemblance (FastDNAml) => O(pn) n : num. of seq.
Les méthodes basées sur le maximum de vraisemblance sont les plus exactes mais les plus longues à exécuter.
Difficile d’ évaluer la « robustesse » de l’arbre par un « bootstrap » qui nécessite le recalcul de plusieurs centaines d’arbres.
T. SILVESTRE, GiGn 15 Janvier 2003
Tests de fiabilités des topologies :le « Bootstrap »
1 Nacgtacatagtatagcgtctagtggtaccgtatgaggtacatagtatgg-gtatactggtaccgtatgacgtaaat-gtatagagtctaatggtac-gtatgacgtacatggtatagcgactactggtaccgtatg
real alignment random sampling, with replacement, of N sites
1 Ngatcagtcatgtataggtctagtggtacgtatattgagagtcatgtatggtgtatactggtacgtaattgac-gtaatgtataggtctaatggtactgtaattgacggtcatgtataggactactggtacgtatat
“artificial” alignments} 1000 timestree-building methodsame tree-building method
tree = series of internal branches “artificial” treesfor each internal
branch, compute fraction of “artificial” trees containing this
internal branch
T. SILVESTRE, GiGn 15 Janvier 2003
Pourquoi utiliser la grille DATAGRID ?
permet de lancer de longs calculs de vraisemblances sans « saturer » les machines des laboratoires.
disponibilité des ressources de calcul de la grille.
accélérer le « bootstrap » en parallélisant le calcul des arbres artificiels.
une valeur de bootstrap de 1000 => 1000 jobs sur la grille
T. SILVESTRE, GiGn 15 Janvier 2003
Cahier des charges de l ’application (1)
édition d ’ arbres et d’ alignement de séquences => choix d ’une application plutôt qu ’un portail Web.
muti-plateformes => développement en JAVA.
une architecture client-serveur permet au client d’ afficher automatiquement les nouvelles méthodes implémentées sur le serveur.
réactivité => possibilité de choisir d ’ exécuter les jobs rapides sur le serveur PhyloJava et les plus longs sur la grille.
possibilité d’ interroger l’ état des calculs en cours
avertissement de la fin d’ un calcul par mail à l’ utilisateur.
T. SILVESTRE, GiGn 15 Janvier 2003
PhyloJava devrait être disponible au printemps 2003 sous formes de paquetages téléchargeables à partir du site web de DATAGRID.
Possibilité de télécharger individuellement :
le client => peut choisir de se connecter sur le server PhyloJava et utiliser des ressources de la grille à partir de l’ UI du BBE.
le serveur => pour implémenter les méthodes de son choix.
l’ UI de DATAGRID => pour accéder à la grille : peut être installée sur le serveur ou sur un ordinateur distant. Ce paquetage contiendra les scripts d’interfaçage entre l’ UI et le serveur.
Cahier des charges de l ’application (2)
T. SILVESTRE, GiGn 15 Janvier 2003
Architecture globale
User
User
User
DATAGRIDUICGI
ssh agentInputfile
Biomserv(SUN, Solaris)
Pcgrid1(Linux, RedHat 7.2)
grid-proxy
output
trees
cert
Client PhyloJava
Serveur PhyloJava
Grillede calcul
T. SILVESTRE, GiGn 15 Janvier 2003
Choix des méthodes
T. SILVESTRE, GiGn 15 Janvier 2003
Sélection des paramètres
T. SILVESTRE, GiGn 15 Janvier 2003
Statut des calculs en cours
T. SILVESTRE, GiGn 15 Janvier 2003
Edition d’arbres
T. SILVESTRE, GiGn 15 Janvier 2003
Tests préliminaires
l’ algorithme fastDNAml (méthode de maximum de vraissemblance) a été testé sur la grille :
fichier d’alignement nucléique de 22 séquences et 4697 sites.
valeurs de bootstrap de 2, 20 et 50.
version middleware DATAGRID : edg 1.2.2
ordinateur utilisé pour la comparaison : SUN UltraEnterprise 450 (900Mhz).
T. SILVESTRE, GiGn 15 Janvier 2003
CPU time estimation (fastDNAml algorithm)
0
50
100
150
200
250
2 20 49
Bootstrap values
time (minutes)
DATAGRID(edg1.2)
SUN (900MHz)
Résultats(1)
T. SILVESTRE, GiGn 15 Janvier 2003
Résultats(2)
pas de gain significatif de la grille par rapport à un ordinateur unique pour de faibles valeurs de bootstrap.
résultats encourageants pour des nombres de bootstrap de 50 => accélération des calculs par un facteur de 5.
des tests à plus grandes échelles doivent être lancés avec des valeurs de bootstrap de 1000.
T. SILVESTRE, GiGn 15 Janvier 2003
Perspectives
PhyloJava est une application qui permettra d’utiliser les ressources de la grille de façon transparente pour les biologistes.
installation facile => paquetage Java pour le client.
Limitations : lorsqu’ un élément d’un calcul est bloqué, c’est tout l’ ensemble des résultats qui est retardé.
possibilité de détecter lorsqu’ une opération prends plus de temps que la normale et la relancer.
possibilité de stopper un calcul et récupérer un résultats intermédiaire sans perdre le bénéfice du calcul qui a déjà été fait…