Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE,...
-
Upload
nicodeme-soulier -
Category
Documents
-
view
104 -
download
0
Transcript of Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE,...
![Page 1: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/1.jpg)
Recherche de similarité de séquences à grande
échelleS. Penel, P. Calvat, Y. Cardenas
LBBE, CCIN2P3Calculs “BLAST” intensifs sur la Calculs “BLAST” intensifs sur la
plateforme plateforme TIDRATIDRA - -
TTraitement de données et raitement de données et IInformatique nformatique DDistribuée en istribuée en RRhône-hône-AAlpes.lpes.
![Page 2: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/2.jpg)
Contexte biologiqueContexte biologique
Bases de données dédiées à la phylogénomique
HOVERGEN ( vertébrés), HOGENOM( génome complets), etc.
Principe : pour chaque base de données:Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul d’alignement et d’arbre phylogénétique pour chaque famille
Généralisation Création d’une base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases
Calcul de similarité sur toutes les séquences de protéine :
BLAST de 8,000,000 x 8,000,000 séquences
![Page 3: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/3.jpg)
Technologie grille et Technologie grille et services associésservices associés
RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)
7000 coeurs (cpu)7000 coeurs (cpu) 300 To de stockage300 To de stockage 5 Noeuds5 Noeuds
• LAPP (Annecy)LAPP (Annecy)• LPSC (Grenoble)LPSC (Grenoble)• IPNL (Lyon)IPNL (Lyon)• IBCP (Lyon)IBCP (Lyon)• CC-IN2P3 ( Lyon)CC-IN2P3 ( Lyon)
![Page 4: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/4.jpg)
Technologie grille et Technologie grille et services associésservices associés
RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)
Middleware:Middleware:• Job management : gLite, LRMSJob management : gLite, LRMS• Stockage : iRODS, SRMStockage : iRODS, SRM• Utilisateur : JSAGA Utilisateur : JSAGA
implemtantation SAGAimplemtantation SAGA
vo.rhone-alpes.idgrilles.frvo.rhone-alpes.idgrilles.fr
![Page 5: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/5.jpg)
RessourcesRessources
SE/SRM
SE/SRM
SE/SRM
SE/SRM
CE/WN
CE/WNCE/WNSE/SRM
CE/WN
CE/WN
![Page 6: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/6.jpg)
UI
SE/SRM
WN
WN
WN
SE/SRM
Control et Load balancingControl et Load balancing WMS
SE/SRM
SE/SRM
WN
![Page 7: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/7.jpg)
UI
SE/SRM
WN
WN
WN
SE/SRM
Stokage distribuée et catalogue Stokage distribuée et catalogue
global de Donnéesglobal de Données LFC
SE/SRMSE/SRM
WN
Job
Job
Job
Job
![Page 8: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/8.jpg)
UI
WN
WN
WN
Optimisation de calculOptimisation de calcul Serveur MyProxy
WN
Job
Job
JobJob
![Page 9: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/9.jpg)
Client
WN
WN
WN
Gestion et stokage centralisé avec Gestion et stokage centralisé avec IRODSIRODS
IRODS cluster
WN
Job
Job
JobJob
![Page 10: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/10.jpg)
8 millions de séquences à 8 millions de séquences à blaster:blaster:
StratégieStratégieProgramme BLAST 2.2.17
options standards
Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines
Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA
30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire
![Page 11: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/11.jpg)
Tache unitaire : blast d’un fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences.
Une tache unitaire représente un temps de calcul assez court.
Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches
8 millions de séquences à 8 millions de séquences à blaster:blaster:
StratégieStratégie
![Page 12: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/12.jpg)
1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x 100 3 - Une fois tous les jobs terminés, génération d’une nouvelle liste de fichier à traiter 4 - Retour au point 1
8 millions de séquences à 8 millions de séquences à blaster:blaster:
StratégieStratégie
![Page 13: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/13.jpg)
StratégieStratégie1
100
200
300
400
1
100
200
300
400
1
100
200
300
400
première production
1
100
200
300
400
deuxième production
![Page 14: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/14.jpg)
StratégieStratégie Déroulement d’un job numéro N:
Récupération de différents outils via lcg-cp:outils iRODSoutils pour l’estimation du temps de calculoutils pour la gestion des proxy
Renouvellement du proxy Lancement de l’application:
Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle:
Traite le fichier i, copie le résultat via iRODSTant que 95% du temps maximum n’est pas atteint, passe au fichier suivant
Post traitement: envoi de mail, copie des logs via iRODS
![Page 15: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -](https://reader036.fdocument.pub/reader036/viewer/2022062511/551d9d8e497959293b8c424a/html5/thumbnails/15.jpg)
Résultats (en cours)Résultats (en cours)
1 200 jobs paramétriques1 200 jobs paramétriques 5 280 millions d’heures S12K5 280 millions d’heures S12K jobs de 20hjobs de 20h Calcul en 1 semaine au lieu de Calcul en 1 semaine au lieu de
8 ans8 ans