1 CIB : Centre Intégré de Bioinformatique E-G. Talbi CIB – Génopole de Lille.
Plate-forme bioinformatique Toulouse-Midi-Pyrénées Génopole
description
Transcript of Plate-forme bioinformatique Toulouse-Midi-Pyrénées Génopole
Plate-forme bioinformatiqueToulouse-Midi-Pyrénées Génopole
C. Gaspin
• Contexte toulousain en bioinformatique
• Moyens, missions, actions
• Présentation des travaux des CDD financés par le RNG
- A. Lucas : Site Web pour l ’analyse des données du transcriptome
- S. Carère & Y. Beausse : ProDom
Contexte bioinformatique local
• Deux pôles historiques - INRA : cartographie génétique & analyse de séquences
Multalin, ProDom, RNAlign, Sapssarn, Essa, FrameD, EuGene, iANTCartagene, MCQTL...
- IPBS : biologie structurale (modélisation 3D, dynamique moléculaire,…)
• Des forces dissiminées et/ou émergentes - INSA : transcriptome, réseaux de régulation - UPS : cartographie génétique, analyse de séquences, analyse des données du transcriptome... - ...
Plate-forme bioinformatique - Contexte
Plate-forme bioinformatique - Moyens...
• 1 DR2 INRA (30%) : responsabilité scientifique D. Kahn,C. Gaspin
• 1 IR INRA (100%) : responsabilité opérationnelle D. Allouche
• 1 IE CNRS (100%) : opérationnel janvier 2004 J.M. Larré
• 1 AI INRA unité de centre (X%): sécurité et administration ?
• Comité bioinformatique : relai entre la plate-forme et les utilisateurs...
Personnels permanents affectés à la plate-forme
Plate-forme bioinformatique-Moyens...
Infrastructure matérielle
Services Web ( IBM X440)
(ATG )Calculs intensifs
Baie de stockage EMC 1,0ToExtensible à 22To(Storage Array Network)
Machines Projets ou plates-formes
Quadri-processeur DELL(700Mhz, 4Go mémoire350Go d ’espace stockage)
Plate-forme bioinformatique- ...missions,actions
Offrir une infrastructure adaptée et performante
D. Allouche
• Maintien et évolution de l’infrastructure matérielle
• Maintien des bases de données
• Maintien de l ’infrastructure logicielle« Vitrine » des développements locaux
• 2004 : Renforcement par un cluster de calcul pour accueillir les gros projets Ex: ProDom, SIGENA, biologie structurale,...
Former les utilisateurs
• Premier semestre 2004 - Savoir utiliser l ’infrastructure de la plate forme- Analyse des données d ’expression du transcriptome
• Deuxième semestre 2004- Alignement de séquences
D. Allouche, C. Gaspin
Plate-forme bioinformatique-Moyens, missions, actions
Offrir un appui aux autres plate-formes
D. Allouche
• Activité en croissance ? - Stockage/archivage des données - Développements : jusqu’où ?
• Plate-formes identifiées- plate-forme séquençage/génotypage
Réalisation d ’un LIMSDonnée disponibles via la plateforme bioinformatiqueFormations
- plate-forme protéomique
Plate-forme bionformatique- ...missions, actions
Plate-forme bioinformatique- ...missions,actions
Appui aux programmes scientifiques prioritaires
D. Allouche
• Activité en croissance
• Participation aux :- encadrement : plusieurs CDD et étudiants
- développements : Base de données, LIMS
- valorisation : - formation - expertise
Animation autour de la plate-forme
D. Allouche, C. Gaspin
• Séminaires/rencontres mensuels - Décembre 2003 : Rencontre méthodologique
autour du déséquilibre de liaison- Janvier 2004 : Séminaire de génomique
comparative
• Séminaire annuel- Novembre 2004 : bilan des activités
Plate-forme bioinformatique-...missions, actions
Répondre aux demandes d ’expertise
C. Gaspin
Plate-forme bioinformatique - ...missions,actions
• Réunion
• Orientation vers des compétences locales/extérieures
• Réponse immédiate
Accès libre à des postes de travail
• Locaux : salle de formation INRA (8 postes de travail)
• Fréquence : 1j/mois puis selon disponibilité
• Mode d ’accès : planning/inscription
• Début de mise à disposition : premier semestre 2004
• Encadrement : personnel plate-forme
D. Allouche
Plate-forme bioinformatique-...missions, actions
Relations avec les autres génopôles
• Programmes scientifiques : Séminaire janvier 2004
• Ingéniérie de service
• Formation
D. Allouche, C. Gaspin
Plate-forme bioinformatique-...missions,actions
En résumé...
• Des missions prioritaires - Infrastructure - Formation - Communication- Animation
• Ouverture vers les programmes scientifiques
• Ouverture vers les autres plate-formes
Plate-forme bioinformatique- ...missions,actions
Développement d ’un site web pour l ’analyse des données d ’expression du transcriptome
A. Lucas
Encadrement : D. Allouche, C.Cierco, C. Gaspin, S. Jasson
Objectifs
Développement d ’un site web pour l ’analyse ...
• Mettre à disposition des outils statistiques et les documenter
- Normalisation (centrer, réduire, log, combinaison)- Analyse de données (ACP, K-means, SOM, classification hiérarchique...)- Visualisation (Nuage de points, histogramme, boîte à moustaches, dendogramme)
• Evaluer les outils de classification- Logiciels : temps, mémoire- Méthodes : temps, mémoire, nombre de classes,…
• Développer des scripts pour l ’échange de données
Réalisation : site web
Développement d ’un site web pour l ’analyse ...
• Logiciels de classification- Vue synthétique de tous les logiciels- Fiches pour chaque logiciel- Développements spécifiques (AMAP, CTC)
• Documentation- Statistique : description des méthodes- Biologie : publications associées
• Application web- Classification- ACP
Développement d ’un site web pour l ’analyse ...
Vue synthétique des logiciels
Développement d ’un site web pour l ’analyse ...
Fiche logiciel
Développement d ’un site web pour l ’analyse ...
Fiche documentation
Développement d ’un site web pour l ’analyse ...
Développements spécifiques
Développement d ’un site web pour l ’analyse ...
• Paquetage Amap- http://cran.r-project.org- Amélioration de la classification hiérarchique (mémoire utilisée)- ACP robuste
• Paquetage CTC- http://bioconductor.org- Interfacer Xcluster avec R- Permettre la visualisation des clusters avec des outils de typeTreeView
Evaluation : classification hiérarchique
Développement d ’un site web pour l ’analyse ...
Logiciel Temps Mémoire %bien classésXcluster 3mn11s 4.8M 90%R:Kmeans 5.10s 13.3M 94.6%R:SOM 2mn11s 16M 92.6%SAS:Fastclus 1.6s 36M 93.8%R:amap/hcluster 2mn23s 394M 90%R:Hclust 2mn21s 1.5G 90%R:Kmeans(1000)+Hclust 4s 25M 94.6%R:Kmeans(50)+Hclust 2.1s 13.7M 91.3%
Développement d ’un site web pour l ’analyse ...
Conclusion
Développement d ’un site web pour l ’analyse ...
• Service utile- Outils bien documentés- Application web s ’appuyant sur R- Scripts disponibles pour passer d ’un logiciel à l ’autre- Utilisé dans le cadre de formations et par quelques biologistes- Développements intégrés dans une dynamique de projet (R, bioconductor)- Evolutivité : Base de données des logiciels et de leurs caractéristiques
• Accès restreint pour les gros jeux de données