Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2...

14
Rapport d'activités 2006-2007 OUEST-genopole ® Juin 2008 182/215 Bio-informatique 28 Plate-forme Bio-informatique 28.1 Descriptif de la plate-forme 28.1.1 Intitulé GenOuest : Plate-forme bio-informatique de OUEST-genopole ® Irisa - Campus de Beaulieu - 35042 Rennes Cedex Site internet : http://www.genouest.org 28.1.2 Coordonnées des responsables Responsable scientifique : Jacques Nicolas - CR Inria, Directeur de l’équipe de recherche Symbiose Irisa - Campus de Beaulieu - 35042 Rennes Cedex [email protected] Responsables techniques : Hugues Leroy – Ingénieur IR Inria Equipe Symbiose – Irisa - Campus de Beaulieu - 35042 Rennes Cedex [email protected] Olivier Collin - Ingénieur IR CNRS Equipe Symbiose - Irisa - Campus de Beaulieu - 35042 Rennes Cedex [email protected] 28.1.3 Structures de rattachement Plate-forme portée par l'Inria, Centre de recherche de Rennes Bretagne Atlantique Rattachement à OUEST-genopole ® 28.1.4 Locaux ! Indiquer leur surface, s’agit-il d’une localisation unique ou distribuée sur plusieurs lieux (préciser) : Les machines de la plate-forme sont hébergées par le centre de ressources informatiques (CRI) de l’université de Rennes 1, situé sur le campus scientifique de Rennes. L’espace occupé dans la salle machine est de 20 m 2 environ. Inria Centre de recherche de Rennes : bureaux : 60 m 2 ! Indiquer les possibilités d’accueil d’équipes extérieures et de formation (surface) : L’accès à la plate-forme se fait via le réseau Renater ou Mégalis. Toutefois, dans le cadre d’une collaboration scientifique, il y a toujours la possibilité d’accueil pour des séjours de courte durée, dans les locaux de l’équipe Symbiose (Inria Rennes). Pour les formations, nous disposons dans les locaux de l’université ou ceux de l’Irisa de nombreuses salles (équipées de machines connectées au réseau) pour des travaux pratiques. Nombreuses salles de réunions

Transcript of Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2...

Page 1: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

182/215

Bio-informatique

28 Plate-forme Bio-informatique

28.1 Descriptif de la plate-forme

28.1.1 Intitulé

GenOuest : Plate-forme bio-informatique de OUEST-genopole®

Irisa - Campus de Beaulieu - 35042 Rennes Cedex

Site internet : http://www.genouest.org

28.1.2 Coordonnées des responsables

Responsable scientifique : Jacques Nicolas - CR Inria, Directeur de l’équipe de recherche Symbiose Irisa - Campus de Beaulieu - 35042 Rennes Cedex [email protected]

Responsables techniques : Hugues Leroy – Ingénieur IR Inria Equipe Symbiose – Irisa - Campus de Beaulieu - 35042 Rennes Cedex [email protected] Olivier Collin - Ingénieur IR CNRS Equipe Symbiose - Irisa - Campus de Beaulieu - 35042 Rennes Cedex [email protected]

28.1.3 Structures de rattachement

Plate-forme portée par l'Inria, Centre de recherche de Rennes Bretagne Atlantique

Rattachement à OUEST-genopole®

28.1.4 Locaux

! Indiquer leur surface, s’agit-il d’une localisation unique ou distribuée sur plusieurs lieux (préciser) :

Les machines de la plate-forme sont hébergées par le centre de ressources informatiques (CRI) de l’université de Rennes 1, situé sur le campus scientifique de Rennes. L’espace occupé dans la salle machine est de 20 m2 environ.

Inria Centre de recherche de Rennes : bureaux : 60 m2

! Indiquer les possibilités d’accueil d’équipes extérieures et de formation (surface) :

L’accès à la plate-forme se fait via le réseau Renater ou Mégalis. Toutefois, dans le cadre d’une collaboration scientifique, il y a toujours la possibilité d’accueil pour des séjours de courte durée, dans les locaux de l’équipe Symbiose (Inria Rennes).

Pour les formations, nous disposons dans les locaux de l’université ou ceux de l’Irisa de nombreuses salles (équipées de machines connectées au réseau) pour des travaux pratiques. Nombreuses salles de réunions

Page 2: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

183/215

et possibilité d’accueil pour des colloques ou conférences (équipements multimédia). La salle de formation que nous utilisons le plus à 30 m2 et est équipée de 10 postes de travail avec vidéo-projecteur. Accueil possible d’une vingtaine de stagiaires.

28.1.5 Ressources

! Personnels dédiés à la plate-forme :

Nom Catégorie Statut Pourcentage de temps consacré à la plate-forme

Hugues Leroy IR Inria Inria 100%

Olivier Collin IR CNRS CNRS 100%

Olivier Sallou IR université Rennes 1 en poste au 01/12/2007 Université 100%

Annabel Bourdé Ingénieur bio-informatique – Développements - Qualité CDD jusqu‘au 30/04/2009 100%

Anthony Assi Administrateur systèmes et bases de données

CDD non renouvelé jusqu‘au 15/09/2008 100%

Laetitia Guillot Ingénieur bio-informatique – Développements

CDD non renouvelé jusqu‘au 30/04/2008 100%

Sophie Roucan Ingénieur bio-informatique – Développements

CDD non renouvelé jusqu‘au 30/04/2008 100%

Olivier Filangi Ingénieur informatique – Développements BioMAJ

CDD non renouvelé jusqu‘au 30/04/2008 100%

! Nature des principaux équipements :

Equipement Date d'acquisition Taux d'utilisation Champ d’utilisation

34 nœuds de calcul V20Z Décembre 2005 30 % Calcul scientifique

1 serveur de stockage SunStoredge 6920

Décembre 2005 50% Stockage

2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul

2 serveurs V40Z Décembre 2005 100% Services web d’accès à la plate-forme

1 serveur V40Z Février 2007 100% Gestion des services

1 serveur de stockage Panasas Février 2007 53% Stockage

1 serveur dédié Google mini Mai 2007 non relevant Indexation automatique du site web genouest.org

! Existence d’un ensemble de logiciels de gestion de données de laboratoire :

La plate-forme n’étant pas une plate-forme technologique de type laboratoire, ce type de logiciel destiné à gérer le flux des échantillons n’est pas utilisé. Toutefois, dans une même visée de traçabilité et de mise en

Page 3: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

184/215

commun des travaux des ingénieurs, un système de type "forge" est utilisé sur la plate-forme. Cette forge permet de suivre l’avancement des projets, de travailler en commun sur les codes des programmes et de disposer d’un point central pour le dépôt de documents et diverses ressources. Cette forge constitue un des éléments clés de la mise en place de la qualité au sein de la plate-forme.

28.2 Mode de fonctionnement, prestations, production

28.2.1 Ouverture

! Existence d’un système de réservation en ligne :

Les demandes d'ouvertures de comptes informatiques ou bien d'accès à certaines ressources peuvent être effectuées en ligne depuis le site web de la plate-forme (http://genouest.org).

Passer par un système de soumission de travaux (batch) est obligatoire pour l’utilisation de la ferme de calculateurs.

Nous n’avons pas de formulaire de demandes de projet ou d’appels d’offres en ligne, mais nous avons défini les procédures et documents liés à toute demande de nouveau projet : - Demande de projet (remplie par le "client") : description de la demande, bénéfices attendus, personnes et

services concernés, urgence et échéancier proposé - Cahier des charges (défini en concertation avec le "client") : présentation du projet, documents existants,

description de l’outil demandé, contraintes générales, prestations attendues et exigences, performances globales, planning, documentation, maintenance - Spécifications fonctionnelles et Spécifications techniques (sont définies par les ingénieurs en charge du

projet) : modélisation conceptuelle, gestion des données, sécurité et confidentialité, configurations, évolutions futures, descriptions des procédures manuelles ou automatisées, description des traitements, des modules, …

! Equipes collaboratrices qui travaillent sur la plate-forme et programmes réalisés sur la plate-forme en 2006 et 2007 :

Etant donné le fonctionnement de la plate-forme qui autorise une utilisation non authentifiée de ses ressources par le biais du serveur web, la vision des projets requérant est forcément incomplète. De même les utilisateurs authentifiés peuvent utiliser les ressources de la plate-forme sans pour autant déposer des projets.

Les projets présentés ci-dessous sont donc des projets ayant nécessité l’implication des ingénieurs de la plate-forme, que ce soit pour de l’assistance, de l’expertise ou des développements.

Projets externes accueillis sur la plate-forme :

2006 : - BDDChampi : Mise en place d’une base de données spécifique des marqueurs phylogénétiques pour les

champignons abyssaux. Conception d’une interface web. L’outil est à accès restreint à l’équipe ayant demandé ce projet, l’UMR 6553 (P. Vandenkoornhuyse). Il permet l’importation et l’alignement de séquences ainsi que la récupération automatique à partir des banques généralistes. Mots-clés : Fungi, Phylogénie, Base de données, Automatisation - Seqretrieval : Responsable scientifique Mélanie Trépos (Inserm Gerhm) : Outil de récupération des régions

amont des gènes à partir d’une liste d’identifiants de protéines. L’outil est utilisable par la communauté et à été utilisé dans la continuité du projet Malus/Pyrus Mots-clés : Récupération séquences, Extraction données, Banques séquences. - Malus/Pyrus : Responsable scientifique Marie-Noëlle Brisset (Inra PaVé) : Mise en place d’une banques

spécialisée et des index blast associés. Mots-clés : Recherche séquence, banque spécialisée, Malus, Pyrus - PPhred : Responsable scientifique Alix Pernet (Inra GenHort). Veille technologique concernant des outils

d’analyse de séquences (polymorphisme, insertion, délétion). Projet clos car aucun retour de la part du demandeur. Mots-clés : veille technologique, détection mutations, analyse séquences.

Page 4: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

185/215

2007 : - GermOnline : Responsable scientifique : Michael Primig (Inserm U625)

Hébergement d’une base de connaissance dédiée au cycle cellulaire et à la gamétogénèse, et du portail web associé (germonline.org) - Autograph : Responsable scientifique : Christophe Hitte (CNRS UMR 6061)

Il s’agit d’une application permettant la génomique comparative sur plusieurs espèces. Il permet de construire et de visualiser des cartes de synténie entre deux ou trois espèces. Le programme est disponible à l’adresse suivante : http://genoweb.univ-rennes1.fr/tom_dog/AutoGRAPH/Tutorial.php Mots-clés : Comparaison génome, Base de donnée, - PredictFonctionProt : Responsables scientifiques Pierre Calvel/Virginie Vallet (Inserm U625)

Prédiction des fonctions de protéines non annotées. Mise en place d’une procédure d’analyse de séquences anonymes. Mots-clés : Prédiction fonction, Recherche banques, Prédiction, Protéines désordonnées - APRATT :

Responsable scientifique : C. Delamarche Mots-clés : Découverte de motifs, Amélioration interface, Fonctionnalités

Projets internes accueillis sur la plate-forme :

2006 : - Migration des applications sur le nouveau cluster, développements de l’environnement de soumission de

travaux. Responsable technique : Hugues Leroy Il s’agissait d’un chantier extrêmement lourd pour la plate-forme : les machines livrées en décembre 2005 n’ont pu être mises en route avec un fonctionnement en mode production qu’en juin 2006. Ce chantier a eu un impact important sur la capacité d’accueil des projets impliquant les ingénieurs tandis que la capacité de traitement (pour les accès authentifiés et non authentifiés) a pu être maintenue notamment en conservant l’ancienne architecture en production.

2007 : - Bioquali : Responsable scientifique : Anne Siegel (Irisa-Symbiose)

Interfaçage d’un outil formel d’analyse des réseaux de régulation. Mots-clés : Prédiction graphe interaction, réseau régulation - Protomata : Responsable scientifique : François Coste (Irisa-Symbiose)

L’outil Protomata permet de traiter des séquences protéiques afin de générer un automate autorisant la modélisation de familles de protéines. Il s’agit de mettre en place une interface qui autorisera l’utilisation simple de l’outil à partir du site web de la plate-forme. Mots-clés : modélisation protéine, analyse séquence - ITHOS : Responsable scientifique : D. Lavenier (Irisa-Symbiose)

Il s’agit d’une amélioration de l’outil GenoFrag. L’application ITHOS étant destinée à remplacer la première étape de sélection des amorces Mots-clés : fragmentation génome, amorces

! Quel est le pourcentage d’activité destinée aux prestations demandées par les équipes :

De la plate-forme :

De l’équipe de recherche associée : 40 %

Extérieures au site : 60%

! Existence d’un comité scientifique ou de direction :

La plate-forme est doté d’un comité scientifique. Elle dispose également d’un comité d’animation ainsi que d’un comité des utilisateurs.

Page 5: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

186/215

Composition du comité scientifique :

Nom Grade Appartenance

Jacques Nicolas DR Inria Inria

Dominique Lavenier DR CNRS Irisa

François Coste CR Inria Irisa

Dominique Teissier IR Inra Inra Nantes

Olivier Collin IR CNRS Irisa

L’évaluation des projets se fait au fil de l’eau et pour chaque projet sont analysés les critères suivants : ! pertinence par rapport à une plate-forme bio-informatique ! importance scientifique ! intérêt du projet pour la collectivité ! caractère innovant du projet ! faisabilité du projet (aux niveaux techniques et humains)

Depuis la mise en place du conseil scientifique, en octobre 2006, 15 projets ont été soumis. Parmi ces projets, un seul a été rejeté. Un autre projet a fait l’objet d’une double soumission avec des réajustements à la demande du conseil scientifique.

Un comité de pilotage regroupant des membres des cinq plates-formes OUEST-genopole® (Séquençage/génotypage, Transcriptome, Protéome, Exploration fonctionnelle, Bio-informatique) est en place. Ce comité permet de définir la stratégie de développement de la plate-forme en harmonie avec le développement des autres plates-formes du dispositif OUEST-genopole®. Le comité de pilotage rend compte au comité directeur de OUEST-genopole®, qui arbitre ensuite entre les différentes demandes des plates-formes avant envoi des demandes de financement aux Régions ou au RNG.

Un comité d’animation composé de l’ensemble des partenaires et des représentants des différentes thématiques se réunit de façon trimestrielle afin de mettre en place la politique de développement de la plate-forme.

Au niveau local, des comités techniques chargés de la gestion quotidienne de la plate-forme sont constitués par les ingénieurs de plates-formes. La coordination des comités techniques rennais et roscovites est mise en place avec la planification de réunion bimensuelles par visio-conférence.

Dans le protocole d’accord des plates-formes technologiques de OUEST-genopole®, la constitution d’un comité d’usagers est prévue, et ce comité a été mis en place en 2005.

L’ensemble des comptes rendus de réunion du comité d’animation est accessible en ligne depuis le site sécurisé https://listes.irisa.fr/wws/info/forum-bioinfo (avec archivage de tous les messages postés dans la liste)

Composition du comité d’animation : - Jacques Nicolas (CR Inria), Dominique Lavenier (DR CNRS), Hugues Leroy (IR Inria) et Olivier Collin

(IR CNRS, Irisa) - Jeremy Bourdon (CR Lina Nantes) - Charles Pineau (DR Plate-forme protéomique) - Christian Delamarche (Prof Gerhm) - Antony Lebechec (ATER, UMR 6026) - Christiane Guillouzo et Fouzia Moussouni (DR et IR Inserm Rennes) - Marc Aubry (IR, UMR 6061, Oncogénomique) - Christophe Hitte (IR, UMR 6061, Génétique et développement) - Philippe Picouet (CR ENST Bretagne département Lussi) - Rémi Houlgatte et Audrey Bihouée (DR et IE Plate-forme transcriptome Nantes) - Vinh Tran ( CNRS UMR 6204 Nantes) - Jin-Kao Hao et Jean-Michel Richer (Prof et CR Leria Angers) - Marc Ferre (IR Laboratoire de Biochimie et biologie moléculaire d'Angers) - Jocelyne Le Seyec (au titre de la cellule d’animation de OUEST-genopole®, CRITT Santé Bretagne) - Julie Chabalier (MC, LIM Chu Pontchaillou)

Page 6: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

187/215

- Sandrine Lagarrigue (CR Agrocampus Rennes) - Gilles Lassalle (IR Inra Le Rheu) - Dominique Tessier (IR Inra Nantes)

Ainsi que les CDD de la plate-forme : Laetitia Guillot, Anthony Assi, Sophie Roucan, Annabel Bourdé, Olivier Filangi.

! Enquête de satisfaction, réunion d’utilisateurs :

Dans le cadre de la démarche qualité, une enquête auprès des utilisateurs va être réalisée en novembre 2007.

Un comité des usagers de la plate-forme a également été mis en place, composé de : - E. Corre (IR CNRS Roscoff), président du comité - C. Hitte (IR UMR 6061) - A. Assi (Ingénieur plate-forme) - O. Filangi (Ingénieur plate-forme) - A. Le Bechec (ATER UMR 6026) - L. Guillot (Ingénieur plate-forme) - D. Tessier (IR Inra Nantes) - R. Houlgatte (DR Inserm) - H. Leroy (IR Inria) - O. Collin (IR CNRS) - A. Bihouée (IE Inserm) - F. Fouchet - S. Roucan (Ingénieur plate-forme) - Y. Blanchard (CR Afssa Ploufragan) - D. Eveillard (Lina Nantes)

La mission de ce comité est d'assurer le dialogue entre la plate-forme et ses utilisateurs pour améliorer ses services en indiquant ce qui fonctionne efficacement et en proposant des améliorations. À terme ce comité pourra également influer sur la politique de développement de la plate-forme en participant à la définition de ses priorités. Il est donc doté d'un rôle directif en étant force de proposition de nouveaux axes de développement.

Ce comité a tenu sa première réunion le 27 mars 2007. Une seconde réunion se tiendra le 25 octobre 2007.

28.2.2 Prestations offertes

! Spécificité scientifique (systèmes biologiques analysés, méthodes) :

La plate-forme GenOuest tire sa spécificité des équipes de bio-informatique associées dans l’Ouest sur le plan des méthodes et des équipes de biologie sur le plan de la mise à disposition de données :

Une activité de recherche coordonnée par l'équipe Symbiose (Inria Rennes) en collaboration avec le Leria (Angers) et le Lina (Nantes), autour de la recherche de modèles complexes sur les séquences permet de proposer des outils originaux : recherche et filtrage sur des génomes entiers, développement d'outils spécifiques (STAN, Wapam, GenoFrag, PYGRAM, Domain Organizer…), ainsi que d'architectures dédiées à base de processeurs à logique reprogrammable (FPGA) et à mémoire flash.

Une activité de services (transfert des outils de recherche des équipes de bio-informatique de OUEST-genopole® et services aux autres plates-formes de OUEST-genopole®) : - des services de calcul avec accès à une logithèque en constant développement. La plupart des services

sont utilisables par l'intermédiaire d'une interface web. - des services de fourniture automatique de données (banques de séquences accessibles grâce à un

protocole de redistribution à la demande). - des services de formation et d'expertise auprès des laboratoires membres de OUEST-genopole®

! Descriptif détaillé des prestations avec leurs coûts pour les utilisateurs :

Ces prestations sont gratuites pour tout membre de OUEST-genopole®.

Page 7: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

188/215

Les prestations offertes par la plate-forme relèvent de plusieurs domaines : - le calcul scientifique avec la mise à disposition d'outils logiciels dédiés à l'analyse de séquence et de

données. On peut citer des logiciels soumis à licence comme le Wisconsin Package ou les logiciels de recherche de facteur de transcription (Transfac de Biobase), etc., ainsi que tout logiciel du domaine public pouvant être implanté sur les machines de la plate-forme, sur demande des utilisateurs intéressés.

- le développement de services dédiés : développement d'interfaces web pour l'utilisation de certains logiciels, service de diffusion des banques publiques.

- le développement d'une plate-forme originale dédiée à la recherche et à l'extraction de motifs. Ce dernier aspect illustre le transfert des technologies du domaine de recherche bio-informatique vers la plate-forme de service.

- Une commission a été créée au niveau de OUEST-genopole® pour mettre en place un plan de formation, sous la direction de J. Peiniau. S. Roucan est en charge de ces aspects au sein de la plate-forme et des actions de formation pour les biologistes de la génopole ont été définies.

! Capacité de prise en charge annuelle par équipement :

La puissance et les capacités de stockage sont ajustées en fonction de la croissance des demandes, qui est surveillée par un ensemble d’indicateurs (cf. chapitre 1.3 Production)

Il est clair cependant que la principale limitation de capacités se situe au niveau des forces en ingénieur pour le service aux laboratoires.

28.3 Production

! Taux d’utilisation de la plate-forme en 2006 et 2007 (en % par rapport à la capacité maximale par équipement) :

Schéma de fonctionnement global de la plate-forme :

Pour assurer la mise à disposition de puissance de calcul, la plate-forme propose des accès via le web (serveur web), ou bien des accès authentifiés (comptes utilisateurs) directement sur le nœud de soumission. Etant donné que la plupart des logiciels de bio-informatique nécessitent une utilisation des banques de séquences, celles-ci sont récupérées et reformatées par une machine dédiée (serveur de banques : genodata) et mise à disposition des nœuds de calcul.

On distinguera donc plusieurs types d’équipements qui reflètent chacun une partie de l’activité de la plate-forme. Il s’agit du cluster, du serveur web, du serveur de mise à jour des banques et des serveurs de fichiers et des baies de stockage associées.

Taux d’utilisation du cluster :

En ce qui concerne le cluster qui a été mis en production en 2006, nous ne disposons des statistiques que depuis janvier 2007.

Page 8: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

189/215

Figure : Charge du cluster durant l’année 2007

Graphique : Evolution de la charge du cluster durant l’année

Il apparaît que la plate-forme dispose d’une marge de progression confortable puisque l’ensemble des machines n’est utilisé à 75% que durant une courte période. Toutefois, si l’on considère certains nœuds de l’ensemble, il apparaît une saturation. Il s’agit des nœuds des serveurs web ainsi que des nœuds chargés du rapatriement et du reformatage des banques (genoweb-data et genodata-data dont les courbes sont présentées ci-dessous).

La charge induite sur les nœuds web et données est liée à l’hébergement des services tels que GermOnline, Autograph et M@ia.

Taux de fréquentation du serveur web :

Fréquentation du site GenOuest

0

2000

4000

6000

8000

10000

12000

juil-06

sep-06

nov-06

jan-07

mars-07

mai-07

juil-07

sep-07

mois

visteursvisites

Page 9: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

190/215

Cette courbe présente la fréquentation du site web. Il est utilisé pour obtenir des informations relatives à la plate-forme mais également pour lancer des travaux via l’interface web.

Taux d’utilisation des baies disques :

L’utilisation des baies pour les banques de séquences est indiquée dans le graphique ci-dessous. Il apparaît qu’à l’heure actuelle, la moitié de l’espace disque est utilisée pour le stockage des banques. Cette situation pourrait être amenée à évoluer rapidement car avec la mise en place de l’outil BioMAJ, la mise en production de nouvelles banques sera beaucoup plus souple. Ce graphique est également à pondérer en fonction des caractéristiques de l’accroissement de la taille des banques de séquences dont les plus importantes doublent de taille chaque année.

! Indicateurs quantitatifs de production ou d’expérimentation dans l’année écoulée (choisir l’(es) indicateur(s) le(s) plus approprié(s) à l’activité de la plate-forme) :

Les indicateurs quantitatifs de production considérés sont les lancements des programmes. Il est à noter qu’un lancement de programme aura un impact variable sur les indicateurs précédemment évoqués comme la charge du cluster. En effet un seul programme peut requérir, en fonction du jeu de données, plus ou moins de puissance de calcul et ce durant une durée plus ou moins longue.

Page 10: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

191/215

Programmes recherche/découverte motifs

0

100

200

300

400

500

600

700

800

Janv

ier

Févr

ierMar

sAv

ril MaiJu

in

Juille

tAo

ut

Sept

embr

e

mois

Grappe

Landraud

MoDEL

Pratt

Prosite_Wascan

Protomata Protoscan

Risotto

Staden

Stan

Wascan

patternMatchingTool

wapam

Ce graphe présente l’utilisation des outils phares de la plate-forme, les outils de recherche et de découverte de motifs. Il apparaît que l’utilisation de ces programmes est très pulsatile. Les outils originaux (Stan, Wapam, Protomata) développés sur la plate-forme en partenariat avec l’équipe Symbiose sont les plus utilisés.

Comparaison de séquences (blast)

0

20

40

60

80

100

120

Janv

ier

Févr

ier

Mars

Avril Mai

Juin

Juille

tAo

ut

Sept

embr

e

mois

blastnblastp blastpgp blastx

Des outils généralistes de comparaison de séquences font l’objet d’une utilisation régulière tout au long de l’année. La plate-forme est utilisée en solution d’appoint par rapport aux sites du type NCBI (qu’elle n’a pas vocation à remplacer).

Page 11: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

192/215

Amorces

0

10

20

30

40

50

60

70

80

Janv

ier

Févr

ierMar

sAv

ril MaiJu

in

Juille

tAo

ut

Sept

embr

e

Mois

Genofrag_fragmentation

Genofrag_primer_selection

Genofrag_refinement

primer3

sputnik

Une autre catégorie d’outils de calcul d’amorces présente également une utilisation très variable au cours du temps.

La caractéristique principale de l’utilisation des outils de la plate-forme est la variabilité au cours du temps mise à part la catégorie des outils blast.

! Publications scientifiques de travaux ayant fait appel à la plate-forme : articles, posters, communications,…

- The conserved transcriptome in human and rodent male gametogenesis (2007) Chalmel F, Rolland AD, Niederhauser-Wiederkehr C, Chung SS, Demougin P, Gattiker A, Moore J, Patard JJ, Wolgemuth DJ, Jégou B, Primig M. - PNAS USA. 2007 May 15;104(20):8346-51.

- RASTA-Bacteria: an automated method for identifying Toxin/Antitoxin loci in prokaryotes (2007) Emeric Sevin et Frédérique Barloy-Hubler. - BMC Genome Biology. 2007 August 1 ; 8 (8) :R155

- Identification of ITS sequence motifs in truffles: a first step toward their DNA barcoding (2007) : Khalid El Karkouri, Claude Murat, Elisa Zampieri and Paola Bonfante. Applied and Environmental Microbiology. 2007 August 1 ; 73 (7) : 5320-5330.

- Analysis of the unassembled part of the dog genome sequence: chromosomal localization of 115 genes inferred from multispecies comparative genomics (2007) : Derrien T., André C., Galibert F., Hitte C., J. Hered 2007:98(5):461–467

- Genetic linkage maps of rose constructed with new microsatellite markers and locating QTL controlling flowering traits (2007) : L. Hibrand-Saint Oyant, L. Crespel, S. Rajapakse, L. Zhang, and F. Foucher. Tree Genetics & Genomes, in press.

- A comparative genome approach to marker ordering (2007) : Faraut T, de Givry S, Chabrier P, Derrien T, Galibert F, Hitte C, Schiex T. Bioinformatics. 2007 Jan 15;23(2):e50-6.

- AutoGRAPH: an interactive web server for automating and visualizing comparative genome maps (2006) . Derrien T, Andre C, Galibert F, Hitte C. Bioinformatics. 2007 Feb 15;23(4):498-9. Epub 2006 Dec 4.

- Construction and characterization of a high-resolution, 9000-rad canine radiation hybrid panel (2006) :Senger F, Cadieu E, Evanno G, Hitte C, Berkova N, Priat C, Andre C, Galibert F. Anim Genet. 2006 Oct;37(5):527.

- Domain organization within repeated DNA sequences: application to the study of a family of transposable elements (2006) : Tempel S, Giraud M, Lavenier D, Lerman IC, Valin AS, Couee I, Amrani AE, Nicolas J. Bioinformatics, 2006 Aug 15;22(16):1948-54.

Posters - BioMAJ : A workflow engine dedicated to biological bank management (2006) : Allouche D., Assi A., Caron C., Filangi

O., Larre J.-M., Leroy H., Martin V. – Jobim Marseille

Page 12: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

193/215

28.4 Valorisation

28.4.1 Recherche et développement

! Développement de technologie(s) :

La plate-forme GenOuest est un des acteurs du projet BioMAJ. Ce projet, lancé sous l’égide du ReNaBi, est mené par l’Inra de Toulouse, l’Inra de Jouy et la plate-forme GenOuest. Les développements sont assurés par Oliver Filangi, développeur informatique sur la plate-forme.

L’objectif de BioMAJ est de développer un outil de gestion et de suivi des banques publiques utilisées en bio-informatique. La gestion des banques sur tout site bio-informatique s’avère être une tâche particulièrement ingrate et chronophage. L’utilisation d’un outil de worklfow dédié tel que celui de BioMAJ permet de gagner en souplesse et autorise des gains de temps importants.

Une première version de l’outil est disponible en ligne à l’adresse (http://biomaj.genouest.org) et fera prochainement l’objet d’un article.

! Amélioration de la capacité de production de la plate-forme :

Le déploiement d’un outil tel que BioMAJ, qui décharge les administrateurs des banques d’une partie du travail de suivi des banques s’avère être un élément clé de l’amélioration de la capacité de production de la plate-forme.

L’outil BioMAJ, en conjonction avec un outil d’interfaçage avec les programmes tournant sur la plate-forme devrait permettre d’aboutir à un ensemble cohérent et efficace.

28.4.2 Formation

! Actions spécifiques de formation, stages pratiques, encadrement de techniciens, ingénieurs, étudiants, chercheurs… en 2006 et 2007 :

La plate-forme assure les formations bio-informatiques, tant au niveau de la plate-forme, que dans diverses écoles doctorales (Vie Agro Santé ou Matisse – maths/info).

A noter la mise en place d'un site web dédié permettant aux utilisateurs de demander la mise en place de formation à la demande. L'objectif est de réaliser ainsi un catalogue de formation adapté aux besoins des personnels de OUEST-genopole®.

La liste des formations pour les années 2006 et 2007 est la suivante : - Formation "Découverte des outils et services de la plate-forme" (SeqLab / Recherche et Découverte de

Motifs) : le 5 octobre 2006 à Rennes par Gregory Ranchy, Sophie Roucan, Laetitia Guillot - Formation "Introduction aux méthodes de Phylogénie" : le 8 juin 2007 à l'Irisa de Rennes par Erwan

Corre - Formation "Introduction aux méthodes de Phylogénie" : le 7 juin 2007 à l'Irisa de Rennes par Erwan

Corre - Formation "Recherche et Découverte de Motifs" : le 31 mai 2007 à l'Irisa de Rennes par Laëtitia Guillot - Formation "Recherche et Découverte de Motifs" : le 14 juin 2007 à l'Irisa de Rennes par Laëtitia Guillot

Certaines formations informatiques ont également été proposées dans le cercle des développeurs de la plate-forme. Dans la mesure des disponibilités, ces formations peuvent être ouvertes aux personnes en faisant la demande. Ces formations concernent des langages ou des environnements informatiques : python, eclipse, jsp, java, uml, xml, svn et la forge logicielle gforge.inria.fr.

Page 13: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Rapport d'activités 2006-2007 OUEST-genopole® Juin 2008

194/215

! Organisation de séminaires, colloques… en 2006 et 2007 :

Les journées de la plate-forme bio-informatique sont organisées annuellement, avec systématiquement des invités extérieurs, en particulier d’autres plate-formes de bio-informatique. Les journées de la plate-forme attirent de 60 à 80 personnes. Programmes, textes et vidéo des exposés disponibles sur le site de la plate-forme genouest.org – Onglet La Plate-forme, rubrique Documents&Liens, ou directement par ce lien : http://genoweb.univ-Rennes1.fr/Serveur-GPO/rubrique.php3?id_rubrique=10

Dates des dernières sessions : - 18 novembre 2004 - 18 octobre 2005 - 24 octobre 2006 - 23 octobre 2007

La plate-forme GenOuest participe aussi aux "Carrefours académiques" ainsi qu’aux "Rencontres industrielles" de OUEST-genopole®.

! Nombre de personnes formées aux technologies de la plate-forme en 2006 et 2007 :

Environ 100 personnes.

! Devenir des personnels non statutaires :

Tous les personnels non-statutaires bénéficient d’un accompagnement personnalisé à la recherche d’emploi par un consultant : optimisation de CV, définition des objectifs de carrière… et d’un plan de formation adapté.

Ci-dessous tableau récapitulatif des anciens CDD de la plate-forme :

Nom Laboratoire/Institution/Société Fonction

Anne-Sophie Valin Ligue Nationale Contre le Cancer – Service recherche – Programme CIT (Cartes d’Identité des Tumeurs)

Ingénieur en bio-informatique (CDI)

Emmanuelle Morin UMR 1136 Inra/UHP-Nancy 1 Ingénieur d’études en bio-informatique (fonctionnaire)

Ester Kabore Inra Versailles - Information Scientifique et Technique.

Ingénieur d’études (fonctionnaire)

Gregory Ranchy Cag Gemini Ingénieur développements informatique (CDI)

Jeanne Cambefort Laboratoire d'Etude des Parasites Génétiques (LEPG), FRE CNRS 2969 – Tours

Ingénieur d’études en bio-informatique (fonctionnaire)

28.4.3 Valorisation (2006 - 2007)

! Brevets :

Dépôt APP (Agence pour la protection des programmes) effectué systématiquement pour les nouveaux logiciels (Stan, Wapam, GenoFrag, BioMAJ...).

! Partenariats avec l’industrie :

Pas de partenariat avec l’industrie, mais la plate-forme a un partenariat étroit avec la société Korilog, société fondée par un ancien membre de l’équipe Symbiose.

Page 14: Bio-informatique - genoweb1.irisa.frgenoweb1.irisa.fr/Serveur-GPO/documents/Documents/... · 2 serveurs V40Z Décembre 2005 100% Soumission des travaux aux nœuds de calcul 2 serveurs

Juin 2008 Rapport d'activités 2006-2007 OUEST-genopole®

195/215

! Création d’activités économiques au niveau de la région :

La plate-forme est en partenariat étroit avec la société Korilog (http://korilog.com).

28.4.4 Démarche qualité

La plate-forme est engagée dans une démarche qualité et est accompagnée pour cela par deux personnes (RNG : Marie-Pierre Dubrulle et OUEST-genopole® : Anne Béreiziat). Des procédures et des documents ont été définis et produits : le manuel qualité ainsi que les procédures essentielles. Un grand nombre de documents relatifs aux modes opératoires ont été rédigés.

La certification est prévue en 2008.

! Réalisation de l’audit de diagnostic :

Décembre 2007.

! Nombre de personnes "formées" à la qualité :

Trois personnes de la plate-forme ont suivi des formations qualité : - Annabel Bourdé : 17 septembre 2007 – 4 jours - Cegos - Hugues Leroy : 6 septembre 2004 – 2 jours - Cirad - Olivier Collin : 17 septembre 2007 – 4 jours – Cegos

28.5 Projets de développement

! Programmes scientifiques prévus en 2008 :

La plate-forme va entreprendre des développements autour du langage Logol qui permettra l’élaboration de modèles sophistiqués pour analyser des génomes. Ce projet a été accepté par l’ANR dans le cadre de l’appel d’offres plates-formes du vivant (PFTV2007).

! Partenariats industriels prévus en 2008 :

Aucun partenariat n’est prévu.

! R & D technologiques prévus en 2008 :

La plate-forme va initier, en partenariat avec Dominique Lavenier, un projet d’utilisation des cartes graphiques pour le calcul en bio-informatique. En effet, de par leur conception, les cartes graphiques (GPU : Graphical Processing Unit) s’avèrent extrêmement puissantes pour certains algorithmes couramment utilisés en bio-informatique. Un algorithme de recherche de séquence tel que Smith et Waterman, tourne dix plus vite sur une carte graphique que sur un processeur central (CPU).

La difficulté réside à l’heure actuelle dans la maîtrise de ce nouvel environnement de programmation ainsi que dans l’adaptation des données à ce type de matériel. Une carte graphique de dernière génération (NVidia Tesla – 128 processeurs) sera utilisée pour les expérimentations.

! Formations prévues en 2008 :

Formations bio-informatiques : - Initiation à la modélisation des réseaux biologiques (A.Siegel) - Recherche et découverte de motifs (L.Guillot) - Structure 3D des protéines

Formations informatiques : - Initiation à Unix : PHP : formation certifiante pour les ingénieurs de la plate-forme - 21 janvier 2008

(5 jours) - Python : formation par le service ASCII – dates à préciser - Java : formation par le service ASCII – dates à préciser