Post on 09-Aug-2020
/35
IODAAdel’1nf0rmationàlaDécision
parl’Analyseetl’Apprentissage
antoine.cornuejols@agroparistech.fr
http://www.agroparistech.fr/ufr-info/iodaa/
Lasciencedesdonnéespourlessciencesduvivant
/35
Nouveautés
1. Uneproductiondedonnéesentrèsgrandecroissance
2. L’IntelligenceArtificielleetlessciencesdesdonnées
2IODAA–Informationsgénérales
/35
Denouvellespossibilités
• Aideràcomprendre
– Desphénomènescomplexes
– Dessystèmesnaturels
• Aideràdécider
– Desacteurs/secteursmultiples
• Agriculteurs,consommateurs,aménagementduterritoire,santé,…
– Deschoixquipeuventêtrerépétés,àgrandelatence• Consommation,conduited’uneexploitation
• Politiqueenvironnementale
3IODAA–Informationsgénérales /35
L’agriculture…deprécision
• Desdonnéesgénéréespartout
• Echangées
• Ducalculetdesdécisionsentempsréel
Lafermenumérique
IODAA–Informationsgénérales 4
/35
Lasanté
Conclusiondel’étudeCAP*santé(mai2019)
– Évolutionsdanslesmétiersdescadresdesantéàl’horizon2025:
• l’augmentationdelacollecteetdutraitementdedonnées(1èreréponse,largement)
(analysededonnées,biostatistique,bioinformatique,bigdata,mathématique,modélisation,intelligenceartificielle...)
• ledéveloppementdel’e-Santé(médecineàdistance,objetsconnectés,ingénieriedesparcourspatients...)
• l’applicationdel’approche«Onehealth»(«uneseulesanté»homme-animal-environnement)
– Pourfairefaceàcesévolutions,uncertainnombredecompétencessontattenduesparl’ensembledelaprofessiondanslesdomainessuivants4:
• Informatiqueetstatistiques(1èreréponselargement)
(statistiques,biostatistiques,bigdata,intelligenceartificielle,nouvellestechnologies,traitementdusignal,programmation,systèmesd’information...)
5IODAA–Informationsgénérales
*CAP:Comitéd’AnalyseProspective
/35
Desquestions…auxquellesonpeutcommenceràrépondre
1. Qu’est-cequidéterminenospréférencespourlesalimentsprotéinés?
2. Peut-onprédirelespicsdepopulationdesinsectesravageurs?
3. Agricultureadaptative– EnfonctiondesvariationsclimatiquesàCTetMT
– Descoursdesmatièrespremièresetproductionsagricoles
– Desvariationsdelademande
4. RapportduGIEC
5. Quelssontlesgènesquidéterminentlarésistanceaustresshydriquedes
plantes?
6. Allerversunesantépersonnalisée
6IODAA–Informationsgénérales
/35
Unnouveaumonde
1. Détecterleszonesdepauvreté[Science,août2016]
2. GoogleFluealertsystem[2012]
3. LaforêtdeHarvard,laboratoirebranché(LongTermEcologicalResearch).
1600hadeforêtpréservéepourdesrecherchesécologiques(millionsdemesures
enaccèslibre)[LeMonde,24/08/2016]
7IODAA–Informationsgénérales /35
Émergencedenouveauxdomainesscientifiques
• Bio-informatique
o Mi-1990s
• Ville«intelligente»
• Sciencesdesdonnéespourlachirurgie
• «Me-data»:santéo Mesurespersonnaliséesetintégrées
• Agriculturenumérique
o Fermesnumériques,télédétection,chaîneslogistiques
• Suividelaplanèteo Télédétection;capteurspartout;modélisation;…
8IODAA–Informationsgénérales
/35
Émergencedenouveauxdomainesscientifiques
• Bio-informatique
o Mi-1990s
• Ville«intelligente»
• Sciencesdesdonnéespourlachirurgie
• «Me-data»:santéo Mesurespersonnaliséesetintégrées
• Agriculturenumérique
o Fermesnumériques,télédétection,chaîneslogistiques
• Suividelaplanèteo Télédétection;capteurspartout;modélisation;…
9IODAA–Informationsgénérales /35
• Desdonnéesnumériquespartoutencroissanceprodigieuse
– Commentenextrairedesconnaissances?
– Commentréaliserdessystèmespouraideràladécision?
10IODAA–Informationsgénérales
/3511IODAA–Informationsgénérales /35
Ilfautdespersonneséduquées
• Lescitoyens
• Desspécialistes(datascientists->sciencedesdonnées)
– Beaucoup!!
• 100000enFranced’ici2022
• 1000000auxEtats-Unis
– Bienformés!!
• NiveauMaster/Ingénieur
• Niveaudoctorat
12IODAA–Informationsgénérales
/35
Ilfautdescompétencesscientifiques
• Savoircommentsontfaiteslesdonnées
– Commentellesontétéproduitesparlesexpertsetlesutilisateurs
– Quelssontlesformatsetreprésentationsexistants
• Comprendrecequiestattendu
• Savoircequel’onpeutenattendre
• Connaîtrelestechniquespourexploiterlesdonnées:statistiques,apprentissageautomatique,visualisation,…
• Savoircommentdistinguerles«découvertes»intéressantesetcequiestsansintérêtvoirefaux
13IODAA–Informationsgénérales /35
Danslessciencesduvivant
1. Importancecroissantedesavoirtraiterdesdonnées(hétérogènes;massives)
– Pourmodéliser,comprendre,prédire
2. Spécificitésdessciencesdelavie,del’environnement,del’agronomieetde
l’alimentation
– Sourcesdedonnéesmultiples,hétérogènes,multi-échellesspatialesettemporelles
– Systèmesnonartificielsetcomplexes
• Davantageencorebesoind’aideràdécouvrirdesmodèles
3. Intérêtd’uneexpertisepropreaudomaine
14IODAA–Informationsgénérales
/35
Principesdirecteurs
1. Assureruneformationdepointeensciencesdesdonnées
2. Biaiséeversleschampssciencesduvivantetdel’environnement
– Spécificités
– Unedemande
15IODAA–Informationsgénérales /3516
Organisation
IODAA
IODAA–Informationsgénérales
/35
Organisationdelaformation
• 6moisdecours+6moisdestage
– Cours+projets
– Unprojet«filrouge»
• ArticuléavecleMasterbio-informatiquedeParis-Saclay
– ~2/3d’enseignementsàAgro(~350h)+~1/3àParis-Saclay(~120h)
– Possibilitédedoublediplôme:~40à50%d’étudiantspoursuivententhèse
17IODAA–Informationsgénérales /35
Lesgrandesunitésd’enseignement
• Informationetdonnées:qu’est-cequec’est?
• Gagnerdel’aisanceenalgorithmique
• Intelligenceartificielleo Représentationdesconnaissances/raisonnement
• Apprentissageautomatique
o Dessystèmesquiapprennent
• Lemétierd’ingénieur
• ConférencesI_Light
• Anglais
18IODAA–Informationsgénérales
/35
Organisation
Untronccommun 232h/16ECTS
– Informationetdonnées 44h(20h)/2ECTS
– Algorithmiqueetprogrammation 44h(20h)/4ECTS
– Intelligenceartificielle 144h/10ECTS
• Résolutiondeproblèmeetdécision 30h/2ECTS
• OntologiesetWebsémantique 15h/1ECTS
• Fouillededonnéesetdatamining 24h/2ECTS
• Apprentissageartificiel:techniquesnouvelles 21h/1ECTS
• Statistiquesengrandedimension 24h/2ECTS
• ProjetHackathon 30h/2ECTS
19IODAA–Informationsgénérales /35
Organisation
DesUE«enseignementsavancés» 90h/8ECTS
– Sciencesdesdonnéesavancées(2parmi10) 50h/4ECTS• OntologiesetWebsémantique(recom.) 20h/2ECTS
• AdvancedMachineLearning(recom.) 25h/2ECTS
• Deeplearning 25h/2ECTS
• Informationextraction:fromdocumentstointerfaces 25h/1ECTS
• Signalandimageprocessing 25h/2ECTS
• Large-scalelearningandinference 25h/2ECTS
• Informationretrievalintexts 25h/2ECTS
• Graphicalmodels 25h/2ECTS
• Imageindexingandcontent-basedretrieval 25h/2ECTS
• Analysed’imagesenbiologieouimageinterpretation 25h/2ECTS
20IODAA–Informationsgénérales
/35
Organisation
DesUE«enseignementsavancés» 90h/8ECTS
– Spécialisation(2parmi5) 40h/4ECTS
• Optimisationcombinatoire 20h/2ECTS
• Bioinformatiquedel’ARN 20h/2ECTS
• Graphesetréseauxbiologiques 20h/2ECTS
• Génomiquecomparée 20h/1ECTS
• NGS–Génomiqueappliquéeetfonctionnelle 20h/2ECTS
21IODAA–Informationsgénérales /35
Proposition(fin)
TronccommunIODAA(suite) 148h/10ECTS
– Anglais 30h/2ECTS
– I_Lights 18h/0ECTS
– Projet«filrouge» 100/8ECTS
– Stage 6mois/30ECTS
22IODAA–Informationsgénérales
EnseignementsàAgroParisTech(Paris)=315à380h
EnseignementsàU.Paris-Saclay =90à155h
/35
Conclusion
• Uneformationtransversale
– Utiledanstouslessecteursd’activité
– Complémentairedevotreparcoursjusquelà
• Extrêmementrecherchée
– Énormémentdeprojetspassionnants
– Carrièresdiversifiées
• Despromospetites:pédagogieadaptée
– 8,8,15(2016-2017),15(2017-2018),22(2018-2019),19(2019-2020),…
– Trèsbonneinsertionprofessionnelle(dont40%enthèse)
23IODAA–Informationsgénérales
antoine.cornuejols@agroparistech.fr
/35
Métiersvisés
/35
Secteursd’activités
• Lesgrandsgroupes(Danone,SEB,Veolia,EDF,…)
• LesPMEavecactivitéd’innovation(EuralisSemences,…)
• Santé:laboratoirespublics,industriespharmaceutiques
• Lesgrandslaboratoires
– Publics(INRA,CNRS,INRIA,InstitutCurie,InstitutPasteur,Universités,GrandesÉcoles,…)
– Privés(EDF,OrangeLabs,Xerox,…)
• DesPMEdeconsultingensciencesdesdonnées
• …
25IODAA–Informationsgénérales /35
Lestage
• Période: 1ermars–30août
• Naturedusujet/travail– IODAA:travaild’ingénieur
• Priseencharged’unprojetconséquent(pasmultitudedemissions)
• Unecertaineautonomiededécision• Réalisationenpartieinformatique
– IODAA+Master
• Travailderechercheetdéveloppement
– demanderunesolutioninnovante,c'est-à-direquinesoitpaslasimpleapplicationde
recettesconnues.
– avoirunephased'analyseduproblèmepuisqu'iln'apasdesolutiondéjàbienconnue
– prendreencomptedel'étatdel'artsurlemêmetypedeproblèmespourcomprendreles
grandsprincipesdessolutionsdéveloppéesailleursdansdescontextesdifférentsmais
similaires
– développerlaméthodefinalementretenue
– latesterdemanièresystématique
– chercherenconclusionàmontrerenquoilasolutiondéveloppéeestgénéralisable,etsousquellesconditions,àd'autresproblèmessimilaires
26IODAA–Informationsgénérales
/35
Exempledesujets2018-2019
27IODAA–Informationsgénérales
– «Datascience,traitementdulangagenaturel,applicationaucycledel’eau»(environnement)(SUEZ)
– «Intégrationdedonnées–omiquesetidentificationdebiomarqueursprédictifs»(santé)(INRA)
– «Computationaldesignofakinasewithmachinelearningandmolecularmodeling:health»(santé)(Polytechnique)
– «Apprentissageparrenforcementappliquéàlaconduitedevéhiculesautonomes»,(OCTOTechnology,Paris)
– «Outilsd’aideàladécisionpourlesentreprisesdelafilièreagro-alimentaire»(HispatecAnalytics,Espagne)
– «Miseenplaced'unréseaudeneuronesrécurrentpourladétectiond'avortementd'inflorescenceschezlepalmier.»(CIRAD,Montpellier)
– «Classificationdedocuments»(AXA)
– «ExploitationdesdonnéesradarSentinel-1pourunecartographiedynamiquedessurfaceseneauenzonesemi-aride»(environnement)(CESBIO,Toulouse)
– «Analysed’imagesdechampsdecultureàpartirdedrones.Algorithmededétectiondevégétaux:adaptationàdenouvellescultures»(environnement)(HummingbirdTechnologies,London,UK)
/35
Exempledesujets2017-2018
28IODAA–Informationsgénérales
– «Howtogivegoodqualityandcontinuallyimprovingagronomicadviceacrossawholeagro-ecologicalzonethankstotheuseofdiversesourcesofdata»(environnement)(CIAT,Colombie)
– «Apprentissageetcalibrationd’unmodèledesimulationdel’évolutiondelaconcentrationenC,N,PetKdanslesol»(VEOLIA)
– «Modélisationdecommunautésd’espècesparréseauxdeneuronesprofonds»(INRIA–SophiaAntipolis)
– «AnalysedeséquencesdeVIH»,(santé)(InstitutPasteur,Paris)
– «Inclusionofmetabolomicsdata(contents)inpredictionoffluxesclosesttobiochemicalconstraintsinamedium-scalemetabolicnetwork»(MaxPlanckinstitute,Allemagne)
– «Analyserlabasededonnéespourretracerl'historiquedesmotifsdeconsultation»(santé)(MédecinDirect)
– «Prévisiondeproductiond’unparcéolienterrestre»(environnement)(EDF)
/35
Exempledesujets2016-2017
29IODAA–Informationsgénérales
– «ModélisationdesprocessusdeTransformationcombinantOntologieetmodèlesrelationnelsprobabilistes-Applicationàlastabilisationdesmicroorganismes»(AgroParisTech,Paris)
– «Prévisiondeventeparanalysed’actualitésetréseauxsociaux»(Vente-privee.com,
Saint-Denis)
– «Miseenœuvreetévaluationdemodèlesstatistiquesetd’apprentissageautomatiquebaséssurlesdonnéespourlagestiondesréseauxd’eau»(environnement)(VeoliaEnvironmentSA,Aubervilliers)
– «Développerunmoteurderecherchedansunebasedehiéroglyphes,enattribuantunscoredepertinenceàchaquerésultat»,(CNAM,Paris)
– «Développementd'outilsinformatiquespermettantl'intégrationdeslongsARNnon-codantsdanslescircuitsderégulationtranscriptionnels»(santé)(InstitutCurie,Paris)
/35
Sujetsdestage2015
• Télédétectionagronomique:modélisationdustatutazotédescéréales(drones,plansd’expérience,quellesvariablesutiliser,commentlescombinerentreelles,SIG)(Airinov,Paris)
• Automatedmachinelearningin3D/4Dbiologicalimagedata(neuroscience)(santé)IPAL/BioinformaticsInstitutàSingapour
• MachineLearningonSoundscapeAnalysis(réseauxdeneuronesprofonds)(UniversitédeToulon)
• Développementdemodèlespermettantd'expliquerlemodedeconsommationd'eaupotableetdeproductiondedéchetsdesménagessurunterritoire(environnement)(VeoliaEnvironnementRecherche&Innovation)
• Statistiquesspatialespourl’étudedesévolutionsderadioactivitésurlazonedeFukushima(environnement)(LaboratoiredeModélisationpourl’ExpertiseEnvironnementaleetCEA)
• Modélisationdupotentieléconomiquedesoptimisationsélectriquesstatiquesetdynamiquespourlesbâtimentstertiaires(environnement)(COFELY)
• Étudedesconditionsderéussitedelancementdestartup(prédictionderéussitedecollectedefinancement)(Arizuca)
IODAA–Informationsgénérales 30
/35
Sujetsdestage2014
• Créationd’unoutilautomatisantlarecherchedeseffetsindésirablesdesmédicamentssurlesblogs.(santé)UniversalMedica
• RéseauxdeneuronesprofondspourfouillededonnéesbioacoustiquesUniversitédeToulon
• Participationàl’étudeetl’implémentationdeméthodesd’haplotypagesurdonnéesSNPissuesdematérielvégétalfixé(maïs)EuralisSemences,Toulouse
• Développementd’unsystèmedeclassificationautomatiquedenaviresDCNSResearch
• CDK:improvmentofdescriptorsforpartitioncoefficientinthesynthesisofnewmolecules(santé)EMBL–EuropeanBioinformaticsInstitute,Cambridge,UK
• Développementd’unmoteurderecommandationdanslagrandedistributionAccentureInteractive
• Classificationprécocedesériestemporellespourlaprévisiondepicsdeconsommationélectrique(environnement)EDFR&D,Clamart
IODAA–Informationsgénérales 31 /35
MasterInformatique
UPSaclay
ParcoursIntelligenceArtificielle
32IODAA–Informationsgénérales
/35
ParcoursAIC
Enseignementsdetronccommun 1ertrimestre
– Traitementdesimagesetdusignal 21h/2,5ECTS
– Apprentissage(introduction) 21h/2,5ECTS
– Algorithmesdistribuésetmatricielsàgrandeéchelle 21h/2,5ECTS
– Rechercheetextractiond’informationdanslestextes21h/2,5ECTS
– Algorithmesd’inférenceetapprentissageàgrandeéchelle 21h/2,5ECTS
– Optimisation 21h/2,5ECTS
33IODAA–Informationsgénérales /35
ParcoursAIC
Enseignementsoptionnels(6parmi12) 2èmetrimestre
– Apprentissageavancé 21h/2,5ECTS
– Apprentissageàpartirdedonnéesstructurées 21h/2,5ECTS
– Décisiondistribuéeetthéoriedesjeux 21h/2,5ECTS
– Extractiond’information:desdocumentsauxinterfaces 21h/2,5ECTS
– Reconnaissanceetinteractionvocale 21h/2,5ECTS
– Indexationd’imagesparlecontenu 21h/2,5ECTS
– Interprétationd’images 21h/2,5ECTS
– Apprentissagepourlesdonnéesscientifiquesettechniques 21h/2,5ECTS
– Modèlesgraphiquespourl’accèsàl’informationàgrandeéchelle 21h/2,5ECTS
– Apprentissageparrenforcement 21h/2,5ECTS
– Optimisationavancée 21h/2,5ECTS
– Learningfromtheweb 21h/2,5ECTS
34IODAA–Informationsgénérales
/35
IODAAdel’1nf0rmationàlaDécision
parl’Analyseetl’Apprentissage
antoine.cornuejols@agroparistech.fr
Lasciencedesdonnéespourlessciencesduvivant