Ivana Roche Ingénieur R&D – INIST-CNRS
description
Transcript of Ivana Roche Ingénieur R&D – INIST-CNRS
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
1
Ivana RocheIngénieur R&D – INIST-CNRS
DBF : projet de modélisation d’un processus de sélection à l’aide
d’indicateurs bibliométriques/scientométriques
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
2
• Le projet DBF• Le concept développé • ERC : le contexte du projet• La notion de recherche exploratoire• La formalisation des indicateurs• Le modèle bibliométrique & les indicateurs• La fonction de sélection • Discussion
Plan de la présentation
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
3
DBF = Development and verification of a Bibliometric model for the
Identification of Frontier Research
• Action d’appui (SA)• 7ème PCRD – Programme IDEAS placé sous la
responsabilité de l’ERC – http://erc.europa.eu/– http://cordis.europa.eu/fp7/ideas/home_en.html
• 3 ans : 2009-2012• Consortium :
– AIT, Austrian Institute of Technology– INIST-CNRS
DBF : le projet
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
4
Concept consistant à inférer les attributs de recherche exploratoire dans les propositions de projet de recherche reçues dans le cadre des appels de l’ERC et soumises à une évaluation par des pairs
• Concevoir, implémenter, tester et affiner un modèle bibliométrique/scientométrique permettant d’évaluer si les propositions répondent à la définition, énoncée par le High Level Expert Group de l’ERC, de recherche exploratoire
• Comparer les résultats obtenus avec notre modèle et les choix opérés par les experts pour alimenter une réflexion sur l’influence de la notion de recherche exploratoire sur le processus de sélection
Le concept développé
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
5
• ERC premier organisme de financement de projets de recherche (exploratoire) à l’initiative de chercheurs au travers d’un processus de compétition ouvert et direct
• Principaux objectifs :– viser l’excellence scientifique– privilégier les chercheurs présentant les idées le plus
créatives en vue de favoriser l’identification et l’exploration de voies nouvelles dans tous les secteurs de la recherche scientifique
– contribuer au développement d’une synergie positive autour des chercheurs sélectionnés
– favoriser la réactivité scientifique et géographique de la recherche européenne
ERC : le contexte du projet
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
6
Les 2 schémas de soumission de projets :
– StG, réservé aux chercheurs débutants offrir les moyens pour développer des carrières « indépendantes » en s’entourant de leur propre équipe
– AdG, dédié aux chercheurs confirmés favoriser les efforts de recherche innovateurs, de grande portée, avec un fort potentiel "haut-risque/haut-impact" et soutenir des projets amenant à un changement notable de leur axe de recherche
ERC : les schémas
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
7
• Les domaines couverts (« panels ») :– Physique & Sciences de l’Ingénieur (PE) 10 panels– Sciences de la Vie (LS) 9 panels– Sciences Humaines & Sociales (SH) 6 panels
• Chaque chercheur soumissionnaire :– doit classer sa proposition dans un des 25 panels qui devient
le panel « d’origine » et l’indexer avec des MC contrôlés – doit avoir l’accord d’une institution d’accueil en Europe– doit être ressortissant d’un état membre de l’UE-27 ou d’un
pays associé
• Appels annuels : le 1er en 2007
• Financement : Programme IDEAS du 7ème PCRD de la CE
ERC : les domaines couverts
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
8
ERC : les panels & leur structure
LS1 Molecular and structural biology and biochemistryLS2 Genetics, genomics, bioinformatics and systems biologyLS3 Cellular and developmental biologyLS4 Physiology, pathophysiology and endocrinologyLS5 neuroscioences and neural disordersLS6 Immunity and infectionLS7 Diagnostic tools, therapies and public healthLS8 Evolutionary, population and environmental biologyLS9 Applied life sciences and biotechnologyPE1 Mathematical foundationsPE2 Fundamental constituents of matterPE3 Condensed matter in physicsPE4 Physical and analytical chemical sciencesPE5 Material and synthesisPE6 Computer sciences and informaticsPE7 Systems and communication engineeringPE8 Products and process engineeringPE9 Universe sciencePE10 Earth system scienceSH1 Individuals, institutions and marketsSH2 Institutions, valies, beliefs and behaviorSH3 Environment and societySH4 The Human Mind and complexitySH5 Cultures and cultural productionSH6 The study of the human past
Panel
LS9 Applied life sciences and biotechnology: agricultural, animal, fishery, forestry and food sciences; biotechnology, chemical biology, genetic engineering, synthetic biology, industrial biosciences; environmental biotechnology and remediation LS9_1 Genetic engineering, transgenic organisms, recombinant proteins, biosensors LS9_2 Synthetic biology and new bio-engineering concepts LS9_3 Agriculture related to animal husbandry, dairying, livestock raising LS9_4 Aquaculture, fisheries LS9_5 Agriculture related to crop production, soil biology and cultivation, applied plant biology LS9_6 Food sciences LS9_7 Forestry, biomass production (e.g. for biofuels) LS9_8 Environmental biotechnology, bioremediation, biodegradation LS9_9 Biotechnology, bioreactors, applied microbiology LS9_10 Biomimetics LS9_11 Biohazards, biological containment, biosafety, biosecurity
PE1 Mathematical foundations: all areas of mathematics, pure and applied, plus mathematical foundations of computer science, mathematical physics and stati stics PE1_1 Logic and foundations PE1_2 Algebra PE1_3 Number theory PE1_4 Algebraic and complex geometry PE1_5 Geometry PE1_6 Topology PE1_7 Lie groups, Lie algebras PE1_8 Analysis PE1_9 Operator algebras and functional analysis PE1_10 ODE and dynamical sy stems PE1_11 Partial differential equations PE1_12 Mathematical physics PE1_13 Probability and statistics PE1_14 Combinatorics PE1_15 Mathematical aspects of computer science PE1_16 Numerical analysis and scientific computing PE1_17 Control theory and opti mization PE1_18 Application of mathematics in sciences
(*) sous-panels = MC contrôlés
(*)
(*)
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
9
• Evolution du budget ERC (2007 – 2013) :
• Taux de propositions sélectionnées (2009) :– StG 10% (237 sur 2503 soumissions)
– AdG 15% (244 sur 1584 soumissions)
ERC : le financement
0
300
600
900
1200
1500
1800
Millio
ns
de
€
Financement moyen~ 1,7 Million €
811
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
10
Processus de sélection :– 25 panels d’experts– membres UE & hors-UE définis par le
Conseil Scientifique – processus de sélection à 2 étapes
• projets de recherche à caractère exploratoire
ERC : la sélection de projets
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
11
La notion de recherche exploratoire a été explicitée par le High Level Expert Group de l’ERC qui lui a associé 4 attributs-clés :
Située à la pointe de la création de nouvelles connaissances… à l’origine de découvertes fondamentales… contribuant parfois à la
réalisation de percées révolutionnaires
Intrinsèquement risquée
Contribuant à réduire les barrières entre recherche fondamentale et appliquée
S’intéressant à des problèmes au-delà des frontières interdisciplinaires
Recherche exploratoire
Lors du processus de sélection les experts doivent identifier parmi un très grand nombre de propositions
celles présentant ces caractéristiques
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
12
• Identification des 4 attributs-clés associés par le High Level Expert Group à la notion de recherche exploratoire :– Nouveauté– Risque– Applicabilité– Interdisciplinarité
• Formalisation de ces attributs-clés en termes d’indicateurs construits en combinant des approches scientométriques et de fouille de texte :
Formalisation des indicateurs
Attribut-cléNouveauté Actualité Références citées dans la proposition
ProximitéAnalyse diachronique des résultats de classifications fondées sur l'information textuelle des propositions
Risque Risque Spécificité/ Originalité/ Indépendence de la propositionApplicabilité Pasteuresqueness Applicabilité des résultats attendus Interdisciplinarité Interdisciplinarité Diversité des panels "voisins" autres que le panel "d'origine" indexant la proposition
Indicateur
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
13
Utilisé pour inférer le « degré d’innovation » de la proposition en se fondant sur ses références
citées
• Source de données :– BdD ERC
• Hypothèse :– plus ses références sont récentes, plus il est probable que la
proposition soit à la pointe de la recherche
• Calcul :– l’indicateur se concentre sur le temps écoulé depuis la publication
des références citées et l’indicateur est calculé en considérant la différence entre l’année de soumission de la proposition et l’année de publication des articles correspondant à chaque référence citée
Indicateur d’Actualité
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
14
Indicateur d’Actualité
Base de Données
ERCPropositions
soumises
Distribution des dates de
publication
Extraction de la date de
publication des références citées
dans les propositions
Calcul de l’indicateur
d’ACTUALITE
Pre-traitement des données et fouille de texte
Base de Données
ERCPropositions
soumises
Distribution des dates de
publication
Extraction de la date de
publication des références citées
dans les propositions
Calcul de l’indicateur
d’ACTUALITE
Pre-traitement des données et fouille de texte
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
15
Employé pour inférer le « degré d’innovation » de la proposition à l’aune du changement dynamique du paysage
scientifique correspondant au panel d’origine de la proposition
• Source de données :– BdD ERC & BdD bibliographiques
• Hypothèse :– plus la proposition est proche de zones de forte évolution thématique, plus il
est probable qu’elle soit innovante
• Calcul : – collecte des données + extraction information terminologique– classification automatique : une carte thématique regroupant en classes des
références similaires et donnant une représentation du paysage scientifique relatif au panel
– analyse diachronique : étude de l’évolution du paysage scientifique entre 2 périodes de temps (2000 et l’année de soumission)
– rang des classes de la période la plus récente selon leur degré d’innovation– calcul de la similarité entre chaque proposition et les classes de la période la
plus récente
Indicateur de Proximité
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
16
Indicateur de Proximité
Base de données
ERC
Traduire le contenudes panels en stratégies de
recherche
Pre-traitement des données et fouille de texte
Descriptiondes
panels
Interrogation de la base de donnéesbibliographiques
Base de données
bibliographiques
Construction de 2 corpus indexés
(2 périodes : T1, T2) + classification automatique
Analyse diachronique
résultatsclassification
T1
T2
Classes par rang de
innovationT1,T2
Calc
ulde
l’in
dica
teur
dePR
OXI
MIT
E
Propositions
Extraction de l’information
terminologique(titre + résumé)
Similarité des propositions par
rapport aux classes de T2
Base de données
bibliographiques
Base de données
ERC
Base de données
ERC
Traduire le contenudes panels en stratégies de
recherche
Pre-traitement des données et fouille de texte
Descriptiondes
panels
Interrogation de la base de donnéesbibliographiques
Base de données
bibliographiques
Construction de 2 corpus indexés
(2 périodes : T1, T2) + classification automatique
Analyse diachronique
résultatsclassification
T1
T2
Classes par rang de
innovationT1,T2
Calc
ulde
l’in
dica
teur
dePR
OXI
MIT
E
Propositions
Extraction de l’information
terminologique(titre + résumé)
Similarité des propositions par
rapport aux classes de T2
Base de données
bibliographiques
Base de données
ERC
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
17
Utilisé pour inférer le « risque personnel » que prendrait le PI s’il mettait en œuvre sa proposition
• Sources de données :– BdD ERC & BdD bibliographiques
• Hypothèses : – les références citées dans les publications passées du chercheur sont
une source d’information pour obtenir son « profil bibliométrique de recherche »
– plus le recouvrement entre ce profil et le profil calculé avec les références citées dans la proposition est petit, plus la proposition peut être considérée comme risquée pour le chercheur
• Calcul :– comparaison entre le profil « passé » du chercheur et celui de sa
proposition– comparaison entre le profil de sa proposition et un profil global calculé
à partir de toutes les propositions du panel
Indicateur de Risque
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
18
Indicateur de Risque
Profil des référencesdu PI dans sa
recherche “passée”
Profil des référencesdu PI dans la proposition
Profil des références dans le
panel d’origine de la proposition
Distance entre profils (d1)
Distance entre profils (d2)
Calc
ulde
l’i
ndic
ateu
rde
RIS
QU
EBase de données
ERC
Bases de donnéesexternes
Pre-traitement des données
Profil des référencesdu PI dans sa
recherche “passée”
Profil des référencesdu PI dans la proposition
Profil des références dans le
panel d’origine de la proposition
Distance entre profils (d1)
Distance entre profils (d2)
Calc
ulde
l’i
ndic
ateu
rde
RIS
QU
EBase de données
ERC
Bases de donnéesexternes
Pre-traitement des données
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
19
Utilisé pour inférer le degré d’applicabilité des résultats attendus de la proposition
• Sources de données :– BdD ERC & BdD bibliographiques
• Pasteuresquenness… Qu’est-ce que c’est? – néologisme inspiré du Quadrant de Pasteur
• catégorise des recherches qui cherchent tantà accroître la connaissance fondamentale queà développer des applications
• Calcul :– brevets – relations industrielles– auto-citations dans des périodiques catégorisés « appliqués »
Indicateur d’Applicabilité ou Pasteuresqueness
Rele
vant
pou
r l’a
vanc
emen
tde
la
conn
aiss
ance
Recherchefondamentale pure
(Bohr)
Recherchefondamentale
inspirée par son utilisation
(Pasteur)
Rechercheappliquée pure
(Edison)
Relevant pour des applications immédiatesRe
leva
nt p
our
l’ava
ncem
entd
e la
co
nnai
ssan
ce
Recherchefondamentale pure
(Bohr)
Recherchefondamentale
inspirée par son utilisation
(Pasteur)
Rechercheappliquée pure
(Edison)
Relevant pour des applications immédiates
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
20
Indicateur d’Applicabilité ou Pasteuresqueness
Bases de donnéesexternes
Brevets déposéspar le PI
Finanacements, remerciements, collaborations
Liste des périodiques oùelles sont publiées
Liste des auto-citations du PI
CV des porteurs (PI)des propositions
Liste depériodiques catégorisés
fondamentaux/appliqués
Catégorisation des auto-citations en
“fondamentales” ou“appliquées” selon le
périodique de publication
Calc
ulde
l’in
dica
teur
d’AP
PLIC
ABIL
ITE
(PAS
TEU
RESQ
UEN
ESS)
Base de données
ERC
Pre-traitement des données et fouille de texte
Bases de donnéesexternes
Brevets déposéspar le PI
Finanacements, remerciements, collaborations
Liste des périodiques oùelles sont publiées
Liste des auto-citations du PI
CV des porteurs (PI)des propositions
Liste depériodiques catégorisés
fondamentaux/appliqués
Catégorisation des auto-citations en
“fondamentales” ou“appliquées” selon le
périodique de publication
Calc
ulde
l’in
dica
teur
d’AP
PLIC
ABIL
ITE
(PAS
TEU
RESQ
UEN
ESS)
Base de données
ERC
Pre-traitement des données et fouille de texte
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
21
Utilisé pour inférer la présence, dans la proposition, de mots-clés étiquetés comme appartenant à des
panels autres que le panel d’origine de la proposition
• Source de données :– BdD ERC
• Hypothèses :– plus l’occurrence de ces mots-clés est élevée, plus la proposition est
interdisciplinaire– plus la diversité de ces panels est grande, plus la proposition est
interdisciplinaire
• Calcul : – évaluation de la concentration de mots-clés associés à des panels
autres que le panel d’origine de la proposition
Indicateur d’Interdisciplinarité
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
22
Indicateur d’Interdisciplinarité
Extraction de la structure et le
contenuthématique des
panels ERC
Calc
ulde
l’in
dica
teur
d’IN
TERD
ISCI
PLIN
ARIT
E
Extraction des mots-clés
(MC) indexantles
propositions
Mise en correspondance de
chaque MC avec leur respectif panel
d’origine
Analyse du nombrede MC de différents
panels et de leurconcentration dansl’indexation de la
proposition
Base de données
ERC
Pre-traitement des données
Extraction de la structure et le
contenuthématique des
panels ERC
Calc
ulde
l’in
dica
teur
d’IN
TERD
ISCI
PLIN
ARIT
E
Extraction des mots-clés
(MC) indexantles
propositions
Mise en correspondance de
chaque MC avec leur respectif panel
d’origine
Analyse du nombrede MC de différents
panels et de leurconcentration dansl’indexation de la
proposition
Base de données
ERC
Pre-traitement des données
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
23
• Modèle comportamental– modèle à choix-discret
• Idée :– estimer la probabilité de sélection d’une
proposition en fonction des ses indicateurs calculés
– AC, actualité– PR, proximité– RI, risque– AP, applicabilité– IN, interdisciplinarit
Pproposition i soit sélectionnée = f (ACi, PRi, RIi, APi, INi)
5 indicateurs & 1 fonction de sélection
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
24
La validation du modèle
Panels d’experts
BdD ERC
BdD bibliographiques
Processus de sélection ERC
Applicationmodèle
ComparaisonAnalyse
Feedback
bibliométrique
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
25
Le modèle développé…
• est ambitieux : difficile de représenter fidèlement les caractéristiques de la « recherche exploratoire » et de les quantifier
• ne peut en aucun cas se substituer à l’expertise : il est attendu seulement que les résultats aient un effet positif sur la probabilité de décision de financement en attirant l’attention sur des propositions refusées qui mériteraient néanmoins une seconde chance
• ne se fonde pas sur des mesures de performance : combine des méthodes de scientométrie et des techniques d’analyse de contenu utilisant l’information textuelle présente dans les propositions
• peut être réutilisé
• produit une méthodologie : permettant à l’agence de financement de suivre, du point de vue bibliométrique, le processus de sélection et, éventuellement, de l’affiner
Discussion
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
26
Ce travail est partiellement financé par le Programme Ideas du 7ème Programme-Cadre pour la Recherche et le Développement Technologique (2007-2013) de la Commission Européenne (N° de référence du projet : 240765)
Site du projet : http://www.ait.ac.at/dbf
Remerciements
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
27
Merci
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
28
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
29
Le modèle bibliométrique & les indicateurs
Dem
ande
sde
sub
venti
on•
Star
ting
(StG
) or A
dvan
ced
(AdG
)
Critère 1CV du porteur du projet – Chercheur principal (PI)
Critère 2Proposition de projet de recherche
Critère 3Environment scientifique
Base de donnéesERC
Bases dedonnéesexternes
Extraction données, fouillede texte
Actualité(auto-citations)Pasteuresqueness(brevets, financements, collaborations,categorizationdes auto-citations)
Actualité(référencescitées)Proximité(contenutextuel : titre+résumé)Risque(référencescitées)Interdisciplinarité(disciplinesvoisinesdu paneld‘origine)
Modèle de choix discrets fondé surles indicateurs
Comparaison avec les résultats obtenus par les panels d‘experts Feedback
5 indicateursfondéssur
scientométrie&analysecontenu
Corr
espo
ndan
ce
Proximité( représentationévolutiondu panel d‘origine)Risque(référencesdansarticlesprécédantsdu PI) D
eman
des
de s
ubve
ntion
•St
artin
g (S
tG) o
r Adv
ance
d (A
dG)
Critère 1CV du porteur du projet – Chercheur principal (PI)
Critère 2Proposition de projet de recherche
Critère 3Environment scientifique
Base de donnéesERC
Bases dedonnéesexternes
Extraction données, fouillede texte
Actualité(auto-citations)Pasteuresqueness(brevets, financements, collaborations,categorizationdes auto-citations)
Actualité(référencescitées)Proximité(contenutextuel : titre+résumé)Risque(référencescitées)Interdisciplinarité(disciplinesvoisinesdu paneld‘origine)
Modèle de choix discrets fondé surles indicateurs
Comparaison avec les résultats obtenus par les panels d‘experts Feedback
5 indicateursfondéssur
scientométrie&analysecontenu
Corr
espo
ndan
ce
Proximité( représentationévolutiondu panel d‘origine)Risque(référencesdansarticlesprécédantsdu PI)
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
30
ERC : la distribution des soumissions 2009
StG_2009 AdG_2009
SH19%
PE44%
LS37%
SH21%
PE47%
LS32%
FRéDoc'11 - L'information scientifique et technique au prisme de l'Europe, Bordeaux, 10-13 octobre
31
EU : les pays associés
http://cordis.europa.eu/national_service/home_fr.html