Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...
Transcript of Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...
Xavier [email protected]
Dialogue et Analyse de Textes
Master 2 Recherche
Recherche d'Information et Traitement du Langage
2Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Plan
• La recherche d'information– Introduction– Indexation– Recherche– Évaluation
• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques
3Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'Information
Analyse des documents
Analyse du
besoin
fonction desimilarité
résultats
Indexation, modèle de document
Requête
Modèle de recherche
4Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Information vs. Données
• "Les données sont reçues, stockées et retrouvées par un endosystème. Les données sont impersonnelles ; elles sont disponibles pour tout utilisateur du système.
• L’information, en revanche, est un ensemble de données qui correspond à un besoin particulier.
• Le concept d’information a des composantes personnelles et temporelles absentes du concept de donnée."
(R. R. Korfhage, 1997)
5Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Besoin d'information
• "Disposer des bonnes informations par rapport à une question ou à un problème donnés"
• Importance accrue de la veille scientifique, technologique, commerciale, culturelle, etc.
• Un besoin très grand public• Au départ, un besoin d'accès aux informations internes, mais
l'accès aux informations externes est maintenant tout aussi important
6Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Diversité des besoins d'information (1/2)
1. La recherche d’un élément connu – L’utilisateur sait exactement quels éléments il recherche. Il sait
reconnaître les éléments désirés s’il les voit. – Ex : recherche d'une citation bibliographique précise.
► SQL, XQuery, etc. (bases de données)
2. La recherche d’une information spécifique – L’utilisateur recherche une information spécifique mais ignore sous
quelle forme elle se présente.– Réponse partielle impossible– Ex : À quelle date le président Kennedy atil été assassiné ?
► Systèmes de QuestionsRéponses(Meadow et al., 2000.)
7Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Diversité des besoins d'information (2/2)
3. La recherche d’une information générale – L’utilisateur recherche une information sur un sujet en général. Il
existe de nombreuses façons de décrire le sujet. – Il est possible que l’information pertinente ne soit pas reconnue– Cette information peut ne satisfaire l’utilisateur que de façon
partielle.► Recherche d'information
4. L’exploration – Le but n’est pas de répondre à une question en particulier, mais de
parcourir l’ensemble des données pour découvrir quels types d’informations concernant un sujet ou un domaine sont présents.
► Navigation
(Meadow et al., 2000.)
8Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Difficultés de la recherche d'information (1/3)
• Difficultés d'accès, couverture, temps de traitement :– Les bases documentaires sont très grandes, réparties sur de
nombreux supports dans des endroits différents
• Difficultés de définition de la pertinence– Comment un document remplitil le besoin informationnel d'une
personne donnée ?– Quelle est sa pertinence ? Comment la mesureton ?
• Difficultés d'exploitation– Les documents pertinents ne sont pas nécessairement dans la langue
de la requête– L'information recherchée n'est pas nécessairement clairement
identifiable dans un document
9Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Difficultés de la RI (2/3) : le facteur humain
• Le besoin d’information de l’utilisateur est parfois vague et toujours subjectif. – La perte d’information entre la réalité du besoin d’information et son
expression peut être importante.– La pertinence d’un document pour une requête est une notion
variable et très complexe à définir.
► Il ne peut pas exister de système de recherche d’information parfait.
► L’évaluation d’un système dépasse les aspects habituels de performance informatique
• L'humain est subjectif, versatile, et il utilise un langage "naturel" !
10Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Difficultés de la RI (3/3) : le facteur "langage"
• À la différence des langages artificiels, le langage "naturel" est– implicite : tout n'est pas dit dans les textes et leur compréhension
requiert une importance connaissance sur le contexte et sur le monde– redondant : la langue offre de nombreuses façons de formuler le
même contenu– ambigu : un même énoncé peut souvent être interprété de
différentes façons
• La recherche d'information est encore compliquée par– le fait que les mots peuvent jouer des rôles différents dans les textes– le fait que les atomes de sens peuvent être des mots ou des groupes
de mots (termes)
• Voir plus loin dans le cours
11Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Grandes évolutions de la RI
• Précédemment :– Bases documentaires structurés et de petite taille– Accès par des métadonnées et rarement par le texte intégral– Utilisation de langages documentaires (contraints) par les spécialistes
• Aujourd'hui– Documents multimédia sous forme électronique– Nombreux formats de représentation (texte brut, HTML, XML, PDF,
RTF, formats propriétaires...)– De plus en plus de données non structurées– Une masse d'information gigantesque (Web...)
12Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• Une masse immense d'informations multimédia– Du texte, des images, des vidéos, du Flash, de nombreux types de fichiers
différents...– Taille du seul Wikipedia (version anglaise) en 2007 =
Recherche d'information et Internet (1/3)
Source : Nikola Smolenski
13Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'information et Internet (2/3)
• Un contenu (un peu) structuré– Métadonnées– Liens intra et interdocuments– Indications de forme– Balisage "sémantique" pour application de feuilles de style
• Un contenu dynamique– Les sites de nouvelles, blogs, forums... évoluent très vite – Les pages dynamiques sont très nombreuses
14Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'information et Internet (3/3)
• Tout le monde peut à la fois être lecteur et producteur d'info– Ajouter son propre contenu au Web est devenu simple et gratuit– Pages persos, blogs, wikis, forums, listes de diffusion...– Les institutions et les particuliers sont a priori sur le même pied
• Un enjeu économique important– 75 % des sites sont trouvés par l’intermédiaire d’un moteur de
recherche (source : WebPosition)– Google, Yahoo et d'autres sont devenus des acteurs majeurs– Les algorithmes de recherche et les moyens mis en œuvre sont
secrets
15Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• Le Web fourmille d'informations fausses (vecteur de désinformation)
• Les métadonnées sont peu utilisées• Les créateurs de pages peuvent modifier le contenu pour
améliorer leur classement sur les moteurs de recherche– Répétition de motsclés dans des couleurs non visibles ou dans les
métadonnées– Spamming : pas de contenu mais une énumération de motsclés destinés
uniquement à être visible sur les moteurs de recherche
► On ne peut se fier tel quel au contenu des pages pour évaluer leur pertinence
► On ne peut pas se contenter des mesures de densité des mots de la recherche d'information sur des bases documentaires
Le Web, un contenu non contrôlé
16Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'information et Internet
• Utilisation massive par des utilisateurs non experts :– La requête typique est constituée d'au plus quelques motsclés– Domaine en pleine expansion économique
• Une partie du Web n'est pas directement accessible (accès restreint, pages non liées, pages dynamiques...)
• L'information présente n'est pas toujours fiable (le Web, vecteur de désinformation)
• La visualisation de l'information est particulièrement importante (classement des documents, présentation d'extraits, extraction de segments, présentation graphique...)
17Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'information et Internet
Source : Nikola Smolenski
L'encyclopédie Wikipedia en 2007...
18Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Relevance feedback
• "Réinjection de la pertinence"• Le but :
– Sélectionner de nouveaux motclés et/ou modifier les poids– Réinjecter la nouvelle requête pour obtenir de meilleurs résultats
• "Manuel explicite" :– L'utilisateur visualise les n premiers résultats– Il estime la pertinence de chacun (0 ou 1)– Nouvelle requête obtenue à partir des documents jugés pertinents
• Automatique (blind relevance feedback) :– Les n premiers résultats du premier run sont supposés pertinents– Même processus que pour le relevance feedback manuel
19Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche multimedia
• Texte et/ou image et/ou audio et/ou vidéo...• Des collections très volumineuses :
– ex : collection Wikipedia pour INEX– 4.6 Go en texte seul, 60 Go avec les images
• Documents structurés (MPEG7...)
• Utilisation :– des métadonnées– du texte "environnant" les images (légende, point de référence...)– des caractéristiques propres des documents autres que le texte :
• Analyse d'image• Speechtotext• ...
20Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Indexation
Analyse des documents
Analyse du
besoin
fonction desimilarité
résultats
Indexation, modèle de document
21Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Indexation, pourquoi ?
• Le parcours complet de l'ensemble des documents avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif
• On passe par un traitement préalable : l'indexation• Le but de l'indexation automatique : "transformer des
documents en substituts capables de représenter le contenu de ces documents" (Salton et McGill, 1983)
• Les difficultés de l'indexation sont pour beaucoup celles inhérentes à la langue des documents
• Les index peuvent prendre plusieurs formes : mots simples, termes complexes, syntagmes, entrées de thésaurus...
22Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Indexation : le fichier inverse
• Notion "classique" de l'index• Un fichier inverse associe des index aux documents qui les
contiennent :a ▸ d1, d2, d3, d4, d5...à ▸ d1, d2, d3, d4, d5...abaissa ▸ d3, d4...abaissable ▸ d5abandon ▸ d1, d5abandonna ▸ d2abasourdi ▸ d1...
23Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Indexation libre et contrôlée
• Indexation libre :– Mots, termes des documents
• Indexation contrôlée– Listes de termes prédéfinie– Vocabulaire contrôlé (évite polysémie, synonymie et problèmes de
granularité)– Thésaurus
exemple : thésaurus UMLS
24Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Chaîne d'indexation
Documents à indexer
Segmenteur (tokenizer)
Normalisation
Indexeur
Fichiers d'indexation
25Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Constitution des fichiers inverses
26Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Réduction de la taille des index
• Stemming :– Nombre de termes réduit d'environ 40 %– Nombre de pointeurs réduit de 10 à 20 %– Espace total réduit d'environ 30 %
• Non conservation de certaines formes– Liste de mots vides (stop list)– Environ 30 mots représentent environ 30 % des occurrences de
termes dans les textes écrits– Éliminer les 150 termes les plus fréquents réduit l'espace
d'environ 25 %
27Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Pondération des termes
• Dans une requête comme dans un document, les termes n'ont pas tous la même importance
• Intuition #1 : plus un document contient d'occurrences d'un terme, plus il est "à propos" de ce terme (plus il sera pertinent par rapport à une requête contenant ce terme)
• C'est le modèle "sac de mots" – On raisonne en termes de fréquence et on oublie l'ordre des mots– Pour conserver l'ordre des mots, il faut mémoriser la position de
chaque occurrence dans les index
• Les longs documents sont favorisés car ils sont susceptibles de contenir davantage d'occurrences
28Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Pondération des termes : le td.idf (1/2)
• Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants)
• On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df)– Mesure simple :
– En pratique :
• Le poids d'un terme dans un document D augmente avec sa fréquence dans D et avec sa rareté dans la collection
wi , d=tf i ,d . 1df i
wi , d=tf i ,d . log ndf i
29Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Pondération des termes : le td.idf (2/2)
tf seul
tf.idf
30Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'Information
Analyse des documents
Analyse du
besoin
fonction desimilarité
résultats
Modèle de recherche
31Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Les trois courants
1. Modèles fondés sur la théorie des ensembles Modèle booléen►
2. Modèles algébriques Modèle vectoriel►
3. Modèles probabilistes Modélisation de la notion de "pertinence"►
• Courants fondés à l'aube de la discipline (années 60, 70)• Passage à l'échelle : des bases documentaires "jouets" au
teraoctet de TREC et au Web
32Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle booléen
• Le premier et le plus simple des modèles• Basé sur la théorie des ensembles et l'algèbre de Boole• Les termes de la requête sont soit présents soit absents
► Poids binaire des termes, 0 ou 1
• Un document est soit pertinent soit non pertinent ► Pertinence binaire, et jamais partielle (modèle exact)
• La requête s'exprime avec des opérateurs logiques– AND, OR, NOT – (cyclisme OR natation) AND NOT dopage– le document est pertinent si et seulement si son contenu respecte la
formule logique demandée
33Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle booléen : exemple
Requête Q : (cyclisme OR natation) AND NOT dopage
Le document contient Pertinence cyclisme natation cyclisme OR dopage NOT dopage du document
natation0 0 0 0 1 00 0 0 1 0 00 1 1 0 1 10 1 1 1 0 01 0 1 0 1 11 0 1 1 0 01 1 1 0 1 11 1 1 1 0 0
34Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle booléen : avantages et inconvénients
• Avantage :– Le modèle est transparent et simple à comprendre pour l'utilisateur :
• Pas de paramètres "cachés"• Raison de sélection d'un document claire : il répond à une formule logique
– Adapté pour les spécialistes (vocabulaire contraint)
• Inconvénients :– Il est difficile d'exprimer des requêtes longues sous forme booléenne– Le critère binaire peu efficace
• Il est admis que la pondération des termes améliore les résultats• cf. modèle booléen étendu (plus loin)
– Il est impossible d'ordonner les résultats• Tous les documents retournés sont sur le même plan• L'utilisateur préfère un classement lorsque la liste est grande
35Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle vectoriel
• Modèle statistique :– Aspect quantitatif des termes et des documents– Degré de similarité entre une requête et un document
► Liste ordonnée de résultats selon cette similarité
• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments, plus la probabilité qu’elles représentent la même information est élevée.
• Documents et requête sont représentés par un vecteur– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n
dimensions (n : nombre de termes)– La longueur du vecteur (i.e. de sa projection sur chacun des
axes/termes) est proportionnelle au poids des termes.– La pertinence du document correspond au degré de similarité entre le
vecteur de la requête et celui du document
36Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
D
t2
t3
0,8
0,45t
1
Modèle vectoriel : exemple
Q
Requête Q : t1 t
2 t
3
Document D : ... t1 ... t
3 ...
poids wD,t1
= 0.45
poids wD,t3
= 0.80
37Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle vectoriel : mesures de similarité
• Mesure de l'angle entre les vecteurs de Q et de D – produit scalaire
– cosinus
– distance euclidienne, mesures de Jaccard et Dice...
• Normalisation telle que la norme du vecteur soit unitairePermet de gommer les différences de taille des documents
• Contribution d'un terme isolé :– S'il est présent dans le document et la requête, il augmente le score– S'il est présent dans un des deux seulement, il diminue le score
RSV Q , D = Q . D=∑i=1
n
wiQ ×wiD
RSV Q , D =Q . D
∣Q ∣×∣D∣=
∑wiQ ×wiD
∑wi Q2×∑wiD
2
38Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle vectoriel : avantages et inconvénients
• Avantages :– Le langage de requête est plus simple (liste de motclés)– Les performances sont meilleures grâce à la pondération des termes– Le renvoi de documents à pertinence partielle est possible– La fonction d'appariement permet de trier les documents
• Inconvénients :– Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)– Le langage de requête est moins expressif– L'utilisateur voit moins pourquoi un document lui est renvoyé
► Le modèle vectoriel est le plus populaire en RI
39Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle probabiliste (1/4)
• Estimation de la probabilité de pertinence d'un document par rapport à une requête
• Probability Ranking Principle (Robertson 77)
• R : D est pertinent pour Q• ¬R : D n'est pas pertinent pour Q• Le but : estimer
– P(R/D) : probabilité pour le document D de faire partie des documents pertinents pour Q
– P(¬R/D)
variables indépendantes, deux ensembles de documents séparés
siP R /D
P ¬R/D 1 ou si log
P R/D
P ¬R /D 0 alors D estpertinent
40Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle probabiliste (2/4)
• Rappel du théorème de Bayes :
P A /B= P B/ A .P AP B
P R/D =P D /R.P R
P D
Probabilité d'obtenir D en connaissant les pertinents
Probabilité d'obtenir un document pertinent en piochant au hasard
Probabilité de piocher D au hasard
• On ne sait pas calculer P(R/D), mais on peut calculer P(D/R)
41Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle probabiliste (3/4)
• En utilisant l'hypothèse d'indépendance des termes :
• Pour estimer les probabilités sur les termes, on utilise des requêtes déjà résolues (apprentissage) puis des pondérations
• Exemple (système Okapi) :– le tf.idf– la longueur du document– la longueur moyenne des documents
P D /R=∏i=1
n
P ti∈D /R P D /¬R=∏i=1
n
P t i∈D /¬R
42Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Modèle probabiliste : conclusion
• Deux modèles phares : – 2poisson – Okapi
• Autres modèles de type probabiliste :– Réseaux bayésiens– Modèle de langage
• Conclusion :– Problème des probabilités initiales– Termes indépendants– Résultats comparables à ceux du modèle vectoriel
43Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• Mesure de l'importance relative objective d'une page Web:– Indice de popularité ; notion de confiance collaborative– Utilisation de la structure des liens qui composent le Web :
• Les liens sortants (forward links) : facile de les connaître• Les liens entrants (backlinks) : difficile de les connaître tous
• Justification intuitive :– Le nombre de liens entrants d'une page est révélateur d'une certaine
importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations)
– Une page ayant un lien entrant provenant d'un site luimême important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page
Google : le PageRank (Page et al., 1998)
44Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page
• Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages ellesmêmes importantes :
– Bu : ensemble des pages ayant un lien entrant sur la page u– C(v) : nombre de liens sortant de la page v (chaque page diffuse son
vote de façon égale sur tous ses liens sortants)– d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun
lien entrant aura un PageRank de 0.15– Le PR moyen est 1 (avec 1/N, la somme des PR est 1)
PR u=d ∑v∈Bu
PR vC v
1−d
Formule du PageRank
×1N
45Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Le PageRank d'une page dépend des PageRanks des pages qui pointent vers elle:– Calcul des PageRanks sans connaître la valeur finale de tous les
PageRanks impliqués– Itérations qui approchent des valeurs finales jusqu'à convergence– La valeur initiale n'affecte pas les valeurs finales mais le nombre
d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages)
– Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet
Calcul du PageRank
46Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Calcul du PageRank
47Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Valeurs relatives des PageRanks des pages?
D'après (Rogers)
Calcul du PageRank : exemple (1/2)
Page A
Page B
Page C
Page D
48Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• (20 itérations sont nécessaires pour la convergence)• La page D a une valeur minimale du PageRank (aucun lien entrant)• La page C a de nombreux liens entrants• La page A bénéficie du lien entrant provenant de la page C
Calcul du PageRank : exemple (2/2)
Page A
Page B
Page C
Page D
1.49
1.58
0.78
0.15PR moyen = 1
49Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Calcul du PageRank : cas d'un site web simple
Home3.35
About1.1
Product1.1
Links1.1
External Site A0.34
External Site B0.34
External Site C0.34
External Site D0.34
Review A 0.23
Review D 0.23
Review B 0.23
Review C 0.23
2.44
0.84
0.84
0.84
0.23
0.23
0.23
0.23
50Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• Rétroaction des valeurs des PageRanks pour la page Home• Plus le nombre de liens sortant de la page Links est important, plus le
partage du PageRank est diffus• Plus le nombre de pages augmente, plus des pages sans nouveaux liens
entrant perdent de l'importance• Avoir un lien vers une page importante n'augmente pas le PR (!)
Calcul du PageRank : cas d'un site web simple
51Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
• Le nombre de pages d'un site n'augmente pas le PR moyen• Une certaine organisation hiérarchique d'un site peut fortement concentrer
le PR sur la page principale • Maintenant décelable par les robots (ex : Googlebot) qui pénalisent le site• Obtenir un bon score:
– Proposer un contenu riche qui sera référencé par de nombreux sites (megasite)– Etre référencé par un megasite (ex : un journal en ligne)
Amélioration du PageRank (antispamming)Main Page
331.0
Page B281.6
Spam 10,39
Spam 10000,39
............................
52Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Recherche d'Information
Analyse des documents
Analyse du
besoin
fonction desimilarité
résultats
Évaluation
53Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Campagnes d'évaluation
• TREC (Text REtrieval Conference) :– Événement phare du domaine, tous les ans depuis 1992– Sponsorisée par la DARPA– De nombreux axes de recherche :
• Multimedia : image, vidéo, Web• Types de recheche spécifiques : questionsréponses, interactif, filtrage,
"crosslanguage", "home page"• Domaines spécifiques : génomique, légal• Modes d'expression spécifiques : blogs, spams• ...
• CLEF (CrossLanguage Evaluation Forum), spécialisée dans les langages européens
• NTCIR, spécialisée dans les langages asiatiques
54Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Évaluation : précision et rappel (1/2)
ensemble des documents
R = ensemble des documents retournés
P = ensemble des documents pertinents
silencebruit
Rappel=∣P∩R∣∣P∣
Précision=∣P∩R∣∣R∣
Silence=1−Rappel
Bruit=1−Précision
55Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Évaluation : précision et rappel (2/2)
• Le rappel augmente bien sûr avec le nombre de réponses• La précision diminue• On utilise la courbe rappel/précision pour caractériser les
systèmes de recherche d'information
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
.2
.4
.6
.8
1
56Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Évaluation : Fmesure
• Pour obtenir une valeur unique entre 0 et 1, on utilise la Fmesure (moyenne harmonique)
• Pour donner autant d'importance à la précision qu'au rappel, on choisit = 1
• < 1 favorise la précision, > 1 favorise le rappel
F= 1
1p1−
1R
=21×P×R
2 PR
=1
21avec
F=2 P . RPR
57Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Autres métriques d'évaluation
• MAP (Mean Average Precision) : aire sous la courbe R/P• P@5, P@10 : précision après 10 documents retrouvés
favorise la haute/très haute précision• P@100, ...• Taux d'erreur = (faux positifs + faux négatifs) / pertinents• et de nombreuses autres...
0
MAP
58Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Le pooling (1/2)
• Problème du rappel dans les collections importantes– Le rappel impose en théorie de connaître tous les documents
pertinents– Impossible en pratique
• Le pooling :– Une fusion "intelligente" des résultats– Les n premiers documents produits par les systèmes sont fusionnés
(n = 100 ou plus)– Seuls ces documents sont jugés par les experts humains– Les documents non jugés sont considérés comme non pertinents– Le calcul du rappel fait comme si tout avait été jugé
59Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Le pooling (2/2)
• L’accord interannotateurs est d'environ 80%• Au mieux 50 à 70 % des documents pertinents seraient
retrouvés par cette méthode (Zobel 98)• Le biais qui en résulte :
– Le rappel est surévalué– La précision est sousévaluée– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent
être pénalisés
• Mais :– Le biais est faible s'il y a suffisamment de requêtes et de systèmes– L'évaluation "relative" (comparaison entre systèmes) reste valable– On n'a pas le choix
60Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Les campagnes d'évaluation, un passage obligé
• Les avantages :– Avec la taille des collections, il est très difficile pour un laboratoire
d'évaluer un système sans passer par une campagne d'évaluation– Les documents et les jugements de pertinence sont fournis– Une comparaison objective avec les autres équipes est possible
• Les inconvénients :– Des choix méthodologiques qui orientent les recherches– Une adaptation des systèmes à des tâches précises, parfois peu
réalistes– Des grosses machines qui empêchent peutêtre des changements de
techniques brutaux– Vision de laboratoire vs. vision du monde réel
61Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Quelques outils
• smart • mg (version 1.3g) • lucy/zettair • cheshire • dataparksearch engine • lemur • lucene • terrier • wumpus • xapian
liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html
ftp://ftp.cs.cornell.edu/pub/smart/http://www.nzdl.org/html/mg.htmlhttp://www.seg.rmit.edu.au/zettair/http://cheshire.lib.berkeley.edu/http://www.dataparksearch.org/http://www.lemurproject.org/http://jakarta.apache.org/lucene/docs/http://ir.dcs.gla.ac.uk/terrier/http://www.wumpussearch.org/http://www.xapian.org/
62Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Plan
• La recherche d'information• La RI et la langue
• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques
63Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Caractère implicite de la langue (rappel)
• Les informations implicites sont celles qui manquent dans l'absolu pour interpréter un énoncé, mais qui sont reconstituées grâce à des connaissances communes au rédacteur et au lecteur– Connaissances du langage et des conventions langagières
Q : Le voisin estil chez lui ? R : Sa voiture est devant le portail. (implicature conversationnelle)
– Connaissances du contexteC'est la deuxième fois qu'il reçoit un carton. (football, courrier, accident ?)
– Connaissances du mondeLa France a taillé l'Écosse en pièces. (métonymie + langage figuré +
actualité du rugby)
64Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Caractère redondant de la langue (rappel)
• Au niveau lexical :– Synonymie : vélo et bicyclette – Hyperonymie et hyponymie : véhicule / vélo / VTT– Méronymie et holonymie : pédale / pédalier / vélo
• Abréviations et sigles : – s’ilvousplaît et SVP, VTT et Vélo Tout Terrain
• Entre mots et expressions :– Périphrases : lavevaisselle et machine à laver la vaisselle– Définitions : selle et petit siège, le plus souvent de cuir, d’un cycle ou
d’un véhicule à deux roues à moteur
• Glissements de sens, la synonymie est contextuelle– papier et article
65Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Caractère ambigu de la langue (rappel)
• Homographes (Catégories différentes mais des flexions coïncident)– Les poules du couvent couvent
• Polysèmes (mêmes flexions mais sens différents)– voler
• Ambiguïtés syntaxiques (pour la machine au moins)– Jean vend une tarte aux pommes.– Jean vend une tarte aux clients.
• Anaphores– Nicolas trahit Jacques. Sa femme lui en voulut longtemps.
• Ellipses– Les Stéphanois aiment le football et les Toulousains le rugby.– Les Stéphanois détestent les Parisiens et les Toulousains aussi.
66Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Rôle des mots en contexte (rappel)
• L’identification du rôle (sémantique) des mots dans les phrases peut avoir un impact sur la recherche d’information :– Marie a été convoquée par sa directrice de thèse. (patient)– Marie a terminé la rédaction de son mémoire. (agent)– Cette entreprise fabrique des ordinateurs. (produits industriels)– L’ordinateur a produit des résultats étonnants. (instrument de calcul)– L’ordinateur est désormais présent dans une majorité de foyers. (objet
qu’on possède)
• De nombreux rôles sont possibles : agent, patient, originesource, butbénéficiaire, instrumentmoyen, résultatproduit, etc.
67Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Mots composés et termes (rappel)
• Les mots composés sont beaucoup moins polysémiques – "pomme de terre" ≠ pomme + terre
– "traitement de texte" ≠ traitement + texte
• Ils ont un sens qui ne se déduit pas immédiatement des mots qui les composent– "carte bleue"– "hommegrenouille"
68Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Limitations du vocabulaire (rappel)
• Le nombre de concepts à désigner est beaucoup plus grand que la taille du vocabulaire
• Il faut combiner des mots pour diminuer la polysémie des entrées du dictionnaire et désigner de façon non ambiguë
• Par ailleurs, le sens des mots composés ne se déduit pas directement du sens des mots qui les composent– AN : grandmère, beau joueur– NA : carte bleue, gare routière– NàN : machine à laver, pompe à vélo– NdeN : traitement de texte, pomme de terre– NN : hommegrenouille, sciencefiction– VN : portedrapeau
69Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Plan
• La recherche d'information• La RI et la langue• Terminologie
– Normalisation linguistique au niveau du mot– Mots composés et termes– Acquisition terminologique
• Systèmes d'acquisition• Variation terminologique• Informations sémantiques
70Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Normalisation linguistique (1/2)
• Conserver la forme fléchie ?• Ramener les mots à leur racine ?
– Racinisation (stemming)• En particulier algorithme de Porter pour l'anglais• En anglais : automates, automatic, automation automat• En français : malade, maladie, maladif, maladive malad
– Lemmatisation • Lemme = entrée du dictionnaire• Utilisation de transducteurs ou de dictionnaires de mots fléchis
• Conséquences attendues– Amélioration du rappel– Réduction de la précision (marmaille, marmite "marm")
71Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Normalisation linguistique (2/2)
• Variantes de termes :– genetic disease (terme de base)– disease is genetic (variante syntaxique)– hereditary disease (variante sémantique)– genetically determined forms of the disease (variante
morphosyntaxique)– disease is familial (variante syntaxicosémantique)– transmissible neurodegenerative diseases (variante syntaxico
sémantique)
• Nécessite l'identification de termes normalisés• Possibilité d'indexation dynamique en fonction des termes
d'une requête pour des bases de documents de taille réduite
72Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Mots composés : critères
• Institutionnalisation de l'usageL'utilisation des mots composés relève d'un choix largement partagé▸ On parle de "traitement de texte" et non de "*logiciel à écrire" ou de
"*processeur de mots"
• Blocage des propriétés transformationnelles▸ Le voleur a pris le large▸ Passivation : *Le large a été pris par le voleur▸ Pronominalisation : *Le voleur l'a pris▸ Détachement : *Ce large, le voleur l'a pris▸ Extraction : *C'est le large que le voleur a pris▸ Relativisation : *Le large que le voleur a pris
▸ Synonymes : *Le voleur a pris le gros
73Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Mots composés : critères
• PolylexicalitéMot composé = composition de plusieurs mots ayant par ailleurs un
caractère autonome
• Atomicité sémantiqueLe sens des mots composés ne peut être décomposé▸ "pomme de terre" ne s'obtient pas à partir d'un sens de pomme et d'un
sens de terre
• Inséparabilité des composantsIl n'est pas possible de séparer les composants d'un mot composé pour y
adjoindre des modifieurs ▸ "pomme de bonne terre" n'est plus lié à "pomme de terre"
74Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Termes
• Les termes désignent des concepts dans des domaines techniques particuliers, ils ne remplissent pas nécessairement les critères des mots composés– entretien (périodique) de la chaudière– ministre (luxembourgeois) des affaires étrangères
• Le sens des termes peut varier d'un domaine à l'autre– ligne aérienne
▸ trajets d'avion (domaine aéronautique)▸ lignes électriques (domaine de l'énergie)▸ lignes téléphoniques (domaines des télécommunications)
75Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Terme et construction de terminologie
• La conception classique du terme est réductrice – La connaissance est découpée a priori en domaines stables
représentables par des réseaux de concepts dont les termes sont les représentants linguistiques
– Or, les terminologies peuvent varier en fonction de l’application pour un même domaine de connaissances
• On peut donc voir le terme comme le résultat d’une analyse terminologique (Bourigault et Jacquemin, 2000) – Décision sur le statut de terme d’une unité, qui débouche davantage
sur la construction d’une terminologie plutôt que sa découverte
• Cette construction doit se faire selon une double pertinence :– corpus : termes spécifiques au domaine mais stables dans le corpus– application visée : termes utiles et permettant une certaine efficacité
76Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Ingénierie terminologique
• Basée sur une réflexion méthodologique sur un corpus de référence plutôt que sur une théorie
• Travail mené de façon incrémentale par un terminologue (nécessité d'automatiser au maximum)
• Validation par des experts (conformité au domaine) et des utilisateurs (application)
• Typologie fonctionnelle de la construction de terminologie :– Acquisition de termes : extraction de candidats termes à partir d'un
corpus validés par un terminologue (approche syntaxique et/ou statistique)
– Structuration de termes : classification ou repérage de relations– Alignement de termes : corpus multilingues
77Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Acquisition de termes
• Objectifs Extraire de documents des informations linguistiques compactes et
représentatives de leur contenu
• ApplicationsIndexation, résumé, construction de thésaurus, etc.
• ExtensionsReconnaissance d'entités nommées
78Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Acquisition vs. reconnaissance de termes
• Deux domaines complémentaires• Acquisition : on cherche à découvrir des occurrences de
termes dans les documents au moyen de techniques linguistiques ou statistiques
• Reconnaissance : un ensemble de termes contrôlés étant donné, on cherche à reconnaître les occurrences de ces termes ou de leurs variantes dans les documents
sur des documents sur des documentsquelconques connus
sans données indexation acquisitioninitiales libre terminologique
avec données indexation enrichissementinitiales contrôlée de thésaurus
79Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Termes simples ou multimots
• Les enjeux sont différents pour un système d'extraction terminologique en fonction du type de termes visé :– simples : généralement ambigus, requièrent une désambiguïsation
utilisant le contexte d'apparition du terme▸ chaîne (de montage ? outil ? séquence d'éléments chimiques ? ...)– multimots : moins ambigus mais sujets aux variations, requièrent
une analyse syntaxique ou des mesures statistiques de cooccurrence▸ chaîne des Puys▸ chaîne de l'espoir▸ réactions en chaîne ▸ chaîne Nglycosylée▸ scie à chaîne
80Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Acquisition terminologique à partir de corpus
• Au départ, extraction de termes candidats principalement sur le français et en milieu industriel– Types de termes plus difficiles à repérer qu'en anglais par exemple
(utilisation de prépositions et de déterminants vs. juxtaposition de noms et d'adjectifs)
– Besoin fort pour la traduction
▸ information retrieval recherche d'information▸ natural language processing traitement automatique des langues
– Disponibilité des corpus techniques
81Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Acquisition : les projets pionniers
• Acabit (Daille, 1994) : IBM, construction de lexiques terminologiques multilingues pour la traduction
• ANA (Enguehard, 1995) : CEA, enrichissement de réseaux lexicaux exploités par un système de gestion de connaissances
• Lexter (Bourigault, 1996) : EDF, mise à jour d'un thésaurus utilisé par un système d'indexation automatique
82Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Plan
• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition
– Acabit– ANA– Lexter– Terms
• Variation terminologique• Informations sémantiques
– Xtract– Fastr– Exit
83Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Acabit (Daille, 1994)
• Analyse superficielle et filtrage statistique : Acquisition sur un corpus préétiqueté et désambiguïsé. Deux étapes :
1.Analyse linguistique et regroupement de variantes : analyse du corpus par des transducteurs et production de candidats termes binaires▸ Nom Adj : connaissances informatiques▸ Nom1 à (Det) Nom2 : aide à domicile ▸ Nom1 Prep Nom2 : vente par téléphone, etc.
Décomposition : réseau de transit à satellite réseau de transit et réseau à satellite
2.Filtrage statistique : tri des candidats termes à partir d'un corpus de référence et de termes validesComparaison de mesures statistiques en fonction de leur capacité à distinguer les termes des séquences ne correspondant pas à des termes
I3x , y=log2nbx , y 3
nbx .nb y Information mutuelle au cube :
84Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Acabit : regroupement des variantes
Des transformations syntaxiques permettent d'associer une forme de base à plusieurs variantes– Coordination de termesassemblage et désassemblage de paquets assemblage de paquets,
désassemblage de paquets
– Surcomposition de termesréseau de transit à satellites réseau de transit,
réseau à satellites
– Modification adjectivale de termesliaisons multiples par satellites liaisons par satellites
85Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
ANA (Enguehard, 1995)
Extraction de termes candidats sans analyse linguistique :– Module de familiarisation : l’utilisateur fournit une liste de termes
initiale (bootstrap)– Module de découverte de termes : repérage incrémental de
répétitions de séquences de deux mots dont au moins un est déjà un terme :
1. associations fréquentes de deux termes (ex : cœur du réacteur)2. associations fréquentes d’un mot avec un terme, dans une structure de
type X du T (ex : température du réacteur, où réacteur est un terme), ou dans une structure T X (ex : structure interne, où structure est un terme)
– Arrêt lorsqu’aucun nouveau terme n’est découvert– Organisation des termes en réseau qui relie les termes partageant les
mêmes têtes ou les mêmes arguments
86Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Lexter (Bourigault, 1996)
Acquisition terminologique par analyse superficielle– Acquisition sur un corpus preétiqueté et désambiguïsé– Trois étapes :
1.Extraction de syntagmes nominaux maximaux : repérage de frontières syntaxiques (ex : verbes, conjonctions)les clapets situés sur les tubes d’alimention clapets, tubes d’alimentation
2.Décomposition de syntagmes nominaux : analyse récursive et extraction de têtes et d’expansions, avec désambiguïsation sur corpusrejet d’air froid rejet froid, air froid(seul air froid est conservé après recherche sur corpus)
3.Structuration en réseau : chaque terme candidat est lié à ceux dont il est tête ou expansion. Calcul d’un coefficient de productivité pour mesurer la densité du réseau autour d’un terme.
87Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Lexter, structuration du réseau terminologique
88Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Terms (Justeson et Katz, 1995)
• Repose sur 2 hypothèses issues de l’analyse de corpus techniques et de dictionnaires spécialisés :– Les termes sont répétés dans un document technique plus
fréquemment que les syntagmes non terminologiques– Les termes ont une structure et des variantes différentes de celles des
syntagmes non terminologiques
• Utilisation d’un filtrage par un patron de catégories morphosyntaxiques décrit par l’expression régulière (pour l’anglais) :
((A|N)+ | (A|N)* (N P) (A|N)*) N
89Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
XTract (Smadja, 1993)
• Extracteur de collocations • Associations lexicales préférentielles et répétées
• Hypothèses :– Les mots dans une collocation apparaissent ensemble plus
fréquemment que par hasard (cf. mesure de l’information mutuelle)– Les mots apparaissent dans une palette limitée de positions relatives
correspondant a des contraintes syntaxiques particulières
90Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Xtract : fonctionnement
• Trois modules :– Extraction de collocations binaires : couples de mots (à une
distance fixe) rencontrés plus fréquemment que par hasard (ex : rachat coûteux)
– Expansion des collocations : itération pour construire des collocations comprenant plus de deux mots
– Étiquetage des collocations : un analyseur linguistique étiquette les collocations selon trois familles :
• Collocations prédicatives telles que verbe support + nom prédicatif (ex : make decision)
• Syntagmes figés (ex : stock market)• Phrases a trous (ex : X increase)
• A la différence d’Acabit, le filtrage linguistique est effectué en sortie de la sélection statistique
91Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Fastr (Jacquemin, 1997)
• Analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée– Détection des variantes des termes en corpus (formes linguistiques
différentes)– Variations capturées par des métarègles opérant
à différents niveaux :• morphosyntaxique : flux de sève mesurés est une variation de
mesure de flux s’appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure
• syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination
• syntaxicosemantique : évaluation de flux est une variante de mesure de flux s’appuyant sur le lien sémantique existant entre les noms évaluation et mesure
92Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Fastr
• L’objectif n’est pas d’acquérir des termes de façon massive, mais d’enrichir des terminologies existantes avec des variantes de termes connus
• Application à la recherche d’information : indexation contrôlée– Indexation dynamique– Recherche dans le corpus des termes de la requête et de leurs
différentes variantes
• Indexation libre pour recherche des termes sans liste de départ
93Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Exit (Roche et al., 2004)
Extraction itérative de la terminologie– Extraction de termes sur un corpus normalisé et étiqueté– Réinjection des termes reconnus sous forme d’éléments uniques
1ère itération : assistant de gestion2ème itération : assistantdegestion de production
– Sélection de mesures statistiques sur leur capacité à reconnaître des termes
– Comparaison de courbes d’élévation, correspondant à la variation de la précision des termes en fonction du nombre de termes proposés a l’expert (le rappel étant incalculable)
94Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Systèmes d'acquisition : bilan
Acabit Ana Lexter Terms Xtract Fastr Exit étiquetage ✓ ✓ ✓ ✓ ✓ racinisation ✓ ✓ patrons syntaxiques ✓ ✓ ✓ ✓ ✓ filtrage statistique ✓ ✓ ✓ ✓ ✓ ✓ incrémentalité ✓ ✓ ✓
95Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Plan
• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition
• Variation terminologique• Informations sémantiques
96Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
La variation terminologique : introduction (1/3)
• L’interprétation du contenu des textes est nécessaire pour évaluer leur pertinence relativement à une requête
• Des techniques de surface peuvent parfois extraire de bons indicateurs de contenu, par exemple ceux qu’un humain extrait visuellement lorsqu’il parcourt rapidement un texte
• Compromis :– Analyse peu profonde et non sensible au domaine des documents– Analyse fine requérant des connaissances sur un domaine précis
• Les termes constituent de très bons candidats pour l’indexation documentaire : ils peuvent être extraits par des techniques peu profondes et ils révèlent des concepts abordés dans les documents
97Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
La variation terminologique : introduction (2/3)
• Un concept dénoté par un terme peut apparaître sous de nombreuses formes, ex. pour loan offer :– ...offer our commercial customers credit commercial loans...– ...offer a complete range of home investment and business loans...– ...offering a special jumbo mortgage loan...
• Mais il ne s’agit pourtant pas de repérer les mots composant un terme dans une fenêtre de taille fixée :– ...interlibrary loan continues to offer a full range of services to our
graduate students...– ...education loan center offers tutorials about references about financing
scholarships...
98Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
La variation terminologique : introduction (3/3)
• Problèmes :– Comment reconnaître automatiquement des termes ?– Comment repérer les variantes de termes connus ?– Ces variantes désignentelles exactement les mêmes concepts ?
• Il serait impossible pour les terminologues d'énumérer a priori toutes les variantes des termes...
• Objectif : mettre en relation des segments de texte qui sont conceptuellement proches mais différent dans leur construction linguistique
99Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Variation terminologique : définition
• (Jacquemin, 2001)• Une variation terminologique est une transformation d'un
terme contrôlé qui satisfait les 4 conditions suivantes :1. Les mots pleins du termes sont conservés par la transformation, ou
ils sont transformés en des mots morphologiquement ou sémantiquement liés
2. Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison
3. Les relations de dépendances dans le terme d'origine doivent être conservées
4. Les variantes ne doivent pas contenir le terme de départ (ou une flexion)
100Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Variation terminologique : condition 1
Les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés
– ex : recognized neural cells est une variante de cell recognition car cell est conservée et recognized et recognition sont liés morphologiquement
– Les mots outils (ex : prépositions, déterminants) peuvent être supprimés ou remplacés par une transformation, ex : réserve en eau est une variante de réserve d'eau
101Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Variation terminologique : condition 2
Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison
– Les variantes qui ne mettent en jeu ni variation morphologique ni variation sémantique sont dites syntaxiques, ex : language comprehension et comprehension of language
– Les variantes mettant en jeu des mots appartenant à une même famille morphologique sont dites morphologiques, ex : determine the structure et structure determination
– Les variantes mettant en jeu des mots appartenant à une même famille sémantique sont dites sémantiques, ex : language comprehension et speech comprehension
102Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Variation terminologique : condition 3
Les relations de dépendances dans le terme d'origine doivent être conservées
– L'ordre des mots dans les variantes peut être modifié et de nouveaux mots peuvent être insérés, mais les dépendances existant dans le terme d'origine doivent être conservées
– Ex : pressure fluctuation et fluctuation in mean arterial blood pressure sont des variantes, car la dépendance entre pressure et fluctuation se retrouve dans les deux
103Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Variation terminologique : condition 4
Les variantes ne doivent pas contenir le terme de départ (ou une flexion)
– Ex : mean arterial pressures n'est pas une variante de arterial pressure car la suite de mots du terme contrôlé n'est pas modifiée
104Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Variation terminologique : exemples
• Exemples de variations sur le terme genetic disease :– genetic diseases : flexion– disease is genetic : syntaxique– hereditary disease : sémantique– genetically determined forms of the disease : morphosyntaxique– disease is familial : syntaxicosémantique– transmissible neurodegenerative diseases : syntaxicosémantique– genetic risk factors for coronary artery disease : pas une variante
• Distribution des variantes : par exemple, dans un corpus scientifique en anglais, 1/3 des occurrences de termes sont des variantes : 9% syntaxiques, 6.5% morphosyntaxiques, 22% sémantiques (Jacquemin, 1999)
105Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Ressources pour la reconnaissances des variantes
• Normalisation flexionnelle : lemmatiseur
• Normalisation morphologique : base de données lexicale avec les structures des mots
• Normalisation syntaxique : règles de réécritures
• Normalisation sémantique : une ressource avec des liens sémantiques
106Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Plan
• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique
• Informations sémantiques
107Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Extension sémantique de requêtes : exemples
• Approche numérique– Enrichissement de la requête avec les termes ou les syntagmes qui
cooccurrent fortement dans la collection avec les mots de la requête– Idée : retrouver des concepts de la requête non exprimés par
l'utilisateur
• Approche symbolique– Enrichissement par les verbes liés aux noms de la requête (Claveau et
Sébillot, 2004)– Interaction avec l'utilisateur pour une définition plus précise de la
requête (Grefenstette, 1997)
• Utilisation de WordNet– Enrichissement par les synsets ou la hiérarchie– Problèmes de granularité et de désambiguïsation
108Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Informations sémantiques pour l'indexation
• Indexation conceptuelle– Réservée à des domaines spécialisés– Extraction dans les textes de termes significatifs et des liens qui les
unissent– Utilisation de bases de connaissances lexicales du domaine– Description des documents à l'aide d'un formalisme de
représentation de connaissances• Graphes conceptuels• Réseaux sémantiques• Logiques de description
– Aide à l'interrogation par "navigation" dans les concepts du domaine
• (Woods et Ambroziak, 1998 ; Guarino et al., 1999 ; Chevallet, 1992 ; Zweigenbaum et al., 1994 ; Berrut, 1990)
109Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Informations sémantiques pour l'indexation
• Indexation sémantique– À base de ressources existantes : indexation à base des synsets de
WordNet (Mihalcea et Moldovan, 2000 ; Smeaton et Quigley, 1996)– À base d'informations acquises en corpus : indexation dynamique ou
ajout des informations de cooccurrence– Encore et toujours, problème de désambiguïsation sémantique
110Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Bibliographie (1/3)
• Bourigault, D. (1996) LEXTER, a Natural Language Processing tool for terminology extraction, Proceedings of the 7th EURALEX international congress, Gotebord, Suede
• Bourigault, D. et C. Jacquemin (2000) Construction de ressources terminologiques, dans Ingénierie des Langues, sous la direction de J.M. Pierrel, Hermes
• Daille, B. (1994) Approche mixte pour l’extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse en informatique fondamentale, Université Paris 7
• Dias, G. (2002) Extraction automatique d'associations lexicales à partir de corpora, Thèse en informatique, Université Nouvelle de Lisbonne
• Fluhr, C. (2000) Indexation et recherche d’information textuelle, in Ingénierie des Langues, JeanMarie Pierrel éditeur, Hermes
111Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Bibliographie (2/3)
• Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d’habilitation à diriger des recherches en informatique fondamentale, Université de Nantes
• Jacquemin, C. (1999) Syntagmatic and paradigmatic representations of term variation, Actes de ACL'99, University of Maryland
• Jacquemin, C. (2001) Spotting and Discovering Terms through Natural Language Processing, MIT Press, Cambridge, ÉtatsUnis
• Jacquemin, C. (2004) Indexation et Recherche d'Information, Cours de DESS II et SCHM, Université ParisSud 11
• Korfhage, R. C. (1997), Information Storage and Retrieval. John Wiley & Sons, Inc.
112Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche
Bibliographie (3/3)
• Lefèvre, P. (2000) La recherche d'informations, Hermes Sciences, Paris• Manning, C. et P. Raghavan (2004) Text retrieval and mining, CS276A,
Cours, Université Stanford• Meadow, C. T., Boyce, B. R. et Kraft D. H. (2000), Text Information
Retrieval Systems. Academic Press, New York City, NY, USA.• Moreau, F et Sébillot, S (2005) Contributions des techniques du
traitement automatique des langues à la recherche d'information. Rapport de recherche, IRISA.
• Roche M., T. Heitz, O. MatteTailliez et Y. Kodratoff (2004) EXIT : Un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés, dans Actes de JADT'04, LouvainlaNeuve, Belgique