Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...

Xavier [email protected]

Dialogue et Analyse de Textes

Master 2 Recherche

Recherche d'Information et Traitement du Langage

mailto:[email protected]

2Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information– Introduction– Indexation– Recherche– Évaluation

• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques


Recherche d'Information

Analyse des documents

Analyse du

besoin

fonction desimilarité

résultats

Indexation, modèle de document

Requête

Modèle de recherche


Information vs. Données

• "Les données sont reçues, stockées et retrouvées par un endosystème. Les données sont impersonnelles ; elles sont disponibles pour tout utilisateur du système.

• L’information, en revanche, est un ensemble de données qui correspond à un besoin particulier.

• Le concept d’information a des composantes personnelles et temporelles absentes du concept de donnée."

(R. R. Korfhage, 1997)


Besoin d'information

• "Disposer des bonnes informations par rapport à une question ou à un problème donnés"

• Importance accrue de la veille scientifique, technologique, commerciale, culturelle, etc.

• Un besoin très grand public• Au départ, un besoin d'accès aux informations internes, mais

l'accès aux informations externes est maintenant tout aussi important


Diversité des besoins d'information (1/2)

1. La recherche d’un élément connu – L’utilisateur sait exactement quels éléments il recherche. Il sait

reconnaître les éléments désirés s’il les voit. – Ex : recherche d'une citation bibliographique précise.

► SQL, XQuery, etc. (bases de données)

2. La recherche d’une information spécifique – L’utilisateur recherche une information spécifique mais ignore sous

quelle forme elle se présente.– Réponse partielle impossible– Ex : À quelle date le président Kennedy atil été assassiné ?

► Systèmes de QuestionsRéponses(Meadow et al., 2000.)


Diversité des besoins d'information (2/2)

3. La recherche d’une information générale – L’utilisateur recherche une information sur un sujet en général. Il

existe de nombreuses façons de décrire le sujet. – Il est possible que l’information pertinente ne soit pas reconnue– Cette information peut ne satisfaire l’utilisateur que de façon

partielle.► Recherche d'information

4. L’exploration – Le but n’est pas de répondre à une question en particulier, mais de

parcourir l’ensemble des données pour découvrir quels types d’informations concernant un sujet ou un domaine sont présents.

► Navigation

(Meadow et al., 2000.)


Difficultés de la recherche d'information (1/3)

• Difficultés d'accès, couverture, temps de traitement :– Les bases documentaires sont très grandes, réparties sur de

nombreux supports dans des endroits différents

• Difficultés de définition de la pertinence– Comment un document remplitil le besoin informationnel d'une

personne donnée ?– Quelle est sa pertinence ? Comment la mesureton ?

• Difficultés d'exploitation– Les documents pertinents ne sont pas nécessairement dans la langue

de la requête– L'information recherchée n'est pas nécessairement clairement

identifiable dans un document


Difficultés de la RI (2/3) : le facteur humain

• Le besoin d’information de l’utilisateur est parfois vague et toujours subjectif. – La perte d’information entre la réalité du besoin d’information et son

expression peut être importante.– La pertinence d’un document pour une requête est une notion

variable et très complexe à définir.

► Il ne peut pas exister de système de recherche d’information parfait.

► L’évaluation d’un système dépasse les aspects habituels de performance informatique

• L'humain est subjectif, versatile, et il utilise un langage "naturel" !


Difficultés de la RI (3/3) : le facteur "langage"

• À la différence des langages artificiels, le langage "naturel" est– implicite : tout n'est pas dit dans les textes et leur compréhension

requiert une importance connaissance sur le contexte et sur le monde– redondant : la langue offre de nombreuses façons de formuler le

même contenu– ambigu : un même énoncé peut souvent être interprété de

différentes façons

• La recherche d'information est encore compliquée par– le fait que les mots peuvent jouer des rôles différents dans les textes– le fait que les atomes de sens peuvent être des mots ou des groupes

de mots (termes)

• Voir plus loin dans le cours


Grandes évolutions de la RI

• Précédemment :– Bases documentaires structurés et de petite taille– Accès par des métadonnées et rarement par le texte intégral– Utilisation de langages documentaires (contraints) par les spécialistes

• Aujourd'hui– Documents multimédia sous forme électronique– Nombreux formats de représentation (texte brut, HTML, XML, PDF,

RTF, formats propriétaires...)– De plus en plus de données non structurées– Une masse d'information gigantesque (Web...)


• Une masse immense d'informations multimédia– Du texte, des images, des vidéos, du Flash, de nombreux types de fichiers

différents...– Taille du seul Wikipedia (version anglaise) en 2007 =

Recherche d'information et Internet (1/3)

Source : Nikola Smolenski

http://commons.wikimedia.org/wiki/User:Nikola_Smolenski



• Un contenu (un peu) structuré– Métadonnées– Liens intra et interdocuments– Indications de forme– Balisage "sémantique" pour application de feuilles de style

• Un contenu dynamique– Les sites de nouvelles, blogs, forums... évoluent très vite – Les pages dynamiques sont très nombreuses



• Tout le monde peut à la fois être lecteur et producteur d'info– Ajouter son propre contenu au Web est devenu simple et gratuit– Pages persos, blogs, wikis, forums, listes de diffusion...– Les institutions et les particuliers sont a priori sur le même pied

• Un enjeu économique important– 75 % des sites sont trouvés par l’intermédiaire d’un moteur de

recherche (source : WebPosition)– Google, Yahoo et d'autres sont devenus des acteurs majeurs– Les algorithmes de recherche et les moyens mis en œuvre sont

secrets


• Le Web fourmille d'informations fausses (vecteur de désinformation)

• Les métadonnées sont peu utilisées• Les créateurs de pages peuvent modifier le contenu pour

améliorer leur classement sur les moteurs de recherche– Répétition de motsclés dans des couleurs non visibles ou dans les

métadonnées– Spamming : pas de contenu mais une énumération de motsclés destinés

uniquement à être visible sur les moteurs de recherche

► On ne peut se fier tel quel au contenu des pages pour évaluer leur pertinence

► On ne peut pas se contenter des mesures de densité des mots de la recherche d'information sur des bases documentaires

Le Web, un contenu non contrôlé


Recherche d'information et Internet

• Utilisation massive par des utilisateurs non experts :– La requête typique est constituée d'au plus quelques motsclés– Domaine en pleine expansion économique

• Une partie du Web n'est pas directement accessible (accès restreint, pages non liées, pages dynamiques...)

• L'information présente n'est pas toujours fiable (le Web, vecteur de désinformation)

• La visualisation de l'information est particulièrement importante (classement des documents, présentation d'extraits, extraction de segments, présentation graphique...)


Recherche d'information et Internet

Source : Nikola Smolenski

L'encyclopédie Wikipedia en 2007...

http://commons.wikimedia.org/wiki/User:Nikola_Smolenski


Relevance feedback

• "Réinjection de la pertinence"• Le but :

– Sélectionner de nouveaux motclés et/ou modifier les poids– Réinjecter la nouvelle requête pour obtenir de meilleurs résultats

• "Manuel explicite" :– L'utilisateur visualise les n premiers résultats– Il estime la pertinence de chacun (0 ou 1)– Nouvelle requête obtenue à partir des documents jugés pertinents

• Automatique (blind relevance feedback) :– Les n premiers résultats du premier run sont supposés pertinents– Même processus que pour le relevance feedback manuel


Recherche multimedia

• Texte et/ou image et/ou audio et/ou vidéo...• Des collections très volumineuses :

– ex : collection Wikipedia pour INEX– 4.6 Go en texte seul, 60 Go avec les images

• Documents structurés (MPEG7...)

• Utilisation :– des métadonnées– du texte "environnant" les images (légende, point de référence...)– des caractéristiques propres des documents autres que le texte :

• Analyse d'image• Speechtotext• ...


Indexation


Analyse du

besoin


résultats

Indexation, modèle de document


Indexation, pourquoi ?

• Le parcours complet de l'ensemble des documents avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif

• On passe par un traitement préalable : l'indexation• Le but de l'indexation automatique : "transformer des

documents en substituts capables de représenter le contenu de ces documents" (Salton et McGill, 1983)

• Les difficultés de l'indexation sont pour beaucoup celles inhérentes à la langue des documents

• Les index peuvent prendre plusieurs formes : mots simples, termes complexes, syntagmes, entrées de thésaurus...


Indexation : le fichier inverse

• Notion "classique" de l'index• Un fichier inverse associe des index aux documents qui les

contiennent :a ▸ d1, d2, d3, d4, d5...à ▸ d1, d2, d3, d4, d5...abaissa ▸ d3, d4...abaissable ▸ d5abandon ▸ d1, d5abandonna ▸ d2abasourdi ▸ d1...


Indexation libre et contrôlée

• Indexation libre :– Mots, termes des documents

• Indexation contrôlée– Listes de termes prédéfinie– Vocabulaire contrôlé (évite polysémie, synonymie et problèmes de

granularité)– Thésaurus

exemple : thésaurus UMLS


Chaîne d'indexation

Documents à indexer

Segmenteur (tokenizer)

Normalisation

Indexeur

Fichiers d'indexation


Constitution des fichiers inverses


Réduction de la taille des index

• Stemming :– Nombre de termes réduit d'environ 40 %– Nombre de pointeurs réduit de 10 à 20 %– Espace total réduit d'environ 30 %

• Non conservation de certaines formes– Liste de mots vides (stop list)– Environ 30 mots représentent environ 30 % des occurrences de

termes dans les textes écrits– Éliminer les 150 termes les plus fréquents réduit l'espace

d'environ 25 %


Pondération des termes

• Dans une requête comme dans un document, les termes n'ont pas tous la même importance

• Intuition #1 : plus un document contient d'occurrences d'un terme, plus il est "à propos" de ce terme (plus il sera pertinent par rapport à une requête contenant ce terme)

• C'est le modèle "sac de mots" – On raisonne en termes de fréquence et on oublie l'ordre des mots– Pour conserver l'ordre des mots, il faut mémoriser la position de

chaque occurrence dans les index

• Les longs documents sont favorisés car ils sont susceptibles de contenir davantage d'occurrences


Pondération des termes : le td.idf (1/2)

• Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants)

• On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df)– Mesure simple :

– En pratique :

• Le poids d'un terme dans un document D augmente avec sa fréquence dans D et avec sa rareté dans la collection

wi , d=tf i ,d . 1df i

wi , d=tf i ,d . log ndf i


Pondération des termes : le td.idf (2/2)

tf seul

tf.idf




Analyse du

besoin


résultats

Modèle de recherche


Les trois courants

1. Modèles fondés sur la théorie des ensembles Modèle booléen►

2. Modèles algébriques Modèle vectoriel►

3. Modèles probabilistes Modélisation de la notion de "pertinence"►

• Courants fondés à l'aube de la discipline (années 60, 70)• Passage à l'échelle : des bases documentaires "jouets" au

teraoctet de TREC et au Web


Modèle booléen

• Le premier et le plus simple des modèles• Basé sur la théorie des ensembles et l'algèbre de Boole• Les termes de la requête sont soit présents soit absents

► Poids binaire des termes, 0 ou 1

• Un document est soit pertinent soit non pertinent ► Pertinence binaire, et jamais partielle (modèle exact)

• La requête s'exprime avec des opérateurs logiques– AND, OR, NOT – (cyclisme OR natation) AND NOT dopage– le document est pertinent si et seulement si son contenu respecte la

formule logique demandée


Modèle booléen : exemple

Requête Q : (cyclisme OR natation) AND NOT dopage

Le document contient Pertinence cyclisme natation cyclisme OR dopage NOT dopage du document

natation0 0 0 0 1 00 0 0 1 0 00 1 1 0 1 10 1 1 1 0 01 0 1 0 1 11 0 1 1 0 01 1 1 0 1 11 1 1 1 0 0


Modèle booléen : avantages et inconvénients

• Avantage :– Le modèle est transparent et simple à comprendre pour l'utilisateur :

• Pas de paramètres "cachés"• Raison de sélection d'un document claire : il répond à une formule logique

– Adapté pour les spécialistes (vocabulaire contraint)

• Inconvénients :– Il est difficile d'exprimer des requêtes longues sous forme booléenne– Le critère binaire peu efficace

• Il est admis que la pondération des termes améliore les résultats• cf. modèle booléen étendu (plus loin)

– Il est impossible d'ordonner les résultats• Tous les documents retournés sont sur le même plan• L'utilisateur préfère un classement lorsque la liste est grande


Modèle vectoriel

• Modèle statistique :– Aspect quantitatif des termes et des documents– Degré de similarité entre une requête et un document

► Liste ordonnée de résultats selon cette similarité

• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments, plus la probabilité qu’elles représentent la même information est élevée.

• Documents et requête sont représentés par un vecteur– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n

dimensions (n : nombre de termes)– La longueur du vecteur (i.e. de sa projection sur chacun des

axes/termes) est proportionnelle au poids des termes.– La pertinence du document correspond au degré de similarité entre le

vecteur de la requête et celui du document


D

t2

t3

0,8

0,45t

1

Modèle vectoriel : exemple

Q

Requête Q : t1 t

2 t

3

Document D : ... t1 ... t

3 ...

poids wD,t1

= 0.45

poids wD,t3

= 0.80


Modèle vectoriel : mesures de similarité

• Mesure de l'angle entre les vecteurs de Q et de D – produit scalaire

– cosinus

– distance euclidienne, mesures de Jaccard et Dice...

• Normalisation telle que la norme du vecteur soit unitairePermet de gommer les différences de taille des documents

• Contribution d'un terme isolé :– S'il est présent dans le document et la requête, il augmente le score– S'il est présent dans un des deux seulement, il diminue le score

RSV Q , D = Q . D=∑i=1

n

wiQ ×wiD

RSV Q , D =Q . D

∣Q ∣×∣D∣=

∑wiQ ×wiD

∑wi Q2×∑wiD

2


Modèle vectoriel : avantages et inconvénients

• Avantages :– Le langage de requête est plus simple (liste de motclés)– Les performances sont meilleures grâce à la pondération des termes– Le renvoi de documents à pertinence partielle est possible– La fonction d'appariement permet de trier les documents

• Inconvénients :– Le modèle considère que tous les termes sont indépendants

(inconvénient théorique)– Le langage de requête est moins expressif– L'utilisateur voit moins pourquoi un document lui est renvoyé

► Le modèle vectoriel est le plus populaire en RI


Modèle probabiliste (1/4)

• Estimation de la probabilité de pertinence d'un document par rapport à une requête

• Probability Ranking Principle (Robertson 77)

• R : D est pertinent pour Q• ¬R : D n'est pas pertinent pour Q• Le but : estimer

– P(R/D) : probabilité pour le document D de faire partie des documents pertinents pour Q

– P(¬R/D)

variables indépendantes, deux ensembles de documents séparés

siP R /D

P ¬R/D 1 ou si log

P R/D

P ¬R /D 0 alors D estpertinent



• Rappel du théorème de Bayes :

P A /B= P B/ A .P AP B

P R/D =P D /R.P R

P D

Probabilité d'obtenir D en connaissant les pertinents

Probabilité d'obtenir un document pertinent en piochant au hasard

Probabilité de piocher D au hasard

• On ne sait pas calculer P(R/D), mais on peut calculer P(D/R)



• En utilisant l'hypothèse d'indépendance des termes :

• Pour estimer les probabilités sur les termes, on utilise des requêtes déjà résolues (apprentissage) puis des pondérations

• Exemple (système Okapi) :– le tf.idf– la longueur du document– la longueur moyenne des documents

P D /R=∏i=1

n

P ti∈D /R P D /¬R=∏i=1

n

P t i∈D /¬R


Modèle probabiliste : conclusion

• Deux modèles phares : – 2poisson – Okapi

• Autres modèles de type probabiliste :– Réseaux bayésiens– Modèle de langage

• Conclusion :– Problème des probabilités initiales– Termes indépendants– Résultats comparables à ceux du modèle vectoriel


• Mesure de l'importance relative objective d'une page Web:– Indice de popularité ; notion de confiance collaborative– Utilisation de la structure des liens qui composent le Web :

• Les liens sortants (forward links) : facile de les connaître• Les liens entrants (backlinks) : difficile de les connaître tous

• Justification intuitive :– Le nombre de liens entrants d'une page est révélateur d'une certaine

importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations)

– Une page ayant un lien entrant provenant d'un site luimême important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page

Google : le PageRank (Page et al., 1998)


• La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page

• Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages ellesmêmes importantes :

– Bu : ensemble des pages ayant un lien entrant sur la page u– C(v) : nombre de liens sortant de la page v (chaque page diffuse son

vote de façon égale sur tous ses liens sortants)– d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun

lien entrant aura un PageRank de 0.15– Le PR moyen est 1 (avec 1/N, la somme des PR est 1)

PR u=d ∑v∈Bu

PR vC v

1−d

Formule du PageRank

×1N


Le PageRank d'une page dépend des PageRanks des pages qui pointent vers elle:– Calcul des PageRanks sans connaître la valeur finale de tous les

PageRanks impliqués– Itérations qui approchent des valeurs finales jusqu'à convergence– La valeur initiale n'affecte pas les valeurs finales mais le nombre

d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages)

– Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet

Calcul du PageRank


Calcul du PageRank


Valeurs relatives des PageRanks des pages?

D'après (Rogers)

Calcul du PageRank : exemple (1/2)

Page A

Page B

Page C

Page D


• (20 itérations sont nécessaires pour la convergence)• La page D a une valeur minimale du PageRank (aucun lien entrant)• La page C a de nombreux liens entrants• La page A bénéficie du lien entrant provenant de la page C

Calcul du PageRank : exemple (2/2)

Page A

Page B

Page C

Page D

1.49

1.58

0.78

0.15PR moyen = 1


Calcul du PageRank : cas d'un site web simple

Home3.35

About1.1

Product1.1

Links1.1

External Site A0.34

External Site B0.34

External Site C0.34

External Site D0.34

Review A 0.23

Review D 0.23

Review B 0.23

Review C 0.23

2.44

0.84

0.84

0.84

0.23

0.23

0.23

0.23


• Rétroaction des valeurs des PageRanks pour la page Home• Plus le nombre de liens sortant de la page Links est important, plus le

partage du PageRank est diffus• Plus le nombre de pages augmente, plus des pages sans nouveaux liens

entrant perdent de l'importance• Avoir un lien vers une page importante n'augmente pas le PR (!)

Calcul du PageRank : cas d'un site web simple


• Le nombre de pages d'un site n'augmente pas le PR moyen• Une certaine organisation hiérarchique d'un site peut fortement concentrer

le PR sur la page principale • Maintenant décelable par les robots (ex : Googlebot) qui pénalisent le site• Obtenir un bon score:

– Proposer un contenu riche qui sera référencé par de nombreux sites (megasite)– Etre référencé par un megasite (ex : un journal en ligne)

Amélioration du PageRank (antispamming)Main Page

331.0

Page B281.6

Spam 10,39

Spam 10000,39

............................




Analyse du

besoin


résultats

Évaluation


Campagnes d'évaluation

• TREC (Text REtrieval Conference) :– Événement phare du domaine, tous les ans depuis 1992– Sponsorisée par la DARPA– De nombreux axes de recherche :

• Multimedia : image, vidéo, Web• Types de recheche spécifiques : questionsréponses, interactif, filtrage,

"crosslanguage", "home page"• Domaines spécifiques : génomique, légal• Modes d'expression spécifiques : blogs, spams• ...

• CLEF (CrossLanguage Evaluation Forum), spécialisée dans les langages européens

• NTCIR, spécialisée dans les langages asiatiques

http://trec.nist.gov/

http://www.clef-campaign.org/

http://research.nii.ac.jp/ntcir/outline/prop-en.html


Évaluation : précision et rappel (1/2)

ensemble des documents

R = ensemble des documents retournés

P = ensemble des documents pertinents

silencebruit

Rappel=∣P∩R∣∣P∣

Précision=∣P∩R∣∣R∣

Silence=1−Rappel

Bruit=1−Précision


Évaluation : précision et rappel (2/2)

• Le rappel augmente bien sûr avec le nombre de réponses• La précision diminue• On utilise la courbe rappel/précision pour caractériser les

systèmes de recherche d'information

0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1

.2

.4

.6

.8

1


Évaluation : Fmesure

• Pour obtenir une valeur unique entre 0 et 1, on utilise la Fmesure (moyenne harmonique)

• Pour donner autant d'importance à la précision qu'au rappel, on choisit = 1

• < 1 favorise la précision, > 1 favorise le rappel

F= 1

1p1−

1R

=21×P×R

2 PR

=1

21avec

F=2 P . RPR


Autres métriques d'évaluation

• MAP (Mean Average Precision) : aire sous la courbe R/P• P@5, P@10 : précision après 10 documents retrouvés

favorise la haute/très haute précision• P@100, ...• Taux d'erreur = (faux positifs + faux négatifs) / pertinents• et de nombreuses autres...

0

MAP


Le pooling (1/2)

• Problème du rappel dans les collections importantes– Le rappel impose en théorie de connaître tous les documents

pertinents– Impossible en pratique

• Le pooling :– Une fusion "intelligente" des résultats– Les n premiers documents produits par les systèmes sont fusionnés

(n = 100 ou plus)– Seuls ces documents sont jugés par les experts humains– Les documents non jugés sont considérés comme non pertinents– Le calcul du rappel fait comme si tout avait été jugé


Le pooling (2/2)

• L’accord interannotateurs est d'environ 80%• Au mieux 50 à 70 % des documents pertinents seraient

retrouvés par cette méthode (Zobel 98)• Le biais qui en résulte :

– Le rappel est surévalué– La précision est sousévaluée– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent

être pénalisés

• Mais :– Le biais est faible s'il y a suffisamment de requêtes et de systèmes– L'évaluation "relative" (comparaison entre systèmes) reste valable– On n'a pas le choix


Les campagnes d'évaluation, un passage obligé

• Les avantages :– Avec la taille des collections, il est très difficile pour un laboratoire

d'évaluer un système sans passer par une campagne d'évaluation– Les documents et les jugements de pertinence sont fournis– Une comparaison objective avec les autres équipes est possible

• Les inconvénients :– Des choix méthodologiques qui orientent les recherches– Une adaptation des systèmes à des tâches précises, parfois peu

réalistes– Des grosses machines qui empêchent peutêtre des changements de

techniques brutaux– Vision de laboratoire vs. vision du monde réel


Quelques outils

• smart • mg (version 1.3g) • lucy/zettair • cheshire • dataparksearch engine • lemur • lucene • terrier • wumpus • xapian

liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html

ftp://ftp.cs.cornell.edu/pub/smart/http://www.nzdl.org/html/mg.htmlhttp://www.seg.rmit.edu.au/zettair/http://cheshire.lib.berkeley.edu/http://www.dataparksearch.org/http://www.lemurproject.org/http://jakarta.apache.org/lucene/docs/http://ir.dcs.gla.ac.uk/terrier/http://www.wumpussearch.org/http://www.xapian.org/

http://www.emse.fr/~mbeig/IR/tools.html

ftp://ftp.cs.cornell.edu/pub/smart/

http://www.nzdl.org/html/mg.html

http://www.seg.rmit.edu.au/zettair/

http://cheshire.lib.berkeley.edu/

http://www.dataparksearch.org/

http://www.lemurproject.org/

http://jakarta.apache.org/lucene/docs/

http://ir.dcs.gla.ac.uk/terrier/

http://www.wumpus-search.org/

http://www.xapian.org/


Plan

• La recherche d'information• La RI et la langue

• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques


Caractère implicite de la langue (rappel)

• Les informations implicites sont celles qui manquent dans l'absolu pour interpréter un énoncé, mais qui sont reconstituées grâce à des connaissances communes au rédacteur et au lecteur– Connaissances du langage et des conventions langagières

Q : Le voisin estil chez lui ? R : Sa voiture est devant le portail. (implicature conversationnelle)

– Connaissances du contexteC'est la deuxième fois qu'il reçoit un carton. (football, courrier, accident ?)

– Connaissances du mondeLa France a taillé l'Écosse en pièces. (métonymie + langage figuré +

actualité du rugby)


Caractère redondant de la langue (rappel)

• Au niveau lexical :– Synonymie : vélo et bicyclette – Hyperonymie et hyponymie : véhicule / vélo / VTT– Méronymie et holonymie : pédale / pédalier / vélo

• Abréviations et sigles : – s’ilvousplaît et SVP, VTT et Vélo Tout Terrain

• Entre mots et expressions :– Périphrases : lavevaisselle et machine à laver la vaisselle– Définitions : selle et petit siège, le plus souvent de cuir, d’un cycle ou

d’un véhicule à deux roues à moteur

• Glissements de sens, la synonymie est contextuelle– papier et article


Caractère ambigu de la langue (rappel)

• Homographes (Catégories différentes mais des flexions coïncident)– Les poules du couvent couvent

• Polysèmes (mêmes flexions mais sens différents)– voler

• Ambiguïtés syntaxiques (pour la machine au moins)– Jean vend une tarte aux pommes.– Jean vend une tarte aux clients.

• Anaphores– Nicolas trahit Jacques. Sa femme lui en voulut longtemps.

• Ellipses– Les Stéphanois aiment le football et les Toulousains le rugby.– Les Stéphanois détestent les Parisiens et les Toulousains aussi.


Rôle des mots en contexte (rappel)

• L’identification du rôle (sémantique) des mots dans les phrases peut avoir un impact sur la recherche d’information :– Marie a été convoquée par sa directrice de thèse. (patient)– Marie a terminé la rédaction de son mémoire. (agent)– Cette entreprise fabrique des ordinateurs. (produits industriels)– L’ordinateur a produit des résultats étonnants. (instrument de calcul)– L’ordinateur est désormais présent dans une majorité de foyers. (objet

qu’on possède)

• De nombreux rôles sont possibles : agent, patient, originesource, butbénéficiaire, instrumentmoyen, résultatproduit, etc.


Mots composés et termes (rappel)

• Les mots composés sont beaucoup moins polysémiques – "pomme de terre" ≠ pomme + terre

– "traitement de texte" ≠ traitement + texte

• Ils ont un sens qui ne se déduit pas immédiatement des mots qui les composent– "carte bleue"– "hommegrenouille"


Limitations du vocabulaire (rappel)

• Le nombre de concepts à désigner est beaucoup plus grand que la taille du vocabulaire

• Il faut combiner des mots pour diminuer la polysémie des entrées du dictionnaire et désigner de façon non ambiguë

• Par ailleurs, le sens des mots composés ne se déduit pas directement du sens des mots qui les composent– AN : grandmère, beau joueur– NA : carte bleue, gare routière– NàN : machine à laver, pompe à vélo– NdeN : traitement de texte, pomme de terre– NN : hommegrenouille, sciencefiction– VN : portedrapeau


Plan

• La recherche d'information• La RI et la langue• Terminologie

– Normalisation linguistique au niveau du mot– Mots composés et termes– Acquisition terminologique

• Systèmes d'acquisition• Variation terminologique• Informations sémantiques


Normalisation linguistique (1/2)

• Conserver la forme fléchie ?• Ramener les mots à leur racine ?

– Racinisation (stemming)• En particulier algorithme de Porter pour l'anglais• En anglais : automates, automatic, automation automat• En français : malade, maladie, maladif, maladive malad

– Lemmatisation • Lemme = entrée du dictionnaire• Utilisation de transducteurs ou de dictionnaires de mots fléchis

• Conséquences attendues– Amélioration du rappel– Réduction de la précision (marmaille, marmite "marm")


Normalisation linguistique (2/2)

• Variantes de termes :– genetic disease (terme de base)– disease is genetic (variante syntaxique)– hereditary disease (variante sémantique)– genetically determined forms of the disease (variante

morphosyntaxique)– disease is familial (variante syntaxicosémantique)– transmissible neurodegenerative diseases (variante syntaxico

sémantique)

• Nécessite l'identification de termes normalisés• Possibilité d'indexation dynamique en fonction des termes

d'une requête pour des bases de documents de taille réduite


Mots composés : critères

• Institutionnalisation de l'usageL'utilisation des mots composés relève d'un choix largement partagé▸ On parle de "traitement de texte" et non de "*logiciel à écrire" ou de

"*processeur de mots"

• Blocage des propriétés transformationnelles▸ Le voleur a pris le large▸ Passivation : *Le large a été pris par le voleur▸ Pronominalisation : *Le voleur l'a pris▸ Détachement : *Ce large, le voleur l'a pris▸ Extraction : *C'est le large que le voleur a pris▸ Relativisation : *Le large que le voleur a pris

▸ Synonymes : *Le voleur a pris le gros


Mots composés : critères

• PolylexicalitéMot composé = composition de plusieurs mots ayant par ailleurs un

caractère autonome

• Atomicité sémantiqueLe sens des mots composés ne peut être décomposé▸ "pomme de terre" ne s'obtient pas à partir d'un sens de pomme et d'un

sens de terre

• Inséparabilité des composantsIl n'est pas possible de séparer les composants d'un mot composé pour y

adjoindre des modifieurs ▸ "pomme de bonne terre" n'est plus lié à "pomme de terre"


Termes

• Les termes désignent des concepts dans des domaines techniques particuliers, ils ne remplissent pas nécessairement les critères des mots composés– entretien (périodique) de la chaudière– ministre (luxembourgeois) des affaires étrangères

• Le sens des termes peut varier d'un domaine à l'autre– ligne aérienne

▸ trajets d'avion (domaine aéronautique)▸ lignes électriques (domaine de l'énergie)▸ lignes téléphoniques (domaines des télécommunications)


Terme et construction de terminologie

• La conception classique du terme est réductrice – La connaissance est découpée a priori en domaines stables

représentables par des réseaux de concepts dont les termes sont les représentants linguistiques

– Or, les terminologies peuvent varier en fonction de l’application pour un même domaine de connaissances

• On peut donc voir le terme comme le résultat d’une analyse terminologique (Bourigault et Jacquemin, 2000) – Décision sur le statut de terme d’une unité, qui débouche davantage

sur la construction d’une terminologie plutôt que sa découverte

• Cette construction doit se faire selon une double pertinence :– corpus : termes spécifiques au domaine mais stables dans le corpus– application visée : termes utiles et permettant une certaine efficacité


Ingénierie terminologique

• Basée sur une réflexion méthodologique sur un corpus de référence plutôt que sur une théorie

• Travail mené de façon incrémentale par un terminologue (nécessité d'automatiser au maximum)

• Validation par des experts (conformité au domaine) et des utilisateurs (application)

• Typologie fonctionnelle de la construction de terminologie :– Acquisition de termes : extraction de candidats termes à partir d'un

corpus validés par un terminologue (approche syntaxique et/ou statistique)

– Structuration de termes : classification ou repérage de relations– Alignement de termes : corpus multilingues


Acquisition de termes

• Objectifs Extraire de documents des informations linguistiques compactes et

représentatives de leur contenu

• ApplicationsIndexation, résumé, construction de thésaurus, etc.

• ExtensionsReconnaissance d'entités nommées


Acquisition vs. reconnaissance de termes

• Deux domaines complémentaires• Acquisition : on cherche à découvrir des occurrences de

termes dans les documents au moyen de techniques linguistiques ou statistiques

• Reconnaissance : un ensemble de termes contrôlés étant donné, on cherche à reconnaître les occurrences de ces termes ou de leurs variantes dans les documents

sur des documents sur des documentsquelconques connus

sans données indexation acquisitioninitiales libre terminologique

avec données indexation enrichissementinitiales contrôlée de thésaurus


Termes simples ou multimots

• Les enjeux sont différents pour un système d'extraction terminologique en fonction du type de termes visé :– simples : généralement ambigus, requièrent une désambiguïsation

utilisant le contexte d'apparition du terme▸ chaîne (de montage ? outil ? séquence d'éléments chimiques ? ...)– multimots : moins ambigus mais sujets aux variations, requièrent

une analyse syntaxique ou des mesures statistiques de cooccurrence▸ chaîne des Puys▸ chaîne de l'espoir▸ réactions en chaîne ▸ chaîne Nglycosylée▸ scie à chaîne


Acquisition terminologique à partir de corpus

• Au départ, extraction de termes candidats principalement sur le français et en milieu industriel– Types de termes plus difficiles à repérer qu'en anglais par exemple

(utilisation de prépositions et de déterminants vs. juxtaposition de noms et d'adjectifs)

– Besoin fort pour la traduction

▸ information retrieval recherche d'information▸ natural language processing traitement automatique des langues

– Disponibilité des corpus techniques


Acquisition : les projets pionniers

• Acabit (Daille, 1994) : IBM, construction de lexiques terminologiques multilingues pour la traduction

• ANA (Enguehard, 1995) : CEA, enrichissement de réseaux lexicaux exploités par un système de gestion de connaissances

• Lexter (Bourigault, 1996) : EDF, mise à jour d'un thésaurus utilisé par un système d'indexation automatique


Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition

– Acabit– ANA– Lexter– Terms

• Variation terminologique• Informations sémantiques

– Xtract– Fastr– Exit


Acabit (Daille, 1994)

• Analyse superficielle et filtrage statistique : Acquisition sur un corpus préétiqueté et désambiguïsé. Deux étapes :

1.Analyse linguistique et regroupement de variantes : analyse du corpus par des transducteurs et production de candidats termes binaires▸ Nom Adj : connaissances informatiques▸ Nom1 à (Det) Nom2 : aide à domicile ▸ Nom1 Prep Nom2 : vente par téléphone, etc.

Décomposition : réseau de transit à satellite réseau de transit et réseau à satellite

2.Filtrage statistique : tri des candidats termes à partir d'un corpus de référence et de termes validesComparaison de mesures statistiques en fonction de leur capacité à distinguer les termes des séquences ne correspondant pas à des termes

I3x , y=log2nbx , y 3

nbx .nb y Information mutuelle au cube :


Acabit : regroupement des variantes

Des transformations syntaxiques permettent d'associer une forme de base à plusieurs variantes– Coordination de termesassemblage et désassemblage de paquets assemblage de paquets,

désassemblage de paquets

– Surcomposition de termesréseau de transit à satellites réseau de transit,

réseau à satellites

– Modification adjectivale de termesliaisons multiples par satellites liaisons par satellites


ANA (Enguehard, 1995)

Extraction de termes candidats sans analyse linguistique :– Module de familiarisation : l’utilisateur fournit une liste de termes

initiale (bootstrap)– Module de découverte de termes : repérage incrémental de

répétitions de séquences de deux mots dont au moins un est déjà un terme :

1. associations fréquentes de deux termes (ex : cœur du réacteur)2. associations fréquentes d’un mot avec un terme, dans une structure de

type X du T (ex : température du réacteur, où réacteur est un terme), ou dans une structure T X (ex : structure interne, où structure est un terme)

– Arrêt lorsqu’aucun nouveau terme n’est découvert– Organisation des termes en réseau qui relie les termes partageant les

mêmes têtes ou les mêmes arguments


Lexter (Bourigault, 1996)

Acquisition terminologique par analyse superficielle– Acquisition sur un corpus preétiqueté et désambiguïsé– Trois étapes :

1.Extraction de syntagmes nominaux maximaux : repérage de frontières syntaxiques (ex : verbes, conjonctions)les clapets situés sur les tubes d’alimention clapets, tubes d’alimentation

2.Décomposition de syntagmes nominaux : analyse récursive et extraction de têtes et d’expansions, avec désambiguïsation sur corpusrejet d’air froid rejet froid, air froid(seul air froid est conservé après recherche sur corpus)

3.Structuration en réseau : chaque terme candidat est lié à ceux dont il est tête ou expansion. Calcul d’un coefficient de productivité pour mesurer la densité du réseau autour d’un terme.


Lexter, structuration du réseau terminologique


Terms (Justeson et Katz, 1995)

• Repose sur 2 hypothèses issues de l’analyse de corpus techniques et de dictionnaires spécialisés :– Les termes sont répétés dans un document technique plus

fréquemment que les syntagmes non terminologiques– Les termes ont une structure et des variantes différentes de celles des

syntagmes non terminologiques

• Utilisation d’un filtrage par un patron de catégories morphosyntaxiques décrit par l’expression régulière (pour l’anglais) :

((A|N)+ | (A|N)* (N P) (A|N)*) N


XTract (Smadja, 1993)

• Extracteur de collocations • Associations lexicales préférentielles et répétées

• Hypothèses :– Les mots dans une collocation apparaissent ensemble plus

fréquemment que par hasard (cf. mesure de l’information mutuelle)– Les mots apparaissent dans une palette limitée de positions relatives

correspondant a des contraintes syntaxiques particulières


Xtract : fonctionnement

• Trois modules :– Extraction de collocations binaires : couples de mots (à une

distance fixe) rencontrés plus fréquemment que par hasard (ex : rachat coûteux)

– Expansion des collocations : itération pour construire des collocations comprenant plus de deux mots

– Étiquetage des collocations : un analyseur linguistique étiquette les collocations selon trois familles :

• Collocations prédicatives telles que verbe support + nom prédicatif (ex : make decision)

• Syntagmes figés (ex : stock market)• Phrases a trous (ex : X increase)

• A la différence d’Acabit, le filtrage linguistique est effectué en sortie de la sélection statistique


Fastr (Jacquemin, 1997)

• Analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée– Détection des variantes des termes en corpus (formes linguistiques

différentes)– Variations capturées par des métarègles opérant

à différents niveaux :• morphosyntaxique : flux de sève mesurés est une variation de

mesure de flux s’appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure

• syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination

• syntaxicosemantique : évaluation de flux est une variante de mesure de flux s’appuyant sur le lien sémantique existant entre les noms évaluation et mesure


Fastr

• L’objectif n’est pas d’acquérir des termes de façon massive, mais d’enrichir des terminologies existantes avec des variantes de termes connus

• Application à la recherche d’information : indexation contrôlée– Indexation dynamique– Recherche dans le corpus des termes de la requête et de leurs

différentes variantes

• Indexation libre pour recherche des termes sans liste de départ


Exit (Roche et al., 2004)

Extraction itérative de la terminologie– Extraction de termes sur un corpus normalisé et étiqueté– Réinjection des termes reconnus sous forme d’éléments uniques

1ère itération : assistant de gestion2ème itération : assistantdegestion de production

– Sélection de mesures statistiques sur leur capacité à reconnaître des termes

– Comparaison de courbes d’élévation, correspondant à la variation de la précision des termes en fonction du nombre de termes proposés a l’expert (le rappel étant incalculable)


Systèmes d'acquisition : bilan

Acabit Ana Lexter Terms Xtract Fastr Exit étiquetage ✓ ✓ ✓ ✓ ✓ racinisation ✓ ✓ patrons syntaxiques ✓ ✓ ✓ ✓ ✓ filtrage statistique ✓ ✓ ✓ ✓ ✓ ✓ incrémentalité ✓ ✓ ✓


Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition

• Variation terminologique• Informations sémantiques


La variation terminologique : introduction (1/3)

• L’interprétation du contenu des textes est nécessaire pour évaluer leur pertinence relativement à une requête

• Des techniques de surface peuvent parfois extraire de bons indicateurs de contenu, par exemple ceux qu’un humain extrait visuellement lorsqu’il parcourt rapidement un texte

• Compromis :– Analyse peu profonde et non sensible au domaine des documents– Analyse fine requérant des connaissances sur un domaine précis

• Les termes constituent de très bons candidats pour l’indexation documentaire : ils peuvent être extraits par des techniques peu profondes et ils révèlent des concepts abordés dans les documents



• Un concept dénoté par un terme peut apparaître sous de nombreuses formes, ex. pour loan offer :– ...offer our commercial customers credit commercial loans...– ...offer a complete range of home investment and business loans...– ...offering a special jumbo mortgage loan...

• Mais il ne s’agit pourtant pas de repérer les mots composant un terme dans une fenêtre de taille fixée :– ...interlibrary loan continues to offer a full range of services to our

graduate students...– ...education loan center offers tutorials about references about financing

scholarships...



• Problèmes :– Comment reconnaître automatiquement des termes ?– Comment repérer les variantes de termes connus ?– Ces variantes désignentelles exactement les mêmes concepts ?

• Il serait impossible pour les terminologues d'énumérer a priori toutes les variantes des termes...

• Objectif : mettre en relation des segments de texte qui sont conceptuellement proches mais différent dans leur construction linguistique


Variation terminologique : définition

• (Jacquemin, 2001)• Une variation terminologique est une transformation d'un

terme contrôlé qui satisfait les 4 conditions suivantes :1. Les mots pleins du termes sont conservés par la transformation, ou

ils sont transformés en des mots morphologiquement ou sémantiquement liés

2. Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison

3. Les relations de dépendances dans le terme d'origine doivent être conservées

4. Les variantes ne doivent pas contenir le terme de départ (ou une flexion)


Variation terminologique : condition 1

Les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés

– ex : recognized neural cells est une variante de cell recognition car cell est conservée et recognized et recognition sont liés morphologiquement

– Les mots outils (ex : prépositions, déterminants) peuvent être supprimés ou remplacés par une transformation, ex : réserve en eau est une variante de réserve d'eau



Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison

– Les variantes qui ne mettent en jeu ni variation morphologique ni variation sémantique sont dites syntaxiques, ex : language comprehension et comprehension of language

– Les variantes mettant en jeu des mots appartenant à une même famille morphologique sont dites morphologiques, ex : determine the structure et structure determination

– Les variantes mettant en jeu des mots appartenant à une même famille sémantique sont dites sémantiques, ex : language comprehension et speech comprehension



Les relations de dépendances dans le terme d'origine doivent être conservées

– L'ordre des mots dans les variantes peut être modifié et de nouveaux mots peuvent être insérés, mais les dépendances existant dans le terme d'origine doivent être conservées

– Ex : pressure fluctuation et fluctuation in mean arterial blood pressure sont des variantes, car la dépendance entre pressure et fluctuation se retrouve dans les deux



Les variantes ne doivent pas contenir le terme de départ (ou une flexion)

– Ex : mean arterial pressures n'est pas une variante de arterial pressure car la suite de mots du terme contrôlé n'est pas modifiée


Variation terminologique : exemples

• Exemples de variations sur le terme genetic disease :– genetic diseases : flexion– disease is genetic : syntaxique– hereditary disease : sémantique– genetically determined forms of the disease : morphosyntaxique– disease is familial : syntaxicosémantique– transmissible neurodegenerative diseases : syntaxicosémantique– genetic risk factors for coronary artery disease : pas une variante

• Distribution des variantes : par exemple, dans un corpus scientifique en anglais, 1/3 des occurrences de termes sont des variantes : 9% syntaxiques, 6.5% morphosyntaxiques, 22% sémantiques (Jacquemin, 1999)


Ressources pour la reconnaissances des variantes

• Normalisation flexionnelle : lemmatiseur

• Normalisation morphologique : base de données lexicale avec les structures des mots

• Normalisation syntaxique : règles de réécritures

• Normalisation sémantique : une ressource avec des liens sémantiques


Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique

• Informations sémantiques


Extension sémantique de requêtes : exemples

• Approche numérique– Enrichissement de la requête avec les termes ou les syntagmes qui

cooccurrent fortement dans la collection avec les mots de la requête– Idée : retrouver des concepts de la requête non exprimés par

l'utilisateur

• Approche symbolique– Enrichissement par les verbes liés aux noms de la requête (Claveau et

Sébillot, 2004)– Interaction avec l'utilisateur pour une définition plus précise de la

requête (Grefenstette, 1997)

• Utilisation de WordNet– Enrichissement par les synsets ou la hiérarchie– Problèmes de granularité et de désambiguïsation


Informations sémantiques pour l'indexation

• Indexation conceptuelle– Réservée à des domaines spécialisés– Extraction dans les textes de termes significatifs et des liens qui les

unissent– Utilisation de bases de connaissances lexicales du domaine– Description des documents à l'aide d'un formalisme de

représentation de connaissances• Graphes conceptuels• Réseaux sémantiques• Logiques de description

– Aide à l'interrogation par "navigation" dans les concepts du domaine

• (Woods et Ambroziak, 1998 ; Guarino et al., 1999 ; Chevallet, 1992 ; Zweigenbaum et al., 1994 ; Berrut, 1990)


Informations sémantiques pour l'indexation

• Indexation sémantique– À base de ressources existantes : indexation à base des synsets de

WordNet (Mihalcea et Moldovan, 2000 ; Smeaton et Quigley, 1996)– À base d'informations acquises en corpus : indexation dynamique ou

ajout des informations de cooccurrence– Encore et toujours, problème de désambiguïsation sémantique


Bibliographie (1/3)

• Bourigault, D. (1996) LEXTER, a Natural Language Processing tool for terminology extraction, Proceedings of the 7th EURALEX international congress, Gotebord, Suede

• Bourigault, D. et C. Jacquemin (2000) Construction de ressources terminologiques, dans Ingénierie des Langues, sous la direction de J.M. Pierrel, Hermes

• Daille, B. (1994) Approche mixte pour l’extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse en informatique fondamentale, Université Paris 7

• Dias, G. (2002) Extraction automatique d'associations lexicales à partir de corpora, Thèse en informatique, Université Nouvelle de Lisbonne

• Fluhr, C. (2000) Indexation et recherche d’information textuelle, in Ingénierie des Langues, JeanMarie Pierrel éditeur, Hermes


Bibliographie (2/3)

• Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d’habilitation à diriger des recherches en informatique fondamentale, Université de Nantes

• Jacquemin, C. (1999) Syntagmatic and paradigmatic representations of term variation, Actes de ACL'99, University of Maryland

• Jacquemin, C. (2001) Spotting and Discovering Terms through Natural Language Processing, MIT Press, Cambridge, ÉtatsUnis

• Jacquemin, C. (2004) Indexation et Recherche d'Information, Cours de DESS II et SCHM, Université ParisSud 11

• Korfhage, R. C. (1997), Information Storage and Retrieval. John Wiley & Sons, Inc.


Bibliographie (3/3)

• Lefèvre, P. (2000) La recherche d'informations, Hermes Sciences, Paris• Manning, C. et P. Raghavan (2004) Text retrieval and mining, CS276A,

Cours, Université Stanford• Meadow, C. T., Boyce, B. R. et Kraft D. H. (2000), Text Information

Retrieval Systems. Academic Press, New York City, NY, USA.• Moreau, F et Sébillot, S (2005) Contributions des techniques du

traitement automatique des langues à la recherche d'information. Rapport de recherche, IRISA.

• Roche M., T. Heitz, O. MatteTailliez et Y. Kodratoff (2004) EXIT : Un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés, dans Actes de JADT'04, LouvainlaNeuve, Belgique

Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...

Documents

Transcript of Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...