Alanis Morissette na calçada Guitar Center Rock World Famous
Création de résumé automatique Par Guillaume Blain ([email protected]) & Marc-André...
-
Upload
gringolet-levy -
Category
Documents
-
view
104 -
download
0
Transcript of Création de résumé automatique Par Guillaume Blain ([email protected]) & Marc-André...
Création de résumé automatique
Par Guillaume Blain ([email protected])
&
Marc-André Morissette ([email protected])
IFT6255 – 8 avril 2003
Qu’est-ce qu’un résumé?
Une transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source.
- Karen Sparck Jones
Fonction AutoSummarize de MS Office
Caractéristiques d’un résumé
Indicatif ou Informatif Indicatif: indique la nature du texte (teaser) Informatif: tente de se substituer au texte
Extrait ou abrégé Extrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texte
Court ou long Taux de compression = ||
||
Texte
Résumé
Mécanique de construction d’un résumé Document → Repr. interne du document Repr. interne du document → Repr.
interne du résumé Repr. interne du résumé → Texte du
résumé
Facteurs contextuels
Facteurs d’entrée Influence l’analyse
Facteurs d’intention Influence les transformations
Facteurs de sortie Influence la forme du résumé
Facteurs d’entrée - analyse (1)
Forme Structure Échelle Type de langue Genre littéraire
Today on MSN Latest war updates Iraqis swim Tigris to flee Saddam's notorious cousin may be dead Why isn't cash obsolete?
Your Week Online tax helper, $30 How to make DVD flicks 6 steps to sexier legs
Facteur d’entrée -analyse (2)
Type de sujetOrdinaire (connaisances générales)
Code de la route
Spécialisé (informatique, recherche d’information)
Précision/Rappel
Restreint (étudiant du cours ift6255) Date d’examen
Facteurs d’entrée - analyse (3)
MultiplicitéSimple
Article de journal, rapport de recherche
Multiple Journal au complet, tous les rapports d’un
laboratoire de recherche
Facteurs d’intention - transformation
SituationPrécis, flou; qui, pourquoi, comment
AudienceCiblée, non ciblée
UtilisationTâche: recherche, sommaire, mémoire, invite
Facteurs de sortie - construction
ContenuTous les sujets, le sujet central, information
partielle; couverture Format
Prose, informations tabulaires, phrases disparates
Style Indicatif, informatif, critique, recapitulatif
Approches étalon
Approche aléatoireOn sélectionne n phrases au hasard dans le
document Approche en-tête
On sélectionne les n premières phrases du document
Approche basée sur la RI
Luhn 1958 Extrait = phrases
significatives Une phrase
significative contient des mots significatifs (mots-clés)
Mots significatifs = entre A et B
Approches basée sur la structure du texte (1) Edmundson 69 Mots-repères (cues)
Mots-bonus: greatest, significant, …Mots-malus: hardly, impossible, …
Mots-titreMots-clés se trouvant dans le titre et les sous-
titres
Approches basée sur la structure du texte (2) Positionnement
Début du texteFin du textePremière phrase d’un paragrapheDernière phrase d’un paragraphe
Toutes les méthodes! 1Mots-repère + 2Mots-clés + 3Mots-titre +
4Positionnement
Évaluation (Edmundson)
Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%)
Comparaison entre les résumés obtenus manuellement et automatiquement
Précision = ||
||
B
BA
Résultats (Edmundson)
Mots-clés diminuent efficacité
Extension probabiliste
Kupiec, Pederson, Chen 1995 Classification Bayesienne à partir de
caractéristiques du texte
En supposant les caractéristiques statistiquement indépendantes
),(
)()|,...,(),...,|(
,...21
2121
k
kk FFFP
SsPSsFFFPFFFSsP
k
j j
k
j j
kFP
SsPSsFPFFFSsP
1
121
)(
)()|(),...,|(
Extension probabiliste (2)
Résultats (compression 25%)Précision de 84%
Extraits phrase par phrase sont incohérents et difficiles à lire.
Solution: ajouter les phrases nécessaires pour produire un passage propre.
Balance: est-ce que des parties sont sur-représentées? Couverture: est-ce qu’on a oublié quelque chose?
Problèmes (Paice 1990)
Anaphore Connecteur rhétoriqueAnaphore (auteur)
J’aime les bananes.
Elles sont toutefois trop jaunes à mon goût.
Parsage rhétorique du discours (1)
Analyse en profondeur Basé sur les relations rhétorique entre les
passages. (Mann et Thompson 88)Objectif de l’auteur. Pourquoi ajouter cette
phrase?Noyau – Satellite
À l’origine du sens et de la cohérence d’un texte
Parsage rhétorique du discours (2)
Exemple d’une relation: pièce à conviction[Noyau: En réalité, la tentation de fumer au secondaire est plus grande
qu’à n’importe quel autre moment de la vie d’une personne :] [Satellite: On sait que plus de 300 adolescents commencent à fumer chaque jour.]
Effet de la relation: le satellite augmente la crédibilité du noyau aux yeux du lecteur
2Elaboration
2Elaboration
8Example
2BackgroundJustification
3Elaboration
8Concession
10Antithesis
Mars experiences
frigid weather
conditions(2)
Surface temperatures typically average
about -60 degrees
Celsius (-76 degrees
Fahrenheit) at the
equator and can dip to -
123 degrees C near the
poles(3)
4 5Contrast
Although the atmosphere
holds a small
amount of water, and water-ice
clouds sometimes develop,
(7)
Most Martian weather involves
blowing dust and carbon monoxide.
(8)
Each winter, for example, a blizzard of
frozen carbon dioxide
rages over one pole, and a few meters of
this dry-ice snow
accumulate as
previously frozen carbon dioxide
evaporates from the opposite
polar cap.(9)
Yet even on the summer pole, where
the sun remains in the sky all day long,
temperatures never warm
enough to melt frozen
water.(10)
With its distant orbit (50 percent farther from the sun than Earth) and
slim atmospheric
blanket,(1)
Only the midday sun at tropical latitudes is
warm enough to
thaw ice on occasion,
(4)
5Evidence
Cause
but any liquid water formed in this way would
evaporate almost
instantly(5)
because of the low
atmospheric pressure
(6)
Parsage rhétorique du discours (4)
Intuition de Daniel Marcu: Résumé peut être produit à partir de l’arbre de parsage.Nœuds près de la racine correspondent aux
idées centrales du texte. Performance d’environ 65% avec des
textes courts. Question: est-ce que ça fonctionne avec
des textes plus longs?
Chaînes lexicales (1)
Établir des chaînes sur les mots qui ont un liens dans WordNet (Barzilay & Elhadad)
Les chatons sont très mignons. Ces petits animaux sont si adorables qu’on en déjeunerait. Les chats eux sont plus comme leur cousins les tigres: indépendants et chasseurs. Les félins on en général une bien mauvaise réputation.
Chaînes lexicales (2)
Les phrases importantes sont traversées par des chaînes fortes.
Désambiguification tardive Stratégie de sélection:
Première phrase avec un membre de la chaîne Première phrase avec un membre significatif de la chaîne Déterminer le segment avec la plus haute densité de termes.
Première phrase de ce segment.
Résumé multidocument – SUMMONS (1)
Gabarits MUC, organisés chronologiquement Opérateurs de combinaison
Changement de perspective Contradiction Ajout Clarification Similarité Concaténation, généralisation Absence Tendance
Favorise les combinaisons
Résumé multidocument – SUMMONS (2)
Cadre multilingue
Megumi Kameyama Extraction d’information dans les discours
Extraction à objectifs clos vers objectifs dynamiques
3 étapes Requête en langue usager Recherche/abstraction dans la langue du corpus Résumé en langue usager
Évaluation Mesure
Précision Rappel
Accord entre les juges humains Référentiel de base
Compression: C = (longueur Résumé) / (longueur Txt)
Rétention: R = (info dans Résumé) / (info dans Txt)
Conférences et évaluation (1)
SUMMAC (Programme TIPSTER)Ad hoc: pertinence selon une requêteCatégorisation: textes sources vs résuméQuestion/réponse: sans lecture, lecture du
résumé et lecture du texte
Conférences et évaluation (2)
MUC (Message Understanding Conference)Entités nomméesCoréférence des entités (anaphores) Instantiation de gabarits (templates) prédéfinis Instantiation de scénarios par gabarits
Conférences et évaluation (3)
DUC (Programme TIDES)Précision/RappelMéthode utilitaire (Radev et al.)Similarité de contenu
Discussion et analyse
Top-down De la structure vers le contenu
Bottom-up Du contenu (mots, phrases) vers la
compréhension
Hybride Dans les deux directions simultanément ou en
complément
Évaluation formelle
Toute les méthodes ne sont pas évaluées Évaluations varient Corpus de test différent
25% de taux de compression !2 pages incohérentes pour 8 pages
cohérentes (et encore)
Avenir
Abstraction Plus de rigueur Passer de l’expérimentation à l’application
Améliorer la lisibilitéAméliorer l’interaction avec l’usager
Conclusion
Explosion du domaine Intégration des technologies connexes
Traitement en langue naturelleRecherche d’information
Avenir prometteur Encore beaucoup de travail