Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus...
-
Upload
dianne-pinel -
Category
Documents
-
view
104 -
download
0
Transcript of Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus...
Une Grammaire Noyau Une Grammaire Noyau pour l'analyse syntaxique de structures pour l'analyse syntaxique de structures
présentes dans tout type de corpusprésentes dans tout type de corpus
Núria Gala PaviaNúria Gala Pavia
Xerox Research Centre Europe Xerox Research Centre Europe
et LIMSI-CNRSet LIMSI-CNRS
[email protected]@xrce.xerox.com
Séminaire du groupe Langage et Cognitionéminaire du groupe Langage et Cognition
Orsay, 5 décembre 2000Orsay, 5 décembre 2000
Analyseurs robustesAnalyseurs robustes
• analyse par étapes déterministesanalyse par étapes déterministes
plutôt que globale et recursiveplutôt que globale et recursive
• resultats exploitables resultats exploitables
quelle que soit la ‘propreté’ du texte en entréequelle que soit la ‘propreté’ du texte en entrée ---- applications réellesapplications réelles
• approches diversesapproches diverses
grammaires [Joshi 61] / statistiques [Church 88]grammaires [Joshi 61] / statistiques [Church 88]
Caractéristiques générales :Caractéristiques générales :
Fondements linguistiquesFondements linguistiques
“ “Certains accessoires Certains accessoires inappropiinappropiéés s modifient modifient la positionla position normale normale de pilotage.de pilotage.””
• Grammaires Grammaires Syntagmatiques Syntagmatiques Noyau Noyau ((chunkschunks))• Grammaires de Grammaires de DépendancesDépendances
• Systèmes Systèmes MixtesMixtes
[Certains accessoires]NP [inappropiés]AP [modifient]VP [la position]NP [normale]AP [de pilotage]PP.
Certains accessoires inappropiés modifient
la position normale de pilotage.
[Certains accessoires]NP [inappropiés]AP [modifient]VP [la position]NP [normale]AP [de pilotage]PP.
SUBJ(accessoires,modifier) NADJ(accesoires, inappropiés) OBJ(modifier,position)
COS
A
AC CA
Quelques Analyseurs robustesQuelques Analyseurs robustes
• CASSCASS (Abney, 91; 96) (Abney, 91; 96)
• FidditchFidditch (Hindle, 93); (Hindle, 93);
• ENGCC ENGCC (Karlsson (Karlsson et al.et al. 95) ; 95) ;
• FDGFDG (Functional Dependency Grammar, (Functional Dependency Grammar, Conexor, Tapanainen et Järvinen, 97);Conexor, Tapanainen et Järvinen, 97);
• SextantSextant (Grefenstette, 94); (Grefenstette, 94);
• Analyseur du GREYCAnalyseur du GREYC (Giguet et Vergne, 97); (Giguet et Vergne, 97);
• IFSPIFSP (Aït-Mokhtar et Chanod, 97); (Aït-Mokhtar et Chanod, 97);
Plan de ce séminaire
1.1. Problématique de la thèseProblématique de la thèse
2.2. Architecture générale proposée:Architecture générale proposée:• ReconfigurabilitéReconfigurabilité• AdaptabilitéAdaptabilité
3.3. Un parseur modulaireUn parseur modulaire• ChunkingChunking
(a) Grammaire noyau(a) Grammaire noyau
(b) Module de diagnostic(b) Module de diagnostic
(c) Grammaires spécialisées(c) Grammaires spécialisées• DépendancesDépendances
4.4. Conclusions et perspectivesConclusions et perspectives
1. Problématique de la thèse1. Problématique de la thèse
• Texte “libre” en grandes quantitésTexte “libre” en grandes quantités• Grande variété de phénomènes Grande variété de phénomènes • Encodage de l’information Encodage de l’information
• formes appauvries (phrases dans des mails, formes appauvries (phrases dans des mails, titres “télégraphiques”…)titres “télégraphiques”…)
• formes enrichies (marques structurelles, formes enrichies (marques structurelles, marques pragmatiques…)marques pragmatiques…)
Variété et Hétérogénéité des corpusVariété et Hétérogénéité des corpus
Phénomènes “non standard” pour une grammaire : Phénomènes “non standard” pour une grammaire :
séquences linguistiques ou extralinguistiques séquences linguistiques ou extralinguistiques non modeliséesnon modelisées
Présents dans les corpus de façon hétérogène:Présents dans les corpus de façon hétérogène:
• fréquents dans tous les domainesfréquents dans tous les domaines
• particuliers à un type de corpus .particuliers à un type de corpus .
Exemples de Phénomènes “non standard”Exemples de Phénomènes “non standard”
L’Ecole des hautes études en sciences sociales (EHESS, 54 boulevard Raspail, Paris 6) accueille du 28 janvier au 6 mars “Les images médiatiques et la ville” , une exposition comprenant 45.000 timbres de France, d’Allemagne, d’Espagne et des pays de l’ex-bloc de l’Est.
(Le Monde)
Télécoms : l'italien STET s'allie avec l'américain ATT (Les Echos)
Autres Exemples “non standard”Autres Exemples “non standard”
Sur les modèles à partir de 1966 :
1 - Enlevez les caches plastiques (4) qui se trouvent sur le côté intérieur du tambour,
2 - Repérez les deux ouvertures qui permettent d'accéder aux molettes de réglage.
(Manuel technique)
017 -- oui là je malheureusement je / je peux vous le confirmer
(Transcription de l’oral)
Problèmes actuelsProblèmes actuels
• Ensemble de phénomènes “non standard”: Ensemble de phénomènes “non standard”: pourcentage considérable dans les corpuspourcentage considérable dans les corpus..
• Les architectures des analyseurs actuels Les architectures des analyseurs actuels ne ne permettent pas une adaptation facile à des permettent pas une adaptation facile à des domaines différents.domaines différents.
inputinput
outputoutput
GrammaireGrammaire
Analyse Analyse syntaxiquesyntaxique
2. Architecture Proposée2. Architecture Proposée
Réconfigurabilité (modularité)Réconfigurabilité (modularité)
Adaptabilité (apprentissage)Adaptabilité (apprentissage)
Réconfigurabilité (modularité)Réconfigurabilité (modularité)
inputinput
outputoutput
Grammaire ‘noyau’ GGrammaire ‘noyau’ G0
Grammaires spécialiséesGrammaires spécialiséesGG11 GG22 GG33
…… GGnn
Module de ‘diagnostic’Module de ‘diagnostic’
Adaptabilité (apprentissage)Adaptabilité (apprentissage)
Module Module apprentissageapprentissage
Analyse Analyse préliminairepréliminaire
Ressources Ressources lexico-sém.lexico-sém.
inputinput
outputoutput
Grammaire ‘noyau’ GGrammaire ‘noyau’ G00
Grammaires spécialiséesGrammaires spécialiséesGG11 GG22 GG33
…… GGnn
Module de ‘diagnostic’Module de ‘diagnostic’
Récapitulatif sur l’architectureRécapitulatif sur l’architecture
• RéconfigurabilitéRéconfigurabilité des grammaires des grammaires
en fonction du contenu des corpus (modularité: en fonction du contenu des corpus (modularité: grammaire noyau et grammaires spécialisées) ;grammaire noyau et grammaires spécialisées) ;
• AdaptabilitéAdaptabilité du résultat du résultat
par rapport à des structures déjà bien par rapport à des structures déjà bien analysées (apprentissage).analysées (apprentissage).
3. Création d’un parseur modulaire3. Création d’un parseur modulaire
• EEntréeée: :
texte étiquetté morphologiquement (texte étiquetté morphologiquement (tagged)tagged)
• SortieSortie: :
texte découpé en constituants avec liste de texte découpé en constituants avec liste de relations de dépendance pour chaque phraserelations de dépendance pour chaque phrase
Moteur utiliséMoteur utilisé
Parseur incrémental mixteParseur incrémental mixte(S. Aït-Mokhtar, J.P. Chanod, C.Roux) (S. Aït-Mokhtar, J.P. Chanod, C.Roux)
• Moteur écrit en C++Moteur écrit en C++
• indépendant des règles de la grammaire indépendant des règles de la grammaire
expressions regulières améliorées avec traits expressions regulières améliorées avec traits
Nous utilisons ce moteur pour créer notre propre…Nous utilisons ce moteur pour créer notre propre…
• découpage en découpage en constituantsconstituants ( (chunkingchunking))
• extraction de extraction de dépendancesdépendances
De façon modulaireDe façon modulaire
Vue d’ensemble du parseurVue d’ensemble du parseur
input
output
ChunkingExtraction de dépendances
Traitements morphologiques
ParseurParseur
3.1 Chunking3.1 Chunking
• Découpage en constituantsDécoupage en constituants
• Approche modulaire linguistiquement motivéeApproche modulaire linguistiquement motivée (prise en compte de la variété de phénomènes (prise en compte de la variété de phénomènes dans des corpus très différents)dans des corpus très différents)
• Trois étapes de traitement différentes faites par:Trois étapes de traitement différentes faites par:
• un grammaire noyauun grammaire noyau
• un module de diagnosticun module de diagnostic
• des grammaires spécialiséesdes grammaires spécialisées
Vue d’ensemble du parseurVue d’ensemble du parseur
input
output
ChunkingExtraction de dépendances
Traitements morphologiques
g2
noyau
diagnosticgng1
(a) Grammaire Noyau(a) Grammaire Noyau
Ensemble de règles de l’analyseurEnsemble de règles de l’analyseur
• permettant permettant
• le découpage d’un corpus en constituants ;le découpage d’un corpus en constituants ;
• l’envoi de l’envoi de quelquesquelques phrases vers le module phrases vers le module d’extraction de dépendances ;d’extraction de dépendances ;
• garantisant garantisant
• un taux de un taux de couverture couverture minimaleminimale pour tout pour tout corpus (e.g. 25%);corpus (e.g. 25%);
• un un rappelrappel et une et une précision précision maximalesmaximales quel que quel que soit le type de corpus (soit le type de corpus (e.g. plus que 90%e.g. plus que 90%).).
MesuresMesures
• couverturecouverture: :
phrases analysées correctement avec GNphrases analysées correctement avec GN
total des phrasestotal des phrases
• rappelrappel: :
phrases ratées par GNphrases ratées par GN
total des phrasestotal des phrases
• précisionprécision: :
phrases analysées correctementphrases analysées correctement
phrases couvertesphrases couvertes
Découpage en constituantsDécoupage en constituants
Méthode d’analyse (sur corpus étiquetté):Méthode d’analyse (sur corpus étiquetté):
• marquage de segments de base marquage de segments de base
NP AP PP FV IV GVNP AP PP FV IV GV
• marquage de segments additionnels selon la marquage de segments additionnels selon la version de la grammaire version de la grammaire
BG SBC ANP PNP PFV S;BG SBC ANP PNP PFV S;
• marquage de phrases de premier niveau.marquage de phrases de premier niveau.
MéthodeMéthode
22>PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant}, NP{les AP{principaux} acteurs} AP{politiques} PP{du NP{pays}} FV{ont donné} NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} qui FV{relancerait} NP{le processus} AP{démocratique}.
“En dépit d’un désaccord persistant, les principaux acteurs politiques du pays ont donné leur feu vert à la réunion d’une conférence qui relancerait le processus démocratique.”
[Le Monde]
• Découpage en segments de base:Découpage en segments de base:
22>S{ANP{PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant},} NP{les AP{principaux} acteurs} PNP{ AP{politiques} PP{du NP{pays}}} FV{ont donné} PFV{NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} SBC{BG{qui} FV{relancerait}} NP{le processus} AP{démocratique}}.}
• Découpage en segments additionnelsDécoupage en segments additionnels
• Marquage de phrases de premier niveauMarquage de phrases de premier niveau
MéthodeMéthode
Objectifs de la Grammaire NoyauObjectifs de la Grammaire Noyau
• Analyser des phrases deAnalyser des phrases de premierpremier niveau niveau
structures couvertes par la Grammaire Noyau structures couvertes par la Grammaire Noyau quel que soit le type de corpus;quel que soit le type de corpus;
• Détecter des phrases de Détecter des phrases de deuxième niveaudeuxième niveau
pour lesquelles il faudra des modules d’analyse pour lesquelles il faudra des modules d’analyse spécialisés.spécialisés.
Architecture Architecture
premier niveaupremier niveau deuxième niveaudeuxième niveau
ChunkingChunking et et TriTri
Modules spécialisésModules spécialisés
Module de ‘diagnostic’Module de ‘diagnostic’
DépendancesDépendances output
input
Module noyauModule noyau
• Création de plusieurs versions de la grammaireCréation de plusieurs versions de la grammaire
• Moyen de contrôler la diversité de structures des Moyen de contrôler la diversité de structures des corpus tout venantcorpus tout venant
• Chaque version plus riche que la précédente Chaque version plus riche que la précédente (admettant des structures plus complexes du point (admettant des structures plus complexes du point de vue de l’analyse syntaxique)de vue de l’analyse syntaxique)
VersionsVersions
• Maintient d’un taux de précision et de rappel très Maintient d’un taux de précision et de rappel très élévésélévés
• Quand la précision et le rappel vont se dégrader de Quand la précision et le rappel vont se dégrader de façon considérable par l’ajout de nouvelles règles façon considérable par l’ajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) (limite entre premier et deuxième niveau)
• Les phrases analysées avec une précision faible Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus auront besoin de traitements syntaxiques plus puissantspuissants
VersionsVersions
VersionsVersions
Version Caractéristiques Longueur moyenne
V1 0 ou 1 constituants dans PFV 6 mots/phrase
V2 ANP et PNP (du NP sujet) 7 mots/phrase
V3 2 constituants dans PFV 11 mots/phrase
V4 n constituants dans PFV 15 mots/phrase
V5 1 sbc et 1 virgule dans PNP et PFV
17 mots/phrase
V6 2 sbc et 2 virgules dans PFV 18 mots/phrase
V7 coordinations non ambiguës 19 mots/phrase
Evaluation Grammaire NoyauEvaluation Grammaire Noyau
• Corpus Corpus dede testtest: : 104.515 mots104.515 mots
• Corpus Corpus d’évaluationd’évaluation: 7: 7.757 mots.757 mots
• Domaines:Domaines:
-journaux (journaux (Le MondeLe Monde, , LibérationLibération))
-rapports scientifiques (chimie, physique, médecine)rapports scientifiques (chimie, physique, médecine)
-rapports juridiques rapports juridiques
-manuels techniques (tracteur, moto, photocopieur)manuels techniques (tracteur, moto, photocopieur)
-documents d’économie et financesdocuments d’économie et finances
Résultats du Résultats du chunkingchunking
0%
20%
40%
60%
80%
100%
v5 v6 v7
Couverture
Precision
Rappel
Rappel architecture Rappel architecture
premier niveaupremier niveau deuxième niveaudeuxième niveau
ChunkingChunking et et TriTri
Modules spécialisésModules spécialisés
Module de ‘diagnostic’Module de ‘diagnostic’
DépendancesDépendances output
input
Module noyauModule noyau
• Les phrases en entrée ont été partiellement Les phrases en entrée ont été partiellement découpées en constituants de base par le module découpées en constituants de base par le module noyaunoyau
• En raison de la présence de structures de En raison de la présence de structures de deuxième niveau ce découpage peut êtredeuxième niveau ce découpage peut être
• imprécis imprécis
• totalement erronétotalement erroné
(b) Module de diagnostic(b) Module de diagnostic
Exemples d’analyse erronéExemples d’analyse erroné
443>MAX{NP{443>MAX{NP{SURVEILLANCESURVEILLANCE} NP{} NP{LLa surveillance} des a surveillance} des apparentés PP{de NP{patients}} atteints PP{de apparentés PP{de NP{patients}} atteints PP{de NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le chapitrechapitre}} NP{}} NP{PPrévention} AP{secondaire}} .}révention} AP{secondaire}} .}
176>MAX{NP{Le secteur} PNP{non structuré} FV{est 176>MAX{NP{Le secteur} PNP{non structuré} FV{est formé} formé} : -: - NP{des démarcheurs} NP{des démarcheurs} (( NP{vendeurs} PP{de NP{vendeurs} PP{de NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} )) ;} ;}
177>MAX{177>MAX{-- NP{des clubs} et NP{des associations} NP{des clubs} et NP{des associations} ((NP{groupements} PP{de NP{femmes}} , principalement NP{groupements} PP{de NP{femmes}} , principalement )) ;} ;}
178>MAX{178>MAX{- - NP{des tavernes} NP{des tavernes} (( PP{des NP{banlieues}} PP{des NP{banlieues}} )) .} .}
Exemples d’analyse imprécis Exemples d’analyse imprécis
• détecter le ou les phénomène(s) syntaxiques détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrasecomplexes présents dans chaque phrase
• les orienter vers la grammaire spécialisée les orienter vers la grammaire spécialisée correspondantecorrespondante
Buts du module de diagnosticButs du module de diagnostic
• Module fondamental car les traitements Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic syntaxiques suivants dépendent du diagnostic établi ici.établi ici.
(c) Modules spécialisés(c) Modules spécialisés
• Chacun est dedié à l’analyse d’un phénomène Chacun est dedié à l’analyse d’un phénomène spécifique ;spécifique ;
• Une même phrase peut être dirigée à plus d’un Une même phrase peut être dirigée à plus d’un module si elle contient plus d’un phénomène ;module si elle contient plus d’un phénomène ;
• Enumérations, coordinations ambiguës…Enumérations, coordinations ambiguës…
• Titres, listes…Titres, listes…
Rappel architecture Rappel architecture
premier niveaupremier niveau deuxième niveaudeuxième niveau
ChunkingChunking et et TriTri
Modules spécialisésModules spécialisés
Module de ‘diagnostic’Module de ‘diagnostic’
DépendancesDépendances output
input
3.2 Extraction de dépendances3.2 Extraction de dépendances
• Relations syntaxiques entre les mots d’une phrase;Relations syntaxiques entre les mots d’une phrase;
• EntréeEntrée: phrase découpée en constituants;: phrase découpée en constituants;
• SortieSortie: liste de dépendances pour chaque phrase;: liste de dépendances pour chaque phrase;
SUBJ(peuvent,accessoires)
COMP_INF(peuvent,nuire)
VPP(nuire,à,sécurité)
NPP(sécurité,de,conduite)
344>MAX{S{NP{Des accessoires} PNP{mal installés ou mal conçus} FV{peuvent} PFV{IV{nuire} PP{à NP{la sécurité}} PP{de NP{conduite}}} .}}
Extraction de dépendancesExtraction de dépendances
SUBJ SUBJ COMP COMP VN VN VADJ VADJ VPP VPP VAG VAG VADV VADV NN NN NPP NPP NADJ NADJ ADJNADJN
Jean mangeJean mange une pomme une pomme JeanJean mangemange une une pommepomme Jean Jean est pompierest pompier Jean Jean est gentilest gentil Jean Jean vient de Parisvient de Paris Jean estJean est appellé par Paulappellé par Paul JeanJean vient rapidementvient rapidement Jean DupontJean Dupont est gentilest gentilJean mange une Jean mange une pomme du jardinpomme du jardin Jean mange uneJean mange une pomme vertepomme verte Jean craint sesJean craint ses vieux ennemisvieux ennemis
Evaluation des dépendancesEvaluation des dépendances
……sur des phrases de sur des phrases de premier niveaupremier niveau
0
20
40
60
80
100
Version 6 Version 7
Moyennetotale
Moyennerelationsdeterministes
Moyennerelations nondeterministes
Récapitulatif sur l’évaluationRécapitulatif sur l’évaluation
• Couverture minimale = Couverture minimale = 20 %20 %
• Rappel = entre Rappel = entre 97 %97 % et et 100 %100 %
• Précision segmentation = Précision segmentation = 91 %91 %
• Précision moyenne des dépendances = Précision moyenne des dépendances = 91,5 %91,5 %
Grammaire NoyauGrammaire Noyau
4. Conclusions 4. Conclusions
• Analyse syntaxique Analyse syntaxique robusterobuste
• Approche modulaire et adaptativeApproche modulaire et adaptative
• ModularitéModularité linguistiquement motivée: linguistiquement motivée:
étude de la diversité de phénomènes étude de la diversité de phénomènes syntaxiques sur des corpus tout venantssyntaxiques sur des corpus tout venants
• ApprentissageApprentissage symbolique: symbolique:
utilisation de structures analysées avec utilisation de structures analysées avec haute précision pour améliorer le resultat final.haute précision pour améliorer le resultat final.
… … et perspectiveset perspectives
ModularitéModularité
-amélioration du module de diagnostic (en cours)amélioration du module de diagnostic (en cours)
-définition de phénomènes de deuxième niveaudéfinition de phénomènes de deuxième niveau
-création de modules spécialiséscréation de modules spécialisés
AdaptabilitéAdaptabilité
-introduction de stratégie(s) d’apprentissage -introduction de stratégie(s) d’apprentissage symbolique symbolique