Modélisation et reformulation d’expressions temporelles extraites de textes en langage naturel
description
Transcript of Modélisation et reformulation d’expressions temporelles extraites de textes en langage naturel
1
Modélisation et reformulation d’expressions temporelles extraites de
textes en langage naturel
Ce travail est financé par l’Agence Nationale de la Recherche (ANR-Contint, projet RelaxMultiMedias 2)
Cyril Faucher1, Jean-Yves Lafaye1, Frédéric Bertrand1, Charles Teissèdre2,3
1 L3i, Université de La Rochelle, France [email protected]
2 MoDyCo - Université de Paris Ouest Nanterre La Défense – CNRS
3 Mondeca, France
AFADL 2010 - du 9 au 11 juin 2010 – Poitiers Futuroscope10es Journées Francophones Internationales sur les Approches Formelles dans l’Assistance au Développement de Logiciels)
Introduction
Chaîne d’acquisition de connaissances temporelles A partir de textes (dépêches)
Produire une reformulation des informations saisies, dans un langage formel non ambigu, proche du langage naturel initial
=> validation sémantique par l’utilisateur
2
Texte libreEvénements + propriétés temporelles Texte contrôlé
Sous forme de modèles
Plan
1. Contexte et objectifs
2. Workflow générique
3. Modéliser des propriétés temporelles d’événements
4. Acquisition et Modélisation de Connaissances Temporelles : chaîne TKAM
5. Conclusion et perspectives
3
1. Contexte
Notion d’événements Nature des événements: culturels, touristiques Propriétés spatiales et temporelles Récurrence et périodicité
Interopérabilité avec les standards du domaine (presse) IPTC (NewsML, EventsML) iCalendar
42
1. Contexte : utilisation de l’IDM
Utilisation de (Méta-) Modèles pivots pour assurer l’interopérabilité d’applications métier (passerelles entre espaces
techniques) l’intégration de données hétérogènes la vérification de l’intégrité d’instances / d’information
Exemple : transformation / reformulation / intégration
5
Texte Libre
DSL(Domain Specific
Language)
MODELEPIVOT
SGBDR
Texte contrôlé
Ontologie
Langages formels, langages de preuve
Langages de règles
Applications
1. Objectifs
Représenter de manière intégrée des événements et leurs métadonnées
Assurer la persistance dans une base de données / connaissances
Aligner un modèle métier sur des ontologies existantes (donne accès à des raisonneurs, définit une sémantique de manière formelle et structurée)
Formuler des requêtes sur le Modèle Pivot, exécuter dans un autre espace (ex. base de connaissances)
Visualiser des ensembles de données conformes au Modèle Pivot dans des environnements ad hoc (SimileExhibit, Google Agenda, etc)
6
2. Workflow générique
7
Texte Libre
Représentation dans un DSL
Métier : linguistique
Extraction de connaissance
Dépêches
Modèle linguistique : expressions
temporelles pour les périodes d’accès
CU2 : Résolution de requêtes
Rechercher des expressions temporelles
dans les bases
CU1 : PersistanceAssocier des propriétés temporelles aux Events
Modèle pivot
Représentation dans le modèle pivot
Vérification de propriétés structurelle (invariant) et sémantique
Texte contrôlé
Reformulation en langage naturel contrôlé à l’aide d’une grammaire formelle
Obtention de propriétés temporelles valides
3. Modéliser des propriétés temporelles d’événements : Comment ?
Deux types de représentations des occurrences d’événements Concrète : un ensemble (extension) contenant des dates identifiables
dans un calendrier (une granularité est fixée, le calendrier est défini sur une base annuelle)
Extension :
{ …, « de 2010-05-20T14:00:00 à 2010-05-20T16:00:00 »,
« de 2010-05-27T14:00:00 à 2010-05-27T16:00:00 », … }
Abstraite : une formule décrit en intension l’ensemble précédentParticulièrement adapté aux événements périodiques ou pseudo
périodiques (exceptions), et aussi aux événements définis relativement les uns par rapport aux autres
Intension [Carnap] :« tous les jeudis de mai de chaque année de 14h à 16h »
« tous les jours 3 heures avant la basse mer »8
3. Modéliser des propriétés temporelles d’événements : avec quel modèle ?
Modèle métier : DSL Modèle d’accessiblité [Battistelli, Teissèdre] Modèle d’événement : métadonnées sur les événements (IPTC)
spatiales temporelles …
Modèles temporels existants ISO 19108 standard : Time geometry: Instant, Period, Allen’s relations iCalendar format : Periodic interval, Exception (+ periodic exception) TimeML [Pustejovsky], OWL-Time [Pan]
Modèle temporel proposé synthèse de l’ISO et d’iCalendar sous une forme objet position relative (3 heures avant la basse mer) une grammaire formelle
9
3. Modéliser des propriétés temporelles d’événements : Periodic Temporal Occurrence Extension de l’ISO 19108 Basé sur le concept de PeriodicRule
10
Norme ISO 19108
3. Modéliser des propriétés temporelles d’événements : Position relative
Expression relative: 3 heures avant la Basse Mer
Allen’s relations
11
Définition d’un intervalle entre 2 expressions temporelles avec les relations d’Allen
1
L’utilisateur saisie des expressions temporelles avec un éditeur contextuel
Techniques IDM : EMF, xText
3. Un langage textuel contrôlé pour exprimer des propriétés temporelles
12
Vue textuelle
Peuplement
3. Un langage textuel contrôlé pour exprimer des propriétés temporelles
13
PeriodicRule : ('(identified by 'name=ID')')? (frequency=Frequency)? ('using a time span as ' validity+=PeriodicTimeSpan)* ('time extent ' ruleExtent=TM_Period )?;
FreqWithDurationRef : ( (times=INT 'times') | // times is fixed to 1 ('during one' referenceDuration=Duration 'period') | (times=INT 'times during one‘ referenceDuration=Duration 'period') ) ('and starts on' startTime=TM_Instant)?;
Grammar (xText)Temporal Model
4. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM Période d’accès d’un lieu exprimé en intension
Le musée est ouvert tous les jours de 10h à 19h sauf le lundi Le restaurant est fermé les 1ère et 2ème semaines d’avril Le marché est exceptionnellement ouvert les 3ers dimanche de décembre
14
4. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM
15
Métamodèle pivot pour les propriétés
temporelles
DSL des périodes d’accès Grammaire
formelle (xText)
Métamodèle générique pour les
Events
iCalendar
ISO19108Event
extension
Données métier
Instances du modèle pivot
Textes contrôlés
conforme à conforme à conforme à
Solveur de requêtes
Vérification de contraintes structurelle (invariant) et sémantique (modèle de calendrier)
Approche IDM
Texte libre
4. Acquisition et de Modélisation de Connaissances Temporelles : chaîne TKAM
16
Instances du modèle temporel
Instances du modèle linguistique
iCalendar
Texte contrôlé
La chaîne de traitement a été expérimentée sur un
corpus de 513 expressions fournies par RelaxNews Kermeta
Kermeta
Expression saisie : « Ouvert du lundi au vendredi, de 9h à 18h. Nocturne le jeudi jusqu'à 22h. Fermé le 18 mai. »
- du texte en langage naturel au texte contrôlé -
4b. Autre application : couplage d’un SMA avec le modèle temporel
17
SMA : DAHU
Agents pêcheurs
TimeManager
Modèle Temporel
Réponse :
pêche autorisée, interdite ou restreinte
Requête temporelle
Texte réglementaire :“Digging is prohibited each year, from 9 pm to 6 am between July 1st and August 31st. Out of these periods, digging is allowed from 3 hours before low tide up to 3 hours after the same low tide (according to the tide almanac in Douarnenez).”
Faucher C., Tissot C., Lafaye J.Y., Bertrand F., "Benefits of a periodic temporal model for the simulation of human activities", GeoVA(t) (Geospatial Visual Analytics : Focus on Time) Workshop at AGILE 2010, 10-11 May 2010, Guimaraes (Portugal)
5. Conclusions
Chaîne d’acquisition et de modélisation de connaissances temporelles D’un texte en langage naturel vers un texte contrôlé
Un modèle générique d’expressions temporelles pour modéliser des phénomènes périodiques Extension de la norme ISO 19108 Expressions temporelles en intension (à l’inverse d’extension) Grammaire formelle Vérification structurelle et sémantique 2 cas d’utilisations pour expérimenter les approches dont 1 industriel
18
5. Perspectives
Moteur de requêtes en formulant une requête sous forme d’expressions temporelles exprimer et calculer l’intersection de deux expressions sans calculer
leurs extensions Traduire une règle périodique en requête (SQL/SPARQL…) sur la base
de données ou de connaissance Filtrer les nuplets/graphes candidats de la base pour optimiser
l’exécution de la requête
19
20
Modélisation et reformulation d’expressions temporelles extraites de textes en langage naturel
Cyril Faucher1, Jean-Yves Lafaye1, Frédéric Bertrand1, Charles Teissèdre2,3
1 L3i, University of La Rochelle, France [email protected]
2 MoDyCo - Université de Paris Ouest Nanterre La Défense - CNRS
3 Mondeca, France
Merci de votre attention