Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing.
-
Upload
gerald-doucet -
Category
Documents
-
view
102 -
download
0
Transcript of Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing.
Vers une ontologie du domaine de l’astronomie
IRIT
J. Mothe, N. Hernandez, E. LeMoing
Objectifs
• Concevoir une ontologie du domaine • Évaluer la réutilisabilité de la connaissance du
thesaurus IAU– Détection de concepts– Analyse des relations
• Enrichir cette connaissance à partir de textes– Détection de nouveaux termes– Détection de nouvelles relations
• Intégration avec les UCD
IAU
• Thesaurus (représentation terminologique du domaine de l’astronomie) crée en 1995
• 2863 termes dont 2222 expressions (magnetic field, X ray,…)
• 5000 relations entre termes de plusieurs natures :– t1 BT t2 : terme t2 plus spécifique t1– t1 NT t2 : terme t2 plus générique t1– t1 U t2 : utiliser le terme t1 plutôt le terme t2– t1 UF t2 : utiliser le terme t2 à la place de t1– t1 RT t2 : t1 et t2 sont liés
Recherche termes IAU / CORPUS
• APJ– 1999 : 865 termes retrouvés– 2002 : 877 termes retrouvés
• A&A– 1995 : 832 termes retrouvés– 2002 : 884 termes
• 588 termes communs aux 4 corpus IAU adapté à l’indexation de nos corpus
Détection de concepts
• Relations U (utilisé) et UF (utilisé pour) du thesaurusExemple : hubble sandage variable stars UF H S variable
stars
• Regroupement automatique des termes sous même concepts (label principal = terme recommandé à utiliser)Exemple: concept : hubble sandage variable stars
label 2 : H S variable stars
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• 2959 termes dans le thesaurus 2547 concepts ayant entre 1 et 6 labels
• Problèmes posés après première validation:• Casse non-respectée
reprise de la casse de IAU (assez satisfaisant)
Ex : Ae STARS
E CORONA
e component
Détection de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Labels ambiguës (définissant plusieurs concepts) harmonic overtones est label overtones est label des
des concepts : concepts:HARMONIC FREQUENCIES OVERTONE FREQUENCIES
OVERTONE FREQUENCIES OVERTONE MODES
isolés et à valider individuellement
• Concepts ou labels trop éloignés de l’astronomieCONCEPT : AZIMUTH
bearing
Détection de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Besoin :Définir une procédure d’évaluation
• Evaluer labels correspondant à plusieurs concepts
• Evaluer concepts ayant plusieurs labels
• Evaluer concepts ayant un seul labelPertinence ou non par rapport au domaineTout le domaine ??
Détection de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Relation BT/NT définie comme relation de généricité/spécificitéCréation d’une hiérarchisation
• Problème redondance dans relations
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
suppression de 193 cycles
• Au premier niveau : 1132 concepts
Difficulté pour la navigation dans l’ontologie
Type des concepts
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Nouveau niveau hiérarchique à partir du patron : m1s1 / m1s2 m2s2 où m1s1=m2s2
Exemples : CURVES :CURVES OF GROWTH- VELOCITY CURVES- HD CURVE-
COLOR (dans onto) : INTRINSIC COLORS- ULTRAVIOLET COLORS-
1132 682 concepts
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Concepts actuellement de niveau 1
Concept plus spécifique présent dans l’ontologie
Concept plus spécifique proposé à ajouter
• Niveau plus abstrait à partir de wordnet + ressources
Sur les 682 concepts de premier niveau 189 ne sont pas dans wordnet
9 types abstraits :
act#n#2 : 140 abstraction#n#6 : 225state#n#4 : 41psychological_feature#n#1 : 113entity#n#1 : 368 possession#n#2 :
6phenomenon#n#1 : 105 group#n#1 : 39event#n#1 : 55
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• act#n#2 : something that people do or cause to happen
EX : APPROXIMATION -FRAGMENTATION -EXPLOSION -RETARDATION
• state#n#4 : the way something is with respect to its main attributes; "the current state of knowledge"; "his state of health"; "in a weak financial state"
EX : PRESSURE -PLANE -IONIZATION -DESTRUCTION
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• psychological_feature#n#1 : a feature of the mental life of a living organism
EX :SEEING – WAVELENGTH- PHOTOCHEMISTRY • entity#n#1 :that which is perceived or known or inferred to have its own distinct existence (living or nonliving)
EX : BEAM -THERMOSPHERE -CORE -BELT • possession#n#2 :anything owned or possessedEX : ADJUSTMENT -RATES -EFFECTS
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• abstraction#n#6 : a general concept formed by extracting common features from specific examples
EX PROMINENCE -SOLSTICE -EPOCH -GAP • phenomenon#n#1 :any state or process known through the senses rather than by intuition or reasoning
EX JETS -GRAVITATION -radioactivity -TRANSPARENCY
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• group#n#1 : any number of entities (members) considered as a unit
EX : SYSTEM -INTERIOR -CLOUD -BETA• event#n#1 : something that happens at a given place and time
EX : VARIATION -ENCOUNTER - TIDE –DISSIPATION
trop vague
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Utilisation de ressources du domaine (dictionnaire) ?
http://www.enchantedlearning.com/subjects/astronomy/http://imagine.gsfc.nasa.gov/docs/dictionary.html
faible couverture du domaine (environ 300 définition)
• Définir manuellement
=> utiliser pour concepts hors WordNet
Hiérarchie de concepts
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Analyses des relations RT
• Analyse syntaxiqueAnalyse des mots communs de deux syntagmes
reliés par RT
• Analyse par le logiciel SyntexAnalyse du contexte dans lequel apparaissent deux syntagmes reliés par RT, dans un corpus
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Analyses des relations RT
• 5975 relations RT287 liant syntagmes différant d’un seul mot Exemple : infrared radiation RT infrared
1286 liant syntagmes comportant mot communExemple : absorption spectra RT energy spectra
Autres ? À partir des corpus (Syntex)
Exemple : agb RT hr diagram :
A&A95 agb star, hr diagram of star
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Analyse des relations RT
• Définition de quatre patrons syntaxiques :
Rôle grammatical des termes communs dans le syntagme pour découvrir relations sémantiques
Exemple : Patron B - m1s1 RT m1s2 m2s2
- s1 « est un » s2 (généricité/spécificité)
Exemple : dwarf cepheid « est un » cepheid
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Syntex
Intérêt : analyse syntagmes reliés par RT sans mot commun à partir de contextes d ’apparition dans le corpus
• Syntagmes reliés par RT avec contexte commun, détermination de la relation sémantique à partir des patrons A,B,C,D
• Syntagmes reliés par RT dont un des mots apparaît dans le contexte de l’autre syntagme, détermination de la relation sémantique à partir des patrons A,B,C,D
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Types de relation
• Bilan de la première proposition:s1 « est un phénomène lié a » s2
s1 « est une caractéristique de » s2
s1 « est une partie de » s2
s1 « est un » s2 (généricité/spécificité)
s1 et s2 sont des phénomènes liés entre eux
s1 et s2 sont des caractéristiques liées entre elles
s1 et s2 sont deux sous-concepts d’un même concept
relations intéressantes?
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Types de relation
• Autres approches :– Utiliser les verbes apparaissant dans le corpus
• Verbes apparaissant fréquemment :
trop généraux car liés à la rédaction de publication find show Present have observe use
• Verbes avec fort tf.idf :
Mauvaise reconnaissance de syntex
Mirror eclipse s vector
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Types de relation
– Utiliser le type des concepts
Physical phenomena : « causer par » …
Physical process : « fait interagir »..
Astronomical instrumentation : « mesure » …
Astronomical/physical technics : « étudie » …
Astronomical object : « est une partie de » …
Property/caracteristic : « caractèrise » …
Theory
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Détection de nouveaux termes du domaine– Termes apparaissant souvent dans le corpus– Termes avec fort tf.idf ou fort tf.idf moyen– Syntagmes contenant un terme de l’ontologie
évaluer pour fixer seuil et meilleure approche
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
• Limites :– Mauvaise reconnaissance de Syntex (x ray, a
star, …)Besoin d’un fichier en entrée de Syntex des
termes ayant une structure propre au domaine, proposition d’une liste (évaluée)
– Pour approche à partir des termes de l’ontologie, être certain de la pertinence des termes
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Futur
• Proposition de typage des concepts
• Nouvelles analyses de Syntex
• Nouvelles analyses des relations RT
• Approfondir ajout de nouveaux termes et leurs liens avec l’existant
• Lien avec UCD
Termes différant d’un seul mot (2)
Relations sémantiques déduites :
• Patron A : m1s1 RT m1s2 m2s2
- s1 « est un phénomène lié a » s2 Exemple : infrared radiation « est un phénomène lié a »
infrared
- s1 « est une caractéristique de » s2Exemple : pulse width « est une caractéristique » de pulse
- s1 « est une partie de » s2 Exemple : supernova envelope « est une partie de »
supernova
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Termes différant d’un seul mot (3)
• Patron B : m1s1 RT m1s2 m2s2
- s1 « est un » s2 (généricité/spécificité)
Exemple : dwarf cepheid « est un » cepheid
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Termes ayant un mot commun
Deux patrons syntaxiques:
– m1s1 m2s1 …mns1 RT m1s2 m2s2… m2sn
où m1s1 = m1s2 (patron C)Exemple : planck black body formula RT planck constant 590 relations
– m1s1 ... mns1 RT m1s2.. mns2 (patron D)
où mns1=mns2
Exemple : absorption spectra RT energy spectra
510 relations
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Termes ayant un mot commun (2)
Relations sémantiques déduites :• Patron C : m1s1 m2s1 …mns1 RT m1s1 m2s2… m2sn
- s1 et s2 sont des phénomènes liés entre eux
Exemple : signal analysi RT signal detection
- s1 et s2 sont des caractéristiques liées entre elle
Exemple : circumstellar envelope RT circumstellar shell
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU
Termes ayant un mot commun (3)
• Patron D m1s1 ... mns1 RT m1s2.. mns2
– s1 et s2 sont deux sous-concepts du concept mns1
Exemple : absorption spectra et energy spectra sont des sous-concepts de spectra
Nouvelle connaissance extraite des corpus
Connaissance extraite de IAU