Post on 01-Jan-2016
description
En dansk semantisk ordbog og dens anvendelse til
indholdsbaseret søgning
Bolette Sandford PedersenCenter for Sprogteknologi
Rosendal 6. september 2002
Indhold
1. lektion Introduktion til SIMPLE SIMPLE-øvelse
2. lektion Indholdsbaseret søgning (OntoQuery)
Hvorfor skal der være semantik i en sprogteknologisk ordbog ?Niveau 1: f.eks. maskinoversættelse kræver
at maskinen kan entydiggøre ord som kan betyde flere ting:
Kosten var velsmagende
tiden går
Semantik
Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord:Søgeudtryk: støtte til solvarmeFinde tekster med: tilskud til energibesparende foranstaltning
støtte og tilskud er synonymersolvarme er underbegreb til energibesparende foranstaltning
Semantik
Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog:
Hans dansede med sin borddame
For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.
Hvor står semantikken i almindelige ordbøger?
NUDANSK ORDBOG:PuslespilORDKLASSE: subst.
BØJNING: puslespillet, plur. puslespil, puslespilleneBETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleEKSEMPEL: lægge puslespil på 2.000 brikkerSAMMENSÆTNING: puslespilsbrik
Om SIMPLE
SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000
Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica)
10.000 betydninger for hvert sprog på basis af en fælles ontologi, SIMPLE-
ontologien (Lenci et al. 2001)
SIMPLE-Ontologien
SIMPLE-ontologien udgør det semantiske typesystem som er det begrebsmæssige udgangspunkt for alle de 12 ordbøger
Qualia Structure (cf. Pustejovsky, 1995) WordNets klassifikation (cf. Miller and Fellbaum,
1991) http://www.cogsci.princeton.edu/cgi-bin/webwn1.7.1
EuroWordNets klassifikation (cf. Vossen et al, 1998) Levins verbalklassifikation (1993)
Ords interne kompleksitet
Grundlæggende antagelse i SIMPLE: ord varierer mht. intern kompleksitet. Dette kan forstås på to måder:
hvor mange betydningsdimensioner associerer vi til et ord ? (en lækker kage, en blommekage, en nem kage)
hvor mange betydninger har ordet ? universitet_1 (building), universitet_2 (human group)
Mange betydningsdimensioner kan udtrykkes vha. Qualia Structure Qualia Structure udgør en
repræsentationsmodel for den kompositionelle del af ords betydning idet den kan udtrykke
forskellige kompleksitetsgrader i ord og danne basis for inferensregler (e.g. en nem kage => nem at tilberede/bageen lækker kage => lækker at spise)
De fire qualia-roller
formal role: typisk ‘is_a’-relation agentive role: oprindelse, typisk
‘created_by’-relation telic role: formål, typisk ‘used_for’-
relation constitutive role: intern struktur, typisk
‘part_of’-relation
Simple typer
basiskategorier som er monodimensionelle
som kan beskrives alene ved hjælp af en flad taksonomi
organiseret alene ud fra hyponymirelationer
eksempler: himmel, bakke, blomst, søster (typisk natural kinds, Cruse ‘93)
Flerdimensionelle typer
flerdimensionelle typer har mere end en overtype
MEN unified types bygger på en simpel type og får tilføjet en agentiv eller telisk dimension (f.eks. cykel, læge, pandekage)
ortogonal nedarvning beriger den traditionelle nedarvning ved hjælp af semantiske relationer (indarbejdet i Qualia Structure)
Komplekse typer
i Pustejovsky 1995 anvendes såkaldte ‘complex types’ - komplekse typer - til at angive underspecificerede betydninger med systematisk polysemi (også kaldet dotted types eg. universitet som building.humangroup)
i SIMPLE angives komplekse typer ved at tillade at to semantiske typer er forbundne via trækket complex
Systematisk polysemi
klasser af systematisk polysemi:
beholder/kvantitet ‘kop’ dyr/mad ‘lam’ genstand/åbning ‘dør’ handling/resultat ‘bygning’ sted/folk ‘Danmark’
puslespil som flerdimensionel type
et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleoverbegreb dele formål oprindelse
spil træbrikker samles til et hele udskære
papbrikker
puslespil
En ordbogsindgang med semantik Semantic Unit puslespil
Definition: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO)
Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske
Ontological type:Artifact
Unification Path Concrete_Entity|Agentive|Telic
Domain: General
Formal quale: is_a = spil
Agentive quale: created_by = udskære
Telic quale: used_for = samle til et hele
Constitutive quale:has_as_parts=træbrikker OR papbrikker
Semantisk verbalbeskrivelse i SIMPLE-modellenDe 59 semantiske verbalklasser i SIMPLE er
et kompromis imellem: Beth Levins 234 verbalklasser Wordnets 15 klasser3 kriterier er blevet anvendt: event type (tilstand, proces, transition) argumentstruktur (aritet og type) kausativitet vs. dekausativitet (bolden
ruller/jeg ruller bolden)
Verbalontologien
Phenomenon (regnvejr, influenza)Aspectual (begynde, afslutte) State (udgøre, være)
Event Act (handle, tale, løbe)Psychological Event (tænke, vide)Change (tiltage, dø)Cause Change (dræbe, flytte)
Semantisk repræsentation af ’gå’
Semanticunit:
gå_MOV (walk - move reading)
Definition: komme frem ved at sætte den ene fod foran den anden(Nudansk Ordbog)’proceed by putting one foot in front of the other’
Corpusexample:
Vi skal gå hen til telefaxen , vente mens den kalder op osv.’we have to walk over to the fax machine, wait while itmakes the call etc.’
Semantictype:
Move
Sem.Supertype:
Act
Event type: ProcessDomain: GeneralPredicativerep:
ARG1 (DIR)
Selectionalrestrictions:
ARG1= Human OR Animal DIR= Concrete
Formalquale:
isa = bevæge sig (move)
Agentivequale:
Nil
Telic quale: NilConstitutivequale:
Manner = yes
SystematicPolysemy:
Nil
Synonymy: Nil
Dilemmaer mht. verbernes kodnningProblematiske konstruktionstyper i dansk:
partikelverber (gå ud, vaske op, slå op, stå af (bussen))
ægte refleksive verber (undre sig, brokke sig, korse dig)
inkorporering (gå til bageren, gå til klaver, spise fisk)
Problemer ved informationssøgning - kort fortalt
for mange informationer: ord kan betyde flere ting; de er flertydige ca. 23 % af alle ord der søges på er flertydige; ca. 10% af alle navne der søges på er
flertydige) Torkildsen, Holen og Johannessen 2000
for få informationer: vi har flere ord for de samme begreber,
synonymer og synonyme udtryk
Problemer ved informationssøgning
vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant
vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen
begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden
Sproglig viden til informationssøgning
sproglige problemer på basisniveau vi har mere eller mindre den sproglige viden
- også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer
sproglige problemer der kræver mere indholdsmæssig viden
de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold
Sproglige problemer på basisniveau
ordene kan antage flere former orlovsordninger, orlovsordningen,
orlovsordningernereduktion til grundformer (lemmatisering)
kan afhjælpe dette problem simpel flertydighed: ordene kan tilhøre
forskellige ordklasserklager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemetefter tagging: klager/N over/PRÆP læger/N
Sproglige problemer der kræver mere indholdsmæssig viden
flertydighed inden for samme ordklassevitaminrig kost/ fejekost - madflere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: domæneviden hvis vi kender domænet, kan vi vælge viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge
kost og sygdomme
klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N
begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden
sproglige problemer på basisniveau sproglige problemer der kræver indholdsmæssig viden
Sproglige problemer der kræver mere indholdsmæssig viden
synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater
forældreorlov - børnepasningsorlovstøtte - tilskud / computer - datamat /
diabetes - sukkersyge
anvendelse af synonymiordbog kan afhjælpe problemet
Ontologisk viden
underbegreber kan være relevantevitaminer har_som_underbegreber
k-vitamin, c-vitamin, d-vitamin, thiamin
overbegreber kan være relevante solvarme har_som_overbegreb
energibevarende foranstaltning
Ontologisk viden er central
ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold
den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet:
søgeudtryk: sygdomtekst1: sygdom tekst2: kræft tekst3: lungekræft
Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml.
søgeordene men ikke på relationerneforespørgsel: hvilke sygdomme har at gøre med
mangel på vitamin i kosten ?googlesvar: alkoholforbrug og mangel på
fysisk aktivitet ... hvordan kosten er sammensat
kilde: Paggio, Pedersen & Haltrup (forthcoming)
SIMPLEs anvendelse i indholdsbaseret søgning
OntoQuery: Ontology-based QueryingEt dansk samarbejdsprojekt 1999-2004Partnere:
Roskilde Universitet
Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi
Formålet med OntoQuery- projektet
At udvikle en metode til indholdsbaseret søgning at gå videre end mønstergenkendelse ved at lave en
‘rå’ lingvistisk analyse på baggrund af en ontologi der produceres en ‘rå’ semantisk analyse af tekst og
af forespørgsel søgning foregår ved at sammenligne beskrivelser of
finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne
SystemOverview
Description Generator
Textfragment
Query
Lexicons
Ontology
Linguistic Analysis
Mapping to description
Text database
Query Engine
OntoLog descriptions
Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. materialkanin
kød mad
Substance Food Food
Telic Top Concrete entity Entity
Top
Ernæringsontologien lavet på baggrund af Den Store Danske
Encyklopædi enkelte knuder er etableret for at strukturere
ontologien,f.eks. stof-i-krop ernæringsontologien er organiseret under 2
forskellige knuder i SIMPLE-ontologien
Eksempel fra ernæringsontologien A-vitamin
fedtopløseligt vitamin vitamin
mikronæringsstofnæringsstof
Natural SubstanceSubstance
Concrete entity
Entity Top
Anvendelse af ontologien:analyse af tekst og forespørgslerTekster og forespørgsler (NP’er) analyseres
mangel på vitaminer i kosten
(mangel x (WRT: vitamin) x (LOC: diet))
De lingvistiske analysekomponenterDer bygges begrebsrepræsentationer på basis af: POS-tagging NP-genkendelse semantisk parsing
Lingvistiske komponenter
POS-Tagger
NP recogniser
NP parser
Hvilke sygdomme har at gøre med mangel på vitaminer i kosten?
hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN
[NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten].
P
Sem:
... NP
N
N
NP
PP
PP
CONCEPT mangel
REL wrt REL loc
ARG vitamin ARG kost
Mapping to Descriptions
(mangel x (WRT: vitamin) x (LOC: kost))
Test af 1. prototype
O n t o Q u e r y P r o t o t y p e N e w q u e r y
T a g g e r fi n a l s t a t e : f e d t d e p o t e r / N h o s / P R Æ P b ø r n / NN P - r e c o g n i z e r :[ N P [ N f e d t d e p o t e r ] ] [ P R Æ P h o s ] [ N P [ N b ø r n ] ]Q u e r y : f e d t d e p o t e r h o s b ø r n( f e d t d e p o t ) , ( b a r n )T a g g e r , N P a n d m o r f o l o g y : 0 . 2 9 0 0 0 0 s e cQ u e r y e x p a n s i o n : 0 . 0 3 0 0 0 0 s e cQ u e r y e v a l u a t i o n : 0 . 0 2 0 0 0 0 s e cQ u e r y p r o c e s s i n g t o t a l l y : 0 . 3 4 0 0 0 0 s e c
0 . 9 5 b ø r n e e r n æ r i n g : M a n g e s p æ d b ø r n e r b u t t e d em e d s t o r e f e d t d e p o t e r , m e n m i s t e r d e m , f ø r d e e r 2 -3 å r g a m l e .( å r ) , ( m a n g e , s p æ d b a r n ) , ( s t o r , f e d t d e p o t )
N e w q u e r y
Test af 1. prototype
Query Sets of derived concepts1. hvad har sygdomme med vitaminer atgøre ? (what have diseases got to dowith vitamins ?)
(sygdom), (vitamin)(disease), (vitamin)
2. hvordan relatererhormonforstyrrelser sig til andresygdomme ? (how do hormonedisturbances relate to other diseases ?)
(hormonforstyrrelse), (sygdom)(hormone disturbance), (disease)
3. er der b-vitaminer i kornprodukter ?(is there vitamin B in corn products ?)
(b-vitamin), (kornprodukt)(vitamin B), (corn product)
4. sygdomme der følger af ensidig kostog har at gøre med tryptofan (diseasesfollowing from an unbalanced diet andrelated to tryptofan)
(sygdom), (ensidig kost), (tryptofan)(disease), (unbalanced diet),(tryptofan)
Test af 1. prototypeQuerynumber
matching concepts in text assigned score number ofretrieved texts
1 (sygdom), (vitamin)(disease), (vitamin)(sygdom), (B-vitamin)(disease),(vitamin B)(anæmi),(vitamin)(anemia), (vitamin)(mangelsygdom), (vitamin)(deficiency disease), (vitamin)(beriberi), (B-vitamin)(beri-beri), (vitamin B)(vitamin)(vitamin)(sygdom)(disease)(følgesygdom)(complication)...
1.00
0.95
0.95
0.95
0.90
0.50
0.50
0.45
...
2
1
1
2
1
22
23
5
2 (hormonforstyrrelse), (kræft)(hormone disturbance),(cancer)(sygdom)(disease)(mangelsygdom)(deficiency disease)...
0.95
0.50
0.45...
1
23
8
OntoQuerys hypotese:
Hvis vi kan identificere den semantiske relation der
holder mellem 2 begreber kan vi prioritere gode
hits bedre og vi kan genkende det samme eller
lignende begreber i forskellig forklædning, f.eks.
overvægtige børn, børn med overvægt, fede børn
børn med fedmeproblemer, børn der har
fedmeproblemer
Videre brug af SIMPLE til beregning af relationer
en temporær relation TMP tager ofte SIMPLE-typen
TIME (og så fremdeles):
behandling udover 6 måneder
børn i 1-2-årsalderen
mangelfuld ernæring gennem længere tid
Videre brug af SIMPLE til beregning af relationer
Anvendelse af selektionsrestriktioner
behandling af børn med overvægt• ønsket beskrivelse: (behandling x (PTN:(børn) x (CHR: overvægt)))• uønsket beskrivelse (behandling x (PTN:(børn)) x (BMO: overvægt))
Anvendelse af Qualia Structuredepoter af vitaminer (depots of vitamins)• ønsket beskrivelse:
(depot x (CON: vitaminer))
telisk role for depot er at det kan indeholde noget
Entydiggørelse: Qualia Structure
• kanin_SUBSTANCE_FOOD
formal kød (meat)
telic føde (food)
agentive tilberedning (cooking)
Agentive role i ‘mad’-læsning
Luk maven med kødnåle og steg <kaninen> i ovnen ca. 11/2 time 2 timer
Bag <kaninen> i ovnen og hæld lagen over kødet med jævne mellemrum
Hak indmaden af <kaninen> og bland det med det hakkede kalvekød