Označevanje korpusov

24
Označevanje korpusov Korpusi in baze podatkov 2007/2008

description

Označevanje korpusov. Korpusi in baze podatkov 2007/2008. Označevanje. besedil o analiz iramo na določeni jezikovni ravni rezultat analize zapi š emo v korpus, t.j. korpus označimo tak korpus je nato primeren za nadaljno, bolj poglobljeno obravnavo - PowerPoint PPT Presentation

Transcript of Označevanje korpusov

Page 1: Označevanje korpusov

Označevanje korpusov

Korpusi in baze podatkov 2007/2008

Page 2: Označevanje korpusov

Označevanje

besedilo analiziramo na določeni jezikovni ravni rezultat analize zapišemo v korpus, t.j. korpus

označimo tak korpus je nato primeren za nadaljno, bolj

poglobljeno obravnavo ljudje lahko iščejo (tudi) po pripisanih oznakah računalniki lahko oznake uporabijo za nadaljne

procesiranje

Page 3: Označevanje korpusov

Ravni označevanja

označujemo lahko praktično karkoli, kar je koristno za neko aplikacijo

delitev po ravneh jezikoslovne obravnave: oblikoslovje leksika skladnja semantika

primeri: 1. oblikoslovno označevanje2. lematizacija3. označevanje lastnih imen4. prevedba kazalk5. skladenjsko označevanje

Page 4: Označevanje korpusov

Oblikoslovno označevanje

vsaki besedi v besedilu pripišemo njene oblikoslovne lastnosti, npr. samostalnik moškega spola ednine, v orodniku

oblikoslovne lastnosti so odvisne od besedne oblike in njenega konteksta:Hotel[V] je popust pri plačilu računa za hotel[N].

Page 5: Označevanje korpusov

Lematizacija in krnjenje lema besede je njena osnovna oblika, npr.

mize mizahodil hoditinočem ?čl. ?

lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besede

kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:hotela hotel ali hotetisedel sedeti ali sesti

krnenje ohrani samo osnovo besede:hotela, hotelskega, … hotelmize, miza, mizarstvo miz (mizarstv?)

krnenje najprej razvito za angleščino (kjer večinoma lema=krn) krnenje je bolj uporabno za zajemanje in luščenje informacij

(information retrieval and extraction)

Page 6: Označevanje korpusov

Prevedba kazalk

Anaphora resolution: določitev referenta kazalk, npr. The queen is not here yet, but she is expected to arrive soon.

she: anafora; the queen: antecedentV slovenščini dodatni problemi zaradi izpuščanja kazalk:

Pop zvezdnica Madonna je objavila datume svoje prihajajoče turneje “Confessions”. V Evropi bo svoj prvi koncert turneje imela v Cardiffu 30. julija, prav tako bo nastopila…

Page 7: Označevanje korpusov

Skladenjsko označevanje

predavanje 19.5.206 stavke (povedi) označujemo s skadenjskimi relacijami se razmeroma malo uporablja v jezikovnih tehnologijah: preveč

napak, preveč dvoumnosti, prepočasi namesto tega se uporablja plitke metode, npr. “NP chunking”

(samostalniški kosi) kosi so tipično deli stavka, ki vsebujejo eno samo

polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)

Page 8: Označevanje korpusov

Druge oznake

termini pomensko označevanje (glass1, glass2, …)

večjezični korpusi: stavčna poravnava vzporednih korpusov, poravnava prevodnih ekvivalentov

govorjeni korpusi: poravnava transkripcije s signalom

Page 9: Označevanje korpusov

1. Ravni označevanja

2. Označevalne tehnike

3. Oznake korpusa FIDA

Page 10: Označevanje korpusov

Ročno označevanje

s pomočjo urejevalnika ekspert (jezikoslovec) označuje korpus potrebna je natančna definicija “gramatike”, t.j. nabora

dovoljenih kategorij oz. relacij dobrodošlo je preverjanje: formalno, vsebinsko problem posebej akuten, ko je več označevalcev: izdelava

priročnika, vzporedno označevanje za nekatera področja (semantično označevanje) je ujemanje

med različnimi označevalci < 70%

Page 11: Označevanje korpusov

Strojno označevanje

1. z ročno napisanimi pravili2. s strojnim učenjem, na osnovi ročno

označene učne množice3. s strojim učenjem, na osnovi neoznačene

učne množice

(pogosta kombinacija strojnega in ročnega označevanja, v več korakih)

Page 12: Označevanje korpusov

Natančnost in pokritje

[Simulacijski model] [terorističnega delovanja] razvijamo skupaj s partnerjem [Guardiaris za naročnika] [Oddelek za raziskave in

simulacije] na [Ministrstvu za obrambo RS].

dejanski najdenidejanski najdeni

izpuščeni pravilniizpuščeni pravilni napačni napačni

natačnost = pravilni/najdeni x 100%

pokritje = pravilni/dejanski x 100%

natančnost in pokritje sta obratno sorazmerna

mera F = geometrična sredina natančnosti in pokritja

Page 13: Označevanje korpusov

Ročno napisana pravila

programi, ki delajo s pomočjo ročno napisanih pravil (jezikoslovec/računalničar)

programi zahtevajo zelo formalna pravila, omejena glede na izbrano teorijo/formalizem/implementacijo

problemi: pokritje, krhkost, dvoumnost, hitrost

Page 14: Označevanje korpusov

Vodeno učenje

(supervised learning) program se uči na osnovi ročno označenih podatkov

večina programov uporablja statistične metode (maksimizirajo verjetnost)

tudi metode t.i. strojnega učenja:program se uči pravila

prednosti pred statističnimi metodami: pravila so (do neke mere) razumljiva

slabosti: bolj zamudno učenje, mogoče tudi uporaba

primeri: 1. oblikoslovno označevanje2. lematizacija CLOG3. lematizacija RDR

Page 15: Označevanje korpusov

Primer strojnega učenja: lematizacija s CLOG program dobi učno množico za vsako oblikoslovno oznako posebej

(predpostavimo predhodno oblikoslovno označevanje) če je napačna oblikoslovna oznaka, je (mogoče) napačna tudi lema edina informacija, ki jo ima program o besedi, poleg njene oblikoslovne oznake

je njena oblika (končnica) učna množica je sestavljena iz parov besedna oblika/lema:

Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]).

Page 16: Označevanje korpusov

Lematizator RDR Ripple Down Rules: drugačen pristop k učenju odločitvenih

seznamov pravilo RDR:

if -V then 0to0 because of [BRESKEV, POSTAVITEV]except if -HTEV then 0toA because of [ZAHTEV]

ta lematizator ne upošteva oblikoslovnih oznak, pač pa se odloča samo na osnovi končnice: bolje ker je potrebno za lematizacijo manj znanja, s čimer tudi

odpade vir napak slabše ker je znanje o oblikoslovni kategoriji besedne oblike nujno za

dobro lematizacijo:zagledala / zagledati, pedala / pedalo, FIDA+ *edala&~#2s*&~#2g* = 0022490.0000004 “Skratka , eden od mnogih mojih intervjujev v stilu srečnasemkajbisesprenevedala.”

Page 17: Označevanje korpusov

Učenje brez vodenja

strogo statistične metode(Clustering, Maximim Entropy, Minimum Description Length)

primer je identifikacija kolokacij (besednih zvez) poišči vse besede, ki se bolj pogosto kot je običajno pojavljajo

skupaj statistične formule; problem so zelo redke (Šepetalec ubija) in

zelo pogoste besede (je rekel) iskanje kolokatorjev v orodju Wordsmith:

poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besede

Page 18: Označevanje korpusov

Oblikoslovne oznake

oznaka podaja oblikoskladenjsko funkcijo besede v besedilu

oznake najprej razvite za angleščino: glavni problem je ločiti med besednimi vrstami

(run[v] / run[N]) revno oblikoslovje malo različnih oznak, 20

—100

Page 19: Označevanje korpusov

BNC BASIC TAGSET AJ0 Adjective (general or positive) (e.g. good, old, beautiful) AJC Comparative adjective (e.g. better, older) AJS Superlative adjective (e.g. best, oldest) AT0 Article (e.g. the, a, an, no) … CJC Coordinating conjunction (e.g. and, or, but) CJS Subordinating conjunction (e.g. although, when) CJT The subordinating conjunction that CRD Cardinal number (e.g. one, 3, fifty-five, 3609) NN0 Common noun, neutral for number (e.g. aircraft, data) NN1 Singular common noun (e.g. pencil, goose, time) NN2 Plural common noun (e.g. pencils, geese, times) NP0 Proper noun (e.g. London, Michael, Mars, IBM) ORD Ordinal numeral (e.g. first, sixth, 77th, last) …

Page 20: Označevanje korpusov

Nabori oznak za oblikoslovno bogate jezike besedne oblike vsebujejo mnogo več informacije: spol, število,

sklon, živost, določnost primer zaimkov:

osebni, svojilni, povratni… pridevniški, samostalniški 3 števila, 3 spoli, 6 sklonov spol in število “svojine” … > 1000 različnih oznak

pri razdvoumljanju veliko več problemov z oblikoslovnimi podatki kot pa z besedno vrsto

Page 21: Označevanje korpusov

Nabori oznak za slovenščino nabor ZRC SAZU, http://bos.zrc-sazu.si/

+ sledi slovenski slovnici+ okrajšave čim bolj mnemonične + z njim ročno označen velik korpus (1M besed)- nabor oznak ni bil vnaprej določen- oznake razlikujejo nemotivirane kategorije (tipi lastnih imen)- označeni korpus ni dostopen za prenos

nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ + upošteva mednarodne standarde+ oznake je možno mehanično razstavljati + z njim strojno označen velik korpus (FIDA, 100M besed)+ ročno označeni korpus prosto dostopen (100k besed)- izpušča nekatere motivirane kategorije (povedkovnik, besedna vrsta

okrajšave)- skop priročnik

npr. Pže1, E5 proti Afpfsn, Spsl

Page 22: Označevanje korpusov

Nabor slovenskih oznak

v ročno označenem korpusu MULTEXT-East je prisotnih 1023 različnih oznak

v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083

oznake z angleško razlago dostopne v

msd-sl.txt

Page 23: Označevanje korpusov

Lokalizacija

Afcfda = Pkpzdt Afcfda = Adjective qualificative comparative

feminine dual accusative Pkpzdt = Pridevnik kakovostni primernik

ženski dvojina tožilnik

Page 24: Označevanje korpusov

Oznake korpusa FIDA

oznake MULTEXT-East, prevedene v slovenščino se uporabljajo v korpusu FIDA

v FIDA za vsako besedo prisotne vse možne oblike za to besedno obliko

2271 različnih oznak tabela en-sl oznak s slovenskimi razlagami dostopna

na msdFIDA-sl.txt tabela z razlagami je dostopna tudi na straneh FIDA+