Označevanje korpusov PNG Slovenistika II. letnik 2006

36
Označevanje korpusov PNG Slovenistika II. letnik 2006 7.4.2006 7.4.2006

description

Označevanje korpusov PNG Slovenistika II. letnik 2006. 7.4.2006. Pregled predavanja. Ravni označevanja Označevalne tehnike Oznake korpusa FIDA. Označevanje. besedil o lahko analiz iramo na določeni jezikovni ravni rezultat analize zapišemo v korpus, t.j. korpus označimo - PowerPoint PPT Presentation

Transcript of Označevanje korpusov PNG Slovenistika II. letnik 2006

Page 1: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Označevanje korpusov

PNG SlovenistikaII. letnik 2006

7.4.20067.4.2006

Page 2: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Pregled predavanja1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA

Page 3: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Označevanje besedilbesedilo lahko o lahko analizanaliziramoiramo na določeni na določeni

jezikovni ravnijezikovni ravni rezultat analize zapišemo v korpus, t.j. rezultat analize zapišemo v korpus, t.j.

korpus označimokorpus označimo tak korpus je nato primeren za nadaljno, tak korpus je nato primeren za nadaljno,

bolj poglobljeno obravnavobolj poglobljeno obravnavo ljudje lahko iščejo (tudi) po pripisanih ljudje lahko iščejo (tudi) po pripisanih

oznakahoznakah računalniki lahko oznake uporabijo za računalniki lahko oznake uporabijo za

nadaljne procesiranjnadaljne procesiranjee

Page 4: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Ravni označevanja označujemo lahko praktično karkoli označujemo lahko praktično karkoli

kar je koristno za neko aplikacijokar je koristno za neko aplikacijo delitev po ravneh jezikoslovne delitev po ravneh jezikoslovne

obravnave:obravnave: oblikoslovjeoblikoslovje leksikaleksika skladnjaskladnja semantikasemantika

Page 5: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Oblikoslovno označevanje vsaki besedi v besedilu pripišemo njene vsaki besedi v besedilu pripišemo njene

oblikoslovne lastnosti, npr. samostalnik oblikoslovne lastnosti, npr. samostalnik moškega spola edinine, v orodnikumoškega spola edinine, v orodniku

oblikoslovne oblikoslovne lastnosti solastnosti so odvisn odvisnee od od besedne oblike in njenega konteksta:besedne oblike in njenega konteksta:HotelHotel[V][V] je popust pri plačilu računa za je popust pri plačilu računa za hotelhotel[N][N]..

Page 6: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Lematizacija in krnjenje lema besede je njena osnovna oblika, npr. lema besede je njena osnovna oblika, npr.

mize mize miza mizahodil hodil hoditi hoditinočem nočem ? ?čl.čl. ? ?

lema nima jezikoslovnega pomena, pač pa je lema nima jezikoslovnega pomena, pač pa je konvencionalna neoznačena oblika besedekonvencionalna neoznačena oblika besede

kot pri oblikoslovnem označevanju, je lema določena kot pri oblikoslovnem označevanju, je lema določena šele skozi kontekst:šele skozi kontekst:hotela hotela hotel hotel ali ali hotetihotetisedel sedel sedeti sedeti ali ali sestisesti

krnenje ohrani samo osnovo besede:krnenje ohrani samo osnovo besede:hotela, hotelskega, … hotela, hotelskega, … hotel hotelmize, miza, mizarstvo mize, miza, mizarstvo miz (mizarstv?) miz (mizarstv?)

krnenje najprej razvito za angleščino (kjer večinoma krnenje najprej razvito za angleščino (kjer večinoma lema=krn)lema=krn)

krnenje je bolj uporabno za zajemanje in luščenje krnenje je bolj uporabno za zajemanje in luščenje informacij (information retrieval and extraction) informacij (information retrieval and extraction)

Page 7: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Luščenje poimenovanih entitetNamed Entity Extraction: identifikacija in Named Entity Extraction: identifikacija in

kategorizacija fraz, ki označujejo “entitete”kategorizacija fraz, ki označujejo “entitete” lastna imena: ljudje, organizacije, geografska lastna imena: ljudje, organizacije, geografska

imena (mesta, države, reke,…)imena (mesta, države, reke,…) številskih izrazi (številskih izrazi (22.320,34; 22,320.34; dvajset22.320,34; 22,320.34; dvajset)) količinekoličine::

procentiprocenti ( (%, procentov%, procentov)), valute, valute ( (SIT, $SIT, $)), teža, teža (kg, (kg, mm22) )

datumi in časidatumi in časi: : 22 januarja, 45 n.š., 23:14, 11PM22 januarja, 45 n.š., 23:14, 11PM naslovinaslovi:: poštni, email, www poštni, email, www tudi imena zdravil, genov, ladij, bibliografske tudi imena zdravil, genov, ladij, bibliografske

enote, …enote, …

Page 8: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Kje se uporabljajo izredno pomembno za zajemanje izredno pomembno za zajemanje

in luščenje informacij (Information in luščenje informacij (Information Retrieval and Extraction): kdo, kaj, Retrieval and Extraction): kdo, kaj, kje, kdaj, kolikokje, kdaj, koliko

tekmovanje MUC-7 (Message tekmovanje MUC-7 (Message Understanding Conferences, 1997, Understanding Conferences, 1997, ZDA)ZDA)

Page 9: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer uporabe: sledenje po entitetah in ontologiji: http://www.ontotext.com/kim

Page 10: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Problemi pri identifikaciji variacije: variacije: John Smith, Mr Smith, JohnJohn Smith, Mr Smith, John dvoumnost: dvoumnost:

John Smith John Smith (podjetje ali oseba)(podjetje ali oseba) May (oseba ali mesec) May (oseba ali mesec) Washington (oseba ali kraj) Washington (oseba ali kraj) 1945 (datum ali čas) 1945 (datum ali čas)

dvoumnost z navadnimi besedamidvoumnost z navadnimi besedami

Page 11: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Prevedba kazalkAnaphora resolution: določitev referenta Anaphora resolution: določitev referenta

kazalk, npr. kazalk, npr. TThe queenhe queen is not here yet, but is not here yet, but sheshe is expected to arrive soon. is expected to arrive soon.

she:she: anafora; anafora; the queen: the queen: antecedentantecedentV slovenščini dodatni problemi zaradi V slovenščini dodatni problemi zaradi

izpuščanja kazalk:izpuščanja kazalk:Pop zvezdnica Pop zvezdnica Madonna Madonna je objavila datume je objavila datume svoje prihajajoče turneje “Confessions”. V svoje prihajajoče turneje “Confessions”. V Evropi bo Evropi bo svojsvoj prvi koncert turneje imela v prvi koncert turneje imela v Cardiffu 30. julija, prav tako Cardiffu 30. julija, prav tako bo nastopilabo nastopila… …

Page 12: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Skladenjsko označevanje predavanje 19.5.206predavanje 19.5.206 stavke (povedi) označujemo s skadenjskimi stavke (povedi) označujemo s skadenjskimi

relacijamirelacijami se razmeroma malo uporablja v jezikovnih se razmeroma malo uporablja v jezikovnih

tehnologijah: preveč napak, preveč dvoumnosti, tehnologijah: preveč napak, preveč dvoumnosti, prepočasiprepočasi

namesto tega se uporablja plitke metode, npr. namesto tega se uporablja plitke metode, npr. “NP chunking” (samostalniški kosi)“NP chunking” (samostalniški kosi)

kosi so tipično deli stavka, ki vsebujejo eno samo polnopomensko besedo, obkroženo s funkcijskimi besedicami, ki spadajo k njej in tvorijo nespremenljiv vzorec. (Abney, 1991)

Page 13: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Druge oznake terminitermini pomensko označevanje pomensko označevanje (glass(glass11, glass, glass22, …) , …) večjezični korpusi: večjezični korpusi: stavčna poravnava stavčna poravnava

vzporednih korpusovvzporednih korpusov, , poravnava poravnava prevodnih ekvivalentovprevodnih ekvivalentov

govorjeni korpusi: poravnava transkripcije govorjeni korpusi: poravnava transkripcije s signaloms signalom

……

Page 14: Označevanje korpusov PNG  Slovenistika II. letnik 2006

1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA

Page 15: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Ročno označevanje s pomočjo urejevalnika ekspert (jezikoslovec) s pomočjo urejevalnika ekspert (jezikoslovec)

označuje korpusoznačuje korpus potrebna je natančna definicija “gramatike”, potrebna je natančna definicija “gramatike”,

t.j. nabora dovoljenih kategorij oz. relacij t.j. nabora dovoljenih kategorij oz. relacij dobrodošlo je preverjanje: formalno, vsebinskodobrodošlo je preverjanje: formalno, vsebinsko problem posebej akuten, ko je več problem posebej akuten, ko je več

označevalcev: izdelava priročnika, vzporedno označevalcev: izdelava priročnika, vzporedno označevanjeoznačevanje

za nekatera področja (semantično za nekatera področja (semantično označevanje) je ujemanje med različnimi označevanje) je ujemanje med različnimi označevalci < 70%označevalci < 70%

Page 16: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Strojno označevanje1.1. z ročno napisanimi praviliz ročno napisanimi pravili2.2. s strojnim učenjem, na osnovi s strojnim učenjem, na osnovi

ročno označene učne množiceročno označene učne množice3.3. s strojim učenjem, na osnovi s strojim učenjem, na osnovi

neoznačene učne množiceneoznačene učne množice

Page 17: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Natančnost in pokritje[Simulacijski model][Simulacijski model] [terorističnega delovanja][terorističnega delovanja] razvijamo skupaj s partnerjem razvijamo skupaj s partnerjem [Guardiaris za [Guardiaris za naročnika]naročnika] [Oddelek za raziskave in simulacije[Oddelek za raziskave in simulacije] ] na na [Ministrstvu za obrambo RS][Ministrstvu za obrambo RS]..

dejanski najdenidejanski najdeni

izpuščeni pravilniizpuščeni pravilni napačni napačni

natačnost = pravilni/najdeni x 100%

pokritje = pravilni/dejanski x 100%

natančnost in pokritje sta obratno sorazmerna

mera F = geometrična sredina natančnosti in pokritja

Page 18: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Ročno napisana pravila programi, ki delajo s pomočjo ročno programi, ki delajo s pomočjo ročno

napisanih pravil napisanih pravil (jezikoslovec/računalničar)(jezikoslovec/računalničar)

programi zahtevajo zelo formalna programi zahtevajo zelo formalna pravila, omejena glede na izbrano pravila, omejena glede na izbrano teorijo/formalizem/implementacijoteorijo/formalizem/implementacijo

problemi: problemi: pokritje, krhkost, dvoumnost, hitrostpokritje, krhkost, dvoumnost, hitrost

Page 19: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Vodeno učenje (supervised learning) (supervised learning) program se uči na program se uči na

osnovi ročno označenih podatkovosnovi ročno označenih podatkov večina programov uporablja statistične večina programov uporablja statistične

metode (maksimizirajo verjetnost)metode (maksimizirajo verjetnost) tudi tudi metode t.i. strojnega učenja:metode t.i. strojnega učenja:

program se uči pravila program se uči pravila prednostiprednosti pred statističnimi metodami pred statističnimi metodami: :

pravila so (do neke mere) razumljivapravila so (do neke mere) razumljiva slabostslabostii: :

bolj zamudno učenje, mogoče tudi bolj zamudno učenje, mogoče tudi uporabauporaba

Page 20: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer statističnega označevanja: oblikoslovno označevanjePProgram TnT (Trigrams and tags):rogram TnT (Trigrams and tags):iščeišče Vmip3s--nVmip3s--nnajboljnajbolj RgsRgsverjetnoverjetno AfpnsnAfpnsnzaporedjezaporedje NcnsnNcnsnoblikoslovnihoblikoslovnih AfpfpgAfpfpgoznakoznak NcfpgNcfpggledeglede RgpRgpnana SpsaSpsabesedebesede NcfpaNcfpa

Page 21: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Delovanje n-gramskih označevalnikovDva vira znanja, naučena iz označenega korpusa:Dva vira znanja, naučena iz označenega korpusa: leksikon: kaj so možne oblikoslovne oznake leksikon: kaj so možne oblikoslovne oznake

neke besede?neke besede?besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18besede/74 = Ncfpa/23, Ncfpn/33, Ncfsg/18

kontekst: katera oznaka je najbolj verjetna kontekst: katera oznaka je najbolj verjetna glede na sosednje oznake?glede na sosednje oznake?Ncfsg 1375 Ncfsg 1375

Vcip3s--n 54 Vcip3s--n 54 Vcps-smaVcps-sma 4 4 Afpmsnn Afpmsnn 1 1 Vmps-smaVmps-sma 1111Z uporabo Viterbijevega algoritma izračuna Z uporabo Viterbijevega algoritma izračuna

najbolj verjetno zaporedje oznaknajbolj verjetno zaporedje oznak

Page 22: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Primer strojnega učenja: lematizacija s CLOG program dobi posebno učno množico za vsako program dobi posebno učno množico za vsako

oblikoslovno oznakooblikoslovno oznako (predpostavimo predhodno oblikoslovno (predpostavimo predhodno oblikoslovno označevanje)označevanje)

učna množica je sestavljena iz parov besedna učna množica je sestavljena iz parov besedna oblika/lema:oblika/lema:Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([g,l,a,s,u],[g,l,a,s]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([s,t,r,a,h,u],[s,t,r,a,h]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([r,o,b,u],[r,o,b]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([g,i,n,a],[g,i,n]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([p,a,s,u],[p,a,s]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([k,r,u,h,a],[k,r,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([d,u,h,a],[d,u,h]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([t,r,e,n,u,t,k,a],[t,r,e,n,u,t,e,k]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([p,o,p,o,l,d,n,e],[p,o,p,o,l,d,a,n]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([o,t,r,o,k,a],[o,t,r,o,k]). Ncfsg([n,o,s,u],[n,o,s]). Ncfsg([n,o,s,u],[n,o,s]).

Page 23: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Pravila CLOG pravila so tipa X-priponapravila so tipa X-pripona11 X-pripona X-pripona22 pravila so urejena od specifičnih k splošnimpravila so urejena od specifičnih k splošnim Samostalniki ženskega spola v rodilniku:Samostalniki ženskega spola v rodilniku: Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[n,o,v,e],[n,o,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,v,e],[e,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[a,v,e],[a,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[r,v,e],[r,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[i,v,e],[i,v,a]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[e,s,n,i],[e,s,e,n]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[i,s,l,i],[i,s,e,l]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[v,e],[e,v]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[z,n,i],[z,e,n]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[i],[]),!. Ncfsg(A,B):-mate(A,B,[e],[a]),!.Ncfsg(A,B):-mate(A,B,[e],[a]),!.

Page 24: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Učenje brez vodenja strogo statistične metodestrogo statistične metode

(Clustering, Maximim Entropy, Minimum Description Length) (Clustering, Maximim Entropy, Minimum Description Length) primer je identifikacija kolokacij (besednih zvez)primer je identifikacija kolokacij (besednih zvez) poišči vse besede, ki se bolj pogosto kot je poišči vse besede, ki se bolj pogosto kot je

običajno pojavljajo skupajobičajno pojavljajo skupaj statistične formule; problem so zelo redke statistične formule; problem so zelo redke

((ŠepetalecŠepetalec ubija ubija) in zelo pogoste besede () in zelo pogoste besede (je je rekelrekel) )

iskanje kolokatorjev v orodju Wordsmith:iskanje kolokatorjev v orodju Wordsmith:poišči vse besede, ki se bolj pogosto kot poišči vse besede, ki se bolj pogosto kot pričakovano pojavljajo v bližini ključne besedepričakovano pojavljajo v bližini ključne besede

Page 25: Označevanje korpusov PNG  Slovenistika II. letnik 2006

1.1. Ravni označevanjaRavni označevanja2.2. Označevalne tehnikeOznačevalne tehnike3.3. Oznake korpusa FIDAOznake korpusa FIDA

Page 26: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Oblikoslovne oznake oznaka podaja oblikoskladenjsko oznaka podaja oblikoskladenjsko

funkcijo besede v besedilufunkcijo besede v besedilu oznake najprej razvite za angleščino:oznake najprej razvite za angleščino:

glavni problem je ločiti med glavni problem je ločiti med besednimi vrstami (runbesednimi vrstami (run[v][v] / run / run[[NN]]))

revno oblikoslovje revno oblikoslovje malo malo različnih oznak, 20—100različnih oznak, 20—100

Page 27: Označevanje korpusov PNG  Slovenistika II. letnik 2006

BNC BASIC TAGSET AJ0 Adjective (general or positive) (e.g. good, old,

beautiful) AJC Comparative adjective (e.g. better, older) AJS Superlative adjective (e.g. best, oldest) AT0 Article (e.g. the, a, an, no) …… CJC Coordinating conjunction (e.g. and, or, but) CJS Subordinating conjunction (e.g. although, when) CJT The subordinating conjunction that CRD Cardinal number (e.g. one, 3, fifty-five, 3609) NN0 Common noun, neutral for number (e.g. aircraft,

data) NN1 Singular common noun (e.g. pencil, goose, time) NN2 Plural common noun (e.g. pencils, geese, times) NP0 Proper noun (e.g. London, Michael, Mars, IBM) ORD Ordinal numeral (e.g. first, sixth, 77th, last) ……

Page 28: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Nabori oznak za oblikoslovno bogate jezike besedne oblike vsebujejo mnogo več besedne oblike vsebujejo mnogo več

informacije: spol, število, sklon, živost, določnostinformacije: spol, število, sklon, živost, določnost primer zaimkov:primer zaimkov:

osebni, svojilni, povratni…osebni, svojilni, povratni… pridevniški, samostalniškipridevniški, samostalniški 3 števila, 3 spoli, 6 sklonov3 števila, 3 spoli, 6 sklonov spol in število “svojine” …spol in število “svojine” … > 1000 različnih oznak> 1000 različnih oznak

pri razdvoumljanju veliko več problemov z pri razdvoumljanju veliko več problemov z oblikoslovnim podatki kot pa z besedno vrstooblikoslovnim podatki kot pa z besedno vrsto

Page 29: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Nabori oznak za slovenščino nabor ZRC SAZU, http://bos.zrc-sazu.si/ nabor ZRC SAZU, http://bos.zrc-sazu.si/

+ sledi slovenski slovnicisledi slovenski slovnici+ okrajšave čim bolj mnemonične okrajšave čim bolj mnemonične + z njim ročno označen velik korpus (1M besed)z njim ročno označen velik korpus (1M besed)- nabor oznak ni bil vnaprej določennabor oznak ni bil vnaprej določen- oznake razlikujejo nemotivirane kategorije (tipi lastnih oznake razlikujejo nemotivirane kategorije (tipi lastnih

imen)imen)- označeni korpus ni dostopen za prenosoznačeni korpus ni dostopen za prenos

nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ nabor MULTEXT (E8 IJS), http://nl.ijs.si/ME/V3/msd/ + upošteva mednarodne standardeupošteva mednarodne standarde+ oznake je možno mehanično razstavljati oznake je možno mehanično razstavljati + z njim strojno označen velik korpus (FIDA, 100M besed)z njim strojno označen velik korpus (FIDA, 100M besed)+ ročno označeni korpus prosto dostopen (100k besed)ročno označeni korpus prosto dostopen (100k besed)- izpušča nekatere motivirane kategorije (povedkovnik, izpušča nekatere motivirane kategorije (povedkovnik,

besedna vrsta okrajšave)besedna vrsta okrajšave)- skop priročnikskop priročnik

npr. npr. Pže1, E5Pže1, E5 proti proti Afpfsn, SpslAfpfsn, Spsl

Page 30: Označevanje korpusov PNG  Slovenistika II. letnik 2006

MULTEXT-East oblikoslovne specifikacije dostopne na dostopne na

http://nl.ijs.si/ME/V3/msd/http://nl.ijs.si/ME/V3/msd/ verzija 3, 2004-05-10 verzija 3, 2004-05-10 sestavljene iz uvoda, skupnih tabel, sestavljene iz uvoda, skupnih tabel,

in poglavij za posamezne jezikein poglavij za posamezne jezike originalno v LaTeX, izvedeni formati originalno v LaTeX, izvedeni formati

v HTML, PDF, XMLv HTML, PDF, XML

Page 31: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Osnovni namen specifikacij MULTEXT-EastDoločijo: Določijo: 1.1. katere oblikoslovne oznake so katere oblikoslovne oznake so

dovoljene za posamezne jezike,dovoljene za posamezne jezike,2.2. kaj pomenijo:kaj pomenijo:

Vmip3d--n = Vmip3d--n = PoS:Verb, Type:main, VForm:indicative, PoS:Verb, Type:main, VForm:indicative, Tense:present, Person:third, Number:dual, Tense:present, Person:third, Number:dual, Gender:-, Voice:-, Negative:noGender:-, Voice:-, Negative:no

3.3. in še kaj..in še kaj..

Page 32: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Skupne tabele specifikacij

Page 33: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Specifikacije: poglavje za slovenščino

Page 34: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Nabor slovenskih oznak v ročno označenem korpusu v ročno označenem korpusu

MULTEXT-East je prisotnih 1023 MULTEXT-East je prisotnih 1023 različnih oznakrazličnih oznak

v oblikoslovnem leksikonu MULTEXT-v oblikoslovnem leksikonu MULTEXT-East jih je prisotnih 2083East jih je prisotnih 2083

oznake z angleško razlago dostopne oznake z angleško razlago dostopne v v

msd-sl.txtmsd-sl.txt

Page 35: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Lokalizacija Afcfda = Pkpzdt Afcfda = Pkpzdt Afcfda = Adjective qualificative Afcfda = Adjective qualificative

comparative feminine dual comparative feminine dual accusative accusative

Pkpzdt = Pridevnik kakovostni Pkpzdt = Pridevnik kakovostni primernik ženski dvojina tožilnik primernik ženski dvojina tožilnik

Page 36: Označevanje korpusov PNG  Slovenistika II. letnik 2006

Oznake korpusa FIDA oznake MULTEXT-East, prevedene v oznake MULTEXT-East, prevedene v

slovenščino se uporabljajo v korpusu slovenščino se uporabljajo v korpusu FIDAFIDA

v FIDA za vsako besedo prisotne vse v FIDA za vsako besedo prisotne vse možne oblike za to besedno oblikomožne oblike za to besedno obliko

2271 različnih oznak2271 različnih oznak tabela en-sl oznak s slovenskimi tabela en-sl oznak s slovenskimi

razlagami dostopna na msdFIDA-razlagami dostopna na msdFIDA-sl.txtsl.txt