Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas...

9

Click here to load reader

description

A nove

Transcript of Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas...

Page 1: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rt

Nyelvi elemzők Szegedről:

morfológia, szintaxis,

tulajdonnevek és

többszavas kifejezések

Vincze Veronika

Page 2: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rtBevezető

• A magasabb rendű

nyelvtechnológiai alkalmazások

számára alapvető fontosságú a

szövegek nyelvi elemzése

• Morfológiai és szintaktikai elemzés

• Tulajdonnév-felismerés

• Többszavas kifejezések

azonosítása

Page 3: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rtmagyarlanc

• magyar szövegek nyelvi előelemzése a nyers

szövegtől a szintaktikai elemzésig

• mondatra bontás

• tokenizálás

• morfológiai elemzés (harmonizált kódrendszer

használatával)

• szófaji egyértelműsítés (96,32% pontosság a

Szeged Korpusz 2.5-ön)

• lemmatizálás

• dependenciaelemzés (91,42% LAS, 93,22% ULA

a Szeged Dependencia Treebanken)

• ÚJ: webes szövegek elemzése

Page 4: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rt

Page 5: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rt A magyarlanc előnyei• gyors

• teljes egészében JAVA-ban implementált

• platformfüggetlen

• könnyen integrálható bármilyen

keretrendszerbe

• több (ipari) partnerünk használja saját

rendszerébe beépítve

• webszolgáltatásként is használható

http://www.inf.u-szeged.hu/rgai/magyarlanc-

service/

http://www.inf.u-szeged.hu/rgai/magyarlanc

Page 6: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rt Tulajdonnév-felismerés és

többszavas kifejezések• különleges bánásmódot igényelnek

(MT, IE, anonimizálás,

eseménykinyerés…)George Bush – György Bokor ?

Kovács János – János Kovács

Beijing – Peking

előadást tart – *tartás – előadás

döntést hoz != bring a decision (make a decision)

A tehén fűbe harapott. != The cow grass lip.

Page 7: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rt

Page 8: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rtNE-felismerők Szegeden

• Angol és magyar nyelvre

• Gépi tanuláson alapuló módszerek

• Orvosi, üzleti és hírszövegekre stb.

optimalizált megoldások

• Könnyen adaptálható más

doménekre is

http://www.inf.u-szeged.hu/rgai/NER

Page 9: Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések

Nyelv

tech

no

lóg

iai

Cso

po

rtMWE-felismerés Szegeden

• Angol, magyar, német, spanyol

• Több MWE-típus

• Több domén (jogi szövegek,

újsághírek, Wikipédia…)

• Gépi tanulási módszerek

http://www.inf.u-szeged.hu/rgai/mwe