Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei
Click here to load reader
-
Upload
zoltan-varju -
Category
Technology
-
view
943 -
download
4
description
Transcript of Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei
![Page 1: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/1.jpg)
A hun* eszkozlanc szoszintu feldolgozo eszkozei
Simon Eszter
MTA Nyelvtudomanyi Intezet
2014. november 27.NLP meetup
Simon Eszter MTA Nyelvtudomanyi Intezet
A hun* eszkozlanc szoszintu feldolgozo eszkozei
![Page 2: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/2.jpg)
A fejlesztok
BME MOKK (Media Oktato es Kutato Kozpont)
Gyepesi Gyorgy, Halacsy Peter, Kornai Andras, Nemeth Laszlo,Oravecz Csaba, Rebrus Peter, Rung Andras, Simon Eszter,
Szakadat Istvan, Tron Viktor, Vajda Peter,Varga Daniel, Zseder Attila
MTA Nyelvtudomanyi Intezet
![Page 3: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/3.jpg)
A cel
hiszen a szabad szoftver egyben szabad dokumentaciot is igenyel
hiszen CONJ hiszena ART aszabad ADJ szabadszoftver NOUN szoftveregyben ADV egybenszabad ADJ szabaddokumentaciot NOUN<CAS<ACC>> dokumentaciois ADV isigenyel VERB igenyel
MTA Nyelvtudomanyi Intezet
![Page 4: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/4.jpg)
huntoken
szabalyalapu tokenizalo es mondatrabonto
magyar es angol nyelvre
98% pontossaggal megallapıtja a helyes mondat- es szohatart
kezeli a leggyakoribb rovidıteseket, szamokat, felsorolasokat,idezeteket, URL-eket, datumokat stb.
http://mokk.bme.hu/resources/huntoken/https://github.com/zseder/huntoken/
MTA Nyelvtudomanyi Intezet
![Page 5: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/5.jpg)
hunmorph
szabalyalapu morfologiai elemzo es szotovelo rendszer
MTA Nyelvtudomanyi Intezet
![Page 6: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/6.jpg)
hunmorph
a fejlesztes egy leagazasanak termeke a hunspellhelyesıras-ellenorzo
KR-kodot bocsat ki
guessing modban is futtathato
az osszetetelek blokkolhatok
http://mokk.bme.hu/resources/hunmorph/
MTA Nyelvtudomanyi Intezet
![Page 7: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/7.jpg)
hunpos
felugyelt gepi tanulason alapulo szofaji cımkezo
TnT-reimplementacio
angol: 96,58%; magyar: 98,24% accuracy
python interface (NLTK)
https://code.google.com/p/hunpos
MTA Nyelvtudomanyi Intezet
![Page 8: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei](https://reader038.fdocument.pub/reader038/viewer/2022100604/5597094b1a28ab9f2f8b47b2/html5/thumbnails/8.jpg)
Kozos tulajdonsagok
Latin-1 vagy 2 szoveget esznek
Unix, MacOsX, Windows rendszer alatt is hasznalhatok
szabadon felhasznalhatok (LGPL licensz alatt)
http://mokk.bme.hu/resources/huntoken/https://github.com/zseder/huntoken/http://mokk.bme.hu/resources/hunmorph/http://mokk.bme.hu/resources/morphdb-hu/http://hunspell.sourceforge.net/https://code.google.com/p/hunpos/
MTA Nyelvtudomanyi Intezet