A Magyar Antikvakorpusz fejlesztése
-
Upload
deborah-powers -
Category
Documents
-
view
22 -
download
2
description
Transcript of A Magyar Antikvakorpusz fejlesztése
A Magyar Antikvakorpusz fejlesztése
A Magyar Antikvakorpusz fejlesztése
A nyers korpusz főbb adatai
• A felölelt periódus: 1527–1576
• A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából)
• Az átlagos mintaméret: 5% (kb. 2300 szó)
• A minimális mintaméret: 1000 szó
• A teljes korpusz mérete: kb. 240 000 szó ~kb. 1 200 000 n
A fejlesztés főbb céljai
• Minél több teljes szöveg
• Minél tágabb időintervallum
• Minél mélyebb TEI-annotáció
• Rugalmas kereshetőség
• Szöveg-kép összekapcsolás
• Interaktív kutatóbázissá fejlesztés
A diakrón korpuszok építésének a nehézségei
• A betűhív rögzítés nehézségei– A kézírás és a régi
nyomtatványok esetében először a grafémákat kell elkülöníteni
– A grafémák számítógépen való tárolásának és megjelenítésének a problémája
• Az annotáció nehézségei– Az ortográfiai sokszínűség és
az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt
A Magyar Antikvakorpusz szövege
Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.
A digitális antikvafilológia speciális kérdése: a karakterkezelés
• A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd).
• Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait.
• Kétféle megoldás van: – ajánlások a Private Use Area használatára,– javaslattétel a Unicode konzorciumnak.
• A Unicode 5.1-be pl. 152 javaslatukat vették föl.
A Medieval Unicode Font Initiative
A Magyar Antikvakorpusz szövege
A konverziós szkript lefuttatása után:
Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)
A fontkészlet böngészőbe varázslása: a cufón projekt
• Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljuk
• Ezután az SVG-útvonalakból VML-útvonalakat készít a szkript
• Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerverére
• A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös <canvas>-sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket
Szabványos annotáció: az XML-kódolás
• eXtensible Markup Language (az SGML szabvány egyszerűsített változata)
• A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való
• A jelölőelemek (tagek) szabadon bővíthetők.
• Használatuknak szigorú szintaxisa van.
Text Encoding Initiative
• 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében.
• Az első (P1) Guidelines 1990-ben jelent meg.• Jelenleg a P5 a legújabb standard (2007).• 2002 óta a TEI az XML-t ajánlja.• 1999-ben konzorcium alakult a norvégiai Bergenben.• Jelenleg is számos szervezet, egyetem, könyvtár
támogatja és használja az ajánlásokat.• Bár formálisan csak egyetlen magyar tagja van a
konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).
A TEI-dokumentumok felépítése
<TEI><teiHeader>(…)</teiHeader><text>
<front>(…)</front><body>(…)</body><back>(…)</back>
</text></TEI>
A TEI-header<teiHeader>
<fileDesc><!-- Az adott elektronikus fájl teljes bibliográfiai leírását tartalmazza. --></fileDesc><encodingDesc><!-- Leírja az elektronikus és a forrásszöveg közötti kapcsolatot. --></encodingDesc><profileDesc><!-- A szöveg nem bibliográfiai jellegű tulajdonságait írja le, különös tekintettel a megjelenítésre, a nyelvhasználatra és az elrendezésre. --></profileDesc><revisionDesc><!-- Összegzi a fájlon végzett javításokat. --></revisionDesc>
</teiHeader>
A kereshetőség és interaktivitás biztosítéka: a Drupal CMS
• A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System)
• Lehetővé teszi rugalmas web 2.0-ás oldalak építését
• Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését
• A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére
A jelenlegi állapot
• Hamarosan elkészül a Drupal-alapú honlap
• Ez lehetőséget biztosít a rugalmas keresésre
• A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben
Köszönöm a figyelmet!
Látogassák meg:www.korpusz.ektf.hu
www.digitalisbolcseszet.blog.hu
Köszönöm a figyelmet!
Látogassák meg:www.korpusz.ektf.hu
www.digitalisbolcseszet.blog.hu