A Magyar Antikvakorpusz fejlesztése

17
A Magyar Antikvakorpusz fejlesztése

description

A Magyar Antikvakorpusz fejlesztése. A nyers korpusz főbb adatai. A felölelt periódus: 1527–1576 A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából) Az átlagos mintaméret: 5% (kb. 2300 szó) A minimális mintaméret: 1000 szó - PowerPoint PPT Presentation

Transcript of A Magyar Antikvakorpusz fejlesztése

Page 1: A Magyar Antikvakorpusz fejlesztése

A Magyar Antikvakorpusz fejlesztése

A Magyar Antikvakorpusz fejlesztése

Page 2: A Magyar Antikvakorpusz fejlesztése

A nyers korpusz főbb adatai

• A felölelt periódus: 1527–1576

• A szövegek száma: 103 (több mint 43 szerzőtől, 9 műfajból, minden kiadási évből, minden nyomdából)

• Az átlagos mintaméret: 5% (kb. 2300 szó)

• A minimális mintaméret: 1000 szó

• A teljes korpusz mérete: kb. 240 000 szó ~kb. 1 200 000 n

Page 3: A Magyar Antikvakorpusz fejlesztése

A fejlesztés főbb céljai

• Minél több teljes szöveg

• Minél tágabb időintervallum

• Minél mélyebb TEI-annotáció

• Rugalmas kereshetőség

• Szöveg-kép összekapcsolás

• Interaktív kutatóbázissá fejlesztés

Page 4: A Magyar Antikvakorpusz fejlesztése

A diakrón korpuszok építésének a nehézségei

• A betűhív rögzítés nehézségei– A kézírás és a régi

nyomtatványok esetében először a grafémákat kell elkülöníteni

– A grafémák számítógépen való tárolásának és megjelenítésének a problémája

• Az annotáció nehézségei– Az ortográfiai sokszínűség és

az alakváltozatok megjelenése bonyolulttá, sokszor lehetetlenné teszi az automatikus annotációt

Page 5: A Magyar Antikvakorpusz fejlesztése

A Magyar Antikvakorpusz szövege

Első változatában (2001-től 2006-ig készült) egy plain text korpusz volt.

Page 6: A Magyar Antikvakorpusz fejlesztése

A digitális antikvafilológia speciális kérdése: a karakterkezelés

• A Unicode kevés (ez azonban idővel valószínűleg megoldódik majd).

• Középkori szövegekkel foglalkozó filológusok hozták létre a Medieval Unicode Font Initiative-ot 2001-ben, hogy kidolgozzák a hiányzó grafémák jelölésének a módjait.

• Kétféle megoldás van: – ajánlások a Private Use Area használatára,– javaslattétel a Unicode konzorciumnak.

• A Unicode 5.1-be pl. 152 javaslatukat vették föl.

Page 7: A Magyar Antikvakorpusz fejlesztése

A Medieval Unicode Font Initiative

Page 8: A Magyar Antikvakorpusz fejlesztése

A Magyar Antikvakorpusz szövege

A konverziós szkript lefuttatása után:

Page 9: A Magyar Antikvakorpusz fejlesztése

Az Andron Scriptor Web font (Andreas Stötzner MUFI-kompatibilis készlete)

Page 10: A Magyar Antikvakorpusz fejlesztése

A fontkészlet böngészőbe varázslása: a cufón projekt

• Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljuk

• Ezután az SVG-útvonalakból VML-útvonalakat készít a szkript

• Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerverére

• A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös <canvas>-sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket

Page 11: A Magyar Antikvakorpusz fejlesztése

Szabványos annotáció: az XML-kódolás

• eXtensible Markup Language (az SGML szabvány egyszerűsített változata)

• A dokumentumok tartalmi (és nem formai) elemeinek a megjelölésére való

• A jelölőelemek (tagek) szabadon bővíthetők.

• Használatuknak szigorú szintaxisa van.

Page 12: A Magyar Antikvakorpusz fejlesztése

Text Encoding Initiative

• 1987-ben, a New York melletti Vassar College-ben volt egy találkozó a humán tudományok digitális dokumentumainak SGML-alapú, platformfüggetlen kódolási módszereinek kidolgozása és fejlesztése érdekében.

• Az első (P1) Guidelines 1990-ben jelent meg.• Jelenleg a P5 a legújabb standard (2007).• 2002 óta a TEI az XML-t ajánlja.• 1999-ben konzorcium alakult a norvégiai Bergenben.• Jelenleg is számos szervezet, egyetem, könyvtár

támogatja és használja az ajánlásokat.• Bár formálisan csak egyetlen magyar tagja van a

konzorciumnak (a Szegedi Egyetem Informatikai Tanszékcsoportja), számos projekt használja (pl. MEK, a ELTE-BIÖP „gépeskönyvei”, hálózati kritikai kiadásai stb.).

Page 13: A Magyar Antikvakorpusz fejlesztése

A TEI-dokumentumok felépítése

<TEI><teiHeader>(…)</teiHeader><text>

<front>(…)</front><body>(…)</body><back>(…)</back>

</text></TEI>

Page 14: A Magyar Antikvakorpusz fejlesztése

A TEI-header<teiHeader>

<fileDesc><!-- Az adott elektronikus fájl teljes bibliográfiai leírását tartalmazza. --></fileDesc><encodingDesc><!-- Leírja az elektronikus és a forrásszöveg közötti kapcsolatot. --></encodingDesc><profileDesc><!-- A szöveg nem bibliográfiai jellegű tulajdonságait írja le, különös tekintettel a megjelenítésre, a nyelvhasználatra és az elrendezésre. --></profileDesc><revisionDesc><!-- Összegzi a fájlon végzett javításokat. --></revisionDesc>

</teiHeader>

Page 15: A Magyar Antikvakorpusz fejlesztése

A kereshetőség és interaktivitás biztosítéka: a Drupal CMS

• A Drupal egy PHP-ben írt, nyílt forráskódú tartalomkezelő rendszer (Content Management System)

• Lehetővé teszi rugalmas web 2.0-ás oldalak építését

• Külön modul támogatja a cufónt, valamint az XML-fájlok kezelését

• A PHP SimpleXML kiterjesztése alkalmas az XML-fájlok lekérdezésére

Page 16: A Magyar Antikvakorpusz fejlesztése

A jelenlegi állapot

• Hamarosan elkészül a Drupal-alapú honlap

• Ez lehetőséget biztosít a rugalmas keresésre

• A felhasználók regisztrálhatnak, és interaktívan részt vehetnek a továbbépítésben

Page 17: A Magyar Antikvakorpusz fejlesztése

Köszönöm a figyelmet!

Látogassák meg:www.korpusz.ektf.hu

www.digitalisbolcseszet.blog.hu

Köszönöm a figyelmet!

Látogassák meg:www.korpusz.ektf.hu

www.digitalisbolcseszet.blog.hu