Sass Bálint [email protected] fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint...

61
KORPUSZOK, LEKÉRDEZ ˝ OK, NEMZETI KORPUSZPORTÁL Sass Bálint [email protected] MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS „Számítógép az irodalomtudományban” 2015. november 24.

Transcript of Sass Bálint [email protected] fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint...

Page 1: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KORPUSZOK, LEKÉRDEZOK,NEMZETI KORPUSZPORTÁL

Sass Bá[email protected]

MTA Nyelvtudományi IntézetNyelvtechnológiai és Alkalmazott Nyelvészeti Osztály

DHU2015 WS„Számítógép az irodalomtudományban”

2015. november 24.

Page 2: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

korpusz?

= sok szöveg

lekérdezo?

= valamiket keresünk benne

2 / 29

Page 3: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

korpusz = sok szöveg

lekérdezo?

= valamiket keresünk benne

2 / 29

Page 4: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

korpusz = sok szöveg

lekérdezo?

= valamiket keresünk benne

2 / 29

Page 5: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

korpusz = sok szöveg

lekérdezo = valamiket keresünk benne

2 / 29

Page 6: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

korpusz = sok szöveg

lekérdezo = valamiket keresünk benne

2 / 29

Page 7: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

1998:

Ez pont ez! :) Sok szövegben szavakat keres.

De: Kilgarriff (2007): Googleology is Bad Science

3 / 29

Page 8: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

1998:

Ez pont ez! :) Sok szövegben szavakat keres.

De: Kilgarriff (2007): Googleology is Bad Science

3 / 29

Page 9: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

1998:

Ez pont ez! :) Sok szövegben szavakat keres.

De: Kilgarriff (2007): Googleology is Bad Science

3 / 29

Page 10: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

1998:

Ez pont ez! :) Sok szövegben szavakat keres.

De: Kilgarriff (2007): Googleology is Bad Science

3 / 29

Page 11: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk

— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3

szókapcsolatokat 3szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 12: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk

— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3

szókapcsolatokat 3szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 13: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3

szókapcsolatokat 3szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 14: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3

szókapcsolatokat 3szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 15: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3 szókapcsolatokat 3

szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 16: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3 szókapcsolatokat 3szóosztályokat 3

szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 17: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3 szókapcsolatokat 3szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 18: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

Kilgarriff (2007):ology

is Bad Science

Szeretnénk pontosan megadni, hogy . . .

hol keresünk— sajtószövegek, egy adott regény, Petofi összes muve

mit keresünk

szavakat 3 szókapcsolatokat 3szóosztályokat 3 szóosztályok kapcsolatait 3

Nyelvészetileg releváns kérdéseket szeretnénk feltenni.A válasz általában: egy szóosztály.

4 / 29

Page 19: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KORPUSZLEKÉRDEZO

Nyelvi tudású keresot szeretnénk, ami adatot szolgáltata magyar nyelv, a magyar nyelvu szövegek vizsgálatához.

Meghatározott szöveganyagonnyelvészetileg releváns kérdésekre tud válaszolni.Nyelvi tudást tartalmaz: annotált.

Nem csak adott szavakat, hanemnyelvészeti szempontok szerint megadott

szóosztályokat lehet keresni.

? körülültük, felszedegettük, elsimítottuk, végigcsináltuk? forrásokban, fellegekben, falvakban, fejekben? cél, csal, csaj, csel, dzsal

mi? + milyen gyakran? milyen környezetben?5 / 29

Page 20: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2005: MNSZ1

a Magyar Nemzeti Szövegtárelso változata187 millió szó

szépirodalom, hivatalos, tudományos,sajtó, internetes fórumok

hazai és határon túli anyag

MNSZ1

100m

6 / 29

Page 21: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2005: MNSZ1 – „fut után”

6 / 29

Page 22: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1

Mazsola BUSZI Ómagyar MNSZ2

tartalmi, nyelviszóto 3

3 3 3 3

morfológia 3

3 3 3szórendfüggetlen 3beszélt nyelvi 3speciális karakterek 3összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3

3 3 3

szókapcsolat 3

3 3 3 3korpuszpéldák 3összefoglaló táblázat 3párhuzamos megjelenítés 3szurés, gyaklisták, kollokáció 3

7 / 29

Page 23: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2009: MAZSOLA

az MNSZ1 anyaga – más szempontbóligék és bovítmények vizsgálataa szórend „fölött” általánosítunk

hagy ? -t = mi a tárgy?→ kívánnivalót, nyomot, kétséget, üzenetet

? hideg hátán = mi az ige?→ végigfut, futkos, futkározik

8 / 29

Page 24: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2009: MAZSOLA

az MNSZ1 anyaga – más szempontbóligék és bovítmények vizsgálataa szórend „fölött” általánosítunk

hagy ? -t = mi a tárgy?

→ kívánnivalót, nyomot, kétséget, üzenetet

? hideg hátán = mi az ige?→ végigfut, futkos, futkározik

8 / 29

Page 25: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2009: MAZSOLA

az MNSZ1 anyaga – más szempontbóligék és bovítmények vizsgálataa szórend „fölött” általánosítunk

hagy ? -t = mi a tárgy?→ kívánnivalót, nyomot, kétséget, üzenetet

? hideg hátán = mi az ige?→ végigfut, futkos, futkározik

8 / 29

Page 26: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2009: MAZSOLA

az MNSZ1 anyaga – más szempontbóligék és bovítmények vizsgálataa szórend „fölött” általánosítunk

hagy ? -t = mi a tárgy?→ kívánnivalót, nyomot, kétséget, üzenetet

? hideg hátán = mi az ige?

→ végigfut, futkos, futkározik

8 / 29

Page 27: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2009: MAZSOLA

az MNSZ1 anyaga – más szempontbóligék és bovítmények vizsgálataa szórend „fölött” általánosítunk

hagy ? -t = mi a tárgy?→ kívánnivalót, nyomot, kétséget, üzenetet

? hideg hátán = mi az ige?→ végigfut, futkos, futkározik

8 / 29

Page 28: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1 Mazsola

BUSZI Ómagyar MNSZ2

tartalmi, nyelviszóto 3 3

3 3 3

morfológia 3

3 3 3

szórendfüggetlen 3

beszélt nyelvi 3speciális karakterek 3összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3

3 3 3

szókapcsolat 3 3

3 3 3

korpuszpéldák 3

összefoglaló táblázat 3párhuzamos megjelenítés 3szurés, gyaklisták, kollokáció 3

9 / 29

Page 29: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2012: BUSZI

Budapesti Szociolingvisztikai Interjú270000 szóbeszélt nyelvi korpuszgazdag annotáció

. . . bizonyos dógokban � mmm tát, hogy ööölustább annál, mint amilyennek elkép*zel*tem, . . .

→ Majnem mindig kiesik a d .

10 / 29

Page 30: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2012: BUSZI

Budapesti Szociolingvisztikai Interjú270000 szóbeszélt nyelvi korpuszgazdag annotáció

. . . bizonyos dógokban � mmm tát, hogy ööölustább annál, mint amilyennek elkép*zel*tem, . . .

→ Majnem mindig kiesik a d .

10 / 29

Page 31: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2012: BUSZI

Budapesti Szociolingvisztikai Interjú270000 szóbeszélt nyelvi korpuszgazdag annotáció

. . . bizonyos dógokban � mmm tát, hogy ööölustább annál, mint amilyennek elkép*zel*tem, . . .

→ Majnem mindig kiesik a d .

10 / 29

Page 32: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2012: BUSZI – ÖSSZEFOGLALÓ TÁBLÁZAT

11 / 29

Page 33: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2012: BUSZI – ÖSSZEFOGLALÓ TÁBLÁZAT

11 / 29

Page 34: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1 Mazsola BUSZI

Ómagyar MNSZ2

tartalmi, nyelviszóto 3 3 3

3 3

morfológia 3 3

3 3

szórendfüggetlen 3beszélt nyelvi 3

speciális karakterek 3összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3 3

3 3

szókapcsolat 3 3 3

3 3

korpuszpéldák 3összefoglaló táblázat 3

párhuzamos megjelenítés 3szurés, gyaklisták, kollokáció 3

12 / 29

Page 35: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2013: ÓMAGYAR KORPUSZ

az összes ómagyar kódex szövege2 millió szóegységes forma, kódolás, annotációspeciális karakterek: ý, ÿ ...ómagyar morfológia

szórendi vizsgálat: nem futott ki↔ ki nem futott

→ „Ver touaba kÿ nem futott” – egyenes szórend!

13 / 29

Page 36: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2013: ÓMAGYAR KORPUSZ

az összes ómagyar kódex szövege2 millió szóegységes forma, kódolás, annotációspeciális karakterek: ý, ÿ ...ómagyar morfológia

szórendi vizsgálat: nem futott ki↔ ki nem futott

→ „Ver touaba kÿ nem futott” – egyenes szórend!

13 / 29

Page 37: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2013: ÓMAGYAR KORPUSZ

az összes ómagyar kódex szövege2 millió szóegységes forma, kódolás, annotációspeciális karakterek: ý, ÿ ...ómagyar morfológia

szórendi vizsgálat: nem futott ki↔ ki nem futott

→ „Ver touaba kÿ nem futott” – egyenes szórend!

13 / 29

Page 38: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2013: ÓMAGYAR KORPUSZ – PÁRHUZAMOS MEGJELENÍTÉS

14 / 29

Page 39: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1 Mazsola BUSZI Ómagyar

MNSZ2

tartalmi, nyelviszóto 3 3 3 3

3

morfológia 3 3 3

3

szórendfüggetlen 3beszélt nyelvi 3speciális karakterek 3

összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3 3 3

3

szókapcsolat 3 3 3 3

3

korpuszpéldák 3összefoglaló táblázat 3párhuzamos megjelenítés 3

szurés, gyaklisták, kollokáció 3

15 / 29

Page 40: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2014: MNSZ2

összetett szavak

képzok

fonológiai jegyek

szurés

gyakorisági listák

kollokációvizsgálat

megállapítás, fantazmagória, ötlet, marhaság,fantáziálás, dolog, érvelés, állítás, vád

16 / 29

Page 41: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2014: MNSZ2

összetett szavak

képzok

fonológiai jegyek

szurés

gyakorisági listák

kollokációvizsgálat

megállapítás, fantazmagória, ötlet, marhaság,fantáziálás, dolog, érvelés, állítás, vád

16 / 29

Page 42: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2014: MNSZ2 – GYAKORISÁGI LISTA

légbolkapott

17 / 29

Page 43: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

2014: MNSZ2 – GYAKORISÁGI LISTA

légbolkapott

17 / 29

Page 44: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1 Mazsola BUSZI Ómagyar MNSZ2tartalmi, nyelviszóto 3 3 3 3 3morfológia 3 3 3 3szórendfüggetlen 3beszélt nyelvi 3speciális karakterek 3összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3 3 3 3szókapcsolat 3 3 3 3 3korpuszpéldák 3összefoglaló táblázat 3párhuzamos megjelenítés 3szurés, gyaklisták, kollokáció 3

18 / 29

Page 45: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

A KORPUSZLEKÉRDEZOK FEJLODÉSE

1 egyre nagyobb teljesítményu számítógépek– nagyobb korpuszok, gyorsabb lekérdezés

2 egyre jobb, fejlodo elemzoeszközök– ezeknek köszönheto az annotáció

3 egyre jobb, fejlodo korpuszkezelo rendszerek– új, eltéro funkciók

– ezért nem egységes a használt rendszer

19 / 29

Page 46: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1 Mazsola BUSZI Ómagyar MNSZ2tartalmi, nyelviszóto 3 3 3 3 3morfológia 3 3 3 3szórendfüggetlen 3beszélt nyelvi 3speciális karakterek 3összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3 3 3 3szókapcsolat 3 3 3 3 3korpuszpéldák 3összefoglaló táblázat 3párhuzamos megjelenítés 3szurés, gyaklisták, kollokáció 3

20 / 29

Page 47: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

KI MIT TUD?

MNSZ1 Mazsola BUSZI Ómagyar MNSZ2tartalmi, nyelviszóto 3 3 3 3 3morfológia 3 3 3 3szórendfüggetlen 3beszélt nyelvi 3speciális karakterek 3összetett szavak, fonológia 3

formai, keresofunkciókonkordancia 3 3 3 3szókapcsolat 3 3 3 3 3korpuszpéldák 3összefoglaló táblázat 3párhuzamos megjelenítés 3szurés, gyaklisták, kollokáció 3

20 / 29

Page 48: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS – CÉLOK

Együtt, egy helyen minden meglévo . . .

magyar nyelvu, online lekérdezheto korpusz

korpuszlekérdezo funkció

Mire jó?

az összegyujtött korpuszok közvetlen használataCél: hozzáférést biztosítson az elérheto magyar nyelvu korpuszokhoz,népszerusítse oket, tudjunk róluk – a szakma és a nagyközönség is.Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklodok.

Akár iskolai keretek között is végezheto nyelvi vizsgálatokhoz.

a korpuszhasználók tudjanak a többi korpuszról („reklám”)az elszigetelten létezo korpuszos muhelyek tudjanakegymásról

– megoldások tanulmányozása, alkalmazása saját korpuszra– szakmai kapcsolatok felvétele, kiaknázása

21 / 29

Page 49: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS – CÉLOK

Együtt, egy helyen minden meglévo . . .

magyar nyelvu, online lekérdezheto korpusz

korpuszlekérdezo funkció

Mire jó?

az összegyujtött korpuszok közvetlen használataCél: hozzáférést biztosítson az elérheto magyar nyelvu korpuszokhoz,népszerusítse oket, tudjunk róluk – a szakma és a nagyközönség is.Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklodok.

Akár iskolai keretek között is végezheto nyelvi vizsgálatokhoz.

a korpuszhasználók tudjanak a többi korpuszról („reklám”)az elszigetelten létezo korpuszos muhelyek tudjanakegymásról

– megoldások tanulmányozása, alkalmazása saját korpuszra– szakmai kapcsolatok felvétele, kiaknázása

21 / 29

Page 50: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS – CÉLOK

Együtt, egy helyen minden meglévo . . .

magyar nyelvu, online lekérdezheto korpusz

korpuszlekérdezo funkció

Mire jó?

az összegyujtött korpuszok közvetlen használataCél: hozzáférést biztosítson az elérheto magyar nyelvu korpuszokhoz,népszerusítse oket, tudjunk róluk – a szakma és a nagyközönség is.Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklodok.

Akár iskolai keretek között is végezheto nyelvi vizsgálatokhoz.

a korpuszhasználók tudjanak a többi korpuszról („reklám”)

az elszigetelten létezo korpuszos muhelyek tudjanakegymásról

– megoldások tanulmányozása, alkalmazása saját korpuszra– szakmai kapcsolatok felvétele, kiaknázása

21 / 29

Page 51: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS – CÉLOK

Együtt, egy helyen minden meglévo . . .

magyar nyelvu, online lekérdezheto korpusz

korpuszlekérdezo funkció

Mire jó?

az összegyujtött korpuszok közvetlen használataCél: hozzáférést biztosítson az elérheto magyar nyelvu korpuszokhoz,népszerusítse oket, tudjunk róluk – a szakma és a nagyközönség is.Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklodok.

Akár iskolai keretek között is végezheto nyelvi vizsgálatokhoz.

a korpuszhasználók tudjanak a többi korpuszról („reklám”)az elszigetelten létezo korpuszos muhelyek tudjanakegymásról

– megoldások tanulmányozása, alkalmazása saját korpuszra– szakmai kapcsolatok felvétele, kiaknázása

21 / 29

Page 52: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

AZ NKP „SZINTJEI”: 0. SZINT – A JELEN

Minden korpuszhoz:

név

3 link = fooldal + kereso + regisztráció (ha szükséges)

kapcsolat = egy emailcím, akihez lehet fordulni

– a leheto legkevesebb adat– egyebeknek az adott korpusz honlapján lehet utánajárni

Ezzel nagyjából meg is valósíthatók a kituzött célok. :)

22 / 29

Page 53: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

AZ NKP „SZINTJEI”: 0. SZINT – A JELEN

Minden korpuszhoz:

név

3 link = fooldal + kereso + regisztráció (ha szükséges)

kapcsolat = egy emailcím, akihez lehet fordulni

– a leheto legkevesebb adat– egyebeknek az adott korpusz honlapján lehet utánajárni

Ezzel nagyjából meg is valósíthatók a kituzött célok. :)

22 / 29

Page 54: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

AZ NKP „SZINTJEI”: 1. SZINT – A JÖVO

Egy nagy táblázat a korpuszokról.

Lényeg: milyen annotáció + milyen keresofunkciók?

További jellemzok:

– létrehozás ideje

– egymondatos leírás – esetleg 2×1 mondat:milyen szövegeket tartalmaz + korpuszépítés tömör leírása

– angol felület van-e

– egy illusztratív kattintható példa

– hogyan hivatkozzunk a korpuszra

23 / 29

Page 55: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

AZ NKP „SZINTJEI”: 2. SZINT – A JÖVO

„. . . ahol az eddig bárhol létezo összes korpuszlekérdezo funkció

elérheto lenne az eddig bárhol elérheto összes korpuszra.”

Lekérdezofunkciók mint önálló entitások.

Minden funkció azokra a korpuszokra alkalmazva,amire lehetséges, amire az annotációja megengedi.

Saját elemzett korpuszt („XML-t”) lehessen közzétenni.Feltölteni és automatikusan hozzárendelnia rendelkezésre álló, ráillo keresofunkciókat.

24 / 29

Page 56: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

AZ NKP „SZINTJEI”: 3. SZINT – A JÖVO

Elemzoeszközök a portálon.

Saját elemzetlen korpuszt („TXT-t”) lehessen közzétenni.

Tetszés szerint alkalmazni rá a portálon(majd egyszer) elérheto nyelvi elemzoeszközöket.

25 / 29

Page 57: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

AZ NKP „SZINTJEI” – ÖSSZEFOGLALÁS

Ez a távoli jövoben valahogy így nézne ki:

veszünk egy szöveget;– pl. Petofi muvei vagy Kovács Pisti facebook-bejegyzései

sima szövegként feltöltjük, megmondjuk, hogy szükségünkvan mondatra bontásra, szótövesítésre, morfológiaielemzésre;← 3. szint

illetve konkordanciára, gyakorisági listára,kollokációkeresésre;← 2. szint

automatikusan eloáll a táblázat;← 1. szint

plusz a bejegyzés az NKP nyitólapján. ← 0. szint

És kész – lehet kutatni, lekérdezni! :)

26 / 29

Page 58: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

NKP V0.1

Legelso kezdetleges verzió: 0. szint.

Ezek általános célú korpuszok.A portálra bármilyen speciális korpuszt szívesen fogadunk.

27 / 29

Page 59: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

A CSATLAKOZÁS FELTÉTELEI

magyar nyelvu korpusz

szóalapú online lekérdezo – muködo link!

kapcsolat = egy emailcím

kérés: link az NKP-ra„A . . . a Nemzeti Korpuszportál tagja.”

28 / 29

Page 60: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

ELÉRHETOSÉG

NEMZETI KORPUSZPORTÁL

http://corpus.nytud.hu/nkp

Köszönöm a figyelmet!

Sass Bá[email protected]

29 / 29

Page 61: Sass Bálint sass.balint@nytud.mta fileKORPUSZOK, LEKÉRDEZOK˝, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott

ELÉRHETOSÉG

NEMZETI KORPUSZPORTÁL

http://corpus.nytud.hu/nkp

Köszönöm a figyelmet!

Sass Bá[email protected]

29 / 29