Mūsdienu latviešu valodas korpuss un tā izmantošana
description
Transcript of Mūsdienu latviešu valodas korpuss un tā izmantošana
Mūsdienu latviešu valodas korpuss un tā izmantošana
Everita AndronovaLU Matemātikas un informātikas institūts
CLARIN projekta seminārs2009. gada 4.-5. februāris
KORPUSA PRIEKŠROCĪBAS Korpuss ļauj pētīt īstu valodu
Atskats vēsturē: jebkurš dzimtās valodas runātājs 10 minūšu laikā var izdomāt vairāk piemēru par jebkuru gramatikas jautājumu, nekā iespējams atrast nejaušu tekstu daudzajos vārdlietojumos (V. N. Frensiss)
Neviens korpuss nesaturēs visu informāciju par man interesējošiem valodas jautājumiem; pat neliels korpuss palīdz iegūt faktus, ko nekādā citā veidā nebūtu iespējams uzzināt (Č. Filmors)
KORPUSA JĒDZIENS
jebkurš tekstu masīvs (antīkās literatūras tekstu korpuss) mašīnlasāms teksts maksimāli līdzsvarota mašīnlasāmu tekstu izlase kā
valodas pētīšanas instruments
Korpuslingvistikā un datorlingvistikā par korpusu tiek uzskatīts reprezentatīvs rakstīta teksta vai transkribētas runas kopums elektroniskā formā, ko izmanto valodas (dialekta, valodas stila) analīzē un aprakstā.
KORPUSA AIZSĀKUMI
Kopš XX gs. vidus tekstu uzkrāšana elektroniskā formā: The Brown Standard Corpus of American English – 1961.g. 1 milj. ASV angļu valodas lietojumu
London - Lund corpus – apm. 500 000 britu angļu valodas vārdlietojumu, kas savākti 60. g. b. un 70. g. s.
pirmo korpusu veidotāju klusās cerības citiem nevajadzēs veidot savu korpusu zinātniekiem tiks sniegta standarta datu kopa valodas
analīzei
SAPNIS PAR KORPUSU - 1
Korpuss ļauj pētīt reālo valodu un atklāt līdz šim nepamanītas lietas. Korpuss pamana tipisko (skaitliski nozīmīgo).
N. Čomskis: valodas runātāja kompetence vs. valodas lietojums
SAPNIS PAR KORPUSU - 2
Labam korpusam jābūt līdzsvarotam un reprezentatīvam. Rezultāti, kurus iegūstam no korpusa analīzes, var tikt attiecināti uz visu valodu vai tās noteiktu daļu.
Any natural corpus will be skewed. Some sentences won't occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description [of language based on the corpus] would be no more than a mere list. (Chomsky, Noam. Syntactic structures. The Hague, 1957, p. 159)
REPREZENTATIVITĀTE
valodas runātāju intuīcija un valodnieciskā pieredze: korpuss ir reprezentatīvs, ja tajā ir sastopami visi vairāk vai mazāk parasti vārdi, frāzes un teikuma struktūras;
valodas funkcionālo stilu atspoguļojums: korpuss ir reprezentatīvs, ja tajā ir vairāk vai mazāk visu valodas funkcionālo stilu teksti un teksti ir ievietoti korpusā, ievērojot zināmas proporcijas;
korpusā iekļauto tekstu autentiskums: korpuss ir reprezentatīvs, ja tas uzticami atspoguļo īstu valodu, tas nozīmē bez „labojumiem”, izņemot formālas izmaiņas (formatējuma, fonta vienādošana u. tml.).
ŠODIEN SEMINĀRĀ
Ievads par valodas korpusu Iepazīšanās ar www.korpuss.lv Praktiskais darbs ar
Līdzsvarotu miljons vārdlietojumu lielu mūsdienu latviešu valodas korpusu u.c.
ELEKTRONISKO RESURSU VEIDI tekstu arhīvs — viegli lasāma elektronisku tekstu
krātuve, kur teksti nav nekādā veidā saskaņoti (piem., latviešu klasiķu darbi www.ailab.lv/Teksti)≈ datorfonds (piem., latviešu sakāmvārdu datorfonds http://valoda.ailab.lv/folklora/sakamvardi/)
elektroniskā bibliotēka — elektronisku tekstu krājums standartizētā formātā ar īpašiem satura u. c. izveides noteikumiem, bet bez striktiem atlases kritērijiem (piem., folkloristikas elektroniskā bibliotēka www.korpuss.lv/feb/)
(runas, tekstu) korpuss(piem., latviešu valodas seno tekstu korpuss www.korpuss.lv/SENIE)
IESKATS TERMINA VĒSTURĒ (kopš XX gs. v.) mašīnfonds (sal. машинный фонд русского языка) corpus angliski runājošās valstīs Deutsches Referenzkorpus (DEREKO); Corpus di
Italiano Scritto; Český národní korpus; korpus suvremenoga hrvatskoga jezika; Korpus języka polskiego wydawnictwa naukowego PWN; Eesti kirjakeele korpus
Latvijā – datorfonds, datu bāzes, arī korpuss Lietuvā – tekstynas
KĀPĒC VAJADZĪGS JAUNS ELEKTRONISKO RESURSU VEIDS? Speciāla korpusa platforma, kas, noindeksējot
tekstus (marķētus/nemarķētus), sniedz papildu informāciju: vārdformu indeksu vārdformu (/pamatformu) biežumu sarakstu un
pārklājumu korpusā konkordances programma ļauj skatīt vārdformas
apkaimi (kontekstu), kārtot pēc biežuma, L/K konteksta
vārdu savienojumu analīzi, gramatisko attieksmju analīzi
P.S. KONKORDANCE
Aleksanders Krudens (Alexander Cruden) 1736.g. publicēja karaļa Džeimsa Bībeles tulkojuma konkordanci. Līdz 1879.g. iznāca 42 izdevumi. Šajā konkordancē bija ne tikai, autoraprāt, nozīmīgākie patstāvīgie vārdi Bībelē, bet arī daži palīgvārdi un vārdusavienojumi.
P.S. KONKORDANCE
Konkordance ir vārdnīca vai Bībeles indekss, kurā visi vārdi, kas ir sastopami Svētajos Rakstos, ir sakārtoti alfabēta secībā, un blakus pievienotas dažādās teksta vietas, kur tie parādās, lai palīdzētu atrast pantus un lai varētu salīdzināt viena un tā paša vārda vairākās nozīmes.
Aleksanders Krudens
Svēto Rakstu pilnās konkordances priekšvārdā
KĀPĒC LATVIEŠU VALODAI VAJADZĪGS KORPUSS? Jo vairāk labāku datu par latviešu valodu, jo kvalitatīvākas
zināšanas, ko izmanto valodas apstrādes tehnoloģijas Agrāk meklējām nezināmos vārdus vārdnīcā, tagad Google
meklētājā Runas datu izmantošana GPS, dialoga sistēmās, teksta
nolasīšana no ekrāna Pilnīga valodas izpēte un pilnvērtīga attīstība nākotnē
Mūsdienu lietuviešu valodas korpuss (100 milj. vārdliet. donelaitis.vdu.lt),
Krievu valodas nacionālais korpuss (150 milj. vārdliet. www.ruscorpora.ru),
Igauņu valodas korpuss (95 milj. vārdliet. http://www.cl.ut.ee/korpused/)
KORPUSA IZVEIDE – jautājumi pirms tam Kāds būs korpuss: vienvalodas, divvalodu,
daudzvalodu? Kāds būs lietojuma mērķis: tulkošanas pētījumi,
studentu valodas prasmju izvērtēšana, gramatikas rakstīšana, sinhroni vai diahroni valodas pētījumi, vārdnīcu veidošana, kāda noteikta valodas stila izpēte u.c. Realitāte: korpusa izveide ir visnotaļ dārgs un
laikietilpīgs process, tāpēc tas tiks izmantots arī citiem mērķiem
KORPUSA SATURS – TEKSTU IZVĒLE, IEGUVE UN UZKRĀŠANA Kāda veida teksti būs valodas korpusā, kādas būs to
proporcijas, kādā veidā tie tiks iegūti, kāds laika periods tiks aptverts?
Kādā veidā tiks atlasīti teksti, lai tie būtu tipiski un reprezentatīvi?
Vai valodas korpuss būs noslēgts vai pastāvīgi papildināms?
galīgi (statiski) vs. bezgalīgi (dinamiski) (G.Kennedy dynamic vs. J.Sinclair monitor corpora)
Dinamiskā korpusa uzdevums – novērot valodas (gramatisko, semantisko) modeļu maiņu laikā. Dati šādā korpusā visbiežāk ir oportūnistiski un nebūt nav līdzsvaroti. Galvenais korpusa izveides kritērijs – daudzums.
KORPUSA IZVEIDE – MARĶĒJUMS Lai korpusa dati būtu mašīnlasāmi un saprotami, kā
arī papildināmi un korpusa daļas savstarpēji savietojamas, svarīgi ir vienoties par uzkrājamo tekstu formātu – marķējuma standartiem, kā arī tekstu dažādo versiju (piem., tīrs teksts, pārbaudīts teksts, anotēts teksts) uzturēšanu.
Jāizstrādā korpusa mērķiem atbilstoša marķēšanas metodika. Lai atrisinātu gramatiskās un semantiskās neviennozīmības
jautājumus, ir nepieciešamas teorētiskās nostādnes morfoloģijas, sintakses un citos jautājumos, kas latviešu valodniecībā nav līdz galam atrisināti vai vispār maz pētīti.
KĀDS KORPUSS?
Runas vs. rakstītas valodas korpuss Vispārīgs [latviešu valodas] korpuss vs. speciāls
(izlokšņu; kāda funkcionālā stila; kādas konkrētas vecuma grupas korpuss; noteikta reģiona [latviešu valodas] korpuss; [latviešu] valodas apguvēju korpuss; noteikta laika perioda tekstu korpuss)
Sinhronisks vs. diahronisks korpuss Vienvalodas vs. divu vai vairāku valodu korpuss Multimodāls korpuss, kas apvieno tekstu, skaņu un attēlu
KORPUSA IZMANTOŠANA
Gramatikas un citu valodniecības jautājumu izpētē Mūsdienu valodas pētīšanai kopumā (skatot gan runāto, gan
rakstīto valodu) Salīdzināmā valodas analīze gan laika šķērsgriezumā (piem.,
diahroniskais korpuss), gan pēc funkcionālajiem stiliem (piem., zinātnisko tekstu valoda; juridisko tekstu valoda u. tml.), gan arī viena veida tekstu kopumā (piem., daiļliteratūras apakškorpuss, kurā ir gan oriģinālliteratūra, gan tulkotā literatūra).
Leksikogrāfijā – bez korpusa un korpusa rīkiem nevar mūsdienās uzrakstīt labu vārdnīcu (statistikas dati, vārdu savienojumu analīze, t.s. hapax legomenon u.c.)
KORPUSA IZMANTOŠANA Terminoloģijas izstrādē Valodas mācīšanā Tulkošanas studijās un tulk(otāj)u apmācībā Mašīntulkošanā Dabīgās valodas apstrādē (morfoloģijas, sintakses
daudznozīmības risinājumi), informācijas izguve, precedenta mašīnmācīšanās
Tiesu ekspertīzēs Psiholingvistikā, sociolingvistikā
Bērnu valodas korpuss ļauj izsekot valodas apgūšanas problēmām; tas lieti noder ne tikai psiholingvistikā, bet arī datorlingvistikā automatizētu sistēmu modelēšanā.
Humanitārajās zinātnēs vispār
BALTIŅŠ (www.ailab.lv/SENIE)baltiņš (1) s. m. baltiņsch (1)
Baltiņsch Ein weißer Schilling. it. Ein Setznetze, Ein blenke. Fuer1650_70_1ms, 4018.
1. ‘baltais šiliņš (šiliņš – kopš 14. gs. sudraba monēta vairākās Eiropas valstīs; acīmredzot nosaukumā norāde uz sudraba gaišo krāsu)’.
2. ‘zvejas tīkls’.
3. ‘klajums mežā, meža pļava’.
balts.
BALTIŅŠ (latviešu valodas vārdnīcās) ME (1. sēj., 1923–1925):
ein weisses Pferd, gew. Ein altes, schwaches weisses Pferd
LLVV (2. sēj., 1973): Zirgs ar baltu vai ļoti gaišu apmatojumu (parasti neliels un ne visai spēcīgs)
LVV (1987): Zirgs ar baltu vai gaišpelēku spalvu
MLVV (2003–2008):
Zirgs ar baltu vai gaišpelēku spalvu
MŪSDIENU LATVIEŠU VALODAS KORPUSS: (www.korpuss.lv) 1 miljons vārdlietojumu (1991–2008)
NEMARĶĒTS KORPUSS
MARĶĒJUMA VEIDI
KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)
no <Spg> nokabatas <Ncfsg4> kabatarēgojās <Vmyisii33san> rēgotiesadītas <Vmnpdfsgpsn> adītcepures <Ncfsg5> cepurestūris <Ncmsn2> stūris. viņš <Pp3msn> viņšto <Pdnfsa> tāpikti <Rpm> piktiiestūķēja <Vmnistp33san> iestūķētdziļāk <Rcp> dziļāk
KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)
KORPUSS AR MORFOLOĢISKO MARĶĒJUMU (P. Bankovskis, Plāns ledus, 1998)
Paldies par uzmanību!
Jautājumi?
Ķeramies pie uzdevumiem