Download - GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Transcript
Page 1: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

NatašaLogarBerginc1inSimonŠuster21 Univerza v Ljubljani, Fakulteta za družbene vede 2 Trojina, zavod za uporabno slovenistiko

GRADNJANOVEGAKORPUSASLOVENŠČINE

V prispevku je predstavljen začetni del gradnje novega referenčnega korpusa slovenščine. Ta bonadgradnja korpusaFidaPLUS ter bo imel 100-milijonski del in domilijarde pojavnic obsegajočiostali del. Prikazana in na kratko utemeljena je taksonomija korpusa z okvirnimi deleži različnihvrstbesedil,naštetapasotudidrugaključnanačela,kibodousmerjalazbiranje.Zbiranjebesedilnapodlagirazličnihpodatkov,izkaterihjemogočevsajokvirnosklepatiorecepcijiinprodukcijijavnoobjavljenihslovenskihbesedil,žepoteka.

Ključne besede: referenčnikorpus,merilagradnje,taksonomija,FidaPLUS

1 Projekt

Referenčni, enojezični, pisni indelomadinamičnikorpus sodobne slovenščine,katerega del gradnje bomo predstavili v prispevku, nastaja v okviru projektaSporazumevanje v slovenskem jeziku (v nadaljevanju SSJ). Projekt vodi MiroRomih(Amebis,d.o.o.,Kamnik),njegovkoordinatorjeSimonKrek(Amebis,Institut Jožef Stefan). Projekt delno financirata Evropska unija iz EvropskegasocialnegaskladaterMinistrstvozašolstvoinšportRepublikeSlovenije. Nosilna ustanovaprojektajeAmebis,vkonzorcijupasodelujejošeštirjepartnerji:InstitutJožefStefan (Odsekza tehnologije znanja),UniverzavLjubljani (Fakulteta zadružbenevede),ZnanstvenoraziskovalnicenterSAZU(InštitutzaslovenskijezikFranaRamovša) inTrojina, zavodzauporabno slovenistiko.Projektpotekaodjunija2008insebozaključiljunija2013.

Jezikinslovstvo,let.54(2009),št.3–4

UDK811.163.6’32

Page 2: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

58 NatašaLogarBergincinSimonŠuster

Korpus,kigabomovnadaljevanjuimenovalizdelovnimnaslovomKorpusSSJ,jeleedenodciljevprojekta–tisonamrečtrije:

1. referenčni korpus in leksikalna baza slovenskega jezika s slovničnimanalizatorjem,

2. jezikovne tehnologije kot del didaktičnih pristopov v vzgojno-izo-braževalnihprocesih,

3. pedagoškakorpusnaslovnicainslogovnipriročnik.

NakakšennačinjeKorpusSSJvpetvvsetricilje,prikazujenaslednjaslika:

Slika 1: Povezanost ciljev projekta SSJ (vir:<http://www.slovenscina.eu>).

Vzporednozzbiranjembesedil(pisno gradivo;gl.zgornjidelslike),kipotekaodzačetkaprojektainsebozaključilosredileta2012,potekapripravanovegavmes-nikazaspletnidostopdokorpusa,kiboprijazentudizamanjzahtevneuporabnike(pedagoški vmesnik),terpripravaročnooznačenegaoziromapreverjenegaučnegakorpusa s štirimi ravnmi označevanja (lema, oblikoslovne oznake, skladenjskarazčlenitev,prepoznavalastnihimen)inpripravabazepodatkovooblikoslovnihlastnostih sodobne slovenske leksike (označevalniki in razčlenjevalniki; večo temv prispevkuŠpeleArhar).KorpusSSJ je korpus pisnih besedil, imel pabo tudi govorni del v obsegumilijon besed (govorni korpus). Zgrajeni korpusbo temelj za bazo podatkov o skladenjskih, pomenskih, frazeoloških in drugihlastnostisodobneslovenskeleksike(gl.spodnjidelslike:leksikalna baza;večotemvprispevkuPoloneGantar)terzapodatke,napodlagikaterihbopripravljensodoben, poljuden in na realni rabi temelječ opis slovenskega jezikovnegasistema(pedagoška korpusna slovnica).Referenčnikorpusisotudiedenodvirovprepoznavanjapogostejšihpravopisnihindrugihtežavpripisanjurazličnihbesedilterpriprepoznavanjunormativnihteženjjezika,zatobodoizKorpusaSSJčrpanitudipodatkizaslogovni priročnik,kibonastalvzadnjifaziprojekta.1

1Večoprojektugl.naspletnistrani<http://www.slovenscina.eu>.

Page 3: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 59

2 Gradnja Korpusa SSJ

Ciljjezgraditinovjavnoinprostodostopnipisnikorpusvobsegudoenemilijardebesed,kiboizdelanpozgledukorpusovFIDA in FidaPLUSterzapisanvformatuXMLTEIP5.Njegovoopremljenost zoznakami jebilomogočeprepoznati žena podlagi zgoraj predstavljenih vzporednih projektnih aktivnosti: korpus bolematiziran, v celoti oblikoskladenjskooznačen, v določenemdelu skladenjskorazčlenjeninboimelorodjezaavtomatskoprepoznavolastnihimen.

2.1 Izhodišče gradnje: FIDA in FidaPLUS

KorpusSSJbonadgradnja referenčnegakorpusaslovenskega jezikaFidaPLUS (<http://www.fidaplus.net>),kijevobseguvečkot621milijonovbesednaspletuprostodostopenodleta2006inževključuje(oziromanadgrajuje)prvitakkorpuszaslovenščino,tj.vletih1997–2000nastalikorpusFIDA(<http://www.fida.net>).KersoosnovnipodatkiozgradbikorpusaFidaPLUSdostopninanjegovispletnistrani inker jebilkorpusžeobširnejepredstavljenvArhar inGorjanc (2007),navajamotuleosnovnepodatkeozgradbikorpusagledenazvrst(Tabela 1)intaksonomijo tegakorpusa(Tabela 2);vnadaljevanju,kjerobravnavamomerilagradnjekorpusa,sebomonamrečnaobojesklicevali.

Zvrst Število besed Delež v %umetnostnabesedila 21,568.943 3,47neumetnostnabesedila 598,871.741 96,41nipodatka 709.316 0,11

621,150.000

Umetnostna besedila Število besed Delež v %pesniškabesedila 366.215 1,70proznabesedila 20,178.021 93,55dramskabesedila 480.957 2,23nipodatka 543.750 2,52

21,568.943

Neumetnostna besedila Število besed Delež v %strokovna 62,064.156 10,36nestrokovna 536,314.560 89,55nipodatka 493.025 0,08

598,871.741

Tabela 1: Zgradba korpusa FidaPLUS glede na zvrst (virpodatkov:<http://www.fidaplus.net/>).

Page 4: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

60 NatašaLogarBergincinSimonŠuster

Ft.P – prenosnikFt.P.G–govorniFt.P.E–elektronskiFt.P.P–pisniFt.P.P.O–objavljenoFt.P.P.O.K–knjižnoFt.P.P.O.P–periodičnoFt.P.P.O.P.C–časopisnoFt.P.P.O.P.C.D–dnevnoFt.P.P.O.P.C.V–večkrattedenskoFt.P.P.O.P.C.T–tedenskoFt.P.P.O.P.R–revijalnoFt.P.P.O.P.R.T–tedenskoFt.P.P.O.P.R.S–štirinajstdnevnoFt.P.P.O.P.R.M–mesečnoFt.P.P.O.P.R.D–redkejekotnamesecFt.P.P.O.P.R.O–občasnoFt.P.P.N–neobjavljenoFt.P.P.N.J–javnoFt.P.P.N.I–internoFt.P.P.N.Z–zasebno

Ft.Z – zvrstFt.Z.U–umetnostnaFt.Z.U.P–pesniškaFt.Z.U.R–proznaFt.Z.U.D–dramskaFt.Z.N–neumetnostnaFt.Z.N.S–strokovnaFt.Z.N.S.H–humanističnaindružboslovnaFt.Z.N.S.N–naravoslovnaintehničnaFt.Z.N.N–nestrokovna

Ft.L – lektoriranoFt.L.D–daFt.L.N–ne

Tabela 2: Taksonomija korpusaFidaPLUS.

Page 5: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 61

2.2 Cilj gradnje: dvodelna sestava

KorpusSSJboimeldvadela:100-milijonskidelinostalidel.

a) 100-milijonski del korpusabonamenjenjeziko(slov)nimpoizvedovanjem,kiimajotežnjopomerodajnosti,kolikortaizhajaizvzorca(korpusa),kiimavnaprejpremišljeno inznano terutemeljenouravnoteženozgradbo.2Zatobodobesedilav 100-milijonskem delu korpusa pazljiveje tehnično očiščena (npr. televizijskisporedi,malioglasi,športnirezultatiipd.somotečizasplošnoleksikografskoizrabokorpusa in se jihobičajno iz korpusaodstrani, gl.Atkins inRundell 2008: 85),natančnejeboprinjemupoštevanataksonomija(gl.vnadaljevanjuTabelo 3,drugistolpec),priizborubesedilzatadelkorpusapabomotežilitudiknatančnejšemuupoštevanjupodatkovobesedilnirecepcijiinprodukciji.

b) V ostali del korpusavelikostidomilijardepojavnicbonačelomavključenovse,karbozbrano.Četudisinamrečzbiralcibesedilprizadevamodobitikarnajvečbesedilzavnaprejoblikovanekategorije,sezbranideležibesedilgledenazvrst,časizidaipd.leredkoujemajostistimi,določenimipredzbiranjem.Posledičnoje neizogibno, da ko vnaprej po obsegu določene kategorije zapolnimo, nekaj(lahkotudiveliko)besedilostanezunajkorpusa;ravnoobratnopalahkodoločenihbesedildobimovelikomanj,kotsmosiprvotnoželeli.Skorpusnojezikoslovnegavidikaješkodaopustitipridobljenabesedila,kisopotencialnivirkakovostnegajezikoslovnega opisa, zato smo se odločili, da pripravimo tudi »ostali«, večjidel korpusa z bolj ohlapnimi merili vključitve (gl. Tabelo 3, tretji stolpec).Merila za ta del korpusa izhajajo iz 100-milijonskega korpusa in so razširjenatako,daomogočajoprostejšezajemanjebesedil,nedabipritemkompromitiralireferenčnost ali reprezentativnost korpusa. V ta del korpusa se lahko večkratdodananovopridobljenogradivoinsenatanačinvsajvčasutrajanjaprojektaomogočinastajanjedinamičnegareferenčnegakorpusaslovenščine(spredhodnimopozorilomuporabnikomotem,kdajbodonadgradnjeprišlooziromadasejetožezgodilo,teropisomnanovovključenegagradiva).

2.3 Merila gradnje in taksonomija

Predzačetkomgradnjevsakegakorpusajetrebapremisliti lastnosti,kijihlahkopripišemo besedilom oziroma jih prepoznamo v besedilih in na podlagi katerihusmerjamozbiranjegradivateruravnotežujemokorpus.Napodlagivdomačiintujiliteraturipopisanihspoznanj(npr.Atkins,ClearinOstler1992;Gorjanc2002:32–33;Arhar2004;McEnery,XiaoinTono2006),napodlagiizkušenj,pridobljenihprigradnjikorpusovFIDA in FidaPLUS(npr.ArharinGorjanc2007;Gorjanc2005;Erjavec2003;ErjavecinKrek2008),ternapodlagipogovorovmedčlanispisnimkorpusompovezaneožjeprojektne skupine (poabecednemvrstnemredu:Špela

2Izraz»uravnoteženi«uporabljamosprevidnostjo.Atkins,Clear inOstler (1992:6, isto tudiBiber1993:256)soprepričani,dajemogočekonkretnikorpusoznačitizauravnoteženega–česploh–šelepoizgradnjiterpoanaliziinuporabisstranirazličnihuporabnikov.

Page 6: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

62 NatašaLogarBergincinSimonŠuster

Arhar, Polona Gantar, Vojko Gorjanc, Polonca Kocjančič, Simon Krek,MarkoStabej,MojcaŠorliinavtorjaprispevka),jebilapripravljenaspecifikacijanaslednjihnajpomembnejših lastnosti:besedilna zvrst/vrsta, področje/tema, dolžina besedil, ustroj dokumenta, avtorstvo, ciljna publika, branost, prenosnik, objavljenost/internost/zasebnost, čas izdaje/nastanka, prevedenost in lektoriranost.

Delutehlastnostibesedilježevčasupripravnazbiranjepripisanaokvirnakoličina,ki jo želimovključitivkorpus–povedanodrugače:nekatereod lastnostibesedilpostanejo kategorije korpusove taksonomije. Taksonomija je uporabniku korpusavidna v glavi korpusnih dokumentov in je hkrati temelj za razširjeno iskanje pokorpusu.Medtem ko je bila taksonomija korpusaFidaPLUS tridelna (prenosnik,zvrst,lektoriranost;gl.Tabelo 2)intudidaljenotranjedokajpodrobnočlenjena(prim.npr.periodično,ki je imelopodkategorijičasopisno in revijalno,znotrajdrugepanatošetedensko,štirinajstdnevno,mesečno,redkejekotnamesecinobčasno),smotaksonomijoKorpusaSSJpoenostavilivenodelnoinčlenjenodotretjepodravnine:

tisk knjižno leposlovje stvarnabesedila periodično časopis revija drugointernet

Slika 2: Taksonomija Korpusa SSJ.

Vnadaljevanjubomonakratkopredstavilirazloge,kisonasvodilikoblikovanjutake taksonomije – v skladu z dejstvom, da gre za nadgradnjo že obstoječegakorpusa, so ti razlogi podani primerjalno s FidoPLUS oziroma temeljijo napovratnihinformacijahvzveziznjo.

a) Tisk in internet

Tradicionalnemupisnemuprenosniku–tisku–sejevjavnihgovornihpoložajihvsaj v zadnjem desetletju kot vsakodnevni način prenosa sporočil pridružilše elektronski. V FidiPLUS je internetnega gradiva 1,24 %. V nastajajočemkorpusu smo se zaradi večje vplivnosti3 odločili ta delež povečati, ker pa gretudi v tehničnem in metodološkem smislu za prvi večji poskus pridobivanjabesedilssvetovnegaspletazareferenčnikorpusprinas,smoseomejilinastrani

3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji,spletnivir):deležgospodinjstev,kiuporabljajointernet,sejes43%vletu2004povzpelna58%vletu2008,pravtakosejepovečaldeleždnevnihuporabnikovinternetaz28%vletu2005na42%vletu2008.

Page 7: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 63

z informativnimi vsebinami, in sicer z dveh vidikov: zajeli bomo (a) besedilanovičarskihportalovin(b)predstavitvenestranipodjetijterdržavnih,pedagoških,raziskovalnih, kulturnih ipd. ustanov. Merilo izbire bo obiskanost (pri a) terobiskanostinuglednost/velikost/pomembnost(prib).

b) Knjižnost, periodičnost in drugo

VoblikiknjigeizdanabesedilasovFidoPLUSprineslaslabih9%pojavnic,skorajvsedrugoizhajaizpublicističneperiodike.Načinuizhajanja–enkrat(zmožnostjoponatisa):večkrat–smoposkusnopridružilišedelomaodprtoskupino»drugo«.Zanjobomozbiralipodnapisetujihfilmov,nadaljevankindokumentarnihoddaj(vključnospodnapisizaslušnoprizadete)terbesedila,kisovrazličnihoddajahbrana4– t. i. scenarije inpostprodukcijskeskripte.Kot rečeno,grezaposkusninabor,zakateregasebomogledenapridobljenogradivonaknadnoodločili,pokaterihmerilih,alisplohinkakogavključitivkorpus. b1) Leposlovje in stvarna besedila

Kot je razvidno vTabelah 1 in 2, je bila v korpusuFidaPLUS uporabljenadelitev na umetnostna in neumetnostna besedila. Prvih korpus vsebuje 3,5%(dalje jih taksonomijadelišenapesniška,prozna indramska,pričemers93,5%prevladujejoprozna).Določitev,aligrezaumetnostnabesedilaaline,jesamodejnomogočalepriknjižnemgradivu(pridnevnemčasopisju,kitudilahkovsebujebesedilaumetnostnezvrsti,zaradivečbesedilnostidokumentovtoskorajnimogoče(vsekakorpaničasovnosmiselno)),zatotidveskupinivnovienodelnitaksonomijiumeščamokotpodravninivkategorijoknjižno.Namestosicernatradicijislovenskezvrstnostitemelječegapoimenovanja»neumetnost-ni«,kiizražapravzapravto,česavtejskupinini(zizločitvijopublicistikepapostanehkrati tudipreširoko), smo seknjižnabesedila znefikcijskovsebinoodločilipoimenovati»stvarnaliteratura«(tudioznaka»strokovnabesedila«jenamrečzavajajoča),njejnasprotnoskupinopa»leposlovje«.Kersobilideležipesniških in dramskih besedil vFidiPLUS izrednomajhni in ker pridobitvevelikovečjegadeležanepričakujemo(čepravsijobomozaraditežnjepotem,dabikorpuszajemalčimboljraznovrstnoraboslovenščine,prizadevalidoseči),smonadaljnjodelitevleposlovnihbesedilopustili.

b2) Časopis in revija

DeležčasopisneinrevijalneperiodikejevkorpusuFidaPLUSdalečnajvečji–večkot85%.Tudinapodlagiodzivovstalnihuporabnikovtegakorpusa(sicerzaznanihpovsemnesistematično;anketnaraziskavaouporab(nost)iFidePLUSpotekaravnovčasupripravetegaprispevka)vsmislu,daje–čepravnajvplivnejši–novinarskijezik v korpusu količinsko preveč izpostavljen, bomo v 100-milijonskem deluKorpusaSSJdeležpublicistikezmanjšali,opuščamopatudidelitevnatedensko,4 Govornipodkorpusbonamrečvključevallespontanigovor.

Page 8: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

64 NatašaLogarBergincinSimonŠuster

štirinajstnevno ipd., ker je raziskave slovenskega poročevalstva kot stilotvornorelevantne(še)nisopotrdile,5zareferenčnikorpuspajegotovoprevečpodrobna.

TaksonomijaKorpusaSSJzokvirnimideležijetakonaslednja:

Taksonomija % za 100-milijonski del korpusa % za ostali del korpusa

tisk 80 50–90knjižno 35 15–35leposlovje 17 20–50stvarnabesedila 18 30–60periodično 40 20–40časopis 20 30–70 revija 20 30–70drugo 5 5–10internet 20 10–50novičarskiportali 8 30–70podjetjainustanove 12 30–70

Tabela 3: Predvideni deleži besedil v obeh delih Korpusa SSJ.

Prioblikovanjutaksonomijezdeležinasjevodilotudipravilo,kismogaposrednoženakazali:vključili smo lekategorije, zakatere jepričakovati,dabomozanjelahkopridobilitolikobesedil,daboobstojkategorijeupravičen(tj.dabodosegelvsaj5%v100-milijonskemdelukorpusa).Opustilismokategorije,kizahtevajovečnotranjegauravnoteževanjainveččasaprizbiranju,sajjezanjeboljsmiselnagradnjaspecializiranih korpusov (npr. korpus zasebnih besedil ali korpus nelektoriranihbesedil (zadnjih je v korpusu FidaPLUS 0,6 %, čeprav to vseeno pomeniimpresivnih3,800.000pojavnic)).Zaopustitevnekaterihpodravnin taksonomijesmoseodločilitudinapodlagipodatkovonačinihiskanjapokorpusuFidaPLUS.Analiza, opravljenavnovembru2008, jepokazala,da jebilokar93% izdelavkonkordancvFidiPLUSizvedenopriosnovnemiskanju,le7%zahtevpopridobit-vikonkordančnihnizovpajepotekalovrazširjenemiskanjuzizbirotaksonomskihkategorij,časanastankadelaaliizpisaCobiss.Vtehprimerihsonekateraiskanjaizrednoredka,takosobilenpr.podkategorijeprirevijalnihinčasopisnihbesedilihgledenapogostostizhajanjaizbranevmanjkotenemodstotkurazširjenihiskanj.Sicerpajebilvokvirurazširjenegaiskanjaprenosnikizbranv15%,časnastankadelav35%,zvrstv17%,lektoriranostv18%inizpisCobissv4%.Kljubnavidezmanjšiizbirnostivnaprejpripravljenihmožnostirazširjenegaiskanjazaradi

5Korošec(1976:106)znotrajpublicistikeizrecnoločilenavsakodnevnoizhajanjevezanoporočevalstvo–kajtivsakodnevnopisanjeopodobnihaliponavljajočihsesituacijahjenajpomembnejšiobjektivnistilotvornidejavnikčasopisnegaporočevalstva,kijeodjezikazahtevalprilagoditevnovivlogiinstemnastaneknovega,tj.poročevalskegastila.

Page 9: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 65

enodelneinpoenostavljenetaksonomijebouporabnikomnovegakorpusaševednoomogočena izdelava poljubnih podkorpusovna podlagi bibliografskih podatkovvglavikorpusnihdokumentov.Čepravsmopregledalistanjevtujihkorpusih(kipa jezelorazlično,prim.Tabelo 4),sobilideleživ taksonomijiKorpusaSSJvkončnifazisubjektivnaodločitevsestavljalcevkorpusa–zavedamopase,dabouporabnikomkorpusa trebadatimožnostprepoznanja tehsubjektivnihodločitevvsmislu,dajekorpussicerzaznamovansteoretičnimiprepričanjiinodločitvamisvojihsnovalcev,vendarmorabitiuporabnikomomogočeno,datozaznamovanostrazberejo inpresežejo (Stabej1998:98).UporabnikomKorpusaSSJbozatopoizgradnjidanonavoljodovoljpodatkovovsebinikorpusa,dabodolahkorezultatesvojihpoizvedbustreznovrednotiliininterpretirali.

Korpus6 Zvrst Delež v %Češčina:Češkinacionalnikorpus–SYN2005(100milijonov)

leposlovje 40strokovna besedila 27periodika 33

Češkinacionalnikorpus–SYN2000(100milijonov)

leposlovje 15stvarnabesedila 25periodika 60

Nemščina:Digitalnislovarnemškegajezika20.stoletja(DWDS)–Kerncorpus(100milijonov)

leposlovje 26periodika 27stvarna besedila 22uporabna besedila 20transkribirana govorjena besedila 5

Angleščina:Britanskinacionalnikorpus(BNC)(100milijonov)

knjižno 58periodično 30različno–objavljeno 6različno–neobjavljeno 4govorjeno–brano 2

Poljščina:KorpusPWN(100milijonov)

leposlovje 20stvarna besedila 21periodika 45,5govorjena besedila 4,5internetno 3,5besedilni drobiž 5,5

Irščina:NovikorpuszaIrsko(NCI)(255milijonov)

knjižno 50periodično 20internetno 25ostalo 5

Madžarščina:Madžarskinacionalnikorpus(187milijonov)

periodika 45leposlovje 20stvarna besedila 13uradni dokumenti 11zasebno 10

Tabela 4: Delež besedilnih zvrsti v sedmih tujih referenčnih korpusih.

6Spletnestranikorpusovgl.vseznamunakoncuprispevka.

Page 10: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

66 NatašaLogarBergincinSimonŠuster

Medlastnostmibesedil,kivtaksonomijinisovidne,bodopausmerjalezbiranjebesedil,jetrebaobkoncutetočkeomenitivsajše:

– pri zbiranju si bomo prizadevali pridobiti gradivo z različnih področijoziromarazličnihtém(aktualnidogodki,gospodarstvo,politika,vzgojainizobraževanje,narava,dom,ljudje,družina,moški,ženske,zdravje,hrana,posel,finance,športitd.);

– prigradivu,prikateremjeavtorstvomerljivoinznano,bomopozorninačimvečjorazpršenostoziromanato,dabizaradinaključjaalipopomotineprišlodoprekomernezastopanostilepeščiceavtorjev;

– pridobivali bomo tudi lokalno časopisje ter zamejsko in izseljenskogradivo;

– pričasunastanka/izdajebomoupoštevalidvenačeli:(a)gledenaprodukcijobomo besedilodajalce, ki so svoja besedila že prispevali v korpusFidaPLUS,prosilizadela,kisojihizdalipoletu2005,besedilodajalce,kipriFidiPLUSnisosodelovali,pazadela,kisojihizdalipoletu1995;(b)pridobivalibomotudistarejšegradivo(sicernovejšegadatumaizdaje),zakateregabododostopnipodatkiovisokirecepciji(npr.visokaizposojavknjižnicah);

– vkorpusbodovključenatudiprevedenadela.

2.4 Začetek gradnje: podatki za zbiranje besedil

Vslovenskemprostorujepodatke,izkaterihlahkookvirnosklepamoorecepcijibesedil,mogočedobitiizvečvirov.

PodatkiobralnihnavadahvzvezisčasopisiinrevijamisezbirajovokviruNacionalneraziskavebranosti.RaziskavoizvajadružbaValicon,d.o.o.,njennaročnikpajeSvetpristopnikov (sestavljajo ga skoraj vsi pomembni založniki tiskanihmedijev), kidelujepriSlovenskioglaševalskizbornici.Splošnipodatkiizraziskavesoobjavljenidvakratletnonaspletnistrani<http://www.nrb.info/podatki>.Drugivirpodatkovjeknjižničnaizposoja,kipove,katereknjigesobilevknjižnicah,vključenihvsistemCobiss,najboljizposojaneinnajvečkratrezerviraneterkaterislovenskiavtorjiinnjihovadelasonajboljizposojani(grezaavtorje,kisoupravičenidoknjižničneganadomestila). Podatki so na voljo na spletni strani <http://home.izum.si/cobiss/statistike_izposoj>.Enoodmerilzaizbirobesedilajelahkotudiknjižnanagrada.ZaleposlovjejevSlovenijimogočedobitivečnagrad,kotsokresnikzanajboljširomanleta,desetnicazamladinskoliteraturo,Jenkovanagradazapoezijoitd.Privključevanju besedil v korpus se bomooprli tudi na podatke o nakladi.Ti sicerneposrednonegovorijoobesedilnirecepciji,kljubtemupašteviloizdanihizvodovobičajnosledipotrebaminželjambralcev;šebolj toveljazapodatekoponatisuoziroma dopolnjeni izdaji. Pri spletnih straneh je najpomembnejši podatek oobiskanosti.Obstajavečmerjenjobiskanostispletnihstrani,mednjiminpr.MOSS(<http://www.soz.si/projekti_soz/moss_merjenje_obiskanosti_spletnih_strani>),Alexa (<http://www.alexa.com>) in projekt Raba interneta v Sloveniji (<http://

Page 11: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

Gradnjanovegakorpusaslovenščine 67

www.ris.org>).Priizbiripredstavitvenihstranislovenskihpodjetijbomoizhajaliizlestvicnajuglednejših,največjihinnajuspešnejšihpodjetij,kijihpripravljačasopisFinance(<http://www.finance.si/>).Nadrugistranismovidikbesedilneprodukcijemeddrugimnpr.skušaliujetitako,dasmoizseznamaAgencijeRepublikeSlovenijezajavnopravneevidenceinstoritve(<http://www.ajpes.si>)izpisalipravneosebe,kiimajokotsvojodejavnostopredeljeno(tudi)izdajanjeknjig,ternatotaseznamzožilinatiste,kisovzadnjihtrehletihizdalivsajpetdel.Naštetimseznamomsmopridružili šenekatere–vses težnjopoobjektiviziranjunabora in izborabesedil.Seznamibodovčasugradnjekorpusapostajališekompleksnejši,nato,vkolikšnimeri bodo to na koncu tudi seznami v korpus vključenih besedil, pa bo sevedamočnovplivalapripravljenostbesedilodajalcev,dadelabrezplačnoodstopijo.

Na osnovi pripravljenih seznamov besedilodajalcev in besedil, ki jih želimopridobiti, v času pisanja tega prispevka že poteka »časovno in organizacijskonajzahtevnejši del projekta« (Arhar in Gorjanc 2007: 98): zbiranje besedil velektronskioblikiinpogodbenourejanjeavtorskopravnihrazmerij.

3 Sklep

Predstavljena merila, premisleki in odločitve so vodilo gradnje Korpusa SSJ,vendarjihjetrebarazumetidinamično–obgradnjikorpusasebodošespreminjaliindopolnjevali.Namentegaprispevkajezatotudipovabilobralcem,dassvojimipredlogiizboljšajonašaizhodišča,olajšajozbiranjealikakodrugačepripomorejokrelevantnostiinuporabnostikončnegaizdelka.

Literatura

Arhar, Špela, 2004: Gradnja specializiranega korpusa. Diplomsko delo. Ljubljana:Filozofskafakulteta.

Arhar,Špela, inGorjanc,Vojko,2007:KorpusFidaPLUS:novageneracija slovenskegareferenčnegakorpusa.Jezik in slovstvo52/2.95–110.

Atkins,Sue,Clear,Jeremy,inOstler,Nicholas,1992:Corpusdesigncriteria.Literary and linguistic computing7/1.1–16.

Atkins, Sue, in Michael Rundell, 2008: The Oxford Guide to Practical Lexicography. Oxford:OxfordUniversityPress.

Biber,Douglas,1993:Representativnessincorpusdesign.Literary and linguistic computing 8/4.243–257.

Erjavec,Tomaž,2003:Označevanjekorpusov.Jezik in slovstvo48/3–4.61–76.

Erjavec,Tomaž,inKrek,Simon,2008:OblikoskladenjskespecifikacijeinoznačenikorpusiJOS. Erjavec, Tomaž, in Žganec Gros, Jerneja (ur.): Zbornik 6. konference Jezikovne tehnologije.Ljubljana:InstitutJožefStefan.49–53.

Page 12: GRADNJA NOVEGA KORPUSA SLOVENŠČINE · 2014. 6. 27. · 3 Posredno o večji vplivnosti govorijo podatki raziskave Slovenija in internet 2005−2008 (Raba interneta v Sloveniji, spletni

68 NatašaLogarBergincinSimonŠuster

Gorjanc, Vojko, 2002: Jezikoslovna načela gradnje računalniških besedilnih zbirk strokovnih jezikov. Doktorskadisertacija.Ljubljana:Filozofskafakulteta.

Gorjanc,Vojko,2005:Uvod v korpusno jezikoslovje.Domžale:Izolit.

Korpus slovenskega jezika FIDA(1997–2000):<http://www.fida.net>. (Dostop22.5.2009.)

Korošec, Tomo, 1976: Poglavja iz strukturne analize slovenskega časopisnega stila. Doktorska disertacija.Ljubljana:Filozofskafakulteta.

Korpus slovenskega jezika FidaPLUS(2007):<http://www.fidaplus.net>.(Dostop22.5.2009.)

McEnery,Tony,Xiao,RichardinTono,Yukio,2006:Corpus-based language studies: an advanced resource book.LondoninNewYork:Routledge.

Sporazumevanje v slovenskem jeziku(2008–2013):<http://www.slovenscina.eu>.(Dostop22.5.2009.)

Stabej,Marko, 1998: Besedilnovrstna sestava korpusa FIDA.Uporabno jezikoslovje 6.96–106.

Spletne strani

a)podatkovzazbiranjebesedil:AJPES:<http://www.ajpes.si>.(Dostop22.5.2009.)Alexa:<http://www.alexa.com>.(Dostop22.5.2009.)Cobiss – statistike izposoj gradiva:<http://home.izum.si/cobiss/statistike_izposoj>.(Dostop:22.5.2009.)Finance:<http://www.finance.si/>.(Dostop22.5.2009.)MOSS – merjenje obiskanosti spletnih strani:<http://www.soz.si/projekti_soz/moss_merjenje_obiskanosti_spletnih_strani>.(Dostop22.5.2009.)Nacionalna raziskava branosti:<http://www.nrb.info/podatki>.(Dostop22.5.2009.)RIS – raba interneta v Sloveniji:<http://www.ris.org>.(Dostop22.5.2009.)

b)tujihreferenčnihkorpusov:Britanski nacionalni korpus (BNC):<http://www.natcorp.ox.ac.uk/>. (Dostop22.5.2009.)Češki nacionalni korpus SYN2000 in SYN2005:<http://www.korpus.cz>. (Dostop22.5.2009.)Digitalni slovar nemškega jezika 20. stoletja (DWDS) – Kerncorpus:<http://www.dwds.de/>.(Dostop22.5.2009.)Madžarski nacionalni korpus:<http://www.nytud.hu>.(Dostop22.5.2009.)Novi korpus za Irsko (NCI):<http://www.focloir.ie/corpus/>,<http://www.lexmasterclass.com/corpus_ireland>.(Dostop22.5.2009.)Poljski korpus PWN:<http://korpus.pwn.pl/>.(Dostop22.5.2009.)