LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf ·...

91
VILNIAUS UNIVERSITETAS Pijus Kasparaitis LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ Daktaro disertacija Fiziniai mokslai, informatika (09P) Vilnius, 2001

Transcript of LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf ·...

Page 1: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

VILNIAUS UNIVERSITETAS

Pijus Kasparaitis

LIETUVIŲ KALBOSKOMPIUTERINĖ SINTEZĖ

Daktaro disertacijaFiziniai mokslai, informatika (09P)

Vilnius, 2001

Page 2: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

2

Darbas atliktas 1996-2000 metais Vilniaus universitete.Doktorantūros teisė suteikta 1998 04 14 Lietuvos RespublikosVyriausybės nutarimu Nr. 457.

Doktorantūros komitetas:

pirmininkas ir darbo vadovas:doc. dr. Algirdas BASTYS (Vilniaus universitetas, fiziniaimokslai, informatika, 09P);

nariai:1. prof. habil. dr. Aleksas GIRDENIS (Vilniaus universitetas,

humanitariniai mokslai, filologija, 04H);2. prof. habil. dr. Feliksas IVANAUSKAS (Vilniaus universitetas,

fiziniai mokslai, informatika, 09P);3. prof. habil. dr. Laimutis TELKSNYS (Matematikos ir

informatikos institutas, fiziniai mokslai, informatika, 09P);4. doc. dr. Valdas UNDZĖNAS (Vilniaus universitetas, fiziniai

mokslai, informatika, 09P).

Page 3: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

3

Turinys

Turinys ......................................................................................................................... 3Įvadas ........................................................................................................................... 5I. Teksto apdorojimas ................................................................................................. 91. Sintezės proceso sudedamosios dalys .................................................................... 9

1.1. Prozodija............................................................................................................. 91.2. Lingvistinio teksto apdorojimo sudedamosios dalys......................................... 101.3. Pradinis teksto apdorojimas ............................................................................. 121.4. Morfologinė analizė .......................................................................................... 121.5. Kontekstinė analizė ........................................................................................... 121.6. Sintaksinė analizė.............................................................................................. 131.7. Raidžių keitimas į garsus (transkribavimas)..................................................... 131.8. Kirtis ................................................................................................................. 141.9. Frazių ribos....................................................................................................... 151.10. Pagrindinis tonas............................................................................................ 151.11. Segmentų trukmė ............................................................................................. 161.12. Intensyvumas................................................................................................... 161.13. Funkcijų priklausomybės ................................................................................ 17

2. Lietuvių kalbos teksto automatinis skiemenavimas........................................... 173. Lietuvių kalbos teksto transkribavimas.............................................................. 19

3.1. Trumpa lietuvių kalbos charakteristika ............................................................ 193.2. Transkribavimo metodo parinkimas ................................................................. 203.3. Trumpa fonetinių vienetų bazės charakteristika ............................................... 203.4. Teksto transkribavimas naudojantis formaliomis taisyklėmis .......................... 213.5. Reikalavimai taisyklių rinkiniui ........................................................................ 213.6. Konteksto ir einamosios raidės požymių santykis............................................. 223.7. Kairysis ir dešinysis kontekstas ........................................................................ 223.8. Einamosios raidės požymiai ............................................................................. 223.9. Fonetinių vienetų sąrašas ................................................................................. 233.10. Veiksmai.......................................................................................................... 233.11. Taisyklių pavyzdžiai ........................................................................................ 243.12. Rezultatai ........................................................................................................ 25

4. I skyriaus išvados .................................................................................................. 26II. Lietuvių kalbos automatinis kirčiavimas remiantis žodynu ............................ 271. Įvadas ..................................................................................................................... 272. Papildomi reikalavimai sintezėje naudojamam kirčiavimo algoritmui ........... 283. Kaip kirčiuojama kitose kalbose.......................................................................... 294. Daiktavardžių ir būdvardžių kirčiavimas remiantis žodynu............................ 30

4.1. Žodžių skirstymas į grupes................................................................................ 304.2. Daiktavardžių ir būdvardžių skaidymas į dalis ................................................ 304.3. Kaitymas ........................................................................................................... 314.4. Kamieno tipai.................................................................................................... 314.5. Kirčiuotės.......................................................................................................... 324.6. Informacija apie kamienus................................................................................ 344.7. Priebalsių „d” ir „t” kitimas daiktavardžių ir būdvardžių kamienų galuose .. 344.8. Informacija apie galūnes .................................................................................. 354.9. Kitų gramatinių formų bei kalbos dalių kirčiavimas ........................................ 364.10. Bendras daiktavardžių ir būdvardžių kirčiavimo algoritmas ......................... 36

Page 4: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

4

5. Veiksmažodžių kirčiavimas remiantis žodynu ................................................... 385.1. Veiksmažodžių skaidymas į dalis ...................................................................... 385.2. Asmenuotės ....................................................................................................... 385.3. Kirčiavimo taisyklės.......................................................................................... 395.4. Raidžių kitimo kamiengaliuose taisyklės .......................................................... 425.5. Priešdėliai ......................................................................................................... 435.6. Galūnės ............................................................................................................. 445.7. Kamienai ........................................................................................................... 445.8. Bendras veiksmažodžių kirčiavimo algoritmas................................................. 45

6. Nekaitomų žodžių kirčiavimas............................................................................. 467. Eksperimentų rezultatai ....................................................................................... 478. II skyriaus išvados................................................................................................. 47III. Lietuvių kalbos daiktavardžių ir būdvardžių automatinis kirčiavimasnaudojantis taisyklėmis............................................................................................. 491. Įvadas ..................................................................................................................... 492. Reikalavimai taisyklėms ....................................................................................... 493. Taisyklių pavidalas ir apribojimai ...................................................................... 504. Taisyklių suderinamumo apibrėžimas ................................................................ 515. Taisyklių suderinamumo tyrimas ........................................................................ 526. Taisyklių rinkinių korektiškumas ....................................................................... 557. Taisyklių sudarymas rankiniu būdu ................................................................... 568. Automatinis taisyklių sudarymas ........................................................................ 599. Taisyklių sudarymo eksperimentų rezultatai ..................................................... 6110. Automatiškai sukurtos taisyklės ........................................................................ 6211. Teksto kirčiavimo eksperimentai....................................................................... 6312. III skyriaus išvados ............................................................................................. 65IV. Kalbos signalo formavimas ir sintezuotos kalbos kokybės įvertinimas......... 671. Kalbos signalo formavimas .................................................................................. 67

1.1. Istorija............................................................................................................... 671.2. Kalbos signalo formavimo metodų klasifikacija............................................... 671.3. Artikuliaciniai metodai ..................................................................................... 671.4. Formantinė sintezė............................................................................................ 691.5. Tiesine prognoze paremta sintezė ..................................................................... 701.6. Konkatenacinė sintezė (naudojant nekoduotą signalą) .................................... 721.7. Konkatenacinėje sintezėje naudojami segmentai.............................................. 731.8. Fonetinių vienetų bazės sudarymas .................................................................. 741.9. Kalbos sintezatoriaus veikimas......................................................................... 771.10. Kalbos tempo keitimas .................................................................................... 77

2. Sintezuotos kalbos kokybės įvertinimas.............................................................. 793. IV skyriaus išvados ............................................................................................... 82Išvados........................................................................................................................ 83Literatūra................................................................................................................... 84Publikacijos................................................................................................................ 88Priedai ........................................................................................................................ 89

A. Terminų žodynėlis................................................................................................ 89B. Kompaktinio disko turinys................................................................................... 91

Page 5: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

5

Įvadas

Tyrimo objektas. Šiame darbe nagrinėjama lietuvių kalbos sintezė pagal tekstą.Kalbos sintezatorius yra kompiuterinė sistema (aparatūrinė ar programinė), galintižmogaus balsu perskaityti bet kokį jam pateiktą tekstą, nesvarbu, ar šį tekstą įvedėoperatorius klaviatūra, ar jis buvo įvestas naudojant kokią nors rašytinio tekstoatpažinimo (angl. optical character recognition - OCR) sistemą. Reikia iš kartosusitarti, kuo šiame darbe nagrinėjamos sistemos skiriasi nuo bet kokio kalbančioįrenginio, pavyzdžiui, kasetinio magnetofono. Nagrinėjamos sistemos gali generuotinaujus sakinius. Egzistuoja sistemos, galinčios jungti įrašytus žodžius ar sakinių dalis.Tokios sistemos vadinamos balsu atsakančiomis sistemomis (voice response systems).Jos gali būti naudojamos, kai pakanka riboto žodyno ir kai sakinių struktūra labaipaprasta. Tokių sistemų taip pat nenagrinėsime, nes neįmanoma įrašyti ir saugoti visųtam tikros kalbos žodžių. Todėl kalbos sintezės pagal tekstą sistemas patogiausiaapibrėžti kaip sistemas, automatiškai generuojančias žmogaus balsą naudojantgrafemų keitimą fonemomis [Dutoit 1997].

Gali atrodyti, kad tai nesudėtingas uždavinys, nes jau pradinės mokyklosmoksleiviai išmoksta balsu perskaityti tekstą. Visi žmonės turi nuodugnias žinias apiesavo gimtąją kalbą. Tačiau šios žinios dar nėra ištirtos ir suprastos, todėl, siekiantišmokyti kompiuterį kalbėti, kuriami įvairūs modeliai, realizuojantys tam tikrątekstinės informacijos transformavimo į žmogaus balsą proceso dalį. Šiame darbekaip tik ir nagrinėjami kai kurie tokie modeliai, visų pirma – lietuvių kalbos tekstoautomatinis kirčiavimas ir transkribavimas.

Temos aktualumas. Kalba yra pagrindinė žmogaus ketinimų, tikslų ir norųreiškimo forma. Tai produktyviausias, natūraliausias ir patogiausias informacijosperdavimo būdas. Tobulėjant kompiuterinei technikai kyla noras, kad žmogus galėtųšiuo natūraliausiu būdu bendrauti ir su kompiuteriu. Tam reikia, kad kompiuterissuprastų žmogaus pasakytą frazę ir sugebėtų atsakyti žmogaus balsą imituojančiubalsu. Pastarajam uždaviniui (t.y. atsakymui ištarti) paprastai naudojami kalbossintezatoriai (žinoma, jei nepakanka įrašytos natūralios žmogaus kalbos).

Pasaulyje sukurta daug sintezatorių, kalbančių daugeliu pasaulio kalbų. Pvz.,Digital Equipment Corporation sintezatorius DECtalk kalba anglų, vokiečių, prancūzųir ispanų kalbomis, Telia Promotor AB sintezatorius Infovox 230 kalba anglų, danų,suomių, prancūzų, vokiečių, islandų, italų, norvegų, ispanų, švedų ir olandų kalbomis[Lemmetty 1999]. Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitąžodyną, sakinio struktūrą, prozodinius požymius, fonemų sistemą ir t.t. Palygintinedaug yra nuveikta lietuvių kalbos sintezės srityje. Kompanija Dolphin Systems forPeople with Disabilities yra sukūrusi sintezatorių Apollo II, kuris, greta kitų kalbų,kalba ir lietuviškai [Dolphin Speech Synthesizer Series 2 User Guide]. Be to, lietuviųkalbos sintezatoriai buvo sukurti VU skaičiavimo centre doc. V. Undzėnovadovaujamoje grupėje ir VU Spec. psichologijos laboratorijoje doc. A. Bagdonovadovaujamoje grupėje [Bagdonas ir kt. 1996]. Pastarajame projekte teko dalyvauti iršio darbo autoriui.

Visais minėtais atvejais (turint omeny tik lietuvių kalbos sintezatorių)pagrindinis dėmesys buvo skirtas veikiančio produkto sukūrimui, o ne lietuvių kalbaioptimalių algoritmų paieškai ir pagrindimui. Sukurti algoritmai bei gauti rezultatainėra pakankamai išsamiai viešai publikuoti (pvz., nėra jokių kirčiavimo patikimumoįvertinimų). Norint sintezuoti aukštos kokybės lietuvių kalbą, pasigendama lietuvių

Page 6: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

6

kalbos specifikos, visų pirma kirčiavimo ir transkribavimo, analizės bei lietuvių kalbaioptimalių algoritmų.

Darbo tikslas:1) Pasiūlyti sukirčiuoto ir suskiemenuoto lietuvių kalbos teksto transkribavimo

metodą. Metodas turi atsižvelgti į lietuvių kalbos rašybos bei fonetikos specifiką irnepriklausyti nuo fonetinių vienetų sąrašo;

2) Pasiūlyti lietuvių kalbos teksto automatinio kirčiavimo metodą. Šiam tiksluiapibrėžti, kokia informacija reikalinga žodžių kaitymui bei kirčiavimui ir kokiupavidalu ją saugoti. Sukurti žodžių kaitymo bei kirčiavimo naudojant šią informacijąalgoritmą;

3) Pasiūlyti automatinio daiktavardžių ir būdvardžių kirčiavimo taisykliųsudarymo algoritmą, kuris leistų sumažinti kirčiavimui reikalingos informacijos kiekįbei kirčiuoti nežinomus žodžius ir kuris nepablogintų kirčiavimo tikslumo.

Tyrimo metodai. Buvo naudoti metodai ir sąvokos iš kompiuterinių sistemųprojektavimo, reliacinių duomenų bazių, kalbotyros bei psichologijos.

Disertacijos rezultatai gauti realizavus pateiktus algoritmus kompiuterinėmisprogramomis. Kirčiavimo ir skiemenavimo tikslumas įvertintas ir atlikuseksperimentus su realiais lietuvių kalbos tekstais. Sintezuotos kalbos suprantamumasįvertintas sintezuotą kalbą pateikiant klausytojams.

Mokslinis naujumas. Autoriaus gauti nauji moksliniai rezultatai yra šie:1) Pasiūlytas lietuvių kalbos teksto automatinio kirčiavimo remiantis žodynu

algoritmas;2) Pasiūlytas automatinio daiktavardžių ir būdvardžių kirčiavimo taisyklių

sudarymo algoritmas;3) Pasiūlytas sukirčiuoto ir suskiemenuoto lietuvių kalbos teksto

transkribavimo naudojant reguliarią gramatiką algoritmas.

Darbo rezultatų praktinė reikšmė. Sistemos, sintezuojančios kalbą pagaltekstą, gali būti naudojamos daugelyje sričių, kaip antai:

1) Telekomunikacijose;2) Kalbų mokymui;3) Neįgaliems žmonėms;4) Kalbančios knygos ir žaidimai;5) Valdymui balsu;6) Žmogaus bendravimui su mašinomis;7) Fundamentaliems ir taikomiesiems tyrimams.

Praktinį pritaikymą gali įgyti ir kai kurie šio darbo tarpiniai rezultatai.Pavyzdžiui, lietuvių kalbos automatinio kirčiavimo algoritmas gali būti naudojamas:

1) Radijo ar televizijos diktorių skaitomoms žinioms automatiškai kirčiuoti;2) Mokyklose mokant vaikus taisyklingo kirčiavimo.Kirčiavimo metu gaunamas žodžio išskaidymas į priešdėlį, kamieną ir galūnę

gali būti naudojamas organizuojant paiešką tekstinėse duomenų bazėse. Žodžiokamieno suradimas leistų ieškoti duomenų bazėje visų žodžio gramatinių formų.

Automatinio skiemenavimo algoritmas gali būti naudojamas žodžių kėlimotikrinimui.

Page 7: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

7

Lietuvių kalbos sintezatorius praktiškai naudojamas Lietuvos aklųjų irsilpnaregių kompiuterių centre.

Darbo aprobavimas. 1996 m. skaitytas pranešimas Šiauliuose vykusiojekonferencijoje „Biomedicininė inžinerija” tema „Lietuvių kalbos kompiuterinissintezatorius akliesiems”.

1997 m. skaitytas pranešimas MII seminare tema „Lietuvių kalbos kompiuterinėsintezė”.

1999 m. skaitytas pranešimas VU MIF Kompiuterijos katedros seminare tema„Lietuvių kalbos kompiuterinė sintezė”.

Publikacijos. Pagrindiniai disertacijos teiginiai išdėstyti šiose publikacijose:Kasparaitis, P. (1999). Transcribing of the Lithuanian Text Using Formal Rules.

Informatica, 10(4), 367-376.Kasparaitis, P. (2000). Automatic Stressing of the Lithuanian Text on the Basis

of a Dictionary. Informatica, 11(1), 19-40.Kasparaitis, P. Automatic Stressing of the Lithuanian Nouns and Adjectives on

the Basis of Rules. Informatica, (priimtas spaudai).Kasparaitis, P., A. Bagdonas, F. Laugalys (1996). DIGIBOOK: Digitized

Speech Processing for Efficient Distribution of Texts. Studies on the Evaluation of theQuality of the Russian Speech Synthesiser and Creation of Lithuanian SpeechSynthesiser. COPERNICUS 806, Final Report of Vilnius Partner, Vilnius.

Darbo struktūra ir apimtis. Disertacinis darbas susideda iš įvado, keturiųskyrių, išvadų, literatūros sąrašo ir 2 priedų. Pagrindinė dalis 88 puslapiai įskaitant 17paveikslėlių. Literatūros sąraše 76 nuorodos.

Darbo turinys. Pirmame skyriuje nagrinėjami kalbos sintezės pagal tekstąišskaidymo į smulkesnius uždavinius būdai. Išsamiau nagrinėjamas tekstoapdorojimas. Pateikti autoriaus sukurti skiemenavimo ir transkribavimo algoritmai.

Antrame skyriuje pristatomas autoriaus sukurtas lietuvių kalbos tekstokirčiavimo remiantis žodynu algoritmas. Visi lietuvių kalbos žodžiai suskirstyti įdaiktavardžius-būdvardžius, veiksmažodžius ir nekaitomus žodžius. Atskiraiišnagrinėta kiekviena iš šių grupių. Pateikti teksto kirčiavimo eksperimentų rezultatai.

Trečiajame skyriuje pristatomas autoriaus sukurtas daiktavardžių ir būdvardžiųkirčiavimo taisyklių generavimo naudojant kamienų žodyną algoritmas. Automatiškaisukurto taisyklių rinkinio kirčiavimo tikslumas ir žodyno dydis palygintas suantrajame skyriuje aprašytu algoritmu.

Ketvirtajame skyriuje nagrinėjami kalbos signalo formavimo metodai. Išsamiauišnagrinėtas konkatenacinis metodas, aprašyta naudojama fonetinių vienetų bazė beikalbos sintezatoriaus architektūra. Be to, išanalizuoti sintezuotos kalbos įvertinimobūdai bei pateiktas sintezuotos kalbos įvertinimas.

Prieduose pateiktas terminų žodynėlis, o taip pat kompaktinis diskas sukirčiuotų tekstų pavyzdžiais, transkribavimo taisyklėmis bei sintezuotos kalbospavyzdžiais.

Page 8: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

8

Gynimui pateikiama:1. Sukirčiuoto ir suskiemenuoto lietuvių kalbos teksto transkribavimo

naudojant formalias taisykles metodas. Darbe apibrėžtas transkribavimo taisykliųpavidalas atsižvelgiant į lietuvių kalbos rašybą bei fonetiką. Pateiktas taisykliųrinkinys ir jas interpretuojantis algoritmas, kuris nepriklauso nei nuo taisykliųrinkinio, nei nuo fonetinių vienetų sąrašo;

2. Lietuvių kalbos teksto automatinio kirčiavimo remiantis žodžių daliųžodynu metodas. Pagal kaitymo būdą lietuvių kalbos žodžiai suskirstyti į 3 grupes iratskirai išnagrinėta kiekviena iš šių grupių. Kiekvienai grupei pateiktas žodžiųskaidymo į dalis būdas ir apibrėžta žodžių kaitymui bei kirčiavimui reikalingų žodžiodalių duomenų bazių struktūra, kokia informacija jose saugoma bei paieškosypatumai. Pasiūlytas žodžių kaitymo bei kirčiavimo naudojant šias duomenų bazesalgoritmas;

3. Automatinio daiktavardžių ir būdvardžių kirčiavimo taisyklių sudarymoalgoritmas. Apibrėžtas kirčiavimo taisyklių pavidalas, ištirtas tokių taisykliųsuderinamumas, pasiūlytas automatinio taisyklių generavimo algoritmas.

Padėkos. Pirmiausia noriu padėkoti visiems savo doktorantūros komitetonariams, o ypač prof. A. Girdeniui už galimybę naudotis jo sukurta fonetinių vienetųbaze ir suteiktas fonologijos žinias. Atskirai noriu padėkoti ir savo pirmajammoksliniam vadovui doc. V. Undzėnui.

Taip pat noriu padėkoti E. Mitašiūnaitei ir V. Zinkevičiui už pagalbą sudarantkirčiavimo žodyną, doc. A. Bagdonui ir doc. F. Laugaliui už pagalbą įvertinantsintezuotą kalbą, dr. F. Scheuerlei už galimybę studijuoti Mannheimo universiteteVokietijoje.

Be to, dėkoju Lietuvos valstybiniam mokslo ir studijų fondui, kuris 2000 metaisdalinai finansavo šiuos tyrimus.

Taip pat dėkoju visiems, kurie vienaip ar kitaip prisidėjo prie mano tyrimų iršios disertacijos rengimo, tačiau liko asmeniškai nepaminėti.

Page 9: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

9

I. Teksto apdorojimas

1. Sintezės proceso sudedamosios dalys

Kalbos sintezę pagal tekstą pirmiausia patogu išskaidyti į du pagrindiniusetapus: lingvistinį teksto apdorojimą ir kalbos signalo formavimą. Toks išskaidymassutinkamas daugelyje darbų, pvz., [Dutoit 1997], [Šef ir kt. 1998]. Taigi bendrakalbos sintezės pagal tekstą funkcinė diagrama atrodo taip, kaip pavaizduota 1.1 pav.

1.1 pav. Bendra kalbos sintezės pagal tekstą funkcinė diagrama.

Lingvistinio apdorojimo blokas pagal įvedamą tekstą sukuria jo fonetinętranskripciją ir reikiamą intonaciją bei ritmą (dar vadinamus prozodija). Kalbossignalo formavimo blokas gaunamą simbolinę informaciją paverčia į žmogaus kalbą.

Kalbos signalo formavimas bus išsamiau nagrinėjamas IV skyriuje, šiameskyriuje nagrinėjamas lingvistinį teksto apdorojimas. Tačiau, prieš pereinant prielingvistinio teksto apdorojimo nagrinėjimo, reikia išsiaiškinti kai kuriuos prozodijosaspektus.

1.1. Prozodija

Prozodija susijusi su elementais, didesniais nei atskiras fonetinis segmentas.Prozodija struktūrizuoja kalbos srautą. Ji suvokiama kaip kirčiavimas arba kaipkitokie intonacijos, ritmo ir garsumo pasikeitimai [Werner & Keller 1994].

Kalbant apie sintezės pagal tekstą sistemas, vietoje intonacijos ir ritmo paprastaioperuojama kitomis, labiau su signalų apdorojimu susijusiomis sąvokomis:pagrindinio tono periodu ir kalbos segmentų trukme.

Reikia pasakyti, kad bet kuris fonetinis elementas pats savaime jau turi tam tikrątrukmę, amplitudę ir pagrindinį toną, todėl prozodinius požymius patogiau traktuotine kaip absoliutinius, o kaip santykinius tam tikrų standartinių fonetinio elementopožymių atžvilgiu.

Gali būti patogu ir patį prozodinių požymių nusakymą išskaidyti į kelis etapus,pvz., nusakyti šiuos požymius žodyje (kartais vadinami mikroprozodiniais požymiais)ir gauti tam tikrą standartinį žodžio tarimo būdą, o po to nusakyti prozodinių požymiųkitimą žodžiui atsidūrus tam tikroje frazėje [Šef ir kt. 1998].

Tinkama prozodija yra labai svarbi, kad sakinys skambėtų suprantamai irnatūraliai [Syrdal 1995], [Šef ir kt. 1998]. Prozodija perduoda tiek lingvistinęinformaciją, tiek papildomą informaciją apie kalbančiojo ketinimus, fizinę ir emocinębūseną. Prozodiniai reiškiniai natūralioje žmonių kalboje atlieka daug ir įvairiųfunkcijų [Dutoit 1997]: 1) skaido kalbos srautą į skiemenų ir žodžių grupes, 2) nusakoryšius tarp šių grupių, 3) pabrėžia pateikiamą arba naujai atsiradusią informaciją. Artam, kad sintezuota kalba būtų laikoma natūralia, joje būtinai turi būti realizuoti visi

Page 10: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

10

šie aspektai? Yra manoma, kad sintezuotos kalbos intonacija turi būti „priimtinaineutrali”:

„Priimtina intonacija turi būti tikėtina, tačiau nebūtinai pati tinkamiausia tamtikram pasakymui, kompiuteris neprivalo bandyti suprasti. Neutrali intonacijaneišreiškia jokio neįprasto pabrėžimo, akcentų priešpriešos ar stiliaus efektų, tai yraintonacija, kuri tinka pasakymui nepriklausomai nuo konteksto. Toks požiūrispašalina būtinybę atsižvelgti į kontekstą ar bendrą pasaulio suvokimą norint ištartitam tikrą frazę.” [Monaghan 1989]

Atsižvelgiant į šį teiginį, dauguma šiuo metu egzistuojančių kalbos sintezėspagal tekstą sistemų nenagrinėja giluminės sintaksinės, semantinės ar pragmatinėssintezuojamų sakinių struktūros, o apsiriboja tik teksto analize, skirta segmentuotisakinius į frazes, ir menkai nagrinėja, kaip šios frazės sudaro aukštesnio lygio frazes,o pastarosios - sakinius [Dutoit 1997]. Taigi ignoruojami ryšiai tarp žodžių beiprasminė priešprieša.

Kai kurie prozodiniai reiškiniai būdingi visoms kalboms, o kai kurie priklausonuo konkrečios kalbos. Vienas iš žinomiausių su žmogaus fiziologija susijusiųreiškinių yra pagrindinio tono dažnio mažėjimas einant nuo frazės pradžios linkpabaigos [Cohen ir kt. 1982]. Pagrindinio tono kreivė yra tarp dviejų pasvirusių tiesių(vadinamų bazine ir viršutine linija), kaip pavaizduota 1.2 pav. Kita frazė vėlpradedama aukštesniu dažniu. Kiti, su žmogaus fiziologija nesusiję reiškiniai [Werner& Keller 1994]: žodžių grupavimas, skiemeninė kalbos struktūra, turinio ir funkciniųžodžių priešprieša.

Kiekviena kalba turi savitą kirčio realizaciją, kirčių ir pauzių vietas, intonacijosatliekamas funkcijas, ryšius tarp pagrindinio tono, intensyvumo ir trukmės.

1.2 pav. Pagrindinio todo dažnio mažėjimas frazėje.

1.2. Lingvistinio teksto apdorojimo sudedamosios dalys

Iš 1.1 pav. pateiktos diagramos gali atrodyti, kad lingvistinį teksto apdorojimąpakanka skaidyti į raidžių keitimo į garsus modulį ir prozodijos generatorių. Tačiauegzistuoja mažiausiai dvi priežastys, kodėl to nepakanka, o reikalinga dar irmorfologinė bei sintaksinė analizė [Dutoit 1997]:

1) Kai kurių žodžių tikslią fonetinę transkripciją galima gauti tik iš kontekstonustačius, kokia tai kalbos dalis;

2) Generuojant prozodiją daugelis sistemų remiasi sintakse.Literatūroje autoriai pateikia kiek skirtingus skaidymo būdus. Tai priklauso ir

nuo nagrinėjamos kalbos (vienoms kalboms tam tikri etapai gali būti labai svarbūs, okitoms - ne).

Page 11: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

11

Pastaba. Proceso skaidymas į smulkesnius blokus įneša papildomų apribojimųskaitomam tekstui ir balso emocionalumui (skaitantis žmogus neskaido skaitymoproceso į griežtus etapus), tačiau išskaidžius yra lengviau modeliuoti atskiras procesodalis ir gauti realiame laike veikiantį ir ribotą kiekį atminties naudojantį sintezatorių.

Buvo išnagrinėti darbuose [Dutoit 1997], [Pfister & Traber 1994], [Syrdal 1995]ir [Šef ir kt. 1998] pateikti šio bloko išskaidymai į komponentus ir kiekvienokomponento atliekamos funkcijos. Naudojantis [Barker & Longman 1992] pateiktaisžymėjimais (išskyrus funkcijų pavadinimų susitarimus) iš šių funkcijų buvo sudarytafunkcijų hierarchija, kuri pavaizduota 1.3 pav.

1.3 pav. Lingvistinio teksto apdorojimo funkcijų hierarchija.

Hierarchijoje įvesta viena nauja funkcija, kurios nebuvo minėtuose darbuose,tačiau kuri, manau, svarbi lietuvių kalbai – tai žodžių skiemenavimas. Vienas išsvarbiausių kriterijų, pagal kuriuos funkcija buvo skaidoma į smulkesnes funkcijasbuvo toks: jei funkcijos dalims atlikti gali būti naudojami skirtingi algoritmai, taifunkcija išskaidoma.

Toliau trumpai apžvelgiama, ką atlieka kiekviena funkcija ir kokie metodaitaikomi. Tos funkcijos, kurioms autorius yra sukūręs specialiai lietuvių kalbaipritaikytus algoritmus, išsamiau nagrinėjami šio skyriaus 2 (skiemenavimas) ir 3(transkribavimas) skyreliuose bei II ir III skyriuose (žodžių kirčiavimas).

Page 12: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

12

1.3. Pradinis teksto apdorojimas

Sintezuojant bet kokį tekstą jame gali pasitaikyti įvairios santrumpos, specialūssimboliai, skyrybos ženklai, skaičiai. Taškas tekste gali reikšti sakinio pabaigą arbasantrumpą. Pradinio teksto apdorojimo modulis skaido įvedamą tekstą į sakinius irpakeičia ištisais žodžiais jame esančias santrumpas, skaičius ir pan. Kartaissantrumpos ar skaičiai skirtinguose kontekstuose turi būti išskleidžiami į pilną tekstąskirtingai. Pvz., santrumpa „šv.” gali reikšti „šventas” (šv. raštas) ir „šviesiai” (šv.žalias). Dažniausiai šios problemos sprendžiamos (daugiau ar mažiau sėkmingai)naudojant elementarias reguliarias gramatikas [Dutoit 1997], tačiau galutinai šiproblema nebus išspręsta, kol kalbą sintezuojančios sistemos nesupras sakinioprasmės [Syrdal 1995].

1.4. Morfologinė analizė

Morfologinės analizės metu kiekvienam atskiram žodžiui remiantis jo rašybabandoma nustatyti, kokia tai kalbos dalis ir kokia gramatinė forma. Tam tiksluiišvestiniai, sudurtiniai ir kaitomi žodžiai skaidomi į elementarias sudedamąsias dalis –morfemas (t.y. priešdėlius, šaknis, priesagas, galūnes), pritaikant paprastas reguliariasgramatikas, naudojančias kamienų, priesagų ir pan. žodynus ([Allen ir kt. 1987],[Larreur ir kt. 1989]).

Morfologinė analizė nėra savitikslė. Kokiam tikslui gali būti naudojami josrezultatai, labai priklauso nuo kalbos. Kalbose, kuriose žodžių rašyba skiriasi nuofonetinės sudėties ir žodžiai gali būti sudaryti iš daugelio morfemų (pvz., vokiečiųkalboje), morfologinės analizės metu surastos morfemos gali būti naudojamosfonetinės transkripcijos paieškai žodyne transkribavimo etape [Pfister & Traber 1994](išsamiau apie tai žr. skyrelyje „Raidžių keitimas į garsus (transkribavimas)”).Lietuvių kalboje tai gali būti naudojama žodžių skiemenavimui arba automatiniamkirčiavimui (apie tai žr. 2 ir 3 skyrelius).

1.5. Kontekstinė analizė

Kontekstinės analizės metu nagrinėjami gretimi žodžiai. Tai leidžia sumažintihipotezių apie žodžio priklausymą tam tikrai kalbos daliai skaičių. Kontekstinėanalizė labiau tinka kalboms, kuriose sakinyje svarbi žodžių tvarka ir tas pats žodisgali priklausyti kelioms kalbos dalims, pvz., būti ir daiktavardžiu, ir veiksmažodžiu(pvz., anglų k. žodis „record” gali būti daiktavardžiu, kuris tariamas ['reko:d] (įrašas),ir veiksmažodžiu, kuris tariamas [ri'ko:d] (užrašyti)). Lietuvių kalboje kontekstinėanalizė taip pat gali kai kuriais atvejais pagelbėti, pvz., žodžių junginiuose „žmoniųga´lvos” ir „žmonės galvo~s” pagal pirmojo žodžio gramatinę formą galima atpažinti,kad pirmuoju atveju turime daiktavardžio daugiskaitos vardininką, o antruoju atveju –veiksmažodžio būsimąjį laiką, ir šie žodžiai skirtingai kirčiuojami. Be to kontekstinėanalizė gali padėti teisingai išskleisti į pilną tekstą skaičius ir santrumpas. Pvz., „3lentelė” išskleidžiama į „trečia lentelė”, o „3 paveikslėlis” – į „trečias paveikslėlis”.

Kontekstinėje analizėje naudojami įvairūs metodai: lokalių sintaksiniųpriklausomybių aprašymas Markovo grandinėmis [Kupiec 1992]; neuroniniai tinklai,apmokyti atsekti kontekstines taisykles [Benello ir kt. 1988]; gramatikos, sudarytosekspertų lingvistų arba generuotos automatiškai pagal apmokymo duomenis naudojantCATR (angl. „classification and regression tree”) algoritmą ([Sproat ir kt. 1992],[Yarowsky 1994]).

Page 13: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

13

1.6. Sintaksinė analizė

Sintaksinės analizės metu surandama teksto struktūra, kuri susijusi su numatomaprozodine realizacija [Dutoit 1997]. Kai kuriuose kituose darbuose (pvz., [Pfister &Traber 1994], [Syrdal 1995]) sintaksinė analizė yra gerokai platesnė sąvoka, apimantiir jau minėtas morfologinę bei kontekstinę analizę (t.y. žodžio priskyrimą tam tikraikalbos daliai), o taip pat sakinio kirčio nustatymą (bus kalbama toliau skyrelyje„Kirtis”). Be to [Pfister & Traber 1994] teigiama, kad ateities kalbos sintezės pagaltekstą sistemose sintaksinė analizė gali būti pagrindas semantinei ir pragmatineianalizei.

Kai kuriuose darbuose (pvz., [Fitzpatrick & Bachenko 1989]) parodyta, kadsintaksinė sakinio struktūra ne visai atitinka sakinio skaidymą į frazes (frazinėstruktūra naudojama generuojant prozodiją), todėl reikalingi specialūs algoritmai,kurie naudoja tik tą sintaksinę informaciją, kuri reikalinga. Tokių algoritmų kartaispatogu nedalinti į sintaksinę analizę ir skaidymą į frazes, o traktuoti kaip vientisusskaidymo į frazes algoritmus.

1.7. Raidžių keitimas į garsus (transkribavimas)

Kokias funkcijas atlieka raidžių keitimas į garsus, pasako pats pavadinimas, t.y.tekstą pakeičia fonetinių vienetų seka. Tai reikalinga todėl, kad žodį sudarančiosraidės dažnai nenusako tiesioginio perėjimo prie garsų, nes rašybos taisyklės paprastaibūna daug konservatyvesnės (lėčiau kintančios) nei šnekamoji kalba, o be to į kalbągali įsiskverbti svetimų kalbų žodžiai, kurie išlaiko savo kalbos tarimą [Syrdal 1995].

Daugelyje šaltinių, pvz., [Dutoit 1997], [Elovitz ir kt. 1976], [Pfister & Traber1994], [Syrdal 1995], išskiriami du pagrindiniai transkribavimo metodai: pagrįstasžodynu (pvz., [Coker 1985]) ir pagrįstas taisyklėmis (pvz., [Elovitz ir kt. 1976]).Galimas ir kitoks skaidymas, pvz., darbe [Paulus 1998] žodynu pagrįstas metodas darskaidomas į transkribuotų žodžių įterpimą ir transkribuotų žodžių dalių įterpimą.

Pirmosiose kalbos sintezės pagal tekstą sistemose populiaresni buvo taisyklėmisparemti metodai [Pfister & Traber 1994]. Tačiau jei taisyklės žodį transkribuojaneteisingai, jis rašomas į išimčių žodyną. Vėliau, padidėjus kompiuterių atminčiai,populiaresni tapo žodynu paremti metodai, kuriuose saugoma dešimtys tūkstančiųžodžių. Sutikus žodyne nesantį žodį (pavardę, vietovardį), jam tenka taikyti taisykles.Taigi daugumoje šiuo metu realiai veikiančių sistemų taikomi abu metodai [Syrdal1995]. Kuris metodas sudaro sistemos pagrindą, labai priklauso nuo kalbos. Jeisistemoje nebus žodynu pagrįstos dalies, sistema neteisingai tars kai kuriuos žodžius,tačiau jei nebus taisyklėmis pagrįstos dalies, sistema iš viso negalės ištarti kai kuriųžodžių.

Kalbose, kuriose žodžiai turi nedaug gramatinių formų ir tos pačios raidės galiatitikti skirtingus garsus (pvz., anglų), labiau tinka žodynu paremti metodai. Šiuoatveju žodyne saugoma ištisų žodžių transkripcija. Kalbose, kuriose žodžiai kaitomiarba sudaroma daug išvestinių bei sudurtinių formų (pvz., vokiečių), žodyne patogiausaugoti transkribuotas žodžių dalis – transkribuotas morfemas, nes tai leidžiasumažinti žodyno apimtį ir transkribuoti daugiau žodžių. Šiuo atveju pilno žodžiotranskripcija gaunama kaip transkribuotų jo dalių suma. Naudojant šį metodąpirmiausia iškyla žodžio skaidymo į morfemas problema (pvz. „pe´rėjimas” ir„perė´jimas”). Iš morfemų sudarant žodį gali reikėti dalį morfemos atmesti(„nebe”+„eiti”=„nebeiti”), įterpti („daug”+„vamzdis”=„daugiavamzdis”) ar pakeisti

Page 14: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

14

(„vež”+„siu”=„vešiu”). Kita problema, kad iš morfemų sudarytas žodis ne visadatariamas taip, kaip atskiros morfemos.

Transkribavimas pagal analogiją yra kitas būdas, leidžiantis sumažinti žodyną irtranskribuoti nežinomus žodžius [Syrdal 1995]. Čia pagrindinė problema yratinkamos žodžių panašumo metrikos suradimas. Paprasčiausias šios problemossprendimo būdas – žodžių panašumo metrikos pagrindu imti bendrų žinomo irnežinomo žodžio raidžių skaičių.

Kokio dydžio žodynas naudojamas, priklauso nuo naudojamos atmintiesapribojimų ir nuo to, kokią dalį žodžių sugeba teisingai transkribuoti taisyklės.[Hunnicut 1980] pateikti eksperimentų rezultatai, kuriuose buvo nustatyta, kokiodydžio žodynas kokią dalį anglų kalbos teksto leidžia transkribuoti. 200 žodžiųžodynas leidžia transkribuoti 50% teksto, 1000 žodžių – 70%, 50000 žodžių – 93%.Taigi žodyno didinimas turi prasmę tik iki tam tikros ribos, nes teisingai transkribuotųžodžių skaičius ima didėti labai lėtai, o be to vis vien negalima į žodyną surašyti visųkalboje esančių žodžių.

Kalbose, kuriose priklausomybė tarp raidžių ir fonemų nesudėtinga, pvz., italų[Mumolo 1998] arba lietuvių, geriau tinka taisyklėmis paremti metodai. Dažniausiainaudojamos taisyklės, kurių pavidalas yra toks ([Elovitz ir kt. 1976], [Paulus 1998]):

kairysis kontekstas, einamoji raidė, dešinysis kontekstas => fonetinis vienetas.

Panašų pavidalą turinčių taisyklių rinkinys lietuvių kalbai autoriaus aprašytastoliau šio skyriaus 3 skyrelyje.

Taisykles gali arba sudaryti ekspertas, arba jos generuojamos automatiškainaudojant žodžių ir juos atitinkančių transkripcijų rinkinį. Galimi ir kitokie taisykliųpavidalai bei sudarymo būdai. Pvz., [Sejnowski & Rosenberg 1987] pateiktas būdas,kaip anglų kalbos teksto transkribavimui galima panaudoti neuroninį tinklą (NT). NTįėjimo sluoksnis buvo sudarytas iš 7 raidžių lango, kur kiekvieną raidę atitiko 29įėjimai (po vieną kiekvienai alfabeto raidei), plius trys įėjimai skyrybos ženklams iržodžio riboms. Iš viso 203 įėjimai. NT išėjimo sluoksnis buvo sudarytas iš 21artikuliacijos požymio, kuriuos galima suskirstyti į artikuliacijos vietą (lūpinis,dantinis, gerklinis ir t.t.), artikuliacijos būdą (sprogstamasis, nosinis ir t.t.) ir pan.,plius 5 išėjimai, nusakantys kirčiavimą bei skiemens ribas (iš viso 26). Paslėptamesluoksnyje buvo 80 mazgų. NT išėjimo vektorius buvo naudojamas DECtalksintezatoriui valdyti [Klatt 1987].

1.8. Kirtis

Kirtis yra vieno skiemens pabrėžimas kitų skiemenų atžvilgiu. Skiemenspabrėžimui dažniausiai naudojami visi trys akustiniai prozodijos parametrai: trukmė,pagrindinis tonas ir amplitudė (gali pakisti ir spektrinė sudėtis). Priklausomai nuokirčio veikimo srities, išskiriami trys kirčio tipai: žodžio kirtis, frazės kirtis ir sakiniokirtis. Kirčiams galioja tokie teiginiai [Werner & Keller 1994]:

1. Nesvarbu, ar kirčio veikimo sritis yra žodis, frazė, ar sakinys, kirčiuojamasyra skiemuo.

2. Frazės ir sakinio kirčio vieta sutampa su vieno iš žodžių kirčio vieta.Remiantis šiais teiginiais, galima iš pradžių rasti kirčio vietas žodžiuose, o po to

sustiprinti ar susilpninti žodžių kirčius priklausomai nuo frazės ar sakinio kirčiovietos.

Page 15: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

15

Toks išskaidymas patogus dėl daugelio priežasčių. Visų pirma, kirčio vietai rastižodyje ir sakinyje naudojami skirtingi algoritmai. Smulkiau apie tai, kaip kitosekalbose nustatoma kirčio vieta žodyje, bus kalbama II skyriuje. Žodynu paremtosetranskribavimo sistemose kirčio vieta gali būti saugoma žodyne kartu su transkribuotužodžiu, todėl šiuo atveju kirčio vietos radimas žodyje tampa tarsi transkribavimodalimi. Kita priežastis, kad, turint fonetinį vienetą, yra pakankamai sunku jįmodifikuoti taip, kad fonetinis vienetas taptų kirčiuotas. Dažniausiai fonetinių vienetųbazėje saugomi keli – nekirčiuotą ir kirčiuotą fonemą atitinkantys – fonetiniaivienetai. Tai verčia žodį kirčiuoti prieš transkribavimą ir transkribavimo metuatsižvelgti į žodžio kirtį. Sakinio kirtį galima rasti vėliau.

Kaip jau buvo minėta, kirčiuojamas yra skiemuo, todėl prieš kirčiavimą gali būtireikalingas žodžio skiemenavimas. Išsamiau tai nagrinėta skyrelyje „Lietuvių kalbosteksto automatinis skiemenavimas”.

Kirčio vietai sakinyje (arba frazėje) rasti dažniausiai naudojamos taisykliųsistemos, gautos grynai lingvistinių tyrimų metu (pvz., [Kager & Quene 1989],[Pfister & Traber 1994]). Darbe [Pfister & Traber 1994] pateiktas sintaksine sakiniostruktūra paremtas metodas, kurį naudojant iš pradžių kai kurie žodžiai pažymimi kaipnekirčiuoti, o kitiems suteikiamas pirminis kirtis. Po to, einant nuo sintaksinio medžiolapų link šaknies, vienų kirčių svoriai padidinami, kitų – sumažinami. Procesopabaigoje kiekviename sintaksiniame elemente, pvz., daiktavardinėje frazėje, lieka povieną kirčiuotą žodį.

1.9. Frazių ribos

Vienas iš paprasčiausių sakinio skaidymo į frazes būdų – rasti sakinyjefunkcinių ir turinio žodžių sekas. Kitas algoritmas (anglų kalbai) pasiūlytas [Liberman& Сhurch 1992] ir vadinasi „chinks ir chunks”. Jis nusakomas tokia formule:

Prozodinė frazė = elementų „chink” seka + elementų „chunk” seka,

kur elementams „chink” priklauso funkciniai žodžiai, plius objektiniai įvardžiai(pvz., „him”, „them”). Elementams „chunk” priklauso turinio žodžiai, plius kai kuriosveiksmažodžių formos (pvz., „produced”).

Egzistuoja ir kitokie metodai. Pvz., CART algoritmu pagrįstas apmokomasmetodas pateiktas [Hirschberg 1991].

Frazių ribos atskiriamos pauzėmis, šalia frazių ribos esančių skiemenųpailginimu arba pagrindinio tono dažnio pakėlimu perėjus prie naujos frazės.

1.10. Pagrindinis tonas

Daugumos indoeuropiečių kalbų žmonės gali pasakyti sakinį keliomisintonacijomis: konstatuojamąja, klausiamąja ir šaukiamąja. Kalbos signale tai didžiąjadalimi realizuojama kaip pagrindinio tono pasikeitimas frazės gale. Tačiaupagrindinio tono periodas priklauso ir nuo daugybės kitokių faktorių, pvz.,kirčiavimo, atskirų fonetinių vienetų ir t.t. Priklausomybė tarp šių faktorių yranetiesinė, sudėtinga ir nepakankamai ištirta. Kartais pagrindinio tono generavimasišskaidomas į kelis etapus. Tuomet atskirai generuojami frazės pagrindinio tonoperiodo kontūrai, kurie modifikuojami atsižvelgiant į kirčiuotų skiemenų ar atskirųgarsų pagrindinio tono kontūrus (pvz., [Šef ir kt. 1998]).

Page 16: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

16

Pagrindinio tono generavimui naudojamus metodus galima suskirstyti į tokiasklases [Pfister & Traber 1994]:

1) Nustatomos pagrindinio tono bazinė ir viršutinė linijos (žr. 1.2 pav.) irpagal taisykles generuojamas judėjimas tarp šių linijų;

2) Pagrindinio tono kontūrai imami iš natūralios kalbos (pvz., [Auberge1992]);

3) Generuojami naudojant kokį nors save apsimokantį algoritmą, pvz.,neuroninį tinklą [Rahim 1994].

1.11. Segmentų trukmė

Kalbos garsų trukmė yra svarbus prozodijos aspektas, darantis įtaką tiek kalbossuprantamumui, tiek natūralumui. Kalbos sintezės sistemose paprastai naudojamostaisyklės, nusakančios kiekvieno atskiro fonetinio segmento frazėje trukmę [Syrdal1995]. Šios taisyklės paprastai modeliuoja keturių tipų trukmės efektus: 1) kiekvienosfonemos „prigimtinę” trukmę, 2) konteksto įtaką trukmei, 3) nelingvistinių faktorių(pvz., kalbėjimo greičio) įtaką trukmei ir 4) šių minėtų faktorių sąveiką. Skirtingosesistemose naudojamos skirtingo sudėtingumo taisyklės. Paprasčiausiose sistemosenaudojamos tik „prigimtinės” fonemų trukmės.

„Prigimtinės” fonemų trukmės gali labai skirtis. Pvz., [Syrdal 1995] pateiktiD.Klatt eksperimentų rezultatai, kuriuose nurodyta, kad garso /t/ trukmė anglų kalbosžodyje „butter” yra apie 20 ms., o garso /o/ žodyje „boy” – 280 ms., t.y. skiriasi 14kartų. Balsiai paprastai yra ilgesni už priebalsius. Kiekvienoje garsų grupėje trukmėtaip pat gali skirtis.

Konteksto įtaka trukmei taip pat gali būti labai įvairi. Pvz., fragmentai šaliafrazės ribų yra ilgesni, kirčiuoti balsiai yra ilgesni, balsiai prieš skardžiuosiussprogstamuosius priebalsius yra ilgesni.

Akivaizdu, kad kalbėjimo tempas turi įtakos garsų trukmei, tačiau svarbu žinoti,kad kalbos tempo įtaka garsų trukmei yra netiesinė, be to kalbos tempo kitimas daro irtam tikrą įtaką kalbos signalo spektrui. Yra nustatyta, kad balsių trukmė kinta labiau,nei priebalsių, sprogstamųjų priebalsių perėjimai balsis-priebalsis ir priebalsis-balsiskinta mažiau, nei analogiški pučiamųjų ir nosinių priebalsių perėjimai [Werner &Keller 1994]. Apie kalbos tempo keitimą dar žr. IV skyriaus skyrelį „Kalbos tempokeitimas”.

Taisyklių sistemos, modeliuojančios įvairius garsų trukmės efektus, turimodeliuoti ir jų sąveiką. Paprastai taisyklių aprašomi efektai apjungiami naudojantadityvinius, multiplikatyvinius arba kombinuotus metodus [Syrdal 1995].

Trukmėms generuoti dažniausiai naudojami statistika pagrįsti metodai. [Pfister& Traber 1994] teigiama, kad šiuos metodus galima suskirstyti į tokias klases:taisyklių sistemos (pvz., [Klatt 1979], [Carlson & Granström 1986]), sprendimųmedžiai ir neuroniniai tinklai [Campbell 1990].

1.12. Intensyvumas

Garso intensyvumas yra mažiausią reikšmę turintis prozodijos komponentas[Syrdal 1995] (nors kuriant pirmąsias kalbos sintezės sistemas buvo manoma, kad taisvarbiausias kirčio elementas), todėl daugumoje kalbos sintezės pagal tekstą sistemųjis nėra modeliuojamas. Tik kai kiti komponentai pakankamai gerai sumodeliuotiverta grįžti prie intensyvumo, siekiant dar labiau pagerinti sintezuotos kalbosnatūralumą.

Page 17: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

17

1.13. Funkcijų priklausomybės

Atsižvelgiant į anksčiau pateiktus 1.3 pav. pavaizduotų funkcijų aprašymus,galima sumodeliuoti priklausomybes tarp funkcijų. Buvo naudojami [Barker &Longman 1992] duomenų srautų diagramoms skirti žymėjimai. Gauta diagramapavaizduota 1.4 pav.

1.4 pav. Lingvistinio teksto apdorojimo duomenų srautų diagrama.

Šiame darbe pateiktame lietuvių kalbos sintezės modelyje yra tik tokie blokai:morfologinė analizė, skiemenavimas, žodžio kirčiavimas ir transkribavimas. Dalismorfologinės analizės sujungta į vieną algoritmą kartu su skiemenavimu, o kita dalis– kartu su žodžio kirčiavimu. Kontekstinės analizės bloką numatyta įjungti po žodžiokirčiavimo, o ne prieš jį. Kaip pagrindinis tonas, trukmės ir amplitudės buvonaudojamos fonetinių vienetų atitinkamos charakteristikos, tačiau generuojant trukmębuvo atsižvelgiama į kalbos tempą.

2. Lietuvių kalbos teksto automatinis skiemenavimas

Prieš kirčiuojant ir transkribuojant lietuvių kalbos žodį, jį reikia suskiemenuoti.Skiemenavimas reikalingas dėl dviejų priežasčių:

1) Tradiciškai gramatikose kirčiavimo taisyklės nusako kirčiuoto iš galoskiemens numerį (o ne kirčiuotą raidę ar panašiai). Jei laikysimės šios tradicijos,kirčiavimo taisyklės bus suprantamesnės kalbininkams, kai kuriais atvejais galimapaprasčiau užrašyti pačias kirčiavimo taisykles (pvz., jei pirmos kirčiuotėsdaiktavardis turi kirtį paskutiniame kamieno skiemenyje, tai jo priegaidė tvirtapradė),

Page 18: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

18

be to neiškils problemų, jei kaitant žodį pasikeis raidžių skaičius kamiene (pvz.,„medis” – „medžio”).

2) Transkribuojant reikia atsižvelgti į skiemenų ribas, nes dvibalsius irmišriuosius dvigarsius gali sudaryti tik vienam skiemeniui priklausantys garsai.

Kai kuriose kalbose skiemenavimas gali būti gana sudėtingas uždavinys, pvz.,anglų kalboje [Ocker 1971]. Tiesa, minėtame darbe skiemenavimas buvo atliekamasnorint žodžius perkelti, o ne sintezuoti. Sintezės sistemose skiemenavimas paprastainėra naudojamas.

Lietuvių kalboje didžiąją dalį teksto galima suskiemenuoti remiantis skiemensstruktūra. Lietuvių kalbos skiemens struktūrą galima pavaizduoti tokia formule(panašią formulę galima rasti, pvz., [Girdenis 1995]):

STRARTSK,

Kur S = {„s”, „š”, „z”, „ž”};T = {„b”, „d”, „g”, „k”, „p”, „t”, „c”, „č”, „dz”, „dž”, „ch”, „h”, „f”};R = {„j”, „l”, „m”, „n”, „r”, „v”};A – bet kokia balsė ar balsių grupė;K = {„k”, „t”}.

Skiemenyje turi būti aibės A elementas, visi kiti elementai neprivalomi. Aibės Kelementas gali būti tik paskutiniame skiemenyje. Naudojantis šia formuleskiemenavimo algoritmas galėtų būti toks: imti po vieną raidę iš žodžio galo irtikrinti, ar ši raidė priklauso paskutinei formulėje nurodytai aibei. Jei priklauso –pereiti į kairę prie kitos raidės. Bet kuriuo atveju pereiti į kairę prie kitos formulėjenurodytos aibės. Perėjus visą formulę, pasižymėti skiemens ribą ir tęsti nuo formulėspabaigos.

Šios formulės naudojimas garantuoja teisingą skiemens ribų suradimą, jeiskiemens riba eina tarp dviejų priebalsių arba tarp balsės ir priebalsės, išskyrus tuosatvejus, kai skiemuo turi lietuvių kalbai nebūdingą struktūrą (pvz., „psal-mė”). Dėlšios priežasties reikia patikrinti, ar kiekviename skiemenyje yra bent po vieną balsę, irjei nėra, prijungti tokį skiemenį prie gretimo skiemens.

Skiemens riba tarp dviejų balsių gali būti priešdėlio ir kamieno sandūroje (pvz.,„pa-im-ti”), dviejų kamienų sandūroje (pvz., „vil-ka-uo-gė”) ir tarptautiniuosežodžiuose (pvz., „ba-o-ba-bas”). Balsės eina greta ir priklauso vienam skiemeniui tiktuo atveju, jei jos žymi dvibalsį arba jei tai minkštumo ženklo funkciją atliekanti raidė„i” ir jos minkštinama raidė. Jei netenkinamas nei vienas iš šių dviejų atvejų, tarpbalsių turi būti skiemens riba, pvz., „pa-a-kys”, „po-e-tas”. Skiemenų atskyrimometodą naudojant dvibalsių nesudarančių balsių poras pasiūlė Arijus Ketlėrius. Šįmetodą galima panaudoti ir kai kurioms trijų balsių grupėms išskaidyti, pvz., „pa-uo-gau-ti”, „vil-ka-uo-gė”, „pa-ieš-ko-ti”, nors parašytos greta raidės „a” - „u” arba „a” -„i” gali žymėti dvibalsius. Šiuo atveju pasinaudojama tuo, kad lietuvių kalboje nėrapriešdėlių, kurie baigiasi „au” ar „ai”, o sujungiant du kamienus gali būti naudojamastik jungiamasis balsis, bet ne dvibalsis. Ne visas balsių grupes galima išskaidyti šiuometodu, pvz., „pri-ei-ti”, „prie-inks-tis”.

Kitas metodas – nustatyti skiemens ribas tarp priešdėlio, kuris baigiasi balse, irbalse prasidedančio kamieno. Tai gali būti atliekama morfologinės analizės metu.

Buvo atlikti eksperimentai, siekiant nustatyti, kiek skiemenų ribų surastanaudojant kiekvieną iš trijų metodą. Rezultatai pateikti 1.1 lentelėje.

Page 19: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

19

1.1 lentelė. Skiemenavimo eksperimento rezultatai.

Iš visoskiemensribų tarppriebalsiųarba tarpbalsės irpriebalsės

Teisingainustatytaskiemensribų tarppriebalsiųarba tarpbalsės irpriebalsės

Iš visoskiemensribų tarpbalsių

Teisingainustatytaskiemensribų tarpbalsiųnaudojantbalsiųkombina-cijųmetodą

Teisingainustatytaskiemensribų tarpbalsiųnaudojantpriešdėliųatskyrimometodą

Teisingainustatytaskiemensribų tarpbalsiųnaudojantabumetodus

Publicisti-ka

704 704 3 3 3 3

Grožinėliteratūra

574 574 9 7 7 9

Kaip matyti iš 1.1 lentelės, šiems testavimo duomenims nepasitaikė nė vienosskiemenavimo klaidos. Tarkime, kad toks skiemenavimo patikimumas yrapakankamas, nors iš tikrųjų egzistuoja žodžiai, kuriuos minėti algoritmai skiemenuojaneteisingai, pvz., „mi-li-o-mas”, „vil-ka-il-tė”.

3. Lietuvių kalbos teksto transkribavimas

Šiame skyrelyje nagrinėjamas teksto transkribavimas. Analizuojant tekstąapsiribota atskirais žodžiais. Tarkime, kad transkribuojamas tekstas jau suskaidytasskiemenimis ir sukirčiuotas. Skiemenų ribos nusakomos nurodant skiemens pradžiosraidę, o kirčio vieta – raidę, kuri žymima kirčio ženklu, ir kirčio ženklą.Skiemenavimo algoritmas buvo pateiktas ankstesniame skyrelyje, o kirčiavimoalgoritmams nagrinėti paskirti antras ir trečias šio darbo skyriai.

Prieš transkribuojant tekstą reikia turėti fonetinių vienetų pavadinimų sąrašą.Apie fonetinių vienetų parinkimą išsamiau rašoma ketvirtame skyriuje. Paskutiniumetu atsiranda darbų, kurių tikslas - sukurti daugelio pasaulio kalbų fonetinių vienetųbazes, pvz., [Dutoit ir kt. 1996]. Šiame darbe remiamasi prof. A. Girdenio specialiailietuvių kalbai sudaryta fonetinių vienetų baze (ir šios bazės fonetinių vienetų sąrašu).Ši fonetinių vienetų bazė ir jos sudarymo principai iki šiol nebuvo viešai publikuoti.Prie šios disertacijos pridėtame kompaktiniame diske yra pateiktas visas fonetiniųvienetų sąrašas. Išsamiau apie fonetinių vienetų sąrašą žr. skyrelį „Trumpa fonetiniųvienetų bazės charakteristika”.

Pastaba. Toliau fonetiniai vienetai bus rašomi dvigubose kabutėse didžiosiomisraidėmis (pvz., „A”), raidžių pavadinimai – dvigubose kabutėse mažosiomis raidėmis(pvz., „a”), o garsai bus rašomi tarp pasvirusių brūkšnių (pvz., /a/).

3.1. Trumpa lietuvių kalbos charakteristika

Lietuvių kalboje yra 12 balsių ir 20 priebalsių. Kai kurios balsių poros galižymėti dvibalsius, o balsės „a”, „e”, „i”, „u” ir priebalsės „l”, „m”, „n”, „r” galižymėti mišriuosius dvigarsius. Dvibalsius ir dvigarsius sudaro tik vienam skiemeniuipriklausančios raidės. Balsės gali žymėti ilgus ir trumpus balsius. Trumpi balsiai galibūti kirčiuoti ir nekirčiuoti. Ilgi balsiai, dvibalsiai ir mišrieji dvigarsiai gali būti

Page 20: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

20

nekirčiuoti, kirčiuoti tvirtagale ar tvirtaprade priegaide. Todėl šiuos garsus žyminčiosraidės gali turėti atitinkamą kirčio ženklą arba jo neturėti.

Taigi parenkant vieną ar kelias raides atitinkančius fonetinius vienetus reikiaatsižvelgti į kirčio vietą, priegaidę, skiemenų ribas ir kontekstą (gretimas raides).

3.2. Transkribavimo metodo parinkimas

Lietuvių kalbos teksto transkribavimui pasirinktas metodas, kuriamenaudojamos taisyklės. Apie kitus metodus žr. 1.7 skyrelį „Raidžių keitimas į garsus(transkribavimas)”. Šis metodas pasirinktas todėl, kad lietuvių kalbos raidės irfonemos susijusios gana paprastomis priklausomybėmis. Be to, pasikeitus fonetiniųvienetų bazei, naudojant šį metodą reikia perrašyti tik taisykles, o taisykliųinterpretavimo programa gali likti nepakitusi. Reikia pastebėti, kad lietuvių kalbosskiemenavimo ir kirčiavimo taisyklės jau yra pakankamai nusistovėjusios, tačiaulietuvių kalbos fonetinių vienetų bazė dar toli gražu ne. Lig šiol bene išsamiausiastyrimas atliktas prof. A. Girdenio, tačiau anaiptol negalima tvirtinti, kad tai galutinis irnekintantis fonetinių vienetų bazės variantas.

3.3. Trumpa fonetinių vienetų bazės charakteristika

Paminėsiu pagrindines fonetinių vienetų grupes ir kaip jie naudojami garsamssudaryti (fonetinių vienetų sąrašą ir naudojamus žymėjimus žr. kompaktiniame dike):

1) Duslieji sprogstamieji priebalsiai (/c/, /č/, /k/, /p/, /t/) sudaromi iš pauziniointarpo ir paties priebalsio su balsio užuomazga, kietojo priebalsio, minkštojopriebalsio arba priebalsio žodžio gale (pvz., „KA”, „KE”, „KI”, „KO”, „KO|”, „K”,„K””, „K#”).

2) Skardieji sprogstamieji priebalsiai (/b/, /d/, /dz/, /dž/, /g/) sudaromi išskardaus intarpo ir paties priebalsio su balsio užuomazga, kietojo arba minkštojopriebalsio.

3) Priebalsių grupė, kuriai priklauso /m/, /n/ ir /l/. Yra po du kiekvienopriebalsio variantus (kirčiuotame ir nekirčiuotame skiemenyse) su balsio užuomazgair žodžio gale.

4) Grupė kitų priebalsių (/ch/, /f/, /h/, /s/, /š/, /v/, /z/, /ž/). Yra variantai subalsio užuomazga, kietas bei minkštas priebalsis, be to kai kuriems priebalsiams yravariantas žodžio gale.

5) Grupė mišriųjų dvigarsių, sudarytų iš balsių /a/, /e/, /i/, /io/, /iu/, /o/, /u/ irpriebalsių /l/, /m/, /n/, /n/ prieš /g/ ir /k/, /r/. Kiekvienam dvigarsiui yra nekirčiuotasvariantas, kirčiuotas tvirtapradiškai, kirčiuotas tvirtagališkai, su kietuoju ir minkštuojupriebalsiais (pvz., „AL”, „A´L”, „AL~”, „AL””, „A´L””, „AL”~”).

6) Grupė dvibalsių. Yra nekirčiuotas, kirčiuotas tvirtapradiškai, kirčiuotastvirtagališkai variantas. Be to kai kuriems dvibalsiams išskirtas variantus prieš kietą irminkštą priebalsį.

7) Grupė balsių. Gali būti ilgas ir trumpas, kirčiuotas ir nekirčiuotas balsiovariantas prieš kietą ir minkštą priebalsius. Reikia pasakyti, kad neskiriama balsiųtvirtagalė ir tvirtapradė priegaidės. Be to, sudarant balsius (įskaitant ir balsius,priklausančius dvibalsiams bei mišriesiems dvigarsiams), esančius žodžio pradžioje,pridedamos augančios amplitudės balsių pradžios, o žodžio pabaigoje arba priešpauzę – mažėjančios amplitudės balsių pabaigos.

8) Grupė priebalsio /j/ variantų su balsių užuomazgomis ir kirčiuotas beinekirčiuotas variantai žodžio gale.

Page 21: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

21

9) Priebalsių /r/ grupė. Yra variantai su balsių užuomazgomis ir žodžio gale.Be to, sudarant /r/ žodžio pradžioje pridedami specialūs intarpai.

Iš viso fonetinių vienetų bazėje yra 476 elementai.

3.4. Teksto transkribavimas naudojantis formaliomis taisyklėmis

Šiame skyriuje pateiktas teksto transkribavimo būdas, kuris naudoja formaliosgramatikos taisyklių rinkinį ir tas taisykles interpretuojančią programą. Patsbendriausias darbe naudotų taisyklių pavidalas yra panašus į pateiktą 1.7 skyrelyje:

kur kairysis kontekstas ir dešinysis kontekstas yra 0, 1, 2, … raidėsatitinkamai į kairę ar dešinę nuo einamosios. Einamosios raidės požymiai - tai kirtis,priegaidė, skiemens riba ir kita. Fonetinių vienetų sąrašas gali būti tuščias (pvz., jeitranskribuojant einamoji raidė yra minkštumo ženklo funkciją atliekanti raidė „i”, kurineatitinka jokio savarankiško garso), sudarytas iš vieno fonetinio vieneto, jei vienaraidė atitinka vieną fonetinį vienetą, arba sudarytas iš kelių fonetinių vienetų, jei kokiąnors raidę atitinkantis garsas sudaromas iš kelių fonetinių vienetų, kaip aprašyta, pvz.,3.3 skyrelio 1, 2, 7, 9 punktuose. Fonetinio vieneto pavadinimu gali būti tiesiog joeilės numeris fonetinių vienetų bazėje, tačiau aiškumo dėlei šiame darbe visurnaudojami pavadinimai, sudaryti iš raidės, jos konteksto ir specialių simbolių.Veiksmu galėtų būti nuoroda į raidę, kuri taps einamąja pritaikius šią taisyklę,nuoroda į taisyklę, nuo kurios pradėti kitos tinkančios taisyklės paiešką ir panašiai.

Pastaba. Toliau šiame darbe taisyklių pavyzdžiai bus pateikiami pajuodintušriftu; fonetinių vienetų pavadinimai rašomi kabutėse didžiosiomis raidėmis; einamojiraidė rašoma laužtiniuose skliaustuose; nurodant kontekstą, visos tą pačią pozicijągalinčios užimti raidės suskliaudžiamos riestiniais skliaustais; taisyklėje nurodomi tiktie elementai, kurie būtini konkrečiam pavyzdžiui.

3.5. Reikalavimai taisyklių rinkiniui

Taisyklių rinkinys turėtų tenkinti tokius kriterijus:1) viena taisyklė turi užimti kuo mažiau atminties;2) minimalus vienos taisyklės tikrinimui reikalingų veiksmų skaičius;3) minimalus taisyklių skaičius;4) maksimaliai sparti paieška taisyklių rinkinyje;5) pasikeitus fonetinių vienetų bazei lengvai modifikuojamas taisyklių

rinkinys;6) taisyklės turi būti lengvai suprantamos.

Kriterijus turėti kuo mažiau taisyklių reikalingas ne tik spartesnei paieškai, betir pačių taisyklių sudarymui realiu laiku, nes taisykles sudarinėja žmogus.

Reikalavimas turėti lengvai suprantamas taisykles yra sunkiai formalizuojamas.Vienas iš kriterijų, kurio laikomasi šiam reikalavimui patenkinti yra tai, kad taisyklės

Page 22: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

22

dešinėje pusėje tam tikras fonetinis vienetas nurodomas tik tada, kai einamoji raidėyra viena iš šį fonetinį vienetą atitinkančių raidžių, pvz., mišrųjį dvigarsį „AN” prieš„K” arba „G” atitinkantis fonetinis vienetas gali būti tik taisyklių, kurių einamoji raidėyra „a” arba „n”, tačiau negali būti taisyklių, kurių einamoji raidė yra „k”, „g” ar darkitokia, dešinėje pusėje.

3.6. Konteksto ir einamosios raidės požymių santykis

Reikia pasakyti, kad skiemenų ribos priklauso nuo konteksto. Be to, kirčioženklą galima įterpti į tekstą. Šiuo atveju taisyklėse neliktų einamosios raidėspožymių. Tačiau to daryti neverta, nes skiemenavimas vis tiek atliekamas prieškirčiavimą.

Galima eiti ir kita kryptimi, t.y. einamosios raidės požymių didinimo kryptimikontekstinę informaciją paverčiant einamosios raidės požymiais. Galima ir visąkontekstinę informaciją paversti einamosios raidės požymiais, pvz., ar einamoji raidėyra prieš „a”, ar prieš „e”, ir t.t., tačiau tada nukenčia taisyklių suprantamumas. Taiverta daryti tik tada, kai fonetinio vieneto parinkimas priklauso nuo labai platauskonteksto su daugeliu variantų ir konteksto pakeitimas požymiu leidžia sumažintitaisyklių skaičių, pvz., žodžiuose švirkštas ir švirkštelis priebalsis /r/ yra atitinkamaikietas arba minkštas todėl, kad ketvirta po raidės „r” einanti raidė yra atitinkamai „a”arba „e”. Taigi kietumą ar minkštumą patogu laikyti dar vienu einamosios raidėspožymiu. Lietuvių kalboje priebalsiai, kuriuos žyminčios raidės eina prieš „e”, „ę”,„ė”, „i”, „y”, „į” yra minkšti, o prieš „o”, „u”, „ū”, „ų” – kieti. Priebalsis /j/ visadaminkštas ir visi kiti priebalsiai prieš jį taip pat yra minkšti.

3.7. Kairysis ir dešinysis kontekstas

Taisyklės užima mažiau vietos, jei naudojamas siauresnis kontekstas. Kiektaisyklėse naudoti raidžių iš kairės ir kiek iš dešinės, patogiausia nuspręsti surandantfonetinių vienetų bazėje fonetinį vienetą, kurio parinkimą nulemia pats plačiausiaskontekstas. Pažymėkime šį konteksto plotį L. Dabar reikia nuspręsti, kiek raidžių įkairę (žym. K) ir į dešinę (žym. D) imti. Čia K+D+1=L. M ir N patogu parinkti taip,kad einamoji raidė atitiktų taisyklės dešinėje pusėje nurodytą fonetinį vienetą.Turimoje fonetinių vienetų bazėje plačiausias kontekstas (L=5) naudojamas, pvz.,fonetiniam vienetui „CH” prieš „IO” parinkti tokiame kontekste, kaip „chrio”. Taigigalimos tokios taisyklių kairės pusės: [c] {h} {r} {i} {o} arba {c} [h] {r} {i} {o}.Trumpesnį nei L kontekstą naudojančias taisykles patogu sudaryti taip, kad jų neikairysis, nei dešinysis kontekstas nebūtų ilgesnis atitinkamai už K ir D. Tokiu atveju,naudojant fiksuoto ilgio taisykles, būtų gaunamas mažiausiai atminties užimantistaisyklių rinkinys. Kadangi kai kuriais atvejais reikia atsižvelgti į vieną raidę iš kairės,pvz., „a” po „j” žymi garsą, kuris skamba kaip /e/, tai pasirinktas taisyklių pavidalasyra K=1, D=3.

3.8. Einamosios raidės požymiai

Einamosios raidės požymius sudaro tokios trys požymių grupės:1) kietumas ar minkštumas. Požymis gali įgyti dvi reikšmes. Šis požymis

taikomas ne tik priebalsėms, bet ir balsėms, nes eksperimentais nustatyta, kad kaikurie balsiai prieš minkštus priebalsius taip pat skamba kitaip, nei prieš kietus;

Page 23: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

23

2) skiemens pabaiga. Gali įgyti tris reikšmes: a) skiemens pabaiga vienassimbolis į kairę nuo einamosios raidės; b) skiemens pabaiga einamoji raidė; c)skiemens pabaiga ne tarp šių dviejų atvejų. Šis požymis užtikrina, kad skiemens ribanebūtų dvibalsio, mišriojo dvigarsio ar priebalsių samplaikos („ch”, „dz”, „dž”)viduje, o taip pat tarp balsės ir ją minkštinančios „i” arba „j”;

3) kirtis. Einamoji raidė gali įgyti tokias reikšmes: a) ilga, kirčiuota tvirtapradepriegaide; b) ilga, kirčiuota tvirtagale priegaide; c) trumpa kirčiuota; d) einanti iškarto prieš kirčiuotą kirčiuotame skiemenyje; e) kirčiuotame skiemenyje nekirčiuotair einanti ne iš karto prieš kirčiuotą; f) nekirčiuotame skiemenyje.

3.9. Fonetinių vienetų sąrašas

Sudarytame taisyklių rinkinyje taisyklės dešinėje pusėje nurodomas vienasfonetinis vienetas arba nenurodoma jokio fonetinio vieneto. Kodėl atsisakytagalimybės nurodyti kelis fonetinius vienetus, paaiškina toks pavyzdys. Tarkime, kadtam tikrą raidę atitinkantis garsas gali būti sudaromas imant vieną iš I fonetiniųvienetų, atitinkančių šio garso pradžią, ir imant vieną iš J, atitinkančių garso pabaigą.Iš viso gauname I*J kombinacijų. Vadinasi, reikia turėti I*J taisyklių. Tuo tarpunaudojant taisykles, kurių dešinėje pusėje nurodytas tik vienas fonetinis vienetas,reikia turėti tik I+J taisyklių. Tiesa, šiuo atveju vienos raidės transkribavimui kartaisteks taikyti kelias taisykles, o pirmuoju atveju bet kuri raidė transkribuojamanaudojant vieną taisyklę.

Dabar galima įvertinti minimalų taisyklių skaičių. Taisyklių negali būti mažiau,nei bazėje yra fonetinių vienetų, šiuo konkrečiu atveju ne mažiau, nei 476.

Taisyklės, kurių dešinėje pusėje nenurodomas joks fonetinis vienetas,naudojamos raidei praleisti ir tokiu būdu padaryti taisyklių rinkinį suprantamesnį irtrumpesnį, pvz., užuot naudojus taisykles:

{j} [a] {i} => „EI”,{j} [a] {u} => „EU”,{j} [a] => „E”, [i] {a} {i} => „EI”, [i] {a} {u} => „EU”, [i] {a} => „E”,

suprantamiau iš pradžių praleisti vieną raidę pritaikius taisyklę

[i] {a} => „”,

o tada naudoti taisykles:

{ij} [a] {i} => „EI”,{ij} [a] {u} => „EU”,{ij} [a] => „E”.

3.10. Veiksmai

Sudarytame taisyklių rinkinyje nurodomi du veiksmai: 1) per kiek raidžiųpereiti transkribuojamame žodyje pritaikius taisyklę ir 2) prie kokios taisyklės pereiti.

Page 24: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

24

Jei kokia nors raidė transkribuojama į du fonetinius vienetus naudojant dvi taisykles,tai pirmojoje taisyklėje nurodomas nulinis perėjimas prie raidės.

Galima sukonstruoti ir tokį taisyklių rinkinį, kuriame nenurodoma, prie kokiostaisyklės pereiti (tuomet tikrinamos visos taisyklės iš eilės), tačiau taisyklėsnurodymas paspartina paiešką bei leidžia supaprastinti taisyklių rinkinį.Panagrinėkime pavyzdį, kuriame trys hipotetinės taisyklės naudojamos vienai raideitranskribuoti į du fonetinius vienetus:

[x] {y} => “FV11”,0;[x] {visos kitos raidės, išskyrus y} => “FV12”,0;[x] => “FV21”,1,

kur skaičius taisyklės dešinėje pusėje nurodo, per kiek raidžių pereititranskribuojamame žodyje.

Naudojant būdą, nurodantį perėjimą prie kitos taisyklės, taisyklės atrodytų taip:

[x] {y} => “FV11”,0,2;[x] => “FV12”,0,1;[x] => “FV21”,1,1,

kur antrasis skaičius taisyklės dešinėje pusėje nurodo, per kiek taisyklių pereiti.Taisykles patogu sugrupuoti taip, kad tai pačiai grupei priklausytų taisyklės,

kurių einamoji raidė sutampa. Jei kokia nors raidė gali būti transkribuojama į kelisfonetinius vienetus, tai sudaromos kelios taisyklių grupės, kuriose ši raidė yraeinamoji. Taisyklės paieška bus spartesnė, jei taisyklės dešinėje pusėje bus nurodytataisyklė remiantis pritaikytos taisyklės dešiniuoju kontekstu. Pvz., pritaikius taisyklę[a] {n} {gk} => „AN”,2, būtų pereinama prie taisyklės, kurioje einamoji raidė yra „g”arba „k”. Šio metodo trūkumas, kad atsiradus vienai naujai taisyklei reikiamodifikuoti nuorodas visose taisyklėse. Buvo pasirinktas kitas metodas, kainurodomas perėjimas prie pirmos kitai grupei priklausančios taisyklės. Jei netinkanagrinėjamos taisyklės einamoji raidė, pereinama prie kitos taisyklių grupės, jeinetinka nagrinėjamos taisyklės kontekstas ar einamosios raidės požymiai – pereinamaprie kitos taisyklės, jei taisyklė tinka – ji pritaikoma ir pereinama prie kitos taisykliųgrupės. Pasiekus taisyklių rinkinio pabaigą grįžtama prie pirmos taisyklės. Šiuoatveju, atsiradus naujai taisyklei, pakanka modifikuoti nuorodas taisyklių grupėje.

Kadangi lietuvių kalboje:1. „c”, „č”, „s”, „š”, „p”, „t”, „k” prieš „dz”, „dž”, „z”, „ž”, „b”, „d”, „g” žymi

atitinkamai garsus /dz/, /dž/, /z/, /ž/, /b/, /d/, /g/;2. „dz”, „dž”, „z”, „ž”, „b”, „d”, „g” prieš „c”, „č”, „s”, „š”, „p”, „t”, „k” žymi

atitinkamai garsus /c/, /č/, /s/, /š/, /p/, /t/, /k/;3. „s”, „z” prieš „č” žymi garsą /š/;4. „s”, „z” prieš „dž” žymi garsą /ž/,tai įdėtos ir atitinkamos taisyklės [Ambrazas ir kt. 1996].

3.11. Taisyklių pavyzdžiai

Kaip pavyzdys pateiktos raides „a” ir „b” transkribuojančios taisyklės (1.2lentelė). Siekiant neperkrauti pavyzdžio informacija, nekreipiama dėmesio įminkštumą bei kirčiavimą. Pilnas taisyklių rinkinys ir fonetinių vienetų pavadinimųpaaiškinimai pateikti kompaktiniame diske.

Page 25: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

25

1.2 lentelė. Transkribavimo taisyklių pavyzdžiai.

1. {_aąeęėiyįouūų} [a] => „?A”, 0, 1,

2. {ij} [a] {i} => „EI”, 1, 16,3. {ij} [a] {u} => „EU”, 1, 15,4. {ij} [a] {l} => „EL, 2, 14,5. {ij} [a] {m} => „EM”, 2, 13,6. {ij} [a] {n} {gk}=> „EX”, 2, 12,7. {ij} [a] {n} => „EN”, 2, 11,8. {ij} [a] {r} => „ER”, 2, 10,9. {ij} [a] => „E”, 0, 9,10. [a] {i} => „AI”, 1, 8,11. [a] {u} => „AU”, 1, 7,12. [a] {l} => „AL”, 2, 6,13. [a] {m} => „AM”, 2, 5,14. [a] {n} {gk}=> „AX”, 2, 4,15. [a] {n} => „AN”, 2, 3,16. [a] {r} => „AR”, 2, 2,17. [a] => „A”, 0, 1,

18. {ij} [a] {_ aąeęėiyįouūų } => „/E”, 1, 3,19. [a] {_ aąeęėiyįouūų } => „/A”, 1, 2,20. [a] => „”, 1, 1,

21. [b] {ptkcčsš} => „_2”, 0, 2,22. [b] => „$2”, 0, 1,

23. [b] {aą} => „BA”, 1, 8,24. [b] {eę} => „BE”, 1, 7,25. [b] {i} {ouūų} => „B|O”, 1, 6,26. [b] {i} {aą} => „BE”, 1, 5,27. [b] {iyįė} => „BI”, 1, 4,28. [b] {ouūų} => „BO”, 1, 3,29. [b] { ptkcčsš } => „P”, 1, 2,30. [b] => „B”, 1, 1.

Taisyklėse taip pat nenurodytos skiemenų ribos. Pirmoji taisyklė gali būtitaikoma tik esant skiemens ribai į kairę nuo einamosios raidės, 18 – 19 taisyklės – įdešinę nuo einamosios raidės. 2 – 9 taisyklės negali būti taikomos skiemens ribaiesant į kairę nuo einamosios raidės, o 2 – 8 ir 10 – 16 taisyklės – į dešinę nuoeinamosios raidės.

Pirmoji taisyklė sudaro atskirą grupę ir skirta įterpti augančios amplitudės garso/a/ segmentą skiemens pradžioje, o trečiosios grupės taisyklės (18 - 20) – mažėjančiosamplitudės garso pabaigą skiemens pabaigoje prieš balsį. Antrosios grupės taisyklės(2 - 17) skirtos raidei „a”, o taip pat dvibalsiams ir mišriesiems dvigarsiams, į kuriuosįeina ši raidė, transkribuoti. Taisyklėse 2 – 3 ir 10 – 11 nurodytas perėjimas prieantrosios dvibalsio dalies ir toliau būtų tikrinama taisyklė, ar tai nėra skiemenspabaiga prieš balsį.

Ketvirtos (21 - 22) ir penktos (23 - 30) grupių taisyklės skirtos atitinkamaisprogstamojo „b” pradžiai ir pabaigai transkribuoti. 21 ir 29 taisyklės nusako šiopriebalsio asimiliaciją prieš duslius priebalsius.

3.12. Rezultatai

Taigi buvo sukurtas formalių taisyklių rinkinys, kuriomis galima beveik beklaidų transkribuoti skiemenuotą ir kirčiuotą lietuvių kalbos tekstą į fonetinių vienetųseką. Iš viso sudaryta 740 taisyklių, kurios suskirstytos į 75 grupes.

Kitas svarbus rezultatas, kad buvo sukurtas taisykles interpretuojantisalgoritmas, kuris nepriklauso nei nuo taisyklių rinkinio, nei nuo fonetinių vienetųbazės.

Page 26: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

26

Transkribavimo metodo trūkumai: lietuvių kalboje yra tarptautinių žodžių,kuriuose vartojami lietuviškomis raidėmis žymimi lietuvių kalbai nebūdingi garsai,pvz., trumpasis /o/. Tais atvejais, kai ši raidė yra kirčiuota, trumpumo nustatymą galiatlikti kirčiavimo algoritmas, pvz., žodžiuose „šo~kis” ir „šo`kas”, tačiau kai jinekirčiuota, nėra numatyta jokios galimybės trumpumui nustatyti, ir naudojamas ilgasgarsas /o/.

Kalbant apie pateikto transkribavimo metodo patikimumą reikia išskirti duaspektus:

1) Ar naudojant šį metodą galima be klaidų transkribuoti lietuvių kalbos tekstą;2) Ar sudarant taisyklių rinkinį nebuvo padaryta klaidų.Lietuvių kalboje, norint rasti atitinkamybę tarp raidžių ir garsų, reikia žinoti

kirtį, skiemens ribas ir kiekvienos raidės kontekstą. Konteksto žinojimas leidžiaapskaičiuoti visas kitas charakteristikas (minkštumą, asimiliaciją ir t.t.). Kitokiųfaktorių, nusakančių raidžių ir garsų priklausomybę lietuvių kalboje nėra. Šiame darbepateiktos taisyklės apima visus reikalingus faktorius (kirtį, skiemens ribas, kontekstą).Taigi transkribavimo metodas leidžia beveik be klaidų transkribuoti lietuvių kalbostekstą. Klaidų gali atsirasti tarptautiniuose žodžiuose (žr. šio skyrelio pradžioje) ir dėlkirčiavimo bei skiemenavimo klaidų.

Antrasis aspektas reikalauja atlikti testą su visomis galimomis konteksto, kirčio,skiemens ribų ir minkštumo požymio kombinacijomis. Šis sudėtingas testas nebuvoatliktas. Buvo apsiribota kelių šimtų žodžių žodynu (dalis šio žodyno – po vieną žodįkiekvienam fonetiniam vienetui – pateikta kompaktiniame diske faile FvSar.rtf), kurisbuvo sudarytas taip, kad kiekviena taisyklė ir kiekvienas fonetinis vienetas būtųpanaudotas mažiausiai vieną kartą. Testo metu klaidų taisyklių rinkinyje nebuvopastebėta.

4. I skyriaus išvados

Prozodinius požymius patogu atskirai nagrinėti žodžiuose ir atskirai didesniuoseuž žodį segmentuose. Visų pirma tai liečia kirčiavimą.

Norint gauti „priimtinai neutralią” intonaciją, pakanka sintezuojamus sakiniusskaidyti į frazes.

Lingvistinį teksto apdorojimo bloką galima išskaidyti į smulkesnius blokus. Taiįneša tam tikrus papildomus apribojimus, tačiau leidžia lengviau modeliuoti atskirasproceso dalis.

Lietuvių kalbai patogu įvesti atskirą bloką (paprastai nesutinkamą kitosesintezės sistemose), būtent žodžių skiemenavimą. Lietuvių kalbos žodžius sėkmingaiskiemenuoja algoritmas, kuriame naudojama skiemens struktūra, balsių kombinacijosir priešdėlių atskyrimas.

Lietuvių kalbai netinka žodynu paremti transkribavimo metodai. Be to, nevertajungti transkribavimo ir žodžių kirčiavimo, lietuvių kalbai tai patogiau atlikti atskiraiskirtinguose blokuose naudojant skirtingus algoritmus. Lietuvių kalbos tekstotranskribavimas yra gana paprastas, todėl tinka taisyklėmis paremti metodai.Transkribavimui patogu naudoti taisykles, kuriose raidės keičiamos į fonetiniusvienetus atsižvelgiant į einamąją raidę, jos požymius, kairįjį ir dešinįjį kontekstą.Šiame skyriuje pateiktas toks taisyklių rinkinys.

Page 27: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

27

II. Lietuvių kalbos automatinis kirčiavimas remiantisžodynu

1. Įvadas

Šiame skyriuje nagrinėjama automatinio lietuvių kalbos teksto kirčiavimokompiuteriu problema, t.y. kaip kompiuteriui nustatyti, kuri žodžio raidė kirčiuota irkokiu kirčio ženklu.

Daugelyje lietuvių kalbos gramatikų yra pateiktos kirčiavimo taisyklės, tačiaučia operuojama sąvokomis, kurias sudėtinga pateikti kompiuteriui, kad jis pagal jasgalėtų patikrinti, ar žodis tenkina taisyklę, ar ne. Pvz., „Dabartinės lietuvių kalbosgramatikoje” [Ambrazas ir kt. 1996] yra atskirai pateiktos daiktavardžių kirčiavimotaisyklės, tačiau daiktavardis apibrėžiamas kaip „savarankiška kalbos dalis kuriąsudaro žodžiai, žymintys daiktų, reiškinių, veiksmų ir ypatybių pavadinimus irturintys savarankiškas giminės, skaičiaus ir linksnio kategorijas”. Vargu ar bent vienąiš čia pavartotų sąvokų galima būtų lengvai formalizuotai pateikti kompiuteriui, kadkompiuteris galėtų patikrinti, ar nagrinėjamas žodis yra daiktavardis. Pavyzdžiui, kaipkompiuteriui atskirti, kad tarp žodžių „peras”, „geras”, „neras”, kurie skiriasi tik vienaraide, pirmas yra daiktavardis, antras – būdvardis, o trečias – veiksmažodis.

Bene akivaizdžiausias būdas, kurį galėtų panaudoti kompiuteris žodžiamskirčiuoti, tai saugoti tam tikrą žodžių sąrašą ir, norint sukirčiuoti žodį, rasti jį žodyneir iš žodyno paimti kartu su žodžiu saugomą kirčiavimui reikalingą informaciją. Taigižodyne turėtų būti saugoma: 1) žodis (žodžio tekstinis pavidalas), 2) kirčio vieta(kirčiuotas skiemuo ar kirčiuota raidė), 3) kirčio tipas ar priegaidė.

Pastaba. Šiame darbe visur patogiau traktuoti, kad yra trijų tipų kirčiai(trumpas, ilgas tvirtapradis ir ilgas tvirtagalis), o ne dviem etapais iš pradžių skaidyti įtrumpus ir ilgus, o po to ilguosius į tvirtapradžius ir tvirtagalius. Taip yra todėl, kadžodis pirma kirčiuojamas, o po to pagal kirtį nustatomas balsių ilgis. Pavyzdžiui,žodžiams „ka`s” ir „ka~sė” pirma randamas kirčio tipas (trumpas ar ilgas tvirtagalis),o tada nustatoma, kad pirmajame žodyje balsis /a/ yra trumpas, o antrajame – ilgas.

Kai kuriems žodžiams minėtas metodas visai tinka, pvz., žodžiams „fojė”,„Bordo”, „kodėl”, t.y. žodžiams, kurie nekaitomi ir iš jų nedaromi nauji žodžiai.Tačiau dauguma žodžių kaip tik yra kaitomi ir naudojami naujiems žodžiams sudaryti.Taigi saugant žodyne pilnas žodžių formas gali iškilti tokios problemos: 1) žodynasužims pernelyg daug vietos kompiuterio atmintyje, 2) paieška dideliame žodyneužtruks pernelyg ilgai, 3) žodyno sudarymas pareikalaus pernelyg daug žmogausdarbo laiko, 4) gali atsirasti naujų žodžių, kurių negalima numatyti iš anksto.

Pabandykime apytiksliai įvertinti žodyno apimtį. „Dabartinės lietuvių kalbosžodyne” [Keinys ir kt. 1993] pateikta apie 50000 žodžių lizdų, „Tarptautinių žodžiųžodyne” [Kvietkauskas ir kt. 1985] - 21159 žodžiai, taigi iš viso apie 70000. Dar būtųgalima pridėti pavardžių žodyną, vietovardžių žodyną. Tarkime, kad lietuvių kalbosžodžiai neviršija 30 raidžių. Tuomet, jei žodžiai būtų nekaitomi, tai žodyne turėtų būtiapie 70000 žodžių, ir žodynas užimtų iki 2,1 MB. Tokio dydžio žodynas tilptų įšiuolaikinio kompiuterio atmintį ir jį būtų galima sudaryti per realų laiką.

Tačiau panagrinėkime, pvz., žodį „nešti”. Šio žodžio visi pagrindiniai kamienaisutampa (apie pagrindinius kamienus žr.skyrelį „Asmenuotės”) ir yra „neš”. Prie šiokamieno gali būti pridedamos: tiesioginės nuosakos esamojo laiko 15 galūnių, būtojokartinio laiko 15 galūnių, būtojo dažninio laiko 15 galūnių, būsimojo laiko 14 galūnių,liepiamosios nuosakos 10 galūnių, tariamosios nuosakos 20 galūnių, esamojo laiko

Page 28: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

28

veikiamojo dalyvio 60 galūnių, būtojo kartinio laiko veikiamojo dalyvio 60 galūnių,būtojo dažninio laiko veikiamojo dalyvio 32 galūnės, būsimojo laiko veikiamojodalyvio 62 galūnės, esamojo laiko neveikiamojo dalyvio 58 galūnės, būtojo laikoneveikiamojo dalyvio 58 galūnės, būsimojo laiko neveikiamojo dalyvio 58 galūnės,reikiamybės dalyvio 57 galūnės, padalyvio 8 galūnės, pusdalyvio 8 galūnės, būdinio 2galūnės, bendraties 2 galūnės, prieveiksmio 4 galūnės. Iš viso 558. Be to prie šiosšaknies galima pridėti 14 priešdėlių, kurie kartu su afiksais „ne”, „nebe”, „tebe”sudaro 61 kombinaciją. Be to, prie 488 variantų su nesangrąžinėmis galūnėmis galimapridėti dar 53 jau minėtų priešdėlių ir sangrąžos formanto „si” kombinacijas. Iš viso558*61+488*53=63902. Taigi iš vienos šaknies, pridedant galūnes ir priešdėlius,galima padaryti daugybę žodžių. Akivaizdu, kad tokio kiekio žodžių nėra prasmėssaugoti, o tokios apimties žodyno suvedimas į kompiuterį užimtų pernelyg daug laiko.Kompiuterinės programos, generuojančios visų sukirčiuotų žodžio formų žodyną,sukūrimas yra tokio pat sudėtingumo uždavinys, kaip automatinis kirčiavimas sintezėsmetu.

Keletas žodžių apie visų galimų žodžio formų numatymą. Egzistuoja tam tikrosgrupės žodžių, turinčių vienodus priešdėlius, galūnes ar panašiai, ir visi šiai grupeipriklausantys žodžiai kirčiuojami vienodai (arba su negausiomis išimtimis). Galiatsirasti nauji grupei priklausantys žodžiai. Pvz., daugelis mokslo šakų pavadinimųbaigiasi galūne „-logija”. Gali atsirasti naujos mokslo šakos, kurių pavadinimai taippat priklausys šiai grupei.

Taigi neverta saugoti kompiuterio atmintyje ištisų visų žodžio formų, tačiausaugoti žodžio dalis, pvz., priešdėlius, šaknis, galūnes, kartu su žodžių sudarymui irkirčiavimui reikalinga informacija. Toliau bus kalbama, kokia tai turėtų būtiinformacija ir kaip ją reikėtų saugoti. Bet pirmiausia apie papildomus reikalavimuskalbos sintezei naudojamam kirčiavimo algoritmui.

2. Papildomi reikalavimai sintezėje naudojamam kirčiavimoalgoritmui

Šiame skyriuje apsiribojama tik atskirų žodžių kirčiavimu, t.y. nebusnaudojamasi jokia gretimuose žodžiuose esančia informacija. Pvz., žodžiųjunginiuose „žmonių galvos” ir „žmonės galvos” pagal žodžio „žmonės” galūnęgalima atpažinti, kad pirmuoju atveju turime veiksmažodžio „galvoti” būsimąjį laiką,o antruoju – daiktavardžio „galva” daugiskaitos vardininką ir šie žodžiai kirčiuojamiskirtingai. Šiame skyriuje tokia kontekstinė analizė nenagrinėjama.

1 reikalavimas. Kirčiavimo algoritme turi būti numatyta galimybė, atsiraduspapildomai informacijai apie žodžio kirčiavimą priklausomai nuo konteksto, tokiąinformaciją nesunkiai įjungti.

2 reikalavimas. Jei žodžio negalima sukirčiuoti vienareikšmiškai ir jei keletokirčiavimo variantų tikimybės maždaug vienodos (pvz., „kalvo~s” ir „kal~vos”),geriau palikti žodį nekirčiuotą, nei sukirčiuoti neteisingai. Sintezuotą kalbą klausantisžmogus kartais net nepastebi, kad kai kurie žodžiai buvo nekirčiuoti ir pats mintysesusikirčiuoja, tačiau visada užkliūva neteisingai kirčiuojami žodžiai. Kirčiuoti vertatik tuo atveju, jei vienas kirčiavimo variantas sutinkamas žymiai dažniau nei kitas,pvz., vienaskaitos vietininkas „name`” naudojamas dažniau nei šauksmininkas„na~me”.

Kai kuriais atvejais kirčiuojant skiemenį, kurio pagrindą sudaro balsis ardvibalsiai /ie/, /uo/, tvirtagale ir tvirtaprade priegaide kirčiuojami žodžiai skamba

Page 29: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

29

labai panašiai. Pvz., „li´epų” ir „Lie~pų” (pavardė „Liepus”). Tokiu atveju taip patgalima pasirinkti vieną iš kirčiavimo variantų.

3 reikalavimas. Kirčiavimo algoritmas turėtų apimti kiek įmanoma visuslietuvių kalboje vartojamus žodžius, įskaitant vietovardžius, pavardes, tarptautiniusžodžius, net jei pastarieji pasižymi kokiomis nors lietuvių kalbai nebūdingomissavybėmis.

4 reikalavimas. Jei kokio nors žodžio kirčiavimas nėra nusistovėjęs, t.y. jįgalima kirčiuoti keliais būdais, pvz., „deguo~nis” ir „deguoni`s” [Ambrazas ir kt.1996], tai tokiam žodžiui kirčiuoti pasirenkamas tik vienas būdas ir visadakirčiuojama tik šiuo būdu. Pasirenkamas tas variantas, kuris geriau tinka prie bendrostaisyklės. Visai nebūtina numatyti galimybės kirčiuoti keliais būdais.

Siekiant patenkinti pirmą ir antrą reikalavimus, kirčiavimas išskaidytas į duetapus:

1. Bandoma atpažinti, su kokių žodžių kokiomis gramatinėmis formomissutampa nagrinėjamas žodis. Pvz., žodis „galvos” gali būti: a) daiktavardžio „galva”vienaskaitos kilmininkas, b) daiktavardžio „galva” daugiskaitos vardininkas, c)veiksmažodžio „galvoti” būsimasis laikas. Kiekviena atpažinta gramatinė formasukirčiuojama. Šiame etape joks sprendimas apie galutinį žodžio kirčiavimąnepriimamas.

2. Gautame sąraše tikrinama, ar visos gramatinės formos kirčiuojamos vienodai.(Pvz., daiktavardis „pi´eva” turi vienodus ir vienodai kirčiuojamus tiek vienaskaitosvardininką, tiek įnagininką, tiek šauksmininką.) Jei taip, žodis kirčiuojamas, jei ne,šioje vietoje galima būtų pasinaudoti kontekstine informacija gramatinei žodžioformai atrinkti, tačiau jei tokios informacijos nėra, atmetamos statistiškai retaivartojamos formos, pvz., daiktavardžių šauksmininko linksniai. Čia galima būtųpasinaudoti ir kitokiais kriterijais, pvz., tam tikrų priegaidžių statistiniu dažniu tamtikruose skiemenyse, tam tikrų skiemenų kirčiavimo dažniu ir pan. Jei lieka tikvienodą kirčiavimą turinčios formos – kirčiuojame, jei ne – tikriname, gal joskirčiuojamos panašiai. Jei ir šis atvejis netinka – žodis paliekamas nekirčiuotas.

Kirčiavimo išskaidymas į du etapus patogus dar ir tuo, kad kiekvienam žodžiuiiš anksto sunku numatyti visas gramatines formas, pvz., sutampa daugelio moteriškosgiminės daiktavardžių vienaskaitos kilmininko ir daugiskaitos vardininko linksniai,tačiau žodžiui „galva” jie dar sutampa ir su veiksmažodžio „galvoti” būsimuoju laiku.Be to tai leidžia skirtingoms kalbos dalims taikyti visai skirtingus kirčiavimoalgoritmus, t.y. nagrinėjamą žodį bandyti sukirčiuoti kaip daiktavardį, būdvardį,veiksmažodį ar kitą kalbos dalį, o po to iš visų gautų rezultatų išrinkti vieną.

3. Kaip kirčiuojama kitose kalbose

Dauguma kalbų turi fiksuotą kirtį [Girdenis 1995], t.y. kirčio vietą galimanusakyti griežtomis taisyklėmis. Dažniausiai tai būna visai paprasti teiginiai, nurodąkirčio nutolimą nuo žodžio pradžios ar pabaigos. Pagal nuotolį skiriami trys fiksuotokirčio modeliai:

1) pastoviai kirčiuojamas pirmasis žodžio skiemuo. Šią sistemą turi latvių,čekų, slovakų, islandų, estų, suomių, vengrų kalbos;

Page 30: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

30

2) pastoviai kirčiuojamas paskutinis skiemuo. Šios rūšies kirčiavimas būdingasdaugumai tiurkų kalbų, taip pat persų (ir tadžikų) kalbai. Panašiai kirčiuojama irprancūzų kalboje, tik kirtį gauna ne žodžiai, o tam tikros reikšminės jų grupės;

3) pastoviai kirčiuojamas priešpaskutinis skiemuo. Priešpaskutinio skiemenskirtį turi, pavyzdžiui, lenkų kalba.

Galimi ir sudėtingesni fiksuoto kirčio modeliai, kai kirčio vieta priklauso ne tiknuo žodžio ribų, bet ir nuo balsių bei skiemenų kiekybės. Pavyzdžiui, mongolųkalboje kirtį gauna pirmas ilgas žodžio skiemuo, o kai visi žodžio skiemenys trumpi,pirmas skiemuo.

Fiksuotą kirtį turinčiose kalbose automatinis kirčiavimas nesukelia ypatingųproblemų. Lietuvių kalba, kaip ir rusų, bulgarų, serbų-chorvatų, italų, ispanų, anglų,turi laisvą kirtį. Kai kuriose laisvą kirtį turinčiose kalbose daugelis vienodas galūnesturinčių žodžių kirčiuojami vienodai, pavyzdžiui, taip yra italų kalboje [Nebbia 1990],todėl kirčiavimui galima taikyti statistinius metodus. Kalbose, kuriose tekstotranskribavimas yra sudėtingas, pavyzdžiui anglų ar vokiečių kalbose, paprastaikirčiavimas ir transkribavimas atliekami kartu naudojant vieną kirčiuotų irtranskribuotų žodžių ar žodžių dalių žodyną [Paulus 1998].

Lietuvių kalboje kirčiuoto teksto transkribavimas yra palyginti nesudėtingasuždavinys (žr. I skyrių), todėl geriau atskirti kirčiavimą nuo transkribavimo. Šiameskyriuje pateiktas vienas iš galimų modelių, kaip naudojantis žodynu, kaitymo beikirčiavimo taisyklėmis automatiškai kirčiuoti lietuvišką tekstą. Šio modelio irstatistinių metodų jungimas nagrinėjamas III skyriuje.

4. Daiktavardžių ir būdvardžių kirčiavimas remiantis žodynu

4.1. Žodžių skirstymas į grupes

Kaip buvo minėta anksčiau, bandymas sudaryti kompiuteryje visų lietuviųkalbos žodžių visų gramatinių formų žodyną kartu su kirčiavimui reikalingainformacija, yra neįgyvendinamas uždavinys. Šiame skyriuje pateiktas vienas iš būdų,kaip sukurti pagrindinių žodžio dalių duomenų bazę ir kaip remiantis šia informacijaatpažinti įvairias žodžio gramatines formas ir jas kirčiuoti.

Įvairių žodžio gramatinių formų sudarymą pavadinkime kaitymu. Pagal kaitymobūdą visus lietuvių kalbos žodžius patogu suskirstyti į tokias tris grupes: 1)linksniuojamus (daiktavardžiai, būdvardžiai, kai kurie įvardžiai bei skaitvardžiai), 2)asmenuojamus (veiksmažodžiai, be to šiai grupei prikirtos ir neasmenuojamosveiksmažodžių formos, pvz., dalyviai) ir 3) nekaitomus. Toliau atskiraipanagrinėkime kiekvieną iš šių grupių.

4.2. Daiktavardžių ir būdvardžių skaidymas į dalis

Visus daiktavardžius ir būdvardžius galima skaidyti į dvi sudedamąsias dalis:kamieną ir galūnę. Daiktavardžio ar būdvardžio kaitymu laikysime jo formųsudarymą prie kamieno pridedant galūnę. Šiame skyrelyje žodžių daryba naudojantispriešdėliais ir priesagomis nebus nagrinėjama. Priešdėliai ir darybos priesagos buslaikomi kamieno dalimi. Taigi būdvardžiai su priešdėliais (pvz., „geras” ir „negeras”),daiktavardžiai su mažybinėmis priesagomis (pvz., „namas” ir „namelis”) šiameskyriuje bus laikomi skirtingus kamienus turinčiais žodžiais.

Daiktavardžius ir būdvardžius skaidyti į kamieną ir galūnę patogu dar ir todėl,kad tuomet kirčiavimą galima atlikti dviem etapais:

Page 31: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

31

1) nustatyti kirčio vietą žodyje, kuri gali įgyti dvi reikšmes: kirtis kamiene irkirtis galūnėje,

2) jei kirtis kamiene, nustatyti kirčio vietą kamiene, jei kirtis galūnėje, nustatytikirčio vietą galūnėje.

4.3. Kaitymas

Daiktavardžių ir būdvardžių skaičiaus kategoriją sudaro vienaskaita irdaugiskaita. Kol kas nagrinėsim tik moteriškos ir vyriškos gimines būdvardžius (daryra bevardė giminė), nes tik jie yra kaitomi. Ne visi daiktavardžiai kaitomi skaičiais,tačiau šiame skyriuje laikysime, kad visi daiktavardžiai ir būdvardžiai turi vienaskaitąir daugiskaitą, nes dauguma daiktavardžių ir visi vyriškos bei moteriškos giminėsbūdvardžiai yra kaitomi skaičiais. Be to taip gaunamas paprastesnis modelis.

Bendrinėje lietuvių kalboje yra 6 linksniai. Tradiciškai prie jų dar priskiriamasseptintasis šauksmininko linksnis, tačiau daugiskaitos šauksmininkas sutampa sudaugiskaitos vardininku. Šiame darbe skaičius ir linksnius patogiau nagrinėti kartu, one atskirai, todėl gaunami 13 skaičių-linksnių variantų, kuriuos sutrumpintaižymėsime taip: vv, vk, vn, vg, vį, vt, vš, dv, dk, dn, dg, dį ir dt.

Be skaičių ir linksnių, būdvardžiai dar kaitomi giminėmis. Be to, būdvardžiai(išskyrus vieno tipo būdvardžius) turi aukštesnįjį, aukštėlesnįjį ir aukščiausiąjįlaipsnius. Visų laipsnių būdvardžiai dar gali turėti įvardžiuotines formas ir visosminėtos gramatinės formos kaitomos skaičiais ir linksniais. Taigi patogu traktuoti, kadprie būdvardžio kamieno galima pridėti 16 tipų galūnes: pradedant vyriškos giminėsnelyginamojo laipsnio neįvardžiuotinėmis ir baigiant moteriškos giminėsaukščiausiojo laipsnio įvardžiuotinėmis. Prie kai kurių daiktavardžių kamienų taip patgali būti pridedamos tiek vyriškos, tiek moteriškos galūnės, pvz., „šern-as – šern-ė”,„ligon-is – ligon-ė”, „mokytoj-as – mokytoj-a”, „inžinier-ius – inžinier-ė”(gramatikose tai vadinama daryba, tačiau sprendžiant kirčiavimo kompiuteriuuždavinį galima būtų neskirti darybos nuo kaitymo). Kadangi yra gana daug vyriškosir moteriškos giminės galūnių kombinacijų (būdvardžiams vieną vyriškos giminėsgalūnę atitinka tik viena moteriškos giminės galūnė), o be to, dauguma daiktavardžiųturi tik vieną giminę, tai patogiau traktuoti, kad yra du skirtingi kamienai, o ne vienaskamienas, prie kurio galima pridėti du galūnių rinkinius – vyriškos giminės irmoteriškos giminės.

4.4. Kamieno tipai

Prie daiktavardžio ar būdvardžio kamieno gali būti pridedamos galūnės iš tamtikro galūnių rinkinio. Rinkinyje paprastai yra po vieną galūnę kiekvienam linksniui,tačiau gali būti ir kelios galūnės (pvz., vt „vėj-uje” ir „vėj-yje”), o gali ir nebūti neivienos (pvz., dauguma būdvardžių neturi šauksmininko linksnio). Šias galūnesvadinsime linksnio galūnėmis. Taigi kiekvieną galūnių rinkinį sudaro 13 linksniogalūnių grupių. Gramatikose paprastai teigiama, kad galūnių rinkinį apibrėžiakamieno linksniuotė (yra 5 daiktavardžių linksniuotės ir 4 būdvardžių linksniuotės)arba tiksliau linksniavimo paradigma (yra 12 daiktavardžių linksniavimo paradigmų,5 vyriškos ir 4 moteriškos giminės būdvardžių linksniavimo paradigmos). Šiamedarbe naudosiu kiek kitokį kamienų grupavimą ir šias grupes vadinsiu kamienų tipais.Pergrupavimas reikalingas, nes kai kurie rašybos prasme identiški galūnių rinkiniai

Page 32: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

32

priskirti skirtingoms paradigmoms (pvz., žodžiai „rank-a” ir „sauj-a”), o kai kurieturintys skirtingas galūnes - tai pačiai paradigmai (pvz., „peil-is” ir „arkl-ys”.Pagrindinis kriterijus, kuriuo vadovautasi sudarant kamienų tipus yra toks: vienamtipui negali priklausyti žodžiai, jei tam tikrame linksnyje jie gali įgyti tik skirtingasgalūnes. Iš viso išskirta 19 daiktavardžių ir 48 būdvardžių kamienų tipai. Būdvardžiųaukštesniojo, aukštėlesniojo ir aukščiausiojo laipsnio sudarymui naudojamospriesagos laikomos galūnės dalimi. Modelio paprastumo dėlei nekreipiama dėmesio įtai, kad kai kurios būdvardžių galūnių grupės sutampa. 2.1 lentelėje pavaizduotas tipųsudarymas pagal kai kurių linksnių galūnes.

2.1 lentelė. Kamienų tipai

Kamienotipas

Linksniai, galūnės, pavyzdžiai

Daiktavardžiai12345678910111213141516171819

vv „-as” po kieto priebalsio („namas”), vt „-e” („name”);vv „-as” po „j” („vėjas”), vt „-uje” arba „-yje” („vėjuje” arba „vėjyje”);vv „-ias” („kelias”), vt „-yje” („kelyje”);vv „-is” („brolis”), vk „-io” („brolio”);vv „-is” („kūjis”), vk „-o” („kūjo”);vv „-ys” („arklys”), vk „-io” („arklio”);vv „-ys” („žvejys”), vk „-o” („žvejo”);vv „-a” po bet kokio priebalsio („ranka”, „sauja”), vk „-os” („rankos”, „saujos”);vv „-ia” („vyšnia”), vk „-ios” („vyšnios”);vv „-i” („marti”, „pati”), vk „-ios” („marčios”, „pačios”);vv „-ė” („bitė”), vk „-ės” („bitės”) , dk „-ių” („bičių”);vv „-ė” („skerssijė”), vk „-ės” („skerssijės”), dk „-ų” („skerssijų”);vv „-is” („krosnis”), vk „-ies” („krosnies”), vn „-iai” („krosniai”);vv „-is” („žvėris”), vk „-ies” („žvėries”), vn „-iui” („žvėriui”);vv „-us” po kieto priebalsio („sūnus”), dn „-ums” („sūnums”);vv „-us” po „j” („pavojus”), dn „-ams” („pavojams”);vv „-ius” („sodžius”), dn „-iams” („sodžiams”);vv „-uo” („akmuo”), vk „-ens” („akmens”);vv „-uo”, „-ė” („sesuo”, „duktė”), vk „-ers” („sesers”, „dukters”);Būdvardžiai

20 - 2324 - 2728 - 3132 - 3536 - 3940 - 4142 - 4344 - 4748 - 5152 - 5556 - 5960 - 6364 - 67

vv „-as”, „-a” („geras”, „gera”, „gerasis”, „geroji”);vv „-as”, „-a” („abuojas”, „abuoja”, „abuojasis”, „abuojoji”);vv „-ias”, „-ia” („žalias”, „žalia”, „žaliasis”, „žalioji”);vv „-is”, „-ė” („didelis”, „didelė”, „didysis”, „didžioji”), dv „-i” („dideli”);vv „-ys”, „-ė” („kairys”, „kairė”, „kairysis”, „kairioji”);vv „-is”, „-ė” („medinis”, „medinė”), dv „-iai” („mediniai”);vv „-is”, „-ė” („ilgakojis”, „ilgakojė”), dv „-ai” („ilgakojai”);vv „-us”, „-i” („gražus”, „graži”, „gražusis”, „gražioji”);vv „-us”, „-i” („gajus”, „gaji”, „gajusis”, „gajoji”);vv „-esnis”, „-esnė” („geresnis”, „geresnė”, „geresnysis”, „geresnioji”);vv „-ėlesnis”, „-ėlesnė” („gerėlesnis”, „gerėlesnė”, „gerėlesnysis”, „gerėlesnioji”);vv „-iausias”, „-iausia” („geriausias”, „geriausia”, „geriausiasis”, „geriausioji”);vv „-ausias”, „-ausia” („gajausias”, „gajausia”, „gajausiasis”, „gajausioji”).

4.5. Kirčiuotės

Bendrinėje lietuvių kalboje daiktavardžiai ir būdvardžiai skirstomi į 4kirčiuotes. Kirčiuotės nustatomos pagal tai, kurioje žodžio dalyje – kamiene argalūnėje – kirčiuojamos daugiskaitos naudininko ir galininko formos. Automatiniamlietuvių kalbos kirčiavimui toks suskaidymas nepakankamas, nes tai pačiai kirčiuotei

Page 33: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

33

priklausantys žodžiai gali kituose linksniuose turėti kirtį skirtingose vietose. Pvz.,žodžiai „pirštas” ir „ranka” yra antros kirčiuotės, tačiau vv kirčiuojama „pir~št-as” –„rank-a`”, o vt „piršt-e`” – „ran~k-oje”.

Buvo apibrėžta nauja sąvoka – kirčių rinkinys, ir kiekviena kirčiuotė darskaidoma į kirčių rinkinius. Kirčių rinkinys nusako, kur (kamiene ar galūnėje)kiekviename linksnyje yra kirtis. Kamieno tipas ir kirčiuotė vienareikšmiškai nusakokirčių rinkinį. Paprasčiausią modelį gautume, jei kiekvieno kamieno tipo kiekvienaikirčiuotei apibrėžtume po kirčių rinkinį. Iš 67 kamienų tipų ir 4 kirčiuočių susidarytų268 kombinacijos, t.y. reikėtų saugoti 268 kirčių rinkinius po 13 kirčio vietospožymių. Tačiau gana daug skirtingų kamienų tipų gali būti kirčiuojami pagal tą patįkirčių rinkinį. Iš viso yra 24 skirtingi kirčių rinkiniai (žr. 2.2 lentelę).

2.2 lentelė. Kirčių rinkiniai

Kir-čiuotė

Nr. vv vk vn vg vį vt vš dv dk dn dg dį dt Kamienų tipai

I 1 1 1 1 1 1 1 1 1 1 1 1 1 1 visiII 2 1 1 1 1 0 0 1 1 1 1 0 1 1 1

3 1 1 1 1 0 1 1 1 1 1 0 1 1 2,4,5,11,12,40-434 0 1 1 1 0 1 1 1 1 1 0 1 1 8,95 1 1 1 1 1 1 1 1 1 1 0 1 1 15,16,17

III 6 1 1 1 1 1 0 1 0 0 0 1 0 0 1,37 0 1 1 1 1 0 0 0 0 0 1 0 0 6,78 0 0 1 1 1 0 1 1 0 0 1 0 0 8,11,12,21,25,29,

37,45,499 0 0 1 1 0 0 0 1 0 0 1 0 0 13,14,1510 0 0 1 1 1 0 0 1 0 0 1 0 0 18,1911 1 1 0 1 1 0 1 0 0 0 1 0 0 20,24,28,3212 1 0 1 1 1 0 1 1 0 0 1 0 0 3313 0 1 0 1 1 0 - 0 0 0 1 0 0 3614 0 0 0 1 1 0 - 1 0 0 1 0 0 44,48

IV 15 1 1 1 1 0 0 1 0 0 0 0 0 0 116 1 1 1 1 0 0 0 0 0 0 0 0 0 317 0 1 1 1 0 0 0 0 0 0 0 0 0 6,718 0 0 1 1 0 0 1 1 0 0 0 0 0 8-12,21,23,25,27,

29,31,37,39,45,47,49,51

19 0 0 1 1 0 0 0 1 0 0 0 0 0 13,14,15,1820 1 1 0 1 0 0 - 0 0 0 0 0 0 20,24,28,3221 1 0 1 1 0 1 - 1 0 0 0 0 0 3322 0 1 0 1 0 0 - 0 0 0 0 0 0 22,26,30,34,36,38,

46,5023 0 0 0 1 0 0 - 1 0 0 0 0 0 44,4824 0 0 0 0 0 0 - 0 0 0 0 0 0 52-67

Šioje lentelėje „0” reiškia, kad kirtis yra galūnėje, „1” – kamiene, o „-” – kadžodis tokio linksnio neturi. Kai kurie kamienų tipai negali būti kirčiuojami pagal tamtikrą kirčiuotę, todėl skiltyje „Kamienų tipai” prie kiekvienos kirčiuotės išvardinti nevisi kamienų tipai.

Patogu turėti dar vieną lentelę, kuria naudojantis pagal kamieno tipą ir kirčiuotęgalima rasti kirčių rinkinį.

Page 34: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

34

4.6. Informacija apie kamienus

Kaip jau buvo minėta, daiktavardžių ir būdvardžių kirčiavimą patogu išskaidytiį du etapus ir iš pradžių nustatyti kirčio vietą žodyje, o po to ieškoti kirčio vietosatitinkamai kamiene arba galūnėje. Taigi reikalingos dvi duomenų bazės:

1) kamienų duomenų bazė, kurioje saugoma informacija apie kamienųkirčiavimą, o taip pat informacija apie kirčio vietą žodyje. Kirčio vieta žodyjenustatoma pagal kamieno tipą ir kirčiuotę, o abu šie atributai yra kamieno savybės,

2) galūnių duomenų bazė, kurioje saugoma informacija apie galūnių kirčiavimą.Kirčio vieta kamiene (jei kirtis yra kamiene) ir priegaidė yra kamieno savybė ir

nepriklauso nuo to, kokia galūnė prie jo pridėta.

Reziumuojant tai kas buvo pasakyta anksčiau, kamienų duomenų bazės esybiųryšių diagrama (angl. Entity Relationship Diagram - ERD) [Barker 1994] atrodytųtaip, kaip pavaizduota 2.1 pav.

2.1 pav. Kamienų duomenų bazės esybių ryšių diagrama

Šioje diagramoje Kamieno atributas Pavadinimas yra kamieno tekstinispavidalas. Prieš tam tikras galūnes kamieno gale gali pasikeisti raidės, todėl vertaatskirai pakalbėti, kokiu pavidalu patogiausia saugoti kamienų tekstinius pavidalus irkaip jų ieškoti duomenų bazėje.

4.7. Priebalsių „d” ir „t” kitimas daiktavardžių ir būdvardžiųkamienų galuose

Apibrėžimas. Minkštomis galūnėmis vadinsime galūnes, kurios prasideda raide„i”, atliekančia minkštumo ženklo funkciją, t.y. kai „i” eina prieš balsę, išskyrus „e”.Visas kitas galūnes vadinsime kietomis.

1 teiginys. Jei kamienas baigiasi „d” arba „t” (šiuo atveju galūnė visada būnakieta), o linksniuojant įgyja minkštą galūnę, tai kamieno gale esanti „d” virsta į „dž”,o „t” į „č”.

2 teiginys. Atvirkščias teiginys nėra teisingas. Pvz., žodžių „Sočio” (miestas) ar„Mačio” (pavardė) vienaskaitos kilmininko galūnė yra minkšta, tačiau vienaskaitosvardininkas turi kietą galūnę („Sočis”, „Mačys”) ir išlaiko „č”. Be to, jei kamienasbaigiasi „č” ar „dž” prieš kietą galūnę, tai toks kamienas išlieka su visomis galūnėmis.

Paprastai žodžio kamienu laikomas jo vienaskaitos vardininko kamienas. Žodisgali turėti kietas galūnes visuose linksniuose, pvz., „banda”, „bandža”, „pučas”,

Page 35: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

35

„puta”, minkštas galūnes visuose linksniuose, pvz., „valdžia”, „risčia”, kietąvienaskaitos vardininko linksnyje, o minkštą kokiame nors kitame linksnyje, pvz.,„medis – medžio”, „kirtis – kirčio”, minkštą vienaskaitos vardininko linksnyje ir kietąkokiame nors kitame, pvz., „kurčias – kurtiems”, „bergždžias – bergždiems”.Nepateikiant tolimesnės iš 1 ir 2 teiginio gaunamos samprotavimų grandinės,užrašysime tik galutinį kamienų saugojimo ir paieškos algoritmą:

1) Žodžiams, kurių kamienai prieš kietas galūnes baigiasi „d” arba „t”, o priešminkštą atitinkamai „dž” arba „č”, į žodyną rašomi kamienai, kurie baigiasi „d” arba„t”. Visiems kitiems žodžiams rašomi kamienai, likę atmetus galūnę.

2) Jei nagrinėjamam žodžiui atmetus galūnę lieka kamienas, kuris baigiasi „dž”arba „č”, o galūnė minkšta, tai žodyne paieška atliekama su dviem kamienais:besibaigiančiu „dž” arba „č” ir besibaigiančiu „d” arba „t”. Visais kitais atvejaispaieška atliekama su vienu kamienu, likusiu atmetus galūnę.

Taigi kai kurie žodžiai, kuriuos mes įpratę matyti su vienokiais kamienais,žodyne turėtų būti saugomi su kitokiais, pvz., „bergždžias” su kamienu „bergžd” (nes„bergždieji”), o „kurčias” su kamienu „kurt” (nes „kurtieji”).

4.8. Informacija apie galūnes

3 teiginys. Kirčio vieta galūnėje ir jo priegaidė (kaip ir kamienų atveju) yragalūnės savybė ir nepriklauso nuo to, prie kokio kamieno ji pridėta.

Tai svarbi galūnės savybė, nes ta pati galūnė gali būti pridedama prie skirtingotipo kamienų (pvz., „kel-yje`” ir „žvėr-yje`”) ir gali reikšti skirtingus linksnius (pvz.,vv „sūn-u`s” ir dg „nam-u`s”). Be to, tai pasitaiko gana dažnai.

Atsižvelgiant į šią savybę patogu atskirai saugoti galūnę su atributais(pavadinimu, kirčio vieta, priegaide, minkštumo požymiu) ir atskirai informaciją, priekokio tipo kamieno ir kokiame linksnyje ši galūnė gali būti pridedama. 2.2 pav.pavaizduota, kaip tai atrodytų ERD terminais.

2.2 pav. Galūnių duomenų bazės esybių ryšių diagrama

Tačiau anksčiau minėta savybė tinka tik pilnoms galūnėms, tačiau kai kuriosgalūnės turi dar ir trumpuosius variantus, kurie:

1) Gali sutapti su nagrinėjamo kamieno tipo kitų linksnių galūniųpagrindiniais variantais, o būti kirčiuojami kitaip, pvz., „ger-a´jam” (vn) ir trumpojigalūnė „ger-a~jam” (vt).

2) Gali sutapti du trumpieji variantai, o būti kirčiuojami kitaip, pvz., „ger-o´siom” (dn) ir „ger-o~siom” (dį).

Pirmame punkte paminėtos trumposios galūnės į galūnių sąrašą neįtrauktos, išantrame punkte paminėtų galūnių pasirinkta viena, o visos kitos trumposios galūnės įgalūnių sąrašą įtrauktos. Iš viso, kartu su trumposiomis galūnėmis, sudarytas 355

Page 36: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

36

daiktavardžių ir būdvardžių galūnių sąrašas (pradedant „-as”, „-o”, „-ui”, … irbaigiant …, „-ausiomis”, „-ausiose”).

4.9. Kitų gramatinių formų bei kalbos dalių kirčiavimas

Būdvardžių bevardė giminė kirčiuojama taip pat, kaip vyriškos giminėsvienaskaitos vardininko linksnis („ge~ras - ge~ra”, „gražu`s - gražu`”), todėl patogutraktuoti, kad būdvardžių bevardės giminės galūnė yra dar viena vyriškos giminėsvienaskaitos vardininko galūnė. Visiškai analogiškai būdvardžių bevardės giminėsaukštesniojo („geriau~”), aukštėlesniojo („gerėliau~”) ir aukščiausiojo laipsnio(„geria´usia”) galūnės taip pat traktuojamos kaip atitinkamos vienaskaitos vardininkogalūnės.

Sudėtingesnis yra iš būdvardžių daromų prieveiksmių („gerai~”, „tam~siai”)kirčiavimas. Prieveiksmių galūnės traktuojamos kaip dar vieno linksnio galūnės.Kirčių rinkiniuose šiam linksniui saugomas specialus požymis, nusakantis, kad kirčiovietai nustatyti reikia panaudoti papildomą algoritmą. Šis algoritmas naudoja tokiuspožymius kaip skiemenų skaičius, kamieno tipas, kirčiuotė, kamieno ilgumas.

Kelintiniai skaitvardžiai, o taip pat skaitvardis „vienas”, traktuojami kaipbūdvardžiai. Skaitvardžių „du”, „dvi”, „trys”, „keturi”, „keturios”, …, „devyni”,„devynios” visi linksniai surašyti į nekaitomų žodžių bazę. Skaitvardžiai nuo„vienuolikos” iki „devyniolikos”, o taip pat „šimtas”, „tūkstantis”, „milijonas”,„milijardas” traktuojami kaip daiktavardžiai. Skaitvardžiai „dešimtis”, …,„devyniasdešimtis” traktuojami kaip daiktavardžiai, tik jų vienaskaitos vardininkotrumposios formos „dešimt”, …, „devyniasdešimt”surašytos į nekaitomų žodžių bazę.

Įvardžiai „kitas”, „visas”, „kiekvienas”, „tūlas”, „manas”, „tavas”, „savas”,„šitas” traktuojami kaip būdvardžiai, tik būdvardžio „šitas” formos „šituo~”, „šitie~”ir „šituo~s” surašytos į nekaitomų žodžių bazę. Laikoma, kad įvardžiai „toks”,„šioks”, „šitoks”, „anoks”, „koks”, „joks”, „visoks”, „vienoks”, „kitoks”, „kažkoks”linksniuojami ir kirčiuojami taip, kaip būdvardis „žalias”, tik jų vv, vg ir dv linksniai(„to´ks”, „to´kį”, „tokie~”) surašyti į nekaitomų žodžių bazę. Ten surašyti ir visų kitųįvardžių visos kitos gramatinės formos.

4.10. Bendras daiktavardžių ir būdvardžių kirčiavimo algoritmas

Kiekvienam kirčiuojamam žodžiui imti visas galūnes ir patikrinti, kuriomsatributas Pavadinimas sutampa su kirčiuojamo žodžio pabaiga. Jei galūnėspavadinimas sutampa, tačiau atmetus galūnę kamieno gale lieka balsė, laikysime, kadtokia galūnė netinka, pvz., žodžiui „kačių” tinka galūnės „-ų” ir „-ių”, tačiau atmetusgalūnę „-ų” likęs kamienas baigiasi balse „i”. Sudaromas sąrašas: Likęs kamienas,Galūnė (galūnės identifikatorius). Gana dažnai šiame sąraše būna daugiau, nei vienasįrašas. Pvz., žodžiui „žaliuosiuose” gaunamos tokios galūnės ir kamieno atskyrimohipotezės:

1) „žal-”, „-iuosiuose”,2) „žali-”, „-uosiuose”,3) „žaliuos-”, „-iuose”,4) „žaliuosi-”, „-uose”,5) „žaliuosiu-”, „-ose”,6) „žaliuosiuos-”, „-e”.

Page 37: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

37

Iš jų antra, ketvirta ir penkta atmetamos, nes kamieno gale lieka balsė. Be to,dar patikrinama, ar atmetus galūnę iš viso lieka kamienas, nes kai kurios galūnėssutampa su ištisais lietuvių kalbos žodžiais, pvz., „o”, „į”, „imi”.

Ar negalima iš karto vienareikšmiškai atskirti galūnės? Negalima, nes tiekgalūnės, tiek kamienai gali turėti įvairų raidžių bei skiemenų skaičių. Be to, nėra jokiųkamieno ir galūnės ribą žyminčių požymių. Ilgiausios galūnės suradimas taip patneduoda norimo rezultato, nes, pvz., žodžiui „samurajai” tinka galūnės „-ajai” ir „-ai”,tačiau teisingai atskiriama naudojant antrąją.

Kiekvienam gauto sąrašo įrašui tikrinama, ar galūnė yra minkšta (tikrinamasgalūnės atributas Minkštumo požymis). Jei galūnė minkšta, o likęs kamienas baigiasi„č” arba „dž”, tai sąrašas papildomas dar vienu įrašu, kuriame kamieno pabaigoje „č”pakeičiama į „t”, o „dž” į „d” (žr. skyrelį „Priebalsių „d” ir „t” kitimas daiktavardžiųir būdvardžių kamienų galuose”).

Kamienų duomenų bazėje kiekvienam šio sąrašo kamienui ieškoma visųtinkančių kamienų ir sudaromas naujas sąrašas: Kamieno identifikatorius, Kamienotipas, Galūnės identifikatorius. Be abejo, kai kuriems ankstesnio sąrašo įrašamsnerandama nei vieno tinkančio kamieno, o kai kuriems net po kelis, pvz., „žal-” yražodžių „žalias”, „žalas” ir „žala” kamienas. Kiekvienam naujojo sąrašo įrašui, kurioKamieno tipas priklauso vyriškos giminės būdvardžių grupei (būdvardžių kamienaikaip tik ir saugomi nurodant jų vyriškos giminės kamieno tipą), sąrašas darpapildomas 15 įrašų, kuriuose kamieno tipas atitinka visas galimas giminės, laipsnioir įvardžiuotinės-neįvardžiuotinės formos kombinacijas. Įvardžiuotinių formų irlaipsnių neturintiems būdvardžiams sąrašas pildomas tik vienu įrašu su moteriškągiminę atitinkančiu kamieno tipu.

Kodėl iš pradžių atskiriama galūnė, o tik po to ieškomas kamienas? Pirmiauatskiriant galūnę galima nustatyti ar galūnė minkšta ir ar reikia taikyti raidžių kitimokamienų galuose taisykles.

Jei laikysime, kad kamienai ir galūnės saugomi reliacinėje duomenų bazėje,sugeneruotoje pagal 2.1 ir 2.2 pav. pateiktas ERD, tai tolimesnę paiešką galimaužrašyti tokia užklausa:

SELECT Kirtis kamiene – galūnėjeFROM Kamienas, Kamieno tipas – kirčių rinkinys, Kirčių rinkinys, Galūnės

vieta, GalūnėWHEREKirčių rinkinys.Kirčių rinkinio Nr. = Kamieno tipas – kirčių rinkinys.Kirčių

rinkinio Nr.AND Kamieno tipas – kirčių rinkinys.Kamieno tipas = Kamieno tipasAND Kamieno tipas – kirčių rinkinys.Kirčiuotė = Kamienas.KirčiuotėAND Kamienas.Identifikatorius = Kamieno identifikatoriusAND Kirčių rinkinys.Skaičius - linksnis = Galūnės vieta.Skaičius - linksnisAND Galūnės vieta.Kamieno tipas = Kamieno tipasAND Galūnės vieta.Identifikatorius = Galūnės identifikatorius

Šios paieškos metu atskiram sąrašo įrašui gali būti nerasta nei vieno tinkamoįrašo (pvz., galūnė „-ias” negali būti pridedama prie žodžio „žalas” kamieno jokiamelinksnyje, nes tai yra tą patį kamieną turinčio žodžio „žalias” galūnė), arba gali būtirasti net keli tinkantys įrašai (pvz., galūnė „-a” prie kamieno „piev-” pridedama vv, vįir vš linksniuose).

Page 38: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

38

Perrenkame visus surastus įrašus ir jei atributas Kirtis kamiene-galūnėje rodo,kad kirtis yra kamiene, pagal Kamieno Identifikatorių randame kamieno Kirčio vietąir Priegaidę, o jei kirtis yra galūnėje – galūnės Kirčio vietą ir Priegaidę.

Jei visiems surastiems įrašams kirčio vieta ir priegaidė yra ta pati, žodiskirčiuojamas, jei ne – pagal kokį nors algoritmą parenkamas vienas kirčiavimovariantas arba žodis paliekamas nekirčiuotas.

5. Veiksmažodžių kirčiavimas remiantis žodynu

5.1. Veiksmažodžių skaidymas į dalis

Šiame skyriuje nagrinėsime ne tik asmenuojamąsias veiksmažodžių formas, betir neasmenuojamąsias, pvz., dalyvius, pusdalyvius, padalyvius, bendratis, ir visas jasvadinsime bendru vardu - veiksmažodžiais.

Tarsime, kad bet kuris veiksmažodis yra sudarytas iš kamieno, galūnės, ir dargali turėti priešdėlių grupę. To paties veiksmažodžio įvairių gramatinių formų, pvz.,asmenų, nuosakų, laikų, sangrąžinių formų, neasmenuojamųjų formų linksnių,įvardžiuotinių formų sudarymą prie kamieno pridedant galūnes ir priešdėliusvadinsime kaitymu. Šiame skyriuje nagrinėjamas tik veiksmažodžių kaitymas.

Naujų žodžių sudarymas naudojantis priesagomis (pvz., prie žodžio „neš-ti”pridedant priesagą „io” gaunama „neš-io-ti”) nebus nagrinėjamas. Tokios priesagosbus laikomos kamieno dalimi, t.y. kamienu laikysime žodžio šaknį kartu su darybospriesagomis.

Sudarant kai kurias gramatines formas prie kamieno pridedama ne tik galūnė,bet ir formantas ar priesaga, pvz., „neš-tin-as”, kur „neš” – kamienas, „tin” – priesaga,o „as” – galūnė. Tokias priesagas laikysime galūnės dalimi, t.y. galūne vadinsimegalūnę kartu su kaitybos priesagomis.

Panašiai, kaip ir daiktavardžių ar būdvardžių atveju, veiksmažodžių skaidymas įkamieną, galūnę ir priešdėlį leidžia:

1) kamienus, galūnes ir priešdėlius saugoti atskirose duomenų bazėse ir tokiubūdu stipriai sumažinti saugomos informacijos kiekį,

2) kirčiavimo procesą išskaidyti į du etapus: nustatyti kurioje žodžio dalyje(kamiene, galūnėje ar priešdėlyje) yra kirtis ir rasti kirčio vietą atitinkamoje žodžiodalyje.

5.2. Asmenuotės

Visos veiksmažodžių formos daromos iš trijų pagrindinių kamienų: esamojolaiko, būtojo kartinio laiko ir bendraties. Šie kamienai gali sutapti, pvz., „neš-a”, „neš-ė”, „neš-ti”, o gali ir nesutapti, pvz., „kert-a”, „kirt-o”, „kirs-ti”. Modeliuisupaprastinti laikysime, kad visi kamienai skirtingi.

Kaitant veiksmažodį prie kiekvieno tipo kamieno galima pridėti tam tikrągalūnių rinkinį. Taigi visas galūnes suskaidome į tris grupes: a) pridedamas prieesamojo laiko kamieno, b) prie būtojo kartinio laiko kamieno ir c) prie bendratieskamieno. Kai kurios galūnės gali priklausyti kelioms grupėms, pvz., galūnė „-o”esamojo laiko veiksmažodyje „mat-o” ir būtojo kartinio laiko veiksmažodyje „kirp-o”, tačiau laikykime, kad šios grupės yra atskiros ir nekreipkime dėmesio į tai, kad kaikurie elementai sutampa.

Prie kiekvieno esamojo laiko ir būtojo kartinio laiko kamieno galima pridėtiatitinkamai galūnių grupei priklausančių galūnių rinkinį, tačiau ne visas, o tik kai

Page 39: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

39

kurias. Galūnių rinkinį apibrėžia asmenuotė. Gramatikose pagal trečio asmens galūnępaprastai išskiriamos 3 esamojo laiko asmenuotės (1. „a” ir „ia”, 2. „i”, 3. „o”) ir 2būtojo kartinio laiko asmenuotės (1. „o”, 2. „ė”). Kadangi galūnės „-a” ir „-ia” turikiek skirtingą pavidalą, tai patogiau traktuoti, kad tai yra skirtingų asmenuočiųgalūnės.

Patogiau ne atskirai nagrinėti esamojo ir būtojo kartinio laiko asmenuotes, osudaryti asmenuotes pagal abiejų laikų galūnes, nes pvz., iš būtojo kartinio laikokamieno sudarant būtojo kartinio laiko padalyvius, galūnė „-ius” pridedama prie tųkamienų, kurie būtojo kartinio laiko 3 asmenyje įgyja galūnę „-ė”, o esamojo laiko 3asmenyje – „-o”. Taigi prie būtojo kartinio laiko kamieno pridedama būtojo kartiniolaiko grupės galūnė priklausomai nuo esamojo laiko asmenuotės.

Taigi gauname tokias asmenuotes (esamojo laiko galūnė – būtojo kartinio laikogalūnė): 1) „a–o”, 2) „a–ė”, 3) „ia–o”, 4) „ia–ė”, 5) „i–o”, 6) „o–o”, 7) „o–ė”.

5.3. Kirčiavimo taisyklės

Veiksmažodžio gramatinę formą nusako galūnė (čia ir toliau galūne vadinsimeraidžių grandinėlę, kuri kaitant veiksmažodį pridedama prie kamieno), o 3-iojoasmens liepiamajai nuosakai dar ir priešdėlis „te-”. Kai kurios gramatinės formos turitą pačią galūnę, tačiau vis vien nagrinėjamos visos gramatinės formos.Veiksmažodžio kirtis gali būti priešdėlyje, kamiene arba galūnėje. Kiekvienosgramatinės formos kirčio vieta nustatoma pagal tam tikras taisykles. Visas gramatinesformas suskirstykime į grupes. Į vieną grupę turi pakliūti pagal tą pačią taisyklękirčiuojamos gramatinės formos.

Sudarytos tokios taisyklės (žemiau išvardinta, kokios gramatinės formos pagalšią taisyklę kirčiuojamos ir pateikta po kelis pavyzdžius):

1 taisyklė. Jei yra priešdėlis ir kirtis atitraukiamas į priešdėlį – kirčiuotipriešdėlį, jei kirčiuojamas paskutinis kamieno skiemuo ir jo priegaidė netvirtapradė –kirčiuoti galūnę, priešingu atveju – kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:1. Esamojo laiko vienaskaitos 1-asis ir 2-asis asmuo („kerpu`”, „kerpu´osi”);2. Būtojo kartinio laiko vienaskaitos 1-asis ir 2-asis asmuo („kirpau~”,

„kirpau~si”).

2 taisyklė. Jei yra priešdėlis ir kirtis atitraukiamas į priešdėlį – kirčiuotipriešdėlį, priešingu atveju kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:1. Esamojo laiko 3-asis asmuo ir daugiskaita („ker~pa”, „ne`kerpa”,

„ker~pame”, „ne`kerpame”);2. Esamojo laiko padalyvis („ker~pant”, „ker~pantis” (kada));3. Esamojo laiko veikiamasis dalyvis, išskyrus trumpąsias galūnes („ker~pantis”

(koks), „ker~panti”);4. Esamojo laiko neveikiamojo dalyvio galūnėje nekirčiuojami linksniai

(„ker~pamas”);5. Prieveiksmis, padarytas iš esamojo laiko veikiamojo dalyvio („ker~pančiai”

(kaip));

Page 40: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

40

6. Būtojo kartinio laiko 3-asis asmuo ir daugiskaita („kir~po”, „kir~pome”).

3 taisyklė. Jei esamojo laiko kamienas nedaugiaskiemenis ir ne „o-o” arba „o-ė” asmenuotės – kirčiuoti galūnę, priešingu atveju kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:1. Liepiamosios nuosakos 3-asis asmuo su galūne „-ie” („tekerpie~”);2. Esamojo laiko neveikiamojo dalyvio galūnėje kirčiuojami linksniai

(„kerpama´m”);3. Pusdalyvio galūnėje kirčiuojamos formos („kirpdama`”, „kirpdami`”);4. Būtojo laiko neveikiamojo dalyvio galūnėje pagal 3 ir 4 kirčiuotes

kirčiuojami linksniai („kirpta´m”);5. Būsimojo laiko neveikiamojo dalyvio galūnėje kirčiuojami linksniai

(„kirpsima´m”);6. Reikiamybės dalyvio galūnėje kirčiuojami linksniai („kirptina´m”);7. Būdinys („kirpte`”, „kirptinai~”);8. Prieveiksmis, padarytas būtojo laiko neveikiamojo dalyvio („kirptai~”

(kaip)).

4 taisyklė. Kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:1. Liepiamosios nuosakos 3-asis asmuo su galūne „-ai” („temo´kai”);2. Būtojo kartinio laiko padalyvis („kir~pus”, „kir~pusis” (kada));3. Būtojo kartinio laiko veikiamasis dalyvis („kir~pęs” (koks), „kir~pusi”);4. Prieveiksmis, padarytas iš būtojo kartinio laiko veikiamojo dalyvio

(„kir~pusiai” (kaip));5. Bendratis („kir~pti”);6. Būtasis dažninis laikas („kir~pdavau”);7. Būsimasis laikas („kir~psiu”) išskyrus trečiąjį asmenį;8. Tariamoji nuosaka („kir~pčiau”);9. Liepiamoji nuosaka („kir~pk”);10. Pusdalyvio galūnėje nekirčiuojamos formos („kir~pdamas”, „kir~pdamos”);11. Būtojo dažninio laiko ir būsimojo laiko padalyvis („kir~pdavus”,

„kir~psiant”);12. Būtojo dažninio laiko veikiamasis dalyvis („kir~pdavęs”);13. Būsimojo laiko veikiamasis dalyvis („kir~psiąs”);14. Būsimojo laiko neveikiamojo dalyvio galūnėje nekirčiuojami linksniai

(„kir~psimas”);15. Reikiamybės dalyvio galūnėje nekirčiuojami linksniai („kir~ptinas”).

5 taisyklė. Jei kirtis atitraukiamas į priešdėlį – kirčiuoti galūnę, priešingu atvejukirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:Esamojo laiko veikiamojo dalyvio trumposios galūnės („kerpą~s” (koks),

„kerpą~”).

Page 41: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

41

6 taisyklė. Jei esamojo laiko kamienas nedaugiaskiemenis, ne „o-o” arba „o-ė”asmenuotės, priegaidė ne tvirtapradė, šaknyje tik „a” arba tik „e” – kirčiuoti galūnę,priešingu atveju kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:Prieveiksmis, padarytas iš esamojo laiko neveikiamojo dalyvio („ker~pamai”

(kaip)).

7 taisyklė. Jei kamienas ne daugiaskiemenis ir priegaidė ne tvirtapradė –kirčiuoti galūnę, priešingu atveju kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:Būtojo laiko neveikiamojo dalyvio galūnėje tik pagal 4 kirčiuotę kirčiuojami

linksniai („kirptų~” (kokių)).

8 taisyklė. Jei kamienas ne daugiaskiemenis, priegaidė ne tvirtapradė ir yrapriešdėlis – kirčiuoti priešdėlį, priešingu atveju kirčiuoti kamieną. Jei kamiene yratrumpi kirčiuoti balsiai „a” arba „e”, priegaidę pakeisti į tvirtagalę.

Pagal šią taisyklę kirčiuojama:Būtojo laiko neveikiamojo dalyvio galūnėje nekirčiuojami linksniai („kir~ptas”

(koks)).

9 taisyklė. Jei kamienui buvo taikyta balsių kitimo kamiene taisyklė (žr. skyrelį„Raidžių kitimo kamiengaliuose taisyklės”), kirtis bus trumpas, jei kirčiuojamaspaskutinis kamieno skiemuo ir jo priegaidė tvirtapradė, kirtis bus ilgas tvirtagalis.Kirčiuoti kamieną.

Pagal šią taisyklę kirčiuojama:Būsimojo laiko 3-asis asmuo („ly´ti – li`s”, „lanky´ti – lanky~s”).

Peržvelgę taisykles pastebėsime, kad kirčio vietai nustatyti reikalinga tokiainformacija:

1) ar yra priešdėlis,2) ar kirtis atitraukiamas į priešdėlį,3) kirčiuotas kamieno skiemuo,4) kamieno kirčio priegaidė,5) ar kamienas daugiaskiemenis,6) asmenuotė,7) ar kamiene yra balsiai „a” arba „e”.

Sąlygą „ar kirtis atitraukiamas į priešdėlį” reikėtų išskaidyti į dvi: „ar kirtisatitraukiamas į priešdėlį esamajame laike” ir „ar kirtis atitraukiamas į priešdėlįbūtajame kartiniame laike”. [Vaitkevičiūtė 1997] yra pateikti 7 atvejai, kuometesamajame laike kirtis į priešdėlį neatitraukiamas, ir 4 atvejai, kuomet kirtisatitraukiamas. Todėl paprasčiau kartu su kamienu kaip atributą saugoti požymį, arkirtis esamajame laike atitraukiamas į priešdėlį, ar ne.

Kitokia situacija su būtuoju kartiniu laiku. Kirtis atitraukiamas į priešdėlį tik „a-ė” ir „ia-ė” asmenuotės veiksmažodžiuose, kurių kamieno priegaidė ne tvirtapradė[Vaitkevičiūtė 1997]. Taigi pagal asmenuotę ir būtojo kartinio laiko kamieno

Page 42: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

42

priegaidę galima nustatyti, ar kirtis atitraukiamas į priešdėlį, todėl nebūtina šiopožymio saugoti kaip atributo.

Kadangi esamajame ir būtajame kartiniame laike sąlygos „ar kirtis atitraukiamasį priešdėlį” tikrinamos skirtingai, tai pirmąją ir antrąją taisykles verta atskirai perrašytiesamajam ir būtajam kartiniam laikui.

Sąlygą „ar kamienas daugiaskiemenis” taip pat galima išskaidyti į du atvejus:„ar daugiaskiemenis esamojo laiko kamienas” ir „ar daugiaskiemenis bendratieskamienas”. Galima būtų šiuos du požymius saugoti kaip atributus, tačiau turintkamieną, galima nesunkiai algoritmiškai suskaičiuoti skiemenis. Be to, daugumaatvejų asmenuotė nusako kamieno skiemenų skaičių. Asmenuočių „a-ė”, „ia-o”, „ia-ė”, „i-o”, „o-o” ir „o-ė” esamojo laiko kamienai yra ne daugiaskiemeniai.Asmenuočių „a-ė” ir „ia-ė” bendraties kamienai yra ne daugiaskiemeniai, oasmenuočių „ia-o”, „i-o”, „o-o” ir „o-ė” bendraties kamienai yra daugiaskiemeniai.Tik „a-o” asmenuotės kamienams reikėtų algoritmiškai suskaičiuoti skiemenų skaičių.

5.4. Raidžių kitimo kamiengaliuose taisyklės

Jei galūnė prasideda „s”, tai po kamieno gale esančių „s”, „z”, „š”, „ž” galūnės„s” išnyksta, o „z” ir „ž” virsta atitinkamai „s” ir „š”, pvz., „kirp” + „siu” = „kirpsiu”,„mes” + „siu” = „mesiu”, „megz” + „siu” = „megsiu”, „neš” + „siu” = „nešiu”, „vež”+ „siu” = „vešiu” [Ambrazas ir kt. 1996]. Kadangi paiešką pirmiau atliekame sugalūnėmis, tai paieškai reikia turėti visus galimus galūnių variantus, todėl visomsraide „s” prasidedančioms galūnėms sąrašas dar papildomas tokiomis pat galūnėmis,tik prasidedančiomis „š”, pvz., „-siu” ir „-šiu”.

Jei žodžiui tinka galūnė, prasidedanti „s”, „š” arba „k”, tai kamieno paieškainaudojami keli kamienai. Kokie tai kamienai, paaiškinsime pavyzdžiais:

„meg-siu” - „meg”, „meg+s” ir „meg+z”;„ve-šiu” - „ve+š” ir „ve+ž”.„au-kime” - „au”, „au+k” ir „au+g”.Prieš galūnes, prasidedančias „i”, atliekančia minkštumo ženklo funkciją,

kamieno gale esančios „d” ir „t” virsta atitinkamai „dž” ir „č”. Tačiau skirtingai nuodaiktavardžių, neegzistuoja kietų galūnių, prieš kurias būtų „dž” arba „č”. Todėlkamieno gale, radus „dž” ar „č”, jos keičiamos atitinkamai į „d” ar „t”, o sudarantkamienų sąrašą į jį rašomi tik kamienai, kurie baigiasi „d” ar „t”.

Ypatingo dėmesio nusipelno būsimojo laiko trečio asmens galūnė „-s”, nes tikšią galūnę turinčiuose žodžiuose gali keistis kamieno balsės. Gramatikos taisyklėskamba taip: veiksmažodžiai, kurie esamojo laiko ir vienskiemeniuose bendratieskamienuose turi „y” arba „ū”, o būtojo kartinio laiko kamiene atitinkamai „i” arba„u”, būsimojo laiko trečias asmuo kamiene taip pat turi „i” arba „u”. Kadangisprendžiant automatinio kirčiavimo uždavinį reikia ne sudaryti būsimojo laiko formą,o ją atpažinti, tai reikalingas toks algoritmas: Jei atskyrus galūnę „-s” lieka kamienas,kuris baigiasi „i” arba „u”, papildyti paieškai naudojamų kamienų sąrašą dar vienu,kuriame „i” pakeista į „y”, o „u” į „ū”, bei įsiminti, kad šiam kamienui pritaikytabalsių kitimo kamiene taisyklė. Vėliau, ieškant kamieno duomenų bazėje, jeikamienui buvo taikyta balsių kitimo taisyklė, turi sutapti ne tik kamienų tekstinispavidalas, bet ir bendraties kamienas turi būti vienskiemenis, esamojo laiko kamienasturi baigtis „y” arba „ū”, o būtojo kartinio laiko kamienas atitinkamai „i” arba „u”.

Ar negalima, atskyrus galūnę „s”, iš karto patikrinti, ar lieka vienskiemeniskamienas? Negalima, nes gali likti kamienas su priešdėlių grupe, pvz., „neprilyti –neprilis”.

Page 43: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

43

5.5. Priešdėliai

Lietuvių kalboje yra 14 veiksmažodžių sudarymui skirtų priešdėlių: „ap”, „api”,„at”, „ati”, „į”, „iš”, „nu”, „pa”, „par”, „pra”, „pri”, „su”, „už”, „per”. Be to kartu supriešdėliais gali būti vartojami afiksai „ne”, „nebe”, „tebe”, „be”, sangrąžos formantas„si” ir liepiamosios nuosakos afiksas „te”. Ten, kur nebūtina skirti afiksus nuopriešdėlių, juos taip pat vadinsime priešdėliais. Priešdėliai gali sudaryti priešdėliųgrupes: pirmiausia eina afiksai „te”, „tebe” arba „be”, toliau „ne” arba „nebe”, toliaupriešdėlis, ir pagaliau sangrąžos formantas, pvz., „teneapsi”. Visada kirčiuojamaspaskutinis priešdėlių grupės elementas, išskyrus priešdėlių grupes, į kurias įeinavisada kirčiuojamas priešdėlis „per”.

Priešdėlių grupę gali sudaryti ir vienas priešdėlis, išskyrus sangrąžos formantą„si”.

Analogiškai, kaip ir su galūnėmis, negalima iš karto vienareikšmiškai atskirtipriešdėlių grupę nuo kamieno. Pvz., „neper-skaito” - „ne-perinti”, „prisi-rinko” – „pri-sirpo”. Taigi ir šiuo atveju reikia sudaryti visų galimų priešdėlio ir kamieno atskyrimohipotezių sąrašą.

Ką pirmiau atskirti, priešdėlį ar galūnę? Reikia pasakyti, kad veiksmažodisnegali vienu metu turėti sangrąžos formanto „s” galūnėje ir sangrąžos formanto „si”priešdėlių grupėje. Jei veiksmažodis turi priešdėlį, tai sangrąžos formantas gali būtitik priešdėlyje. Taigi: jei pirma atskiriam priešdėlį, tai galim nustatyti, ar jame yrasangrąžos formantas ir jei taip, tai galūnės ieškoti tik tarp galūnių, kurios neturisangrąžos formanto. Jei pirma atskiriam galūnę, tai galim nustatyti, ar joje yrasangrąžos formantas, ir jei taip, tai iš viso žodis negali turėti priešdėlio. Antrasismetodas atrodo priimtinesnis.

Kaip nustatyti, ar galūnėje yra sangrąžos formantas? Kartais pačioje galūnėjerasti sangrąžos formantą neįmanoma. Pvz., galūnė „-antis” gali būti ir nesangrąžinioesamojo laiko vyriškos giminės veikiamojo dalyvio „kerpantis” (ką veikiantis) galūnė,ir sangrąžinio esamojo laiko padalyvio „kerpantis” (ką veikiant) galūnė. Todėlpaprasčiausia yra kartu su galūne saugoti dar vieną atributą, nurodantį, ar galūnėje yrasangrąžos formantas.

Iš priešdėlių ir afiksų buvo sudarytos 252 priešdėlių grupes. Kadangi tai nėralabai daug, tai galima kompiuterio atmintyje saugoti jau suformuotas priešdėliųgrupes kartu su kirčio vieta ir kirčio tipu. Tokiu atveju labai supaprastėja priešdėlyjekirčiuojamo žodžio kirčiavimas, nes galima iš karto saugoti kirčiuotos raidės vietą.Atmintyje saugant tik atskirus priešdėlius, atskiriant priešdėlių grupę reikiavadovautis šio skyrelio pradžioje aprašyta priešdėlių grupės sudarymo tvarka. Be to,sudėtingiau nustatyti ir kirčio vietą priešdėlių grupėje.

Panašiai, kaip ir daiktavardžių ir būdvardžių atveju, žodžių dalis patogu saugotiatskirose duomenų bazėse.

Priešdėlių DB ERD pateikta 2.3 pav.

2.3 pav. Veiksmažodžių priešdėlių duomenų bazės esybių ryšių diagrama.

Page 44: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

44

Priešdėlių grupė turi požymį Visada kirčiuota, jei į ją įeina priešdėlis „per”.

5.6. Galūnės

Atsižvelgiant į tai, kas pasakyta anksčiau, galūnių kirčiavimui reikalingainformacija pateikta 2.4 pav.

Galūnės atributas Priešdėlio „te” požymis leidžia atrinkti tas gramatinesformas, kurios gali turėti šį priešdėlį.

Galūnės atributai Kirčio vieta ir Kirčio tipas yra neprivalomi, nes kai kuriosgalūnės niekada nekirčiuojamos.

2.4 pav. Veiksmažodžių galūnių duomenų bazės esybių ryšių diagrama.

Buvo sukurta 1065 veiksmažodžių galūnių duomenų bazė. Įtraukiant trumpąsiasgalūnes vadovautasi tais pačiais kriterijais, kaip ir daiktavardžių ir būdvardžių atveju.Galūnių sąrašas papildytas galūnėmis, prasidedančiomis „š” (žr. „Balsių kitimokamiengaliuose taisyklės”). Galūnių skaičius sumažintas atmetant sutampančiasgalūnes, kurių atributai sutampa arba kurių atributus galima apjungti.

5.7. Kamienai

Kamienų DB ERD pateikta 2.5 pav.

2.5 pav. Veiksmažodžių kamienų duomenų bazės esybių ryšių diagrama.

Atributas Kamieno tipas nusako, ar tai esamojo laiko, ar būtojo kartinio laiko, arbendraties kamienas.

Galūnės atributas Asmenuotė yra dvejetainis šablonas, kuriame vienetai yra tosepozicijose, prie kurių asmenuočių kamienų gali būti pridėta ši galūnė, oVeiksmažodžio atributas Asmenuotė gali turėti vienetą tik vienoje pozicijoje.

Page 45: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

45

Atributai Esamojo laiko kamienas daugiaskiemenis ir Bendraties kamienasdaugiaskiemenis yra išskaičiuojami, todėl jų saugoti nebūtina.

Tradiciškai, norint nurodyti kirčio vietą žodyje, nurodomas kirčiuoto skiemensnumeris nuo pabaigos. Šios tradicijos prisilaikysiu nurodant kirčio vietą kamienuose.Tačiau nurodant kirčio vietą galūnėse ir priešdėliuose patogiau nurodyti kirčiuotosraidės vietą. Tai taikoma ir daiktavardžiams bei būdvardžiams.

5.8. Bendras veiksmažodžių kirčiavimo algoritmas

1. Iš galūnių sąrašo atrinkti visas galūnes, kurių tekstinis pavidalas sutampa sunagrinėjamo žodžio pabaiga, ir atskirti jas nuo kamieno (su priešdėliu). Jei likęskamienas baigiasi balse, ir galūnė prasideda balse, tai tokia galūnė netinka. Jeiatmetus galūnę nelieka kamieno, tokia galūnė taip pat netinka, pvz., žodis „antis”sutampa su galūne „-antis”. Sudaryti sąrašą: „kamienas (su priešdėliu) – galūnėsidentifikatorius”.

2. Sąrašą „kamienas - galūnės identifikatorius” papildyti įrašais, gautaiskamienams pritaikius raidžių kitimo kamiengaliuose taisykles: „dž” ir „č” priešminkštą galūnę; „s”, „š”, „z”, „ž” prieš raide „s” prasidedančias galūnes; „k” ir „g”prieš raide „k” prasidedančias galūnes; „ū” ir „y” prieš būsimojo laiko 3 asmensgalūnę „-s” (smulkiau žr. skyrelyje „Raidžių kitimo kamiengaliuose taisyklės”).

3. Jei galūnėje nėra sangrąžos formanto, rasti visas priešdėlių grupes, kuriųtekstinis pavidalas sutampa su nagrinėjamo žodžio pradžia, ir atskirti jas nuokamieno. Jei priešdėlyje yra afiksas „te” (bet ne „tebe”), o galūnė neturi atributo,leidžiančio priešdėlių grupėje jį turėti, tai toks priešdėlis netinka. Jei atmetus priešdėlįnelieka kamieno, toks priešdėlis taip pat netinka, pvz., žodis „peri”. Sudaryti sąrašą:„priešdėlių grupės identifikatorius – kamienas – galūnės identifikatorius”. Šiamesąraše kiekvienam kamienui turėti ir po vieną įrašą visai be priešdėlio.

4. Kiekvienam 3 punkte sudaryto sąrašo įrašui kamienų sąraše randami visisutampantys kamienai. Paieška atliekama priklausomai nuo kamieno tipo, kurį nusakonagrinėjamo žodžio galūnė. Be to, surasto kamieno asmenuotė turi tenkinti galūnėsasmenuotės šabloną, o taip pat raidžių kitimo būsimojo laiko 3 asmens kamienetaisykles. Sudaryti sąrašą: „priešdėlių grupės identifikatorius – kamienoidentifikatorius – galūnės identifikatorius”.

5. Visiems 4 punkte sudaryto sąrašo įrašams kartoti 6 – 8 punktus ir taipsudaryti kirčiuotų žodžių sąrašą.

6. Jei yra priešdėlių grupė ir ji visada kirčiuota, suformuoti atributą „Kirčiovieta – priešdėlis”. Pereiti į 8 punktą.

7. Paimti galūnės atributą Kirčiavimo taisyklė ir pagal ją rasti kirčio vietą. Kaikurios taisyklės dar suformuoja ir atributą Kirčio tipas.

8. Jei Kirčio vieta yra priešdėlis, kirčiuoti žodį pagal priešdėlių grupės atributusKirčiuota raidė ir Kirčio tipas. Jei Kirčio vieta yra kamienas, kirčiuoti žodį pagalkamieno atributą Kirčiuotas skiemuo ir 7 punkte suformuotą kirčio tipą, o jei jisnebuvo suformuotas, pagal kamieno atributą Kirčio tipas. Jei Kirčio vieta yra galūnė,kirčiuoti žodį pagal galūnės atributus Kirčiuota raidė ir Kirčio tipas.

9. Gautame bendrame kirčiuotų daiktavardžių, būdvardžių ir veiksmažodžiųsąraše patikrinti, ar visi žodžiai vienodai kirčiuojami, jei ne, pritaikyti taisyklesvienam kirčiavimo variantui atrinkti.

Page 46: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

46

6. Nekaitomų žodžių kirčiavimas

Šioje duomenų bazėje turėtų būti saugomi nekaitomi žodžiai, o taip pat kaitomųžodžių išimtys, t.y. gramatinės formos, kurios netenkina bendrų taisyklių.

Nekaitomais žodžiais gali būti:1) daiktavardžiai, pvz., „fojė~”, „taksi`”;2) skaitvardžiai, pvz., „de~šimt”, „dvi`dešimt”, „pusan~tro”;3) prieveiksniai, pvz., „dau~g”, „namo~”, „ryto´j”, „ty´čia”;4) visos dalelytės, pvz., „ti`k”, „beve´ik”, „da´r”, „jau~”, „neben~t”,

„nejau~gi”;5) visi prielinksniai, pvz., „tie~s”, „vir~š”, „lin~k”;6) visi jungtukai, pvz., „tačiau~”, „arba`”, „je´igu”;7) visi jaustukai, pvz., „a~čiū”, „dė~kui”, „sudie~”, „laba~nakt”;8) visi ištiktukai, pvz., „žvi`lgt”, „tri`nkt”.Kaitomų žodžių išimtys:1) kai kurių daiktavardžių kai kurie linksniai, pvz., žodžio „petys” vk „peties”

ir vį „petimi” (palyginkite, „žaltys” – vk „žalčio”, vį „žalčiu”), žodžiai „viešpats” ir„mėnuo” kituose linksniuose turi atitinkamai 11 (pvz., „žvėris”) ir 4 (pvz., „brolis”)kamienų tipų galūnes, skiriasi tik vienaskaitos vardininkas;

2) veiksmažodžio „bū´ti” formos „esu`”, „esi`”, „e~sa”, „yra`”, „e~same”,„e~sate”, „e`sti”;

3) veiksmažodžiai „turi” ir „gali” su visais priešdėliais kirtį atitraukia įpriešdėlį, išskyrus „ne”, „nebe”, „be”, pvz., „i`šgali” ir „nega~li” [Vaitkevičiūtė1997].

Analogiškai, kaip daiktavardžiai, būdvardžiai ir veiksmažodžiai, sukirčiuotinekaitomi žodžiai rašomi į tą patį sukirčiuotų žodžių sąrašą, ir tik po to iš šio sąrašoišrenkamas vienas kirčiavimo variantas arba žodis paliekamas nekirčiuotas. Įnekaitomų žodžių duomenų bazę įrašyti žodžiai gali sutapti su kito žodžio kokia norsgramatine forma, pvz., įvardis „me~s” su veiksmažodžio būsimuoju laiku „me`s”,veiksmažodžio išimtis „yra`” su kito veiksmažodžio ta pačia gramatine forma „y~ra”.Šiuo atveju jokių naujų problemų neiškyla, paprasčiausiai kirčiuotų žodžių sąrašegaunami keli įrašai. Problemos atsiranda tada, kai žodis skiriasi iš bendros taisyklėstik kirčio vieta, pvz., žodis „negali” pagal veiksmažodžių kirčiavimo taisykleskirčiuojamas „ne`gali”, tačiau tai yra klaida, nes turėtų būti kirčiuojama „nega~li”,todėl šią formą reikėtų įrašyti į nekaitomų žodžių žodyną kaip išimtį. Tačiau kaipsukirčiuotų žodžių sąraše turint šiuos du žodžius atrinkti, kad vienas iš jų sukirčiuotasklaidingai. Paprasčiausias būdas – prie tokių išimčių saugoti dar vieną atributą –prioriteto požymį.

ERD terminais nekaitomų žodžių duomenų bazė struktūra pavaizduota 2.6 pav.:

2.6 pav. Nekaitomų žodžių ERD.

Page 47: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

47

7. Eksperimentų rezultatai

Buvo sudarytos 8765 veiksmažodžių kamienų, 53277 daiktavardžių irbūdvardžių kamienų ir 2306 nekaitomų žodžių duomenų bazės. Dauguma žodžiųpaimta iš [Keinys ir kt. 1993] ir [Kvietkauskas ir kt. 1985]. Kirčiavimo patikimumuinustatyti buvo atlikti testai su grožinės literatūros ir publicistikos tekstais. Jei žodįgalima kirčiuoti keliais būdais, jokie vieno varianto atrinkimo algoritmai nebuvotaikomi, o žodis buvo paliekamas nekirčiuotas. Rezultatai pateikti 2.3 lentelėje.

2.3 lentelė. Eksperimentų rezultatai.

Kirčiuotateisingai

Kirčiuotaklaidingai

Nekirčiuota,nes nerastažodyne

Nekirčiuota,nes daugkirčiavimovariantų

Iš viso

Žodžių sk. 341 0 15 57 413Publicistika% 82,57 % 0 % 3,63 % 13,80 % 100 %Žodžių sk. 406 1 6 85 498Grožinė

literatūra % 81,53 % 0,20 % 1,20 % 17,07 % 100 %

Žodyne nerasta vardų, pavardžių, vietovardžių, daiktavardžių su mažybinėmispriesagomis ir būdvardžių su priešdėliais.

8. II skyriaus išvados

Automatiniam lietuvių kalbos teksto kirčiavimui netinka saugoti ištisus žodžius,o geriau saugoti žodžių dalis.

Žodžių kirčiavimo algoritmas, kuris naudojamas sintezėje, turi tenkinti kaikuriuos papildomus reikalavimus, iš kurių svarbiausi: 1) kuo mažiau klaidingaikirčiuojamų žodžių; 2) galimybė lengvai įjungti papildomą kontekstinę informaciją.

Atskiro žodžio kirčiavimą patogu išskaidyti į du etapus: 1) atpažinti visasgramatines formas ir jas sukirčiuoti; 2) išrinkti vieną kirčiavimo variantą.

Lietuvių kalbos žodžius pagal kaitymo būdą galima skirstyti į tokias tris grupes:1) daiktavardžius ir būdvardžius; 2) veiksmažodžius; 3) nekaitomuosius. Tuometkiekvienai grupei galima sukurti atskirą kirčiavimo algoritmą.

Daiktavardžių, būdvardžių ir veiksmažodžių kirčiavimą galima išskaidyti į duetapus: 1) rasti, kurioje žodžio dalyje yra kirtis; 2) rasti kirčio vietą žodžio dalyje. Taileidžia atskirose duomenų bazėse saugoti daiktavardžių ir būdvardžių kamienus beigalūnes, o taip pat veiksmažodžių priešdėlius, kamienus ir galūnes. Nekaitomi žodžiaitaip pat gali būti saugomi atskirai.

Tradiciškai lietuvių kalbos gramatikose naudojamos linksniuotės arlinksniavimo paradigmos sąvokos leidžia skirstyti daiktavardžius ir būdvardžius tik įlabai stambias grupes, todėl kuriant automatinio kirčiavimo algoritmą įvesta naujasmulkesnė kamieno tipo sąvoka.

Vien tik kirčiuotės nepakanka vienareikšmiškai nusakyti kirčio vietai žodyje,tam reikalingas dar ir kamieno tipas, todėl apibrėžta nauja sąvoka – kirčių rinkinys,apibrėžiantis kirčio vietą žodyje ir nusakomas kirčiuotės kartu su kamieno tipu.

Kai kurie prieveiksmiai, įvardžiai bei skaitvardžiai taip pat gali būti kirčiuojamipagal daiktavardžių ir būdvardžių kirčiavimo algoritmą.

Page 48: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

48

Kuriant veiksmažodžių kirčiavimo algoritmą, esamojo ir būtojo kartinio laikoveiksmažodžių asmenuotes patogiau nagrinėti ne atskirai, o kartu.

Visas veiksmažodžių gramatines formas patogu sugrupuoti tik pagal kirčiavimotaisykles, nekreipiant dėmesio į tradiciškai gramatikose pateikiamą grupavimą pagallaikus, nuosakas ir pan. Tai leidžia naudoti labai mažą kirčiavimo taisyklių skaičių (9taisykles).

Realizavus šiame skyriuje aprašytus kirčiavimo algoritmus kompiuterinėmisprogramomis ir sukūrus daiktavardžių, būdvardžių ir veiksmažodžių kamienų beinekaitomų žodžių duomenų bazes, buvo patikrintas publicistikos ir grožinėsliteratūros tekstų kirčiavimo tikslumas naudojant minėtus algoritmus. Gauti tokierezultatai: apie 82% žodžių sukirčiuota teisingai, apie 15,5% nebuvo galimavienareikšmiškai sukirčiuoti nagrinėjant atskirus žodžius, apie 2,4% nekirčiuota, nesnerasta žodyne, kirčiuota klaidingai apie 0,1%. Tai gana aukštas kirčiavimo tikslumas.Be to, tenkinami reikalavimai minimizuoti klaidingai kirčiuojamų žodžių skaičių irsudaryti galimybę įtraukti papildomą kontekstinę informaciją.

Šiame skyriuje aprašytus algoritmus galima pagerinti tokiais būdais:1) Ištirti lietuvių kalbos žodžių, visų pirma daiktavardžių bei būdvardžių,

darybą naudojanti priešdėlius ir priesagas. Tai leistų sumažinti kamienų bazės apimtį,nereikėtų numatyti visų žodžių, kuriuos galima sudaryti su tam tikra priesaga arpriešdėliu.

2) Ištirti vieno kirčiavimo varianto atrinkimo algoritmus.3) Papildyti kamienų bazę vardais, pavardėmis, vietovardžiais.

Page 49: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

49

III. Lietuvių kalbos daiktavardžių ir būdvardžių automatiniskirčiavimas naudojantis taisyklėmis

1. Įvadas

II skyriuje buvo pateiktas algoritmas, įgalinantis naudojant kamienų žodynuskirčiuoti lietuvių kalbos tekstą. Pats didžiausias iš naudotų žodynų buvo daiktavardžiųir būdvardžių kamienų žodynas, turintis virš 53000. Šiame skyriuje bus nagrinėjamišio žodyno sumažinimo būdai bei nežinomų žodžių kirčiavimas naudojant pagalžodyną sugeneruotas taisykles.

Reikia pasakyti, kad kai kurie vienodas kamieno pabaigas (priesagas) turintysžodžiai kirčiuojami vienodai, pvz., pirmąja kirčiuote kirčiuojami „filolo`gas”,„geolo`gas”, „psicholo`gas” ir t.t., antrąja kirčiuote kirčiuojami „brole~lis”,„name~lis”, „vaike~lis” ir t.t. Iš pateiktų pavyzdžių galėtume sudaryti tokias taisykles:žodžius, tenkinančius šabloną „*logas”, kirčiuoti pirmąja kirčiuote, o tenkinančius„*elis” – antrąja, kur simbolis ‘*’ žymi bet kokią raidžių grandinėlę.

Kyla mintis, kad galima sudaryti taisykles, apibendrinančias visos žodžių grupėskirčiavimą ir tokiu būdu leidžiančias patobulinti II skyriuje minėtą algoritmą tokiaisaspektais:

1) sumažinti žodyno apimtį;2) kirčiuoti žodžius su mažybinėmis ar kitomis priesagomis. II skyriuje

aprašytame žodyne yra tik tie žodžiai su priesagomis, kuriems pridėjus priesagąkeičiasi prasmė. Norint kirčiuoti visus žodžius su priesagomis, juos taip pat reikėtųsurašyti į žodyną, dėl to žodyno apimtis dar labiau išaugtų. Žodžiai gali turėti keliaspriesagas (pvz., „sūn-ait-ėl-išk-as”), dėl to tampa iš viso neįmanoma žodyne turėtivisus galimus žodžio su priesagomis variantus;

3) nežinomus žodžius kirčiuoti naudojantis žodžių darybos taisyklėmis, pvz.,pavardė „Kaspara´itis” kirčiuojama visai taip pat, kaip žodis „našla´itis”, o„Dudė´nas” kaip „meškė´nas” (naudojant II skyriuje aprašytą metodą, pavardės ir kititikriniai daiktavardžiai iš viso nebuvo įtraukti į žodyną);

4) supaprastinti būdvardžių laipsnių kirčiavimo algoritmą. Anksčiaubūdvardžių aukštesniojo, aukštėlesniojo ir aukščiausiojo laipsnio priesagos buvotraktuojamos kaip galūnės dalis, dėl to algoritmas atrodė kiek gremėzdiškas ir sunkiaisuvokiamas;

5) kirčiuoti sangrąžinius daiktavardžius – veiksmo abstraktus, pvz.,„neši`masis”.

Šiame skyriuje toliau bus nagrinėjama, kokius reikalavimus turi tenkinti tokiostaisyklės, koks taisyklių pavidalas, kaip jas sudaryti, saugoti ir naudoti paieškoje.

2. Reikalavimai taisyklėms

Taisyklės turėtų tenkinti tokius reikalavimus:1) taisykles saugoti tame pačiame žodyne, kaip ir kamienus;2) vienodai kirčiuojamų kamienų grupes pakeitus taisyklėmis, žodyne turi likti

kuo mažiau įrašų (kamienų ir taisyklių);3) taisyklių naudojimas neturi įnešti papildomų klaidų ar daugiareikšmiškumo į

kirčiavimo rezultatus, lyginant su pilnų kamienų naudojimu. Pvz., jei daiktavardžiams„siuvė´ja”, „mezgė´ja”, „šlavė´ja” ir t.t. kirčiuoti sukurtume taisyklę „*ė´ja”, tai pagal

Page 50: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

50

šią taisyklę būtų sukirčiuotas klaidingai sukirčiuotas ir veiksmažodis „eižė´ja”(teisingas šio veiksmažodžio kirčiavimas yra „e´ižėja”);

4) taisyklės turi leisti kirčiuoti su priesagomis sudaromas, tačiau į žodynąpaprastai nerašomas gramatines formas: daiktavardžius su mažybinėmis priesagomis(pvz., „name~lis”), būdvardžių laipsnius (pvz., „gere`snis”, „gerėle`snis”,„geria´usias”);

5) taisyklės turi leisti kirčiuoti sudėtingesnės darybos žodžius, pvz., sudaromussu keliomis priesagomis („nameliu`kas”, „namukė~lis”).

3. Taisyklių pavidalas ir apribojimai

Šiame skyriuje bus naudojamos taisyklės, kurių pavidalas labai panašus į IIskyriuje aprašytame žodyne kiekvienam kamienui saugomus įrašus. Kiekvienąkamieną žodyne atitinka toks įrašas: kamienas, kamieno tipas, kirčiuotė, kirčio vieta,priegaidė. Taisyklėms vietoje kamieno bus saugomas elementas, sudarytas iš raidžiųgrandinėlės šablono ir kamieno pabaigos. Įrašą, kuriame nurodytas visas kamienas,galima traktuoti kaip taisyklės įrašą, kuriame kamieno pabaigą atitinka visaskamienas, o raidžių grandinėlė yra tuščia. Taigi taisyklių įrašai ir kamienų įrašai turivienodą pavidalą, todėl juos galima saugoti viename žodyne.

Pastaba. Kad taisyklės būtų suprantamesnės, toliau naudosime kieksupaprastintą taisyklių ir kamienų įrašų žymėjimą: visa taisyklė bus rašoma kabutėse,raidžių grandinėlę žymėsime žvaigždute ‘*’, prieš kurią gali būti nurodyti jai taikomiapribojimai. Toliau mažosiomis raidėmis rašoma kamieno pabaiga. Vietoje kamienotipo numerio rašomas brūkšnelis ir didžiosiomis raidėmis nurodoma vienaskaitosvardininko galūnė (jei tai nesukelia nevienareikšmiškumo). Priminsime, kad kamienotipas nusako galūnių, kurios gali būti pridedamos prie kamieno, rinkinį, pvz., žodžio„namas” kamieno tipas yra „-AS”={„-as”, „-o”, „-ui”, „-ą”, „-u”, „-e”, „-e”, „-ai”,„-ų”, „-ams”, „-us”, „-ais”, „-uose”}. Toliau, atskiriant pabraukimu, bus rašomaskirčiuotės numeris (kamienų tipai ir kirčiuotės buvo aprašyti II skyriuje). Kirčio vietair priegaidė bus nurodoma uždedant kirčio ženklą kamiene (ar kamieno pabaigoje).Kai kuriuose pavyzdžiuose kirčio ženklas bus dedamas raidžių grandinėlėje. Tokiaisatvejais kiekviena praleista raidžių grandinėlės pabaigos raidė bus žymima klaustuku.Taigi anksčiau minėtos taisyklės bus rašomos taip:

„*lo`g-AS_1”;„*e~l-IS_2”.Raidžių grandinėlėms gali būti taikomi įvairūs apribojimai. Pvz., anksčiau

pateiktoje pirmoje taisyklėje raidžių grandinėlė privalo turėti bent du skiemenis, oantrojoje – būti vyriškos giminės daiktavardžio kamienu, t.y. daiktavardžių irbūdvardžių kamienų žodyne turi egzistuoti žodžio kamienas su atitinkamu kamienotipu (arba taisyklių rinkinyje turi egzistuoti vyriškos giminės daiktavardį atitinkantitaisyklė, jei daiktavardžių ir būdvardžių kamienų žodynas pakeistas taisykliųrinkiniu). Tokie apribojimai apsaugo, kad taisyklės nebūtų taikomos žodžiams,kuriems jos neturi būti taikomos, pvz., pirmoji taisyklė būdvardžiui „blo~gas”, oantroji – daiktavardžiui „vie~škelis”. Taigi bus naudojamos kelių rūšių raidžiųgrandinėlės, priklausomai nuo apribojimų.

Žodžiai, kurie apibendrinami viena taisykle, privalo turėti tą patį kamieno tipą,kirčiuotę, kirčio vietą, priegaidę, be to turi sutapti tam tikras skaičius kamienopabaigos raidžių, gali skirtis tik likusi kamieno dalis (raidžių grandinėlė).

Sudaromose taisyklėse kirtis gali būti:1) kamieno pabaigoje, pvz., „*e~l-IS_2”;

Page 51: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

51

2) raidžių grandinėlėje, pvz., žodžiui „že~miškas” taisyklė „*išk-AS_1”.Antruoju atveju pačioje taisyklėje kirčio vieta nenurodoma, o raidžių grandinėlė

privalo tenkinti papildomą apribojimą, t.y. nurodyti kirčio vietą ir priegaidę. Negalimanaudoti taisyklių, kuriose kirčio vieta būtų nurodyta už kamieno pabaigos ribų. Pvz.,jei žodžiui „že~miškas” naudotume taisyklę „*~?išk-AS_1”, tai tokia taisyklė būtųneteisingai pritaikyta ir žodžiui „ka´imiškas”.

Vienos taisyklės kamieno pabaiga gali būti kitos taisyklės kamieno pabaigospoaibis ir tokios taisyklės gali nurodyti skirtingą kirčiavimo būdą. Pvz., galimostokios taisyklės „*a~lin-IS_1” („genera~linis”) ir „*i`n-IS_2” („nami`nis”).Taisyklėms patogu priskirti prioritetus ir taikyti tik didesnį prioritetą turinčią taisyklę.Ilgesnei taisyklei paprastai suteikiamas didesnis prioritetas. Jei tinka dvi vienodo ilgiotaisyklės, tai naudojamos abi, pvz., „py´lim-AS_1” ir „pyli`m-AS_2”.

Vienos taisyklės raidžių grandinėlė kartu su kamieno pabaiga gali būtinaudojama kaip kitos taisyklės raidžių grandinėlė. Tokiu būdu gaunama rekurentinėtaisyklių seka, leidžianti sumodeliuoti žodžius su keliomis priesagomis. Pvz., turinttaisykles „D*e~l-IS_2” ir „D*iu`k-AS_2”, kur ‘D*’ žymi daiktavardžio kamieną,galima sukirčiuoti žodį „nam-el-iu`k-as”. Ne visos taisyklės gali būti naudojamosrekurentinėms sekoms sudaryti. Šiam tikslui nenaudojamos, pavyzdžiui, būdvardžiųaukštesnįjį ir aukščiausiąjį laipsnį realizuojančios taisyklės „B*e`sn-IS_4” ir„B*ia´us-IAS_1”, kur ‘B*’ – būdvardžio kamienas, nes lietuvių kalboje nenaudojamitokie žodžiai, kaip pavyzdžiui, „ger-esn-iaus-ias” arba „ger-iaus-esn-is”. Tokiostaisyklės gali būti naudojamos tik dešiniausiame rekurentinės taisyklių sekos gale. Jeiturime taisyklę „*im-AS_3”, galėtume kirčiuoti žodžius „art-im-e`sn-is” ir „art-im-ia´us-ias”.

Kai kurių taisyklių kamienų pabaigos gali prasidėti „i” raide, atliekančiaminkštumo ženklo funkciją. Tokiu atveju prieš kamieno pabaigą gali pasikeisti raidės,t.y. raidė „t” pavirsti į „č”, o „d” į „dž” (analogiškai, kaip ir prieš galūnes,prasidedančias minkštumo ženklo funkciją atliekančia raide „i”). Jei taisyklės raidžiųgrandinėlė turi būti žodžio kamienas ar panašiai, prieš atliekant kamieno paieškąreikia atsižvelgti į galimą raidžių pasikeitimą.

4. Taisyklių suderinamumo apibrėžimas

Jei sudarydami taisykles tiesiog jungtume žodžius į grupes, tačiau nekreiptumedėmesio į jau sukurtas taisykles, tai gali atsitikti taip, kad vienareikšmį kirčiavimąturinčiam žodžiui tiktų kelios taisyklės, nusakančios skirtingas kirčio vietas arpriegaides. Kad taip neatsitiktų, reikia kurti tik suderinamas taisykles.

Apibrėžimas. Nesuderinamomis taisyklėmis vadinsime tokias taisykles, kuriosturi sutampančias kamieno pabaigas, raidžių grandinėlių apribojimai leidžia turėti taspačias raidžių grandinėles, galūnių rinkiniai, kuriuos nusako kamienų tipai, turibendrų galūnių ir šias galūnes atitinkančiuose linksniuose skiriasi kirčio vieta arpriegaidė.

Nesuderinamų taisyklių pavyzdžiai:1) Sutampa kamienų tipai, kirčio vietos ir priegaidės, bet skiriasi kirčiuotės:

„*an-A_1” („lie~kana”) ir „*an-A_3” („dovana`”);2) Sutampa kamienų tipai ir kirčiuotės, bet skiriasi kirčio vieta ar priegaidė:

„*o~n-AS_2” („baro~nas”) ir „*o`n-AS_2” („vago`nas”);

Page 52: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

52

3) Skiriasi kamienų tipai, bet sutampa daugiskaitos kilmininko galūnės ir joskirčiuojamos skirtingai: „*at-IS_3” („gaišati`s – gaišačių~”) ir „*a~t-Ė_2”(„kandida~tė – kandida~čių”);

4) Skiriasi kamienų tipai, tačiau vieno kamieno tipo vienaskaitos vardininkogalūnė sutampa su kito daugiskaitos galininko galūne ir šie linksniai kirčiuojamiskirtingai: „*e`n-AS_2” („šate`nas”) ir „*e`n-A_2” („sirena` – sirena`s”).

Paskutinis pavyzdys geriausiai iliustruoja, kaip sunku kartais atpažintinesuderinamas taisykles.

Apibrėžimas. Suderinamomis taisyklėmis vadinsime tokias taisykles, kuriosarba turi nesutampančias kamieno pabaigas, arba raidžių grandinėlių apribojimaileidžia turėti tik skirtingas raidžių grandinėles, arba galūnių rinkiniai, kuriuos nusakokamienų tipai, neturi bendrų galūnių, o jei turi, tai šias galūnes atitinkančiuoselinksniuose sutampa kirčio vieta ir priegaidė.

Suderinamų taisyklių pavyzdžiai:1) Skiriasi kamienų pabaigos: „*o´n-AS_1” („lavo´nas”) ir „*ū~n-AS_2”

(„malū~nas”);2) Raidžių grandinėlėms taikomi apribojimai leidžia jas atskirti: „D1*inink-

AS_1” („mo´kslininkas”) ir „D3*inin~k-AS_2” („darbinin~kas”). Čia ‘D1*’ žymipirmos arba antros kirčiuotės daiktavardžio kamieną, o ‘D3*’ – trečios arba ketvirtos;

3) Kamienų tipai nusako galūnių rinkinius, kurie neturi bendrų galūnių: „*i´en-A_1” („avi´ena”) ir „*ie~n-Ė_2” („uogie~nė”);

4) Sutampančias galūnes turintys linksniai kirčiuojami vienodai: „*ai~n-IS_2”(„riestai~nis - riestai~nių”) ir „*ai~n-Ė_2” („mišrai~nė - mišrai~nių”);

Tarkime, kad kokiu nors būdu sukūrėme taisyklių rinkinį (pvz., sugeneravometaisykles automatiškai), kuriame yra nesuderinamų taisyklių. Kaip galimanesuderinamas taisykles padaryti suderinamomis:

1) Praplėsti vienos iš taisyklių kamieno pabaigą (pavyzdžius su žodžiais „nam-i`n-is” ir „gener-a~lin-is” žr. anksčiau);

2) Parinkti taisyklių raidžių grandinėlėms tinkamus apribojimus (pavyzdžius sužodžiais „mo´ksl-inink-as” ir „darb-inin~k-as” žr. anksčiau).

Ką daryti, jei nesuderinamų taisyklių negalima padaryti suderinamomis? Paliktitik vieną taisyklę, o vietoje kitos į žodyną surašyti visų žodžių, kuriuos ši taisyklėapibendrina, kamienus. Paprastai paliekama ta taisyklė, kuri apibendrina daugiaužodžių.

5. Taisyklių suderinamumo tyrimas

Gana dažnai raidžių eilutėms sunku suformuluoti griežtus apribojimus,leidžiančius turėti tik skirtingas eilutes, ir tokiu būdu padaryti taisyklessuderinamomis, todėl verta atskirai panagrinėti taisyklių suderinamumą nekreipiantdėmesio į apribojimus.

Tarkime, kad nagrinėjame taisyklių poras, turinčias sutampančias kamienųpabaigas ir vienodus raidžių grandinėlių apribojimus. Išsiaiškinkime, kokios kamienotipo ir kirčiuotės kombinacijos duoda poromis suderinamas taisykles, ir ar taisykliųsuderinamumui būtina, kad taisyklėse sutaptų kirčio vieta ir priegaidė.

Taisyklių tikrinimui buvo naudojamas toks algoritmas:1) Imama pirmos taisyklės galūnių rinkinio, kurį nusako kamieno tipas, pirma

galūnė ir nustatoma, ar visi šią galūnę turintys linksniai kirčiuojami vienodai. Pvz.,

Page 53: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

53

skirtingai kirčiuojami galūnę „-e” turintys žodžio „namas” vienaskaitos vietininkolinksnis „name`” ir vienaskaitos šauksmininko linksnis „na~me”.

2) Randami visi minėtą galūnę turintys antros taisyklės linksniai. Taisyklės busnesuderinamos, jei abiejose taisyklėse kirčiuojamas kamienas, tačiau skiriasi kirčiovieta ar priegaidė. Jei visi šią galūnę turintys pirmosios taisyklės linksniai kirčiuojamivienodai, taisyklės bus nesuderinamos dar ir tuo atveju, kai vienoje taisyklėjekirčiuojama galūnė, o kitoje kamienas.

3) Pirmas ir antras punktai kartojami visoms pirmosios taisyklės galūnėms.Taisyklės bus nesuderinamos, jei jos nesuderinamos bent vienai galūnei.

4) Visa aprašyta procedūra taikoma dar kartą sukeitus taisykles vietomis, nesviena taisyklė gali neįnešti daugiareikšmiškumo į kitą taisyklę, o kita gali įnešti. Pvz.,taisyklė „*-AS_4” („na~mas”) neįneša papildomo nevienareikšmiškumo į taisyklę„*-US_3” („sūnu`s”), nes bendrą galūnę turintys linksniai kirčiuojami taip: „namu`s”- „sūnu`s” „sū´nus”. Antroji taisyklė įneša nevienareikšmiškumą į pirmąją.

Šis algoritmas buvo realizuotas kompiuterinės programos pavidalu. Kadangigali sutapti tik 1 ir 3 kirčiuotės žodžių kirčio vietos ir priegaidės, o taip pat 2 ir 4kirčiuotės žodžių kirčio vietos ir priegaidės, tai buvo atskirai išnagrinėti 3 atvejai:

1) 1 ir 3 kirčiuotes realizuojančių taisyklių suderinamumas atskiriant atvejus,kai sutampa kirčio vieta ir priegaidė, ir kai skiriasi.

2) 2 ir 4 kirčiuotes realizuojančių taisyklių suderinamumas atskiriant atvejus,kai sutampa kirčio vieta ir priegaidė, ir kai skiriasi.

3) 1, 3 ir 2, 4 kirčiuotes realizuojančių taisyklių su skirtingomis kirčio vietomisar priegaidėmis suderinamumas.

Eksperimentų rezultatai pateikti atitinkamai 3.1 – 3.3 lentelėse.Kamieno tipui nusakyti pateiktas tipiškas duotąjį kamieno tipą turinčio žodžio

pavyzdys (pavyzdys nusako tik kamieno tipą, bet ne kirčiuotę). Tikslesnius kamienųtipų apibrėžimus žr. II skyrių.

Taisyklių sudarymui įdomios tik dažnai sutinkamos kamienų tipų ir kirčiuočiųkombinacijos, todėl lentelėse pateiktos tik tos, kurioms mūsų turimame žodyne (virš53000 žodžių) buvo surasta bent po 5 realizacijas.

Lentelėse 0 reiškia, kad taisyklės suderinamos nepriklausomai nuo kirčio vietosir priegaidės, 1 – taisyklės suderinamos, jei sutampa kirčio vieta ir priegaidė, 2 –taisyklės nesuderinamos.

Lentelėse pateikti rezultatai tik tiems kamienų tipams, kurių kamienai baigiasine raide „j”. Raidė „j” kamieno pabaigoje automatiškai padaro šią taisyklę suderinamąsu visomis taisyklėmis, kurių kamienai baigiasi kitomis raidėmis. Buvo atskiraiišnagrinėti visi kamienų tipai, kurių kamienai baigiasi raide „j”, ir gautos analogiškostrys lentelės, kurių čia nepateiksime, tačiau ateityje jomis naudosimės. Suderinamųtaisyklių jose yra mažiau.

Naudodamiesi šiomis lentelėmis galime lengvai nustatyti, ar dvi taisyklėssuderinamos, ar ne. Pavyzdžiui, iš 3.1 lentelės matome, kad nesuderinamos jauminėtos taisyklės „*an-A_1” („ple´iskana”) ir „*an-A_3” („dovana`”) (langelis „ranka1” - „ranka 3”), iš 3.2 lentelės matome, kad suderinamos „*ai~n-IS_2” („riestai~nis”)ir „*ai~n-Ė_2” („mišrai~nė”), nes turi vienodas kirčio vietas ir priegaides (langelis„bitė 2” - „brolis 2”), o iš 3.3 lentelės – kad suderinamos „*i´en-A_1” („avi´ena”) ir„*ie~n-Ė_2” („uogie~nė”) (langelis „ranka 1” - „bitė 2”).

Page 54: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

54

3.1 lentelė. 1 ir 3 kirčiuotės suderinamumas.

nam

as

brol

isar

klys

rank

a

vyšn

ia

bitė

kros

nis

žvėr

isso

džiu

s

gera

s

žalia

s

dide

lism

edin

isgr

ažus

Pavyzdys,nusakantiskamieno tipą

1 3 1 3 1 3 1 3 1 3 1 3 3 1 1 3 1 3 3 1 3 kirčiuotė1 2 0 0 1 2 0 0 1 1 1 2 2 0 1 2 0 0 1 1 2 12 1 0 0 2 2 0 0 2 2 2 0 0 0 2 2 0 0 2 2 2 3 namas

1 2 0 0 1 2 1 2 1 2 2 1 1 2 1 2 2 1 2 1 brolis1 0 0 2 2 2 0 2 2 2 2 0 0 2 2 2 2 2 3 arklys

1 2 0 0 0 0 1 2 2 0 1 2 1 1 0 0 1 12 1 0 0 0 0 2 0 0 0 2 2 2 2 0 0 2 3 ranka

1 2 1 2 1 2 2 1 0 0 1 2 2 1 2 12 1 2 0 2 1 0 2 0 0 2 2 2 2 2 3 vyšnia

1 2 1 2 2 1 0 0 1 2 2 1 2 12 1 2 0 0 2 0 0 2 0 2 2 0 3 bitė

1 2 2 1 1 2 1 2 2 1 2 12 1 1 2 2 0 2 2 2 2 2 3 krosnis

1 2 2 0 2 0 2 2 2 3 žvėris1 0 0 1 2 2 1 2 1 sodžius

1 2 1 2 2 1 2 12 1 2 2 0 2 2 3 geras

1 2 2 1 2 12 1 2 2 2 3 žalias

1 2 2 3 didelis1 2 1 medinis

1 3 gražus

3.2 lentelė. 2 ir 4 kirčiuotės suderinamumas.

nam

as

brol

isar

klys

rank

a

vyšn

ia

bitė

kros

nis

žvėr

is

sūnu

s

sodž

ius

gera

sža

lias

dide

lism

edin

isgr

ažus

Pavyzdys,nusakantiskamieno tipą.

2 4 2 4 2 4 2 4 2 4 4 4 2 4 2 4 4 4 2 4 kirčiuotė1 2 0 0 2 2 0 0 1 1 2 2 2 2 0 2 0 2 1 1 22 1 0 0 2 2 0 0 1 1 0 0 2 2 0 2 0 2 1 2 4 namas

1 2 0 0 1 2 1 2 2 2 0 0 2 2 2 2 1 2 2 brolis1 0 0 2 2 2 0 2 2 0 0 2 0 2 2 2 2 4 arklys

1 2 0 0 0 0 2 2 1 2 0 2 2 0 0 1 22 1 0 0 0 0 0 0 2 2 0 2 2 0 0 2 4 ranka

1 2 1 2 2 2 0 0 1 0 2 2 1 2 22 1 2 0 1 0 0 0 2 0 2 2 2 2 4 vyšnia

1 2 2 2 0 0 1 0 2 2 1 2 22 1 0 0 0 0 2 0 0 2 2 0 4 bitė

1 1 2 2 2 0 2 2 2 2 4 krosnis1 2 2 2 0 0 2 2 2 4 žvėris

1 2 0 2 0 0 0 2 22 1 0 2 0 0 0 2 4 sūnus

1 0 2 2 2 2 2 sodžius1 2 0 2 2 4 geras

1 2 2 2 4 žalias1 2 2 4 didelis

1 2 2 medinis1 4 gražus

Page 55: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

55

3.3 lentelė. 1, 3 ir 2, 4 kirčiuočių suderinamumas.na

mas

brol

isar

klys

rank

a

vyšn

ia

bitė

kros

nis

žvėr

isso

džiu

s

gera

s

žalia

s

dide

lism

edin

isgr

ažus

Pavyzdys,nusakantiskamieno tipą

1 3 1 3 1 3 1 3 1 3 1 3 3 1 1 3 1 3 3 1 3 kirčiuotė2 2 0 0 2 2 0 0 2 2 2 2 2 0 2 2 0 0 2 2 2 22 2 0 0 2 2 0 0 2 2 2 0 0 0 2 2 0 0 2 2 2 4 namas

0 0 2 2 0 0 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 brolis0 0 2 2 0 0 2 2 2 0 2 2 2 2 0 0 2 2 2 2 2 4 arklys2 2 0 0 2 2 0 0 0 0 2 2 2 0 2 2 2 2 0 0 2 22 2 0 0 2 2 0 0 0 0 2 0 0 0 2 2 2 2 0 0 2 4 ranka

0 0 2 2 0 0 2 2 2 2 2 2 2 2 0 0 2 2 2 2 2 20 0 2 2 0 0 2 2 2 0 2 2 0 2 0 0 2 2 2 2 2 4 vyšnia

2 2 2 2 0 0 2 2 2 2 2 2 2 2 0 0 2 2 2 2 2 22 2 2 0 0 0 2 0 2 2 2 0 0 2 0 0 2 0 2 2 0 4 bitė

2 0 2 2 2 0 2 2 2 0 2 2 2 2 2 0 2 2 2 2 2 4 krosnis2 0 2 2 2 0 2 0 2 0 2 2 2 2 2 0 2 0 2 2 2 4 žvėris2 2 0 0 2 2 0 0 0 0 2 2 2 0 2 2 0 0 0 0 2 22 2 0 0 2 2 0 0 0 0 2 2 2 0 2 2 0 0 0 0 2 4 sūnus

0 0 2 2 0 0 2 2 2 2 2 2 2 2 0 0 2 2 2 2 2 2 sodžius2 2 2 0 2 2 0 0 0 0 2 0 0 0 2 2 2 2 0 2 2 4 geras0 0 2 2 2 2 2 2 2 0 2 2 0 2 2 2 2 2 2 2 2 4 žalias2 2 2 2 0 0 2 2 2 2 2 2 2 2 2 0 2 2 2 2 2 4 didelis2 2 2 2 0 0 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 medinis2 2 2 2 2 2 2 2 2 0 2 2 2 2 2 2 2 2 2 2 2 4 gražus

6. Taisyklių rinkinių korektiškumas

Apibrėžimas. Korektišku taisyklių rinkiniu vadinsime tokį taisyklių rinkinį,kuris leidžia kirčiuoti daiktavardžius ir būdvardžius ne mažesniu tikslumu, neinaudojant kamienus. Priešingu atveju taisyklių rinkinį vadinsime nekorektišku, onekorektiškomis taisyklėmis vadinsime tas taisykles, kurių naudojimas padaronekorektišku visą taisyklių rinkinį.

Toliau nagrinėsime tik korektiškus taisyklių rinkinius.II skyriuje buvo nurodyta, kad bandant sukirčiuoti žodį gali būti gaunami tokie

rezultatai:1) žodis kirčiuojamas teisingai;2) žodis nekirčiuojamas, nes nerastas žodyne;3) žodis nekirčiuojamas, nes daug kirčiavimo variantų;4) žodis kirčiuojamas klaidingai.Norėdami patikrinti, ar taisyklių rinkinys korektiškas, pirmiausiai

išsiaiškinkime, kokius rezultatus gauname, kai naudodami kamienų žodynąkirčiuojame jame esančius žodžius. Iš eilės imkime po vieną kamieną ir raskimežodyne visus tinkančius kamienus. Akivaizdu, kad kiekvienam kamienui rasime bentpo vieną kamieną, kurio kamieno tipas, kirčiuotė, kirčio vieta ir priegaidė sutampa suieškomojo, t.y. rasime jį patį. Tai reiškia kad negalimi 2 ir 4 rezultatai. Be to, gali būtisurasta ir daugiau tinkančių kamienų, kurie gali būti suderinami arba nesuderinami suieškomuoju. Jei ieškomasis kamienas suderinamas su visais surastais kamienais (arbadaugiau kamienų nerasta), žodį galima sukirčiuoti vienareikšmiškai, o jeinesuderinamas bent su vienu – vienareikšmiškai sukirčiuoti negalima.

Page 56: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

56

Taisyklių rinkinio korektiškumui patikrinti naudosime tokį algoritmą: imama išeilės po vieną kamieną iš kamienų žodyno ir taisyklių rinkinyje ieškoma visų jamtinkančių taisyklių. Turi būti surasta bent viena taisyklė, kurios kamieno tipas,kirčiuotė, kirčio vieta ir priegaidė sutampa su ieškomojo žodžio. Be to, gali būtisurasta ir daugiau taisyklių, kurios bus suderinamos su ieškomuoju kamienu arbanesuderinamos. Tokiu būdu gausime arba vienareikšmį teisingą žodžio kirčiavimą,arba nevienareikšmį. Visiškai tokie patys rezultatai (vienareikšmiškas arbanevienareikšmiškas kirčiavimas) turi būti gaunami ir šiam žodžiui atlikus paieškąpilnų kamienų žodyne. Lyginant šiuos rezultatus svarbus tik pats suderinamumo arnesuderinamumo faktas. Kiek surasta taisyklių ir kiek iš jų yra suderinamos arnesuderinamos – nesvarbu. Taisyklių rinkinys bus korektiškas, jei rezultatai busvienodi visiems kamienams.

Jei taisyklių rinkinyje yra nekorektiška taisyklė, tai tokią taisyklę galimapašalinti iš taisyklių rinkinio, o vietoje jos įrašyti visus kamienus, kuriems tinka šitaisyklė ir kuriems sutampa kamieno tipas, kirčiuotė, kirčio vieta ir priegaidė. Šitaippakeitus visas nekorektiškas taisykles galima bet kokį taisyklių rinkinį padarytikorektišku.

Buvo įsitikinta, kad visi šiame straipsnyje minimi taisyklių rinkiniai yrakorektiški (nagrinėjamo žodyno prasme).

7. Taisyklių sudarymas rankiniu būdu

Šiame skyrelyje paaiškinta, kokios taisyklės buvo sudarytos rankiniu būdu irkodėl jų negalima buvo sudaryti automatiškai. Juk jau turime suvestą nemažądaiktavardžių ir būdvardžių kamienų žodyną, kuriame galima rasti vienodaikirčiuojamus žodžius ir iš jų sudaryti taisykles.

Lietuvių kalboje yra priesagų, su kuriomis sudaryti nauji žodžiai kirčiuojamipagal tą pačią kirčiuotę, tačiau kirčiuojama ne priesaga (kamieno pabaiga), opamatinis žodis (raidžių grandinėlė) ir išlaikoma jo kirčio vieta ir priegaidė. Nevertakurti algoritmą, kuris iš turimo žodyno automatiškai sudarytų šias priesagasrealizuojančias taisykles, nes:

1) Labai sudėtinga automatiškai atpažinti tokias priesagas ir nustatyti, kadžodžiai kirčiuojami vienodai, kadangi jas turinčių žodžių kirtis priklauso tik nuoraidžių grandinėlės, dėl to kirčio vieta ir priegaidė gali skirtis, pvz., „pi´emeniškas” ir„že~miškas”.

2) Raidžių grandinėlė šiuo atveju turi tenkinti labai griežtus apribojimus, nes jiprivalo nusakyti kirčio vietą ir priegaidę. Kokius apribojimus tenkina raidžiųgrandinėlė, taip pat reikia nustatyti automatiškai. Kitais žodžiais tariant, reikiaautomatiškai nustatyti, prie ko gali būti pridedama nagrinėjama priesaga.

3) Bandant automatiškai sudaryti taisykles nekreipiant dėmesio į tai, kad šiuosežodžiuose išlaikoma pamatinio žodžio kirčio vieta ir priegaidė, gaunama pernelygdaug taisyklių, kurios visiškai neatspindi žodžių darybos principų.

4) Tokių priesagų nėra daug.Buvo nuspręsta dalį taisyklių sudaryti rankiniu būdu. Tam tikslui buvo

išanalizuoti gramatikose [Ambrazas ir kt. 1996], [Ulvydas ir kt. 1965], [Vaitkevičiūtė1997] pateikti lietuvių kalbos žodžių darybos naudojantis priesagomis principai(tarptautinių žodžių daryba nebuvo nagrinėjama) ir sudarytas toks raidžiųgrandinėlėms taikomų apribojimų arba parametrų sąrašas (parametro pavadinimas irgalimos reikšmės):

Page 57: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

57

„Kur ieškoti”. DB – ieškoti daiktavardžių ir būdvardžių kamienų bazėje; VE –ieškoti esamojo laiko veiksmažodžių kamienų bazėje; VK - ieškoti būtojo kartiniolaiko veiksmažodžių kamienų bazėje; VB - ieškoti veiksmažodžių bendračių kamienųbazėje; N – neieškoti jokiose kamienų bazėse.

„Kamieno tipų grupės”. B – bet koks būdvardis, BJ – būdvardis, kuriokamienas baigiasi ‘j’ raide, BK – būdvardis, kurio kamienas nesibaigia ‘j’ raide, D –bet koks daiktavardis, DV – vyriškos giminės daiktavardis, DM – moteriškos giminėsdaiktavardis. Nenurodžius jokios reikšmės ieškoma tarp visų tipų kamienų.

„Kirčiuotė”. K1 – 1 arba 2 kirčiuotė ir K3 – 3 arba 4 kirčiuotė. Nenurodžiusreikšmės – bet kokia kirčiuotė.

„Priesagos atmetamos”. IA – priesagos atmetamos. Parametras nusako, ar priekamieno pridedant naują priesagą atmetamos jau esančios priesagos „ij” arba „ik”,pvz., „policij-a” + „-inink-as” = „policinink-as”, „matematik-a” + „-išk-as” =„matematišk-as”. Nenurodžius parametro priesagos neatmetamos.

„Skiemenų skaičius”. S1 – kamienas vienskiemenis; SD – kamienasdaugiaskiemenis. Nenurodžius reikšmės kamienas gali turėti bet kokį skiemenųskaičių. Parametras gali būti naudojamas tiek kartu su daiktavardžiais ir būdvardžiais,tiek su veiksmažodžiais.

„Priešdėlis”. P+ - veiksmažodis privalo turėti priešdėlį; P- - veiksmažodisnegali turėti priešdėlio. Nenurodžius reikšmės priešdėlis gali būti, o gali ir nebūti.

„Asmenuotė”. AOĖ – veiksmažodis priklauso „o-ė” asmenuotei (esamojo laikotrečiame asmenyje turi galūnę „-o”, o būtojo kartinio laiko trečiame asmenyje – „-ė”);AN – veiksmažodis nepriklauso „o-ė” asmenuotei. Nenurodžius parametro –asmenuotė bet kokia.

Tada iš minėtų gramatikų buvo išrinktos priesagos vadovaujantis tokiaiskriterijais:

1) Su priesaga sudarytas žodis kirčiuojamas ne priesagoje 1 arba 3 kirčiuote.2) Lengvai nustatoma, kokius apribojimus tenkina likusi kamieno dalis (raidžių

grandinėlė), kitais žodžiais tariant, prie ko dedama ši priesaga (ar formantas). Pvz.,priesaga „išk” („vaik-išk-as”, „moter-išk-as”) dedama prie daiktavardžio kamieno irišlaiko jo kirčio vietą ir priegaidę, tačiau neaišku prie ko dedamas formantas „an”žodžiuose „darg-an-a”, „sam-an-a”.

3) Priesagai sukūrus taisyklę, žodyne turi būti pakankamai daug (daugiau kaip10) pagal šią taisyklę kirčiuojamų žodžių, t.y. žodžių, kuriems tinka taisyklės kamienopabaiga, tenkinami raidžių grandinėlės apribojimai, sutampa kamieno tipas, kirčiuotė,kirčio vieta ir priegaidė.

4) Žodyne turi būti kuo mažiau žodžių, kurie pagal šią taisyklę kirčiuojamiklaidingai, t.y. žodžių, kuriems tinka taisyklės kamieno pabaiga, tenkinami raidžiųgrandinėlės apribojimai, tačiau kurie yra nesuderinami su taisykle. Prieš tikrinantsuderinamumą, taisyklės kirčio vieta ir priegaidė pakeičiama raidžių grandinėlėsnusakyta kirčio vieta ir priegaide, nes šiose taisyklėse kirčio vieta ir priegaidėnenurodoma.

Rankiniu būdu buvo sudaryta 16 taisyklių, kurios pateiktos 3.4 lentelėje.

Page 58: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

58

3.4 lentelė. Rankiniu būdu sudarytos taisyklės.Pr

iesa

gos

atm

etam

os

Kirč

iuotė

Kam

ieno

tipų

grupė

Kur

iešk

oti

Kam

ieno

pab

aiga

Kam

ieno

tipa

s

Kirč

iuotė

Kirč

iuoj

amų

žodž

ių sk

aiči

us

Pavy

zdys

IA - DB išk AS (būdv.) 1 616

vaikiškas

IA1

- DB inink AS (daikt.) 1 375

mokslininkas

IA1

- DB inink Ė 1 343

mokslininkė

IA1

- DB in IS (būdv.) 1 222

metinis

- B DB ul YS 3 20

gyvulys

Asm

enuo

Prie

šdėl

is

Skie

menų

skaiči

us

Kur

iešk

oti

Kam

ieno

pab

aiga

Kam

ieno

tipa

s

Kirč

iuotė

Kirč

iuoj

amų

žodž

ių sk

aiči

us

Pavy

zdys

- P- S1 VE ul YS 3 64 snaudulys- P- S1 VE es YS 3 64 judesysAN - SD VK im AS (daikt.) 1 3987 bauginimasAOĖ - SD VK ym AS (daikt.) 1 850 rašymas- P+ - VK ėl IS (daikt.) 1 272 numirėlis- P+ - VK ėl Ė 1 262 numirėlė- - S1 VK in YS 3 151 rašinys- - SD VB toj AS (daikt.) 1 524 mokytojas- - SD VB toj A 1 514 mokytoja- - SD VB tin IS (būdv.) 1 47 statytinis- P- - VB sen A 1 36 rašysena

Perrašius 3.4 lentelėje pateiktas taisykles mums jau įprastu pavidalu, josatrodytų taip:

„IA K1 DB*inink-AS_1” („poli`cininkas”),„AN SD VK*im-AS_1” („kanki`nimas”),„P+ VK*ėl-IS_1” („pabė´gėlis”).Aukščiau išvardinti apribojimai gali būti sėkmingai naudojami ir kitose

taisyklėse, turinčiose kirtį kamieno pabaigoje. Pvz.:„K3 DB*inin~k-AS_2” („darbinin~kas”),„S1 DV DB*e~l-IS_2” („name~lis”),„SD DV DB*ė~l-IS_2” („katinė~lis”),„AN S1 VK*i`m-AS_2” („neši`mas”),„IA DB*i´ng-AS_1” („darbi´ngas”),

Page 59: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

59

„BK DB*ia´us-IAS_1” („geria´usias”),„BJ DB*a´us-IAS_1” („gaja´usias”),„B DB*e`sn-IS_4” („gere`snis”).Yra vienas esminis skirtumas tarp taisyklių, kuriose kirtis yra kamieno

pabaigoje, ir taisyklių, turinčių kirtį raidžių grandinėlėje: pirmuoju atveju, tikrinantraidžių grandinėlės apribojimus, pakanka rasti vieną apribojimus tenkinančiągrandinėlę, o antruoju – reikia rasti visas ir patikrinti, ar visos nusako tą pačią kirčiovietą ir priegaidę.

8. Automatinis taisyklių sudarymas

Pirmiausiai paaiškinsime pačią idėją, kaip galima automatiškai sudarytikirčiavimo taisykles ir kaip pasiekti, kad taip sudarytų taisyklių (kartu su likusiaiskamienais) skaičius būtų mažiausias. Panagrinėkime tokią žodžių grupę:„matado`ras”, „semafo`ras”, „cho`ras”, „vo´ras”, „no´ras”, „bajo~ras”. Visų šiųžodžių sutampa paskutinės dvi kamieno raidės (paskutinės 4 žodžio raidės), o trečiojiiš galo kamieno raidė vienareikšmiškai nusako žodžio kirčiavimą (į kirčiuotę kol kasnekreipkime dėmesio). Taigi šių žodžių kirčiavimui galėtume naudoti ne pilnuskamienus, o taisykles, kurių kamieno pabaigos ilgis yra 3 raidės: „*do`ras”, „*fo`ras”,„*ho`ras”, „*vo´ras”, „*no´ras”, „*jo~ras”. Sugrupuokime šias taisykles taip, kadvienai grupei priklausytų vienodą kirčiavimą nusakančios taisyklės. Jei didžiausiągrupę pakeisime viena trumpesne taisykle (šiuo atveju „*do`ras”, „*fo`ras”, „*ho`ras”į „*o`ras”, o kitas paliksime tokias pat), tai akivaizdu, kad ir gausime mažiausiątaisyklių rinkinį.

O dabar tarkime, kad turime didelę taisyklių aibę ir šių taisyklių kamienopabaigos ilgis lygus M. Analogiškai, kaip aprašyta anksčiau, šias taisykles galimesuskirstyti į grupes, kuriose M-1 kamieno pabaigos raidė sutampa. Kiekvieną grupęsuskaidome į vienodai kirčiuojamų taisyklių pogrupius, randame didžiausią pogrupį irjam sudarom vieną M-1 ilgio taisyklę. Tačiau šioms visoms M-1 ilgio taisyklėmsalgoritmą galima kartoti dar kartą ir t.t. Kiekvienoje tokioje iteracijoje gausimeminimalų taisyklių skaičių.

Dabar galima pateikti pilną taisyklių sudarymo iš didelio žodyno algoritmą:1) Surašyti į išimčių sąrašą visus žodžius, kurie negali būti naudojami taisyklių

sudarymui. Tokie yra žodžiai, turintys vienodus nesuderinamus kamienus (kodėl, buspaaiškinta vėliau).

2) Surašyti į išimčių sąrašą visus žodžius, kurių kirčio vieta yra toliau nuokamieno galo, nei taisyklės ilgis M. Proceso pradžioje šis dydis pasirenkamas. Jis turibūti pakankamai didelis, kad nebūtų vienodas kamienų pabaigas turinčių, tačiaunesuderinamų žodžių. Visuose eksperimentuose buvo pasirinkta M=6. Kuo Mdidesnis, tuo turėtume gauti mažiau taisyklių, tačiau nuo tam tikros ribos taisykliųskaičius praktiškai nebemažėja, tik auga skaičiavimų kiekis.

3) Surūšiuoti visus likusius žodžius pagal paskutines M kamieno raidžių,kamieno tipą, kirčiuotę, kirčio vietą ir priegaidę.

4) Suskirstyti surūšiuotus kamienus į grupes, kuriose visų kamienų paskutinėsM-1 raidė sutampa.

Toliau buvo nagrinėjami du šio algoritmo variantai (A ir B). Tai susiję su tuo,kad skirtingus kamienų tipus turintys žodžiai gali turėti vienodas galūnes ir tai įnešanemažą painiavą. A variantas yra labai paprastas, tačiau leidžia vienai kamieno

Page 60: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

60

pabaigai ir visiems kamienų tipams sukurti tik vieną taisyklę, o B yra žymiaisudėtingesnis, tačiau leidžia ir keliems kamienų tipams turėti po taisyklę.

A5) Suskirstyti 4 punkte sudarytas grupes į pogrupius taip, kad vienam

pogrupiui priklausytų tik tą patį kamieno tipą, kirčiuotę, kirčio vietą ir priegaidęturintys žodžiai.

6) Kiekvienoje grupėje rasti didžiausią pogrupį ir jam sukurti vieną taisyklę.B5) Grupes suskirstyti į smulkesnes grupes, kur kiekvienai priklausytų tik tą patį

kamieno tipą turinčios taisyklės. Šias smulkesnes grupes skaidyti į pogrupius taip, kadvienam pogrupiui priklausytų tik tą pačią kirčiuotę, kirčio vietą ir priegaidę turintysžodžiai.

6) Kiekvienoje smulkioje grupėje rasti didžiausią pogrupį ir kiekvienojedidelėje grupėje iš šių pogrupių atrinkti tuos, kuriems sukūrus po taisyklę gaunamosvisos suderinamos taisyklės ir pogrupių elementų suma yra didžiausia. Šiam tiksluipanaudotas visų galimų pogrupių derinių perrinkimas. Mažiausias taisyklių skaičiusbūtų gaunamas perrenkant visus pogrupius, o ne tik didžiausius, tačiau to atsisakytanorint pagreitinti skaičiavimus.

Kiekvienoje grupėje visiems atrinktiems pogrupiams sukurti po taisyklę.

7) Naujai sukurtas taisykles palikti tolimesniam apdorojimui, o likusiasnepanaudotas naujų taisyklių kūrime – perrašyti į išimčių sąrašą.

8) Vienetu sumažinti taisyklių ilgį M.9) Kartoti 3 – 8 žingsnius, kol taisyklių ilgis M sumažės iki norimo ilgio.

Iteracijos buvo atliekamos tol, kol ilgis tapdavo lygus 2.10) (Nebūtinai) Rasti visas taisykles, pagal kurias kirčiuojamas tik vienas žodis,

ir pakeisti atgal į pilnus kamienus.

Išimčių sąrašas ir po paskutinio žingsnio likusios taisyklės ir bus galutinistaisyklių rinkinys.

Kaip veikia šis algoritmas, kai visi žodžiai turi tą patį kamieno tipą ir M=5,pailiustruota 3.1 pav. Šiame pavyzdyje nekreipiama dėmesio į tai, ar kirtis priklausokamieno pabaigai.

3.1 pav. Automatinis taisyklių sudarymas.

Page 61: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

61

Dar reikia paminėti, kad kartais negalima vienareikšmiškai rasti daugiausiaielementų turintį pogrupį, nes keli pogrupiai gali turėti po lygiai elementų. Taipatsitinka tuo dažniau, kuo mažesni pogrupiai, pvz., jei grupė sudaryta iš dviejųskirtingai kirčiuojamų žodžių (pogrupis = 1 žodis). Norint gauti minimalų taisykliųskaičių reikėtų įsiminti tokias situacijas ir tolimesnėje iteracijoje patikrinti, kokierezultatai gaunami, jei taisyklė būtų buvusi sukurta vienam pogrupiui, ir kokie – jeikitam. Siekiant supaprastinti algoritmą to nebuvo daroma, o buvo pasirenkamasvienas pogrupis.

Jei taisyklių rinkinys sukurtas naudojant A algoritmą, paieška taisyklių rinkinyjeyra paprastesnė. Radus vieną tinkančią taisyklę (taisyklę, kuriai tinka kamienopabaiga), kurios ilgis M, toliau reikia ieškoti tik taisyklių, kurių ilgis >=M. Todėlgalima taisykles surikiuoti ilgių mažėjimo tvarka ir radus vieną tinkančią taisyklępaiešką nutraukti sutikus pirmą trumpesnę taisyklę.

Naudojant B metodą reikia rasti visas tinkančias taisykles (kurioms tinkakamienas) nepriklausomai nuo jų ilgio. Tada rasti taisykles, kurioms tinka galūnė, ir išjų išrinkti ilgiausią (ar kelias ilgiausias). Iš karto išrinkti ilgiausias negalima, nes galibūti suderinamų žodžių, kurie neturi bendrų galūnių. Pvz., iš žodžių „fotoju´osta”,„perfoju´osta”, „videoju´osta” buvo sudaryta taisyklė „*ju´ost-A_1”, o iš žodžių„pašluo~stė”, „prijuo~stė”, „šluo~stė” - kita trumpesnė taisyklė „*uo~st-Ė_2”. Jeiieškotume tik ilgiausios taisyklės, tai norėdami sukirčiuoti žodį „prijuo~stė” jamrastume taisyklę „*ju´ost-A_1”, tačiau vėliau perrenkant visas šios taisyklės kamienotipo nusakytas galūnes nerastume nė vienos sutampančios su kirčiuojamo žodžiogalūne ir žodis liktų nesukirčiuotas.

Dėl tos pačios priežasties gali kilti ir kita įdomi situacija, kai žodžiui pritaikomakitą kamieno tipą turinčiam žodžiui sudaryta taisyklė, tačiau žodis kirčiuojamasteisingai. Pvz., iš žodžių „lengvaatle`tis”, „sunkiaatle`tis” buvo sudaryta taisyklė„*le`t-IS_2”, o iš žodžių „brune`tė”, „rake`tė”, „table`tė” - kita trumpesnė taisyklė„*e`t-Ė_2”. Norėdami sukirčiuoti žodį „table`čių”, jam rastume taisyklę „*le`t-IS_2”(nes „lengvaatle`čių”), kuri teisingai nusako kirčio vietą ir priegaidę, tačiau ši taisyklėsudaryta naudojant kitą kamieno tipą turinčius žodžius. Taip yra todėl, kad žodžiui sutokia galūne abi taisyklės nusako tą pačią kirčio vietą ir priegaidę.

9. Taisyklių sudarymo eksperimentų rezultatai

Eksperimentai pradėti turint 53149 žodžių žodyną (vadinsime Z žodynu).Taisyklių sudarymui negalima naudoti žodžių, turinčių vienodus kamienus ir

kamienų tipus, tačiau kurie kirčiuojami skirtingai, pvz., jau minėti „pyli`m-as” ir„py´lim-as”. Jei vienas iš tokių žodžių būtų panaudotas taisyklei sudaryti (gali būtipanaudotas tik vienas, nes vienam kamieno tipui gali būti sukurta tik viena taisyklė),pvz., „*i`m-AS_2”, tai kirčiuojant tekstą visada būtų naudojama antrąjį žodįatitinkanti taisyklė „py´lim-AS_1”, nes ji ilgesnė (ilgesnė taisyklė turi didesnįprioritetą). Taigi būtų nebeatpažįstamas nevienareikšmis kirčiavimas, o žodžiai visadabūtų kirčiuojami vieninteliu būdu (kartais klaidingai). Iš Z žodyno atmetus 64žodžius, kurių sutampa kamienai ir kamienų tipai, liktų 53085 žodžiai. Tačiau tonepakanka, nes kai kurių žodžių, nors ir turinčių skirtingus kamienų tipus, tačiauturinčių vienodus kamienus vis tiek negalima naudoti taisyklių sudarymui. Atmetusvisus 12984 žodžius, turinčius vienodus kamienus, liktų 40165 žodžiai. Tik kai kurietokie žodžiai negali būti naudojami taisyklių sudarymui, pakanka išmesti tik vienoduskamienus turinčius nesuderinamus žodžius. Tokių žodžių išmesta 3488 (N žodynas), olieka 49661 žodis (L1 žodynas). Šie žodžiai ir bus toliau naudojami.

Page 62: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

62

Buvo rankiniu būdu sudaryta 16 taisyklių (R žodynas). Iš žodyno galima atmestituos žodžius, kurie sėkmingai sukirčiuojami naudojantis rankiniu būdu sudarytomistaisyklėmis, t.y. kuriems tinka taisyklės kamieno pabaiga, tenkinami raidžiųgrandinėlės apribojimai, sutampa kamieno tipas, kirčiuotė, kirčio vieta ir priegaidė.Tokių žodžių L1 žodyne rasta 8283 (I žodynas). Be to, tolimesniam taisykliųsudarymui negalima naudoti žodžių, kurie naudojantis rankiniu būdu sudarytomistaisyklėmis kirčiuojami klaidingai, t.y. kuriems tinka taisyklės kamieno pabaiga,tenkinami raidžių grandinėlės apribojimai, tačiau kurie yra nesuderinami su taisykle.Prieš tikrinant suderinamumą taisyklės kirčio vieta ir priegaidė pakeičiama raidžiųgrandinėlės nusakyta kirčio vieta ir priegaide. Tokių žodžių L1 žodyne surasta 582 (Kžodynas). Atmetus šias dvi grupes žodžių žodyne lieka 40796 žodžiai (L2 žodynas),kurie ir bus toliau naudojami automatiniam taisyklių sudarymui.

Be to, rankiniu būdu sudarytų taisyklių apribojimų tikrinimui įdomūs yražodžiai, kuriems tinka taisyklės kamieno pabaiga, sutampa kamieno tipas ir kirčiuotė,tačiau netenkinami raidžių grandinėlės apribojimai. Tokių žodžių rasta 2429 (Ažodynas). Jei mažosiomis raidėmis pažymėsime atitinkamuose žodynuose esančiųžodžių skaičių, tai santykis (r+a)/i gali būti naudojamas rankiniu būdu sudarytųtaisyklių rinkiniui įvertinti.

Naudojant A algoritmą, su L2 žodynu buvo atlikti du eksperimentai, kuriuosebuvo automatiškai sudaromos taisyklės po vieną taisyklę kiekvienai kamieno pabaigai(visiems kamienų tipams). Jei sudarant taisykles keliose grupėse buvo po lygiaikamienų, viename eksperimente buvo imama pirma kamienų grupė, o kitame -paskutinė. Viename eksperimente buvo gauta 16825 kamienai ir 2438 taisyklės, išviso 19263 įrašai, kitame 16546 kamienai ir 2308 taisyklės, iš viso 18854 įrašai.

Naudojant B algoritmą, su L2 žodynu buvo atlikti kiti du eksperimentai,kuriuose buvo automatiškai sudarinėjamos taisyklės po vieną taisyklę kiekvienaikamieno pabaigai ir kiekvienam kamieno tipui, atmetant nesuderinamas taisykles. Jeisudarant taisykles keliose grupėse buvo po lygiai kamienų, viename eksperimentebuvo imama pirma kamienų grupė, o kitame - paskutinė. Viename eksperimente buvogauta 12338 kamienai (M žodynas) ir 2475 taisyklės (T žodynas), iš viso 14813 įrašai,kitame 12428 kamienai ir 2517 taisyklės, iš viso 14945 įrašai. Pirmojo iš šių dviejųeksperimentų rezultatai ir bus laikomi galutiniais automatinio taisyklių rinkiniosudarymo rezultatais.

Automatiniam teksto kirčiavimui vietoje žodyno Z gali būti naudojamas bendrasžodynas, sudarytas iš šių žodynų: N, K, M, R, T. Tokio bendro žodyno apimtis lygi3488 + 582 + 12338 + 16 + 2475 = 18899. Taigi pradinio (Z) žodyno apimtį pavykosumažinti 64,4%.

10. Automatiškai sukurtos taisyklės

Peržiūrėjus automatiškai sudarytas taisykles galima pastebėti, kad taisyklėssudarytos žodžiams, kurie turi:

1) vienodas lietuvių kalbos priesagas;2) vienodas tarptautinių žodžių priesagas;3) sudurtinių žodžių vienodus antruosius dėmenis;4) sudurtinių žodžių vienodus antruosius dėmenis ir jungiamuosius balsius;5) tiesiog vienodas kamienų pabaigas.3.5 lentelėje pateikta po du kiekvieno atvejo pavyzdžius ir nurodyta, kiek žodžių

kirčiuojama pagal kiekvieną taisyklę.

Page 63: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

63

Rankiniu būdu naudojantis gramatikomis sudaryti tiek daug ir tokių įvairiųtaisyklių būtų sudėtinga, nes gramatikose paprastai pateikiamos kirčiavimo taisyklėstik vienodas priesagas turintiems žodžiams, o čia sudarytos taisyklės ir sudurtiniamsbei tiesiog vienodai kirčiuojamiems žodžiams. Be to, gramatikose kartais pateikiamostaisyklės, pagal kurias kirčiuojamas vos vienas ar keli žodžiai, pvz., [Ulvydas ir kt.1965] teigiama, kad būdvardžiai su priesaga „yn-as” kirčiuojami pirmąja kirčiuote,tačiau „Dabartinės lietuvių kalbos žodyne” [Keinys ir kt. 1993] ir „Tarptautiniųžodžių žodyne” [Kvietkauskas ir kt. 1985] rastas tik vienas būdvardis „mėlynas”,todėl tokius atvejus patogiau laikyti išimtimis, o ne taisyklėmis. Kita problema, kadgramatikose paprastai nenurodoma, kiek žodžių kirčiuojama pagal tam tikrą taisyklę(kaip išimtį galima paminėti, pvz., [Pakerys 1991]). Jei žodžiai su tam tikra priesagagali būti kirčiuojami keliais būdais, tai sunku nuspręsti, kuri taisyklė svarbesnė norintsukirčiuoti kuo daugiau žodžių. Pvz., [Vaitkevičiūtė 1997] nurodyti trys daiktavardžiųsu priesaga (formantu) „on-as” kirčiavimo būdai. Turimame žodyne buvo rasti 298atvejai, kai kirčiuojama „o~n-as” („žiūro~nas”), 45 – „o`n-as” („vago`nas”) ir tik 4atvejai, kai kirčiuojama „o´n-as” („dirvo´nas”).

Su tokiomis problemomis nesusiduriama naudojant automatinį taisykliųsudarymą.

3.5 lentelė. Automatiškai sukurtos taisyklės.

Atvejis Taisyklė Pavyzdžiai Žodžių sk.„*e~l-IS_2” „rage~lis”, „svirbe~lis” 1061„*nin~k-AS_2” „darbinin~kas”, „kaklinin~kas” 93„*i`zm-AS_2” „komuni`zmas”, „sociali`zmas” 6042„*a~cij-A_1” „dota~cija”, „reputa~cija” 697„*e`tr-AS_2” „termome`tras”, „milime`tras” 1703„*en~tr-AS_2” „epicen~tras”, „metacen~tras” 8„*ė´tyr-A_1” „pelkė´tyra”, „upė´tyra” 64„*o´svaid-IS_1” „kulko´svaidis”, „mino´svaidis” 4„*i`ž-IUS_2” „avi`žius”, „smali`žius” 35„*u`š-AS_2” „du`šas”, „tu`šas” 3

11. Teksto kirčiavimo eksperimentai

Prieš naudojant sudarytą taisyklių rinkinį daiktavardžių ir būdvardžiųkirčiavimui, reikia visoms taisyklėms priskirti tam tikrus prioritetus. Kadangitaisyklių rinkinyje esantys pilni kamienai paprastai yra išimtys iš taisyklių, tai jiemspriskirsime patį didžiausią prioritetą (pažymėkime N). Mažesnį prioritetą priskirkimerankiniu būdu sudarytoms taisyklėms. Tarkime, kad taisyklių ilgis k (raidžių skaičiustaisyklės kamieno pabaigoje) ne didesnis už K. Tuomet rankiniu būdu sudarytomstaisyklėms priskirkime prioritetą M+k, kur M+K<N. Mažiausias prioritetas (k)priskiriamas automatiniu būdu sudarytoms taisyklėms. Iš čia gauname, kad turi būtiM>K.

Jei iš anksto žinome, kad kirčiuojamas žodis yra daiktavardis arba būdvardis, taijį galima sukirčiuoti naudojant tokį algoritmą:

1) kirčiuojamam žodžiui rasti visas tinkančias taisykles;2) iš jų išrinkti turinčias didžiausią prioritetą;3) patikrinti, ar pagal visas šias taisykles žodis kirčiuojamas vienodai.

Page 64: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

64

Kirčiuojant bet kokį tekstą prie ką tik aprašyto daiktavardžių ir būdvardžiųkirčiavimo algoritmo dar reikia prijungti veiksmažodžių ir nekaitomų žodžiųkirčiavimą. Tam tikslui toliau laikysime, kad veiksmažodžiai, nekaitomi žodžiai, pilnidaiktavardžių ir būdvardžių kamienai bei rankiniu būdu sudarytos taisyklės turivienodą didelį prioritetą, o automatiškai sudarytos taisyklės – mažesnį. T.y., jeikokiam nors žodžiui tiko veiksmažodžio (ar nekaitomo žodžio) kirčiavimo taisyklė irautomatiškai sudaryta daiktavardžių ir būdvardžių kirčiavimo taisyklė, tai laikoma,kad automatiškai sudaryta taisyklė pritaikyta atsitiktinai ir į ją dėmesio nekreipiama.

Kirčiavimo patikimumui nustatyti buvo atlikti testai su maždaug dviejų puslapiųgrožinės literatūros ir publicistikos tekstais. Tie patys tekstai buvo naudojami ir IIskyriuje. Rezultatai pateikti 3.6 lentelėje viduryje. Palyginimui viršutinėje lentelėsdalyje pateikti II skyriaus rezultatai.

3.6 lentelė. Teksto kirčiavimo eksperimentų rezultatai.

Kirčiuotateisingai

Kirčiuotaklaidingai

Nekirčiuota,nes nerastažodyne

Nekirčiuota,nes daugkirčiavimovariantų

Iš viso

Naudojami kamienaiŽodžių sk. 341 0 15 57 413Publicistika% 82,57 % 0 % 3,67 % 13,80 % 100 %Žodžių sk. 406 1 6 85 498Grožinė

literatūra % 81,53 % 0,20 % 1,20 % 17,07 % 100 %Naudojamos taisyklės

Žodžių sk. 343 8 8 54 413Publicistika% 83,05 % 1,94 % 1,94 % 13,08 % 100 %Žodžių sk. 412 2 2 82 498Grožinė

literatūra % 82,73 % 0,40 % 0,40 % 16,47 % 100 %Naudojami kamienai ir taisyklės

Žodžių sk. 343 0 14 56 413Publicistika% 83,05 % 0 % 3,39 % 13,56 % 100 %Žodžių sk. 409 1 2 86 498Grožinė

literatūra % 82,13 % 0,20 % 0,40 % 17,27 % 100 %

Kaip matome, padaugėjo teisingai kirčiuojamų žodžių, sumažėjo žodyne nerastųžodžių, nes sukirčiuoti deminutyvai (pvz., „gėlelė”) ir kai kurios pavardės (pvz.,„Dudėnas”), tačiau padaugėjo ir klaidų bei neatpažįstami kai kurie daug kirčiavimovariantų turintys žodžiai, nes kai kurios pavardės sukirčiuotos klaidingai (pvz.,„Deguti´enė” sukirčiuota „Degutie~nė”). Be to, kai kurios automatiškai sudarytostaisyklės privalėtų turėti tokį pat prioritetą, kaip ir veiksmažodžiai ar nekaitomižodžiai (pvz., žodis „visuomenės” sukirčiuojamas kaip veiksmažodžio „visuomenėti”būsimasis laikas „visuomenė~s”, tačiau pagal automatiškai sudarytą taisyklę„*u´omen-ĖS” jis dar turi būti kirčiuojamas „visu´omenės”).

Kaip būtų galima ištaisyti šias klaidas:1) Prieš sudarant taisyklių rinkinį į žodyną įtraukti tam tikrą aibę būdingas

pabaigas turinčių vardų, pavardžių, vietovardžių.2) Kai kurioms automatiškai sudarytoms taisyklėms rankiniu būdu sugriežtinti

apribojimus ir taip jas pervesti į rankiniu būdu sudarytų taisyklių klasę arba įrašyti į

Page 65: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

65

taisyklių rinkinį ištisą kamieną. Tačiau čia iškyla problema, kaip atpažinti tokiasautomatiškai sudarytas taisykles. Bene akivaizdžiausias būdas būtų sugeneruoti visasgalimas visų veiksmažodžių gramatines formas (prie jų dar pridėti nekaitomusžodžius), jas sukirčiuoti naudojantis veiksmažodžių, nekaitomų žodžių irdaiktavardžių bei būdvardžių kamienų žodynais, o po to bandyti sukirčiuoti naudojantautomatiškai sudarytas taisykles ir pasižiūrėti, kuriais atvejais rezultatai nesutampa.

Atsižvelgiant į gautus rezultatus ir siekiant pasinaudoti abiejų metodųprivalumais buvo sukurtas dar vienas žodžių kirčiavimo algoritmas, kuriamenaudojamas kamienų žodynas, papildytas 65 taisyklėmis: 16 anksčiau minėtų rankiniubūdu sudarytų taisyklių, būdvardžių laipsnius („-ėle`sn-is”, „-e`sn-is”, „-ia´us-ias”,„-a´us-ias”) realizuojančios taisyklės, mažybines priesagas (pvz., „-e~l-is”, „-e~l-ė”,„-ė~l-is”, „-ė~l-ė”, „-u`k-as”, „-iu`k-ė”, „-u`t-is”, „-y~t-ė” ir t. t.) realizuojančiostaisyklės, kai kurias lietuviškas pavardes (pvz., „-y´nait-ė”, „-ė´nait-ė”, „-iū´nait-ė”)realizuojančios taisyklės. Teksto kirčiavimo eksperimentų rezultatai pateikti 3.6lentelės apačioje, kirčiavimui naudoti tekstai pateikti kompaktiniame diske failuoseGl.txt ir Pb.txt, o žodžiai, sukirčiuoti naudojant šį algoritmą, pateikti kompaktiniamediske failuose Glkirc.txt ir Pbkirc.txt. Testavimo metu tekstuose pasitaikę skaitmenysir santrumpos buvo atmesti. Naudojant šį trečiąjį medodą pavyko pasiekti beveik tokįpat didelį teisingai sukirčiuotų žodžių procentą, kaip ir naudojant antrąjį metodą, irišlaikyti tokį pat mažą klaidingai sukirčiuotų žodžių procentą, kaip ir naudojantpirmąjį metodą. Visuose tolimesniuose kalbos sintezės eksperimentuose busnaudojamas šis trečiasis žodžių kirčiavimo algoritmas.

12. III skyriaus išvados

Daiktavardžių ir būdvardžių kirčiavimui vietoje kamienų naudojant taisykles,jos turi tenkinti tam tikrus papildomus reikalavimus, visų pirma taisyklių naudojimasneturi pabloginti kirčiavimo rezultatų lyginant su ištisais kamienais.

Sudarant taisykles, patogu kamieną išskaidyti į kamieno pabaigą (kuri dažnaisutampa su priesaga) ir tam tikrus apribojimus tenkinančią raidžių grandinėlę (kurikartais sutampa su žodžio šaknimi).

Kuriant kirčiavimo taisykles labai svarbi yra taisyklių suderinamumo sąvoka.Šiame skyriuje ištirta, kokios kirčiuotės ir kamieno tipo kombinacijos duoda poromissuderinamas taisykles, ir ar taisyklių suderinamumui būtina, kad sutaptų kirčio vieta irpriegaidė.

Nedidelę dalį taisyklių patogiau sudaryti rankiniu būdu, nes automatinis jųgeneravimas yra pernelyg sudėtingas (šiame darbe sukurta 16 tokių taisyklių). Šiaigrupei priklauso žodžiai su priesagomis, kurie išlaiko pamatinio žodžio kirčio vietą irpriegaidę.

Naudojant likusius (nepanaudotus sudarant taisykles rankiniu būdu)daiktavardžių ir būdvardžių kamienus, kirčiavimo taisyklės gali būti sėkmingaigeneruojamos automatiškai.

Kirčiavimo taisyklių naudojimas leido sumažinti kirčiavimui naudojamųdaiktavardžių ir būdvardžių kamienų žodyną 64,4%. Kirčiavimo taisyklių taikymasdavė panašius rezultatus, kaip ir naudojant pilnus kamienus (maždaug 0,9%padaugėjo teisingai kirčiuotų žodžių, 1,0% padaugėjo klaidingai kirčiuotų, atitinkamaisumažėjo nekirčiuotų). Automatinis daiktavardžių ir būdvardžių kirčiavimo taisykliųsudarymo algoritmas gali būti sėkmingai naudojamas taisyklėms generuoti, o tokiubūdu sukurtos taisyklės – tekstui automatiškai kirčiuoti, tačiau reikia tobulinti tokiųtaisyklių sąveiką su veiksmažodžių ir kitų kalbos dalių kirčiavimo taisyklėmis.

Page 66: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

66

Derinant daiktavardžių ir būdvardžių kamienus naudojantį algoritmą sukirčiavimo taisyklėmis galima pasiekti beveik tokį pat didelį teisingai sukirčiuotųžodžių procentą, kaip ir naudojant taisykles, ir išlaikyti tokį pat mažą klaidingaisukirčiuotų žodžių procentą, kaip naudojant kamienus.

Perspektyvios gali būti tokios tolimesnių tyrimų kryptys:1) Sukurti panašų algoritmą veiksmažodžiams kirčiuoti;2) Sukurti panašų algoritmą žodžiams kirčiuoti pagal jų pradžias (priešdėlius).

Page 67: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

67

IV. Kalbos signalo formavimas ir sintezuotos kalboskokybės įvertinimas

1. Kalbos signalo formavimas

1.1. Istorija

Kalbos sintezės pagal taisykles istorija prasidėjo 20-o amžiaus 6-ojodešimtmečio pabaigoje [Rahim 1994], kai buvo pradėta akustinius signalus atpažintikaip atskirus kalbos garsus [Liberman ir kt. 1959]. Tačiau pirmąją automatinę kalbossintezės pagal tekstą sistemą, įgalinančią lingvistinius elementus kartu su pagrindiniutonu ir trukmėmis transformuoti į kalbos segmentus, sukūrė Kelly ir Gerstmanas 1961m. [Kelly & Gerstman 1961]. Vėliau šios taisyklės buvo pritaikytos anglų kalbosformantinei sintezei [Holmes ir kt. 1964].

1.2. Kalbos signalo formavimo metodų klasifikacija

Kalbos signalo suvokimui svarbesni yra perėjimai tarp garsų, o ne stacionariosjų dalys [Liberman ir kt. 1959]. Šie perėjimai gali būti modeliuojami:

1) išreikštiniu pavidalu, kai saugoma aibė taisyklių, nusakančių vienosfonemos įtaką kitai;

2) neišreikštiniu pavidalu, kai kalbos segmentų bazėje saugomi perėjimų tarpgarsų pavyzdžiai, kurie sintezės metu naudojami kaip galutiniai akustiniai elementai.

Remianti šiais dviem principais kalbos signalo formavimo metodai gali būtiskirstomi į sintezę pagal taisykles ir konkatenacinę sintezę. Tokia klasifikacijapateikta, pvz., [Bhaskararao 1994], [Dutoit 1997]. Pirmajai grupei galima priskirtiformantinius ir artikuliacinius sintezatorius (nors pastarieji šiuose darbuose iš visonepaminėti), o antrajai – sintezatorius, kuriuose jungiamas pats kalbos signalas, irtiesine prognoze paremtus sintezatorius.

Kita klasifikacija gaunama remiantis tokiais samprotavimais: kalbos signalas išpradžių suformuojamas žmogaus artikuliacinio aparato, tada jis sklinda aplinkojebangos pavidalu ir pagaliau jį priima žmogaus klausa. Klasifikuojama pagal tai, kurišio proceso dalis modeliuojama, ir gaunamos tokios trys metodų grupės:

1) artikuliaciniai, kuriuose modeliuojamos žmogaus balso trakto akustinėssavybės;

2) konkatenaciniai, kuriuose modeliuojamas kalbos signalas;3) formantiniai, kuriuose bandoma modeliuoti suvokimui svarbias kalbos

signalo savybes, tokias, kaip formantiniai dažniai ir spektras (Yra įrodyta, kadžmogaus klausos sistemos periferijoje atliekama savotiška spektrinė signalo analizė[Кейтер 1985]).

Tokia klasifikacija pateikta, pvz., [Pfister & Traber 1994], [Rahim 1994],[Syrdal 1995].

1.3. Artikuliaciniai metodai

Žmogaus kalbėjimo padargų modeliavimas yra labai akivaizdus sintezėsmetodas, todėl jis buvo pradėtas taikyti tik pradėjus pirmuosius kalbos signalų tyrimus[Pfister & Traber 1994]. Pagal reikšmę garsų artikuliacijai skiriamos dvi kalbėjimopadargų sistemos [Grabauskas ir kt. 1991]: energetinė ir artikuliacinė. Energetinę

Page 68: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

68

sistemą sudaro diafragma, plaučiai, bronchai ir gerklė. Ši sistema teikia oro srovę kaipgarso šaltinį artikuliacinei sistemai, kurią sudaro (žr. 4.1 pav.) gerklos, liežuvis,dantys su dantenomis, kietasis ir minkštasis gomurys (su liežuvėliu), lūpos ir burnos,nosies, ryklės, gerklų ertmės. Šios sistemos aktyviuosius kalbos padargus sudarobalso stygos, užpakalinė ryklės sienelė, minkštasis gomurys (su liežuvėliu), liežuvis irlūpos, o pasyviuosius – dantys, dantenos ir kietasis gomurys. Gerklose, kuriųgriaučius sudaro antgerklis, skydinė, žiedinė ir kitos kremzlės, yra balso stygos. Jossukuria balsą. Dantys su dantenomis, kietasis ir minkštasis gomurys (su liežuvėliu),lūpos sudaro burnos ertmę. Be to joje yra liežuvis. Burnos ertmė su šiais kalbėjimopadargais atlieka dvejopą funkciją: sudaro iš plaučių einančiai oro srovei įvairiųkliūčių (kurios lemia priebalsių savybes) ir, kartu su ryklės bei gerklų ertmėmiskeisdamos savo tūrį bei formą, paverčia iš gerklų ateinantį garsą įvairiais balsiais.Nosies ertmė padeda artikuliuoti nosinius garsus.

4.1 pav. Kalbėjimo padargai: 1 – žiedinė kremzlė, 2 – skydinė kremzlė, 3 –balso stygos, 4 – antgerklis, 5 – liežuvis, 6 – dantys, 7 – lūpos, 8 – nosies ertmė, 9 –kietasis gomurys, 10 – burnos ertmė, 11 – minkštasis gomurys, 12 – liežuvėlis, 13 –ryklė, 14 – gerklos.

Kalbos trakto forma modeliuojama kaip kalbėjimo padargų (lūpų, žandikaulių,liežuvio, gomurio ir t.t.) padėties funkcija. Signalas apskaičiuojamas matematiškaimodeliuojant oro judėjimą kalbos traktu. Tokio sintezatoriaus valdantieji parametraiyra oro slėgis, balso stygų įtempimas ir įvairių kalbėjimo padargų santykinė padėtis[Styger & Keller 1994]. Kalbančio žmogaus kalbos trakto formos kitimas paprastainustatomas naudojant rentgeno nuotraukas [Haggard 1979].

Metodo privalumai [Rahim 1994]:1) Tarp žadinimo šaltinio ir kalbos trakto galima netiesinė priklausomybė

(formantinių ir tiesinę prognozę naudojančių sintezatorių atveju laikoma, kad šaltinisir traktas yra atskiriami, o tai nerealu);

2) Lėtas artikuliacinį sintezatorių valdančių parametrų kitimas leidžia tikėtisdidelio suspaudimo laipsnio;

3) Interpoliuojant valdančius parametrus visada gausime realią kalbėjimopadargų padėtį, o interpoliuojant tiesinės prognozės koeficientus galima gautinerealius parametrus;

Page 69: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

69

4) Koartikuliacijos efektai natūraliai susiję su kalbėjimo padargų judėjimu, oformantiniams sintezatoriams reikia labiau empirinių taisyklių.

Metodo trūkumai ([Rahim 1994], [Styger & Keller 1994]):1) Nėra pakankamai duomenų apie kalbančio žmogaus kalbėjimo padargų

judėjimą ir jie nepakankamai tikslūs;2) Nėra efektyvių procedūrų artikuliaciniams parametrams iš kalbos signalo

išgauti;3) Yra daug ir įvairių kalbėjimo padargų (žr. 4.1 pav.), jiems aprašyti reikia

daug parametrų, o pats modeliavimas sudėtingas. Balso stygas sunku sumodeliuoti netbalsiams, o dar sunkiau sprogstamiesiems priebalsiams.

Šis metodas pastaruoju metu nėra populiarus. Sprendžiant pagal pasiektusrezultatus (sintezuotos kalbos kokybę) kyla abejonių, ar tai perspektyvus metodas[Pfister & Traber 1994].

1.4. Formantinė sintezė

Formantinė sintezė remiasi prielaida, kad balso trakto perdavimo funkcijągalima sėkmingai sumodeliuoti imituojant formantinius dažnius ir jų amplitudes[Styger & Keller 1994]. Reikiamas spektras sukuriamas sužadinant rezonatorių rinkinįgarso šaltiniu arba triukšmo generatoriumi, priklausomai nuo to, ar imituojamasskardus garsas, ar duslus.

Yra du rezonatorių jungimo būdai [Rahim 1994], [Klatt 1980]:1) nuoseklus (jį pasiūlė Fant 1953 m.). Žr. 4.2 pav.;

4.2 pav. Nuoseklus formantinių rezonatorių jungimo būdas (R1 – R5 –rezonatoriai).

2) lygiagretus (pasiūlė Lawrence 1953 m.). Žr. 4.3 pav.

4.3 pav. Lygiagretus formantinių rezonatorių jungimo būdas (R1 – R5 –rezonatoriai, A1 – A5 – amplitudės valdikliai).

Šios dvi architektūros išsamiai palygintos [Holmes 1983]. Teoriškai abiarchitektūros turėtų leisti sukurti panašią balso trakto perdavimo funkciją, jei tik

Page 70: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

70

parametrai parinkti tinkamai. Nuoseklios architektūros privalumas, kad galima gautinatūraliai skambančius balsius ir tam nereikia atskirai valdyti kiekvienos formantėsrezonatorių. Tačiau nėra paprasta modeliuoti balso trakto pasikeitimus. Lygiagretiarchitektūra patogesnė sprogstamiesiems ir pučiamiesiems priebalsiams imituoti, nesgalima atskirai valdyti rezonatorius.

Siekiant pasinaudoti abiejų šių architektūrų privalumais, jos buvo sujungtos įhibridinį sintezatorių (Klattalk) [Klatt 1980], kuriame yra 39 valdantieji parametrai(formančių amplitudės, formančių dažniai, žadinimo šaltinių amplitudės ir kt.).Nuoseklūs rezonatoriai skirti generuoti skardžiuosius garsus, o lygiagretūs –pučiamuosius. Be to kartu su rezonatoriais gali būti ir antirezonatorių, kurienaudojami imituojant nosinius, pučiamuosius ir sprogstamuosius garsus. Klattaltsintezatoriaus blokinė diagrama pateikta 4.4 pav.

4.4 pav. Klattalt sintezatoriaus blokinė diagrama.

Formantinės sintezės privalumai ([O’Shaughnessy 1995], [Syrdal 1995]):1) Lankstumas, galimybė generuoti įvairius balsus;2) Galimybė generuoti sklandžius perėjimus tarp garsų;3) Reikalauja palyginti mažai atminties;4) Galimybė įjungti antirezonatorius imituojant nosinius, pučiamuosius ir

sprogstamuosius garsus (naudojant tiesinę prognozę tai nenumatyta);5) Geras sintezuotos kalbos suprantamumas.Trūkumai:1) Nėra pakankamai geros automatinės procedūros formančių parametrams

automatiškai nustatyti, todėl daug parametrų tenka optimizuoti rankiniu būdu [Styger& Keller 1994];

2) Sintezės sistemos sukūrimas paprastai užima daug laiko (kelerius metus)[Dutoit 1997];

3) Sintezuotai kalbai trūksta natūralaus žmogaus balso „turtingumo”, kalbaskamba mechaniškai.

Pastaruoju metu šis metodas yra pakankamai populiarus, nemažai šiuo metuegzistuojančių sintezatorių naudoja šį metodą: DECtalk, Infovox, Votrax [Syrdal1995]. Šį metodą naudoja ir įvade minėtas lietuvių kalbos sintezatorius Apollo II.

1.5. Tiesine prognoze paremta sintezė

Pagrindinė tiesinės prognozės idėja yra prognozuoti kalbos signalo atskaitąremiantis buvusiomis atskaitomis [Rahim 1994], [Маркел & Грей 1980]. Tarkime,{x1, …, xN} yra signalo atskaitų seka. Elemento xn M-tos eilės tiesinė prognozėformuojama kaip prieš jį einančių M atskaitų tiesinė kombinacija. Prognozuotąatskaitą pažymėkime yn. Tada

Page 71: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

71

Koeficientai ai, i=1,…,M šioje sąsūkoje ir yra ieškomieji prognozės koeficientai. Juosreikia parinkti taip, kad minimizuoti prognozės paklaidą. Vienos atskaitos prognozėspaklaida en lygi

o pilna kvadratinė paklaida apibrėžiama tokiu būdu:

kur n0 ir n1 yra sumavimo rėžiai. Pažymėkime

Tada kvadratinė paklaida α užrašoma taip:

Norint minimizuoti α, reikia apskaičiuoti α dalines išvestines ak, k=1,…,Matžvilgiu, prilyginti jas nuliui ir išspręsti gautą lygčių sistemą. Atsižvelgiant į tai, kada0=1, gauname tokią tiesinių lygčių sistemą:

kur k=1,…,M.Priklausomai nuo sumavimo rėžių n0 ir n1 parinkimo galima išskirti kovariacinę

ir autokoreliacinę parametrų cik išraišką. Autokoreliacinę realizaciją 1973 m. pasiūlėMarkel ir Gray [Makhoul 1975], o kovariacinę – Atal ir Hanauer 1971 m. [Atal &Hanauer 1971].

Tiesinių lygčių sistemą galima išspręsti bet kuriuo tiesinių lygčių sistemųsprendimo metodu, tačiau yra sukurti specialūs metodai, žymiai pagreitinantyssprendimą remiantis tam tikromis sistemos savybėmis. Pvz. autokoreliacinėsrealizacijos atveju galima naudoti Levinsono-Durbino metodą.

Kalbos signalo sintezei naudojami prognozės koeficientai, pagrindinio tonoperiodo ilgis, požymis, nusakantis, ar signalas skardus, ar duslus, kvadratinė šaknis išsignalo atskaitų. Sintezuojant skardžius segmentus filtras sužadinamaskvaziperiodiniais impulsais, atstumas tarp kurių lygus vidutiniam pagrindinio tonoperiodui, o dusliems sužadinantį signalą sukuria balto triukšmo generatorius.Sužadinantis signalas dauginamas iš daugiklio (stiprinimo koeficiento), nusakančiopradinio ir sintezuoto segmento energijos santykį.

Sintezuotos kalbos kokybė priklauso nuo to, kaip dažnai atnaujinami filtroparametrai (dažnesnis atnaujinimas reikalauja daugiau atminties). Dusliemssegmentams paprastai atnaujinama pastoviu žingsniu (pvz., kas 10 ms.), o skardiems– arba pastoviu žingsniu, arba sinchroniškai pagrindinio tono periodo ilgiui. Pastarasismetodas duoda geresnius rezultatus.

∑=

−−=M

1iinin .xay

,yxe nnn −=

∑ ∑∑∑ ∑ ∑= = =

−−= = =

− =

==

1

0

1

0

1

0

n

nn

M

0i

M

0jjjnini

n

nn

2n

nn

M

0iini

2n ,axxaxaeα

∑=

−−=1

0

n

nn.jninij xxc

∑∑= =

=M

0i

M

0j.jiji acaα

∑=

−=M

1ik0iki ,cca

Page 72: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

72

Tiesinės prognozės sintezė panaši į formantinę sintezę. Abu metodai pagrįstigarso šaltinio ir filtro atskyrimu ir bandymu sumodeliuoti balso traktą naudojantformantes [Rahim 1994]. Pagrindinis skirtumas – automatinė kalbos signalo analizėsprocedūra. Galima traktuoti, kad naudojant šią procedūrą natūralios kalbos segmentaiužkoduojami tiesinės prognozės koeficientais, imant signalą tam tikru žingsniu(pastoviu arba lygiu pagrindinio tono periodui). Todėl tiesinės prognozės metodaspriskiriamas prie konkatenacinių metodų.

Tiesinės prognozės metodo privalumai [O’Shaughnessy 1995]:1) Modelis paprastesnis, lyginant su formantiniu sintezatoriumi;2) Yra visiškai automatinė natūralios žmogaus kalbos analizės procedūra

tiesinės prognozės koeficientams įvertinti;3) Geras sintezuotos kalbos suprantamumas;4) Reikalauja nedaug atminties.Metodo trūkumai:1) Tiesinės prognozės būdu sumodeliuotoje balso trakto perdavimo funkcijoje

yra tik rezonatoriai (naudojant formantinį metodą galima įtraukti ir antirezonatorius),o nosinių garsų tiksliam modeliavimui reikalingi ir antirezonatoriai;

2) Ties segmentų ribomis galima tik labai ribotai naudoti tiesinės prognozėsparametrų interpoliavimą. Kiekvienas prognozės koeficientas sudėtingu būdu įtakojaplatų dažnių spektrą, todėl lengva gauti nerealius parametrus;

3) Sintezuota kalba turi tam tikrą dūzgimo atspalvį.Literatūroje sutinkama įvairių metodų, kuriais bandoma sumažinti tiesinės

prognozės metodo trūkumus. Pvz., į modelį įjungiamas papildomas filtras,realizuojantis antirezonatorius [Markel & Gray 1973], sužadinimui naudojamas nevienas, o daug impulsų [Atal & Remde 1982] ir t.t.

1.6. Konkatenacinė sintezė (naudojant nekoduotą signalą)

Konkatenacinės sintezės esmė labai paprasta: laikoma, kad kalbos signalągalima suformuoti jungiant natūralios kalbos segmentus. Sintezei naudojamųsegmentų dydis gali būti labai įvairus. Kuo didesni segmentai, tuo geresnė kalboskokybė, nes mažiau signalo sujungimų, tačiau reikia daugiau segmentų, o tuo pačiu irdaugiau atminties. Be to, padidinus segmentų dydį iki tam tikros ribos, nebeįmanomaatmintyje saugoti visų sintezei reikalingų segmentų, pvz., visų tam tikros kalbosžodžių. Mažinant segmentų dydį, mažėja atminties poreikis, tačiau atsiranda daugiausignalo sujungimų ir dėl to blogėja garso kokybė. Apie segmentus smulkiau buskalbama kitame skyrelyje.

Akivaizdu, kad konkatenaciniu metodu sintezuota kalba skamba natūraliaisintezės segmentų viduje, tačiau jos kokybė gali pablogėti dėl neatitikimo tiessegmentų ribomis, o taip pat dėl intonacijos, trukmės modifikacijų. Šias problemas išdalies galima išspręsti tam tikru būdu parenkant segmentus, be to, modifikacijomsatlikti ir sklandesniems perėjimams ties segmentų ribomis padaryti gali būtinaudojami įvairūs metodai:

1) jau minėta tiesinė prognozė;2) hibridinis harmoninis-stochastinis metodas [Abrantes ir kt. 1991], [Dutoit

& Gosselin 1996];3) TD-PSOLA algoritmas (angl. Time-Domain Pitch-Synchronous-OverLap-

Add) [Moulines & Charpentier 1989].Sprendžiant pagal literatūrą, itin populiarus paskutiniu metu yra pastarasis.Konkatenacinio metodo privalumai [Dutoit 1997]:

Page 73: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

73

1) Labai gera (geriausia iš šiuo metu egzistuojančių) sintezuotos kalboskokybė;

2) Kalba skamba natūraliai;3) Minimalūs skaičiavimai sintezės metu.Metodo trūkumai:1) Reikia kiek daugiau atminties, nei naudojant kitus metodus;2) Galima sintezuoti tik kalbą neutralia intonacija, galimybė sintezuoti

emocionalią kalbą labai ribota [Edgington 1997].Dėl savo paprastumo šiame darbe pateikiamame sintezatoriuje buvo pasirinktas

būtent konkatenacinis metodas. Todėl dabar smulkiau apie kai kuriuos šio metodoaspektus.

1.7. Konkatenacinėje sintezėje naudojami segmentai

Kaip jau buvo minėta įvade, šiame darbe nenagrinėjama sintezė naudojantįrašytas sakinių dalis. Pagrindinė priežastis, kodėl sintezėje nenaudojami (arba retainaudojami) žodžiai yra ta, kad visų kalboje esančių žodžių neįmanoma saugotiatmintyje, nes jų yra per daug [Bhaskararao 1994]. Tokios sistemos galimos, jeinaudojamas ribotas žodynas (pvz., [Lewis & Tatham 1999], [Stöber ir kt. 1999]).

Kalbos signalo segmentai, kurių reikėtų mažiausiai, norint sintezuoti tam tikrąkalbą, yra fonemos. Anksčiau būta bandymų sukurti alofoninius sintezatorius, pvz.,rusų kalbos sintezė naudojant 129 alofonus aprašyta [Иванова & Трунин-Донской1980]. Tačiau „visi bandymai jungti fonemos dydžio kalbos signalo segmentus buvonesėkmingi” [Klatt 1987]. Pagrindinė šios nesėkmės priežastis, kad fonemų ribasatitinkančios sritys yra akustiškai kintančios. Fonemos dydžio segmentai netinka dėlgretimų garsų koartikuliacijos efektų. Net ir alofonai (iš skirtingų kontekstų paimtifonemų variantai) nėra tinkami sintezės elementai.

Taigi sintezei naudojami segmentai ne tik turi būti maži ir jų turi būti nedaug,kad sutilptų į atmintį, tačiau jie turi apimti visus perėjimus tarp dviejų fonemų. Tokiusreikalavimus tenkina difonai ir pusskiemeniai. Difonus sintezei pirmieji pasiūlėWang, Peterson ir Sivertsen 1958 m. [Syrdal 1995]. Difonai nuo pusskiemeniųskiriasi balsio kirpimo vieta. Jei turime skiemenį, kurio struktūrą galima užrašytiformule PBP, kur B – balsis, o P – priebalsis, tai difonų atveju kerpama per balsiovidurį, o pusskiemenių atveju – kur baigiasi perėjimas nuo priebalsio prie balsio irprasideda stacionari balsio dalis.

Kalbos sintezei dar gali būti sėkmingai naudojami trigarsiai. Norint sintezuotiskiemenį PBP, reikalingas trigarsis, kuriame būtų PB perėjimas, stacionari B dalis irBP perėjimas. Pagrindinis šio metodo trūkumas, kad reikia labai daug trigarsių. Pvz.,darbe [Park ir kt. 1998] nurodyta, kad korėjiečių kalbos sintezei naudota apie 60000trigarsių. Nedidelio kiekio trigarsių naudojimas kartu su pusskiemeniais gali pagerintisintezuotos kalbos kokybę.

Galimi tiek BPB trigarsių rinkiniai, tiek ir PBP. BPB tipo trigarsius paprasčiaujungti, nes jie jungiami stacionarioje balsio dalyje, o jungiant PBP tipo trigarsiusgaunamas mažesnis amplitudės šuolis, nes priebalsių amplitudė paprastai būnamažesnė [Bhaskararao 1994].

Difonai, pusskiemeniai ir trigarsiai apima tiek kintančias, tiek ir stacionariassignalo dalis, todėl juos galima išskaidyti į šias dalis. Tai leidžia sumažinti saugomųelementų skaičių. Pvz., darbe [El-Imam 1989] aprašoma arabų kalbos sintezėnaudojant tik 400 segmentų. Be to, galima saugoti ne visą stacionarią dalį, o tik vienąpagrindinio tono periodą, ir tokiu būdu dar sumažinti atminties poreikius.

Page 74: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

74

Difonus, pusskiemenius ar trigarsius naudojančiose sistemose sintezės elementaiyra daugiau ar mažiau fiksuoto ilgio. Tačiau galima sintezės sistemose naudoti irskirtingų ilgių elementus. Tokios sistemos būna dar lankstesnės ir ekonomiškesnės.Pvz., visiems sprogstamųjų ir pučiamųjų priebalsių, turinčių tą pačią artikuliacijosvietą, BP perėjimams (pvz., /ak/ ir /ag/) galima naudoti tą patį signalo segmentą[Bhaskararao 1994].

Visuose anksčiau aprašytuose metoduose signalas karpomas iš anksto priešsintezę, tačiau galima saugoti visą kalbos signalų bazę, kurioje būtų sužymėti signalosegmentai ir pasiimti reikiamo ilgio segmentą sintezės metu. Tokiu būdu gali pavyktirasti ne tik atskirą fonemą, o įrašytą visą žodį, ar jo dalį [Black & Taylor 1997].

Šiame darbe aprašomame sintezatoriuje naudoti įvairaus ilgio segmentai:dvibalsių ir dvigarsių variantai, balsių alofonai, priebalsiai kartu su PB perėjimu,priebalsių dalys. Išsamiau žr. I skyriaus skyrelį „Trumpa fonetinių vienetų bazėscharakteristika”.

1.8. Fonetinių vienetų bazės sudarymas

Prieš sudarant fonetinių vienetų bazę pasirenkami fonetiniai vienetai irsudaromas visų fonetinių vienetų sąrašas. Tada sudaromas žodžių ar sakinių, kuriuosebūtų visi reikalingi fonetiniai vienetai, sąrašas. Geriausia turėti po kelis to patiesfonetinio vieneto variantus. Paprastai vienam fonetiniam vienetui iškirpti įrašomasvisas sakinys. Sudarytą sakinių sąrašą perskaito diktorius ir jo balsas skaitmeniniubūdu įrašomas į kompiuterį. Po to iš šių įrašų iškerpami fonetiniai vienetai.

Ši procedūra gali būti atliekama iteraciškai, nes: 1) iš pradžių gali būti ne ikigalo aiškus fonetinių vienetų sąrašas; 2) gali būti įrašytas sakinys, kuriame fonetinisvienetas patiria kokias nors modifikacijas, todėl reikalingas kitas sakinys; 3) diktoriusgali ištarti fonetinį vienetą su tam tikrais trūkumais. Fonetinių vienetų bazės trūkumaigali paaiškėti ir sintezės metu.

Įrašomų sakinių neturi būti labai daug, kad diktorius galėtų vienodu balsunepavargdamas juos perskaityti. Norint papildyti jau turimą fonetinių vienetų bazę,reikia įrašyti idealiai tomis pačiomis sąlygomis. Jei tai neįmanoma, geriau nepapildyti, o viską atlikti iš naujo.

Fonetiniai vienetai iš signalo gali būti kerpami naudojant kokį nors automatinįsegmentavimo algoritmą, pvz., segmentavimo taisykles [Angelini ir kt. 1997],neuroninį tinklą ar paslėptą Markovo modelį [Malfrere ir kt. 1998], o po tosegmentavimas koreguojamas, arba tai gali atlikti ekspertas rankiniu būdu,naudodamas signalo vizualizavimo ir pasiklausymo priemones. Šiame darbepristatomame sintezatoriuje panaudotas diktoriaus J. Šalkausko balsas. Fonetiniųvienetų bazę sudarė prof. habil. dr. A. Girdenis. Signalo diskretizavimo dažnis –11025 Hz mono režimu. Viena atskaita koduojama dviem baitais. Signalo karpymui,vizualizavimui ir pasiklausymui naudota šio darbo autoriaus sukurta kalbos signalųapdorojimo sistema „Kalbame” [Girdenis ir kiti 1995] (naujausia šios sistemos versijabuvo sukurta kartu su P. Slotvinskiu). Fonetinių vienetų bazės sudarymui daugiausianaudoti du minėtos sistemos komponentai: signalo karpymo ir sintezės. Signalokarpymo komponentas leidžia pamatyti signalą ir padidintą signalo segmento vaizdą,pasiklausyti signalo ar jo segmento, iškirpti segmentą ir jį išsaugoti. Šios sistemosvartotojo ekrano pavyzdys pateiktas 4.5 pav.

Page 75: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

75

4.5 pav. Sistemos „Kalbame” signalo karpymo komponentas.

Apie šios sistemos sintezės komponentą bus kalbama toliau šiame skyrelyje.Fonetinių vienetų bazėje kiekvienam segmentui saugomas jo pavadinimas,

trukmė, signalo segmento atskaitos. Kai kuriose sistemose signalas gali būtiperkoduojamas kokiais nors parametrais, pvz., tiesinės prognozės koeficientais. Be to,gali reikėti saugoti ir kitas signalo charakteristikas, pvz., difonuose skiriamąją ribątarp dviejų garsų, kad būtų galima keisti vieno garso trukmę nekeičiant kito garsotrukmės.

Segmentai būna iškirpti iš įvairių kontekstų, todėl gali skirtis jų amplitudė irpagrindinio tono periodo ilgis. Dėl šios priežasties jungiant segmentus gali atsirastinesklandūs perėjimai. Suvienodinti amplitudes patogiausia prieš sudedant fonetiniusvienetus į fonetinių vienetų bazę. Tam reikia rasti visus fonetinius vienetus, kuriuoseyra tam tikras garsas (pvz., /e/), ir suvienodinti šių segmentų atitinkamų pradžių (pvz.,fonetiniuose vienetuose „E”, „EN”, „EI”) ar pabaigų amplitudes (pvz., fonetiniuosevienetuose „E”, „BE”, „IE”). Pagrindinio tono periodo neatitikimus patogiauvienodinti sintezės metu.

Page 76: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

76

Šiame darbe amplitudės vienodinimas nebuvo atliekamas, nes signalas buvoįrašytas pakankamai vienoda amplitude, o be to, staigūs amplitudės pasikeitimai daromažą įtaką kalbos kokybei, kaip jau buvo minėta I skyriaus 1.12. skyrelyje.

Jokių papildomų veiksmų, kuriais būtų modifikuojami segmentai siekiantsumažinti pagrindinio tono periodo pasikeitimų netolygumus, taip pat nebuvoatliekama. Dalinai šios problemos buvo sprendžiamos sudarant fonetinių vienetųbazę: 1) segmentai buvo parenkami taip, kad sujungus, greta atsidurtų fonetiniaivienetai, paimti iš panašių kontekstų; 2) segmentai buvo kerpami per paskutinįpagrindinio tono periode esantį laiko ašies kirtimo tašką (kaip parodyta 4.5paveikslėlio apačioje). Sujungus taip nukirptą signalą, išlieka pagrindinio tonoperiodo struktūra.

Siekiant patikrinti, ar gerai parinkti, ištarti ir iškirpti fonetiniai vienetai, buvonaudojamas kitas jau minėtos sistemos „Kalbame” sintezės komponentas. Jamerodomas visų turimų fonetinių vienetų sąrašas, iš kurio galima, pasirenkant fonetiniusvienetus, sudaryti žodį, jį pasiklausyti ir išsaugoti. Vartotojo ekranas pavaizduotas 4.6pav.

4.6 pev. Sistemos „Kalbame” sintezės komponentas.

Page 77: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

77

1.9. Kalbos sintezatoriaus veikimas

Buvo sukurtos programinės priemonės, leidžiančios operacinėje sistemojeWindows atidaryti tekstinį langą, surinkti tekstą (arba perskaityti jį iš tekstinio failo),pažymėti tekstą ar jo fragmentą ir duoti komandą jį balsu perskaityti. Tekstasanalizuojamas po vieną žodį ir naudojant šiame darbe aprašytus bei kompiuterinėmisprogramomis realizuotus algoritmus skiemenuojamas, kirčiuojamas irtranskribuojamas. Pagal transkribavimo rezultatus imami fonetiniai vienetai išfonetinių vienetų bazės ir iš jų sudaromas žodis, kuris išvedamas į kompiuterio garsoplokštę. Šis sintezatorius buvo pavadintas „Aisčiu”. Sintezuoti grožinės literatūros irpublicistikos pavyzdžiai pateikti kompaktiniame diske katalogo „SintKalba”. Čianaudojami tie patys tekstai, kurie buvo naudoti kirčiavimo eksperimentuose.Tekstuose sutikti skaičiai ir santrumpos prieš sintezuojant buvo pakeisti žodžiais.Failuose „Glnek.wav” ir „Pbnek.wav” pateikta sintezuota kalba, kurioje žodžiainekirčiuojami, o failuose „Gl.wav” ir „Pb.wav” – naudojamas kirčiavimo algoritmas,aprašytas III skyriaus pabaigoje (kamienų žodynas ir 65 taisyklės). Tarp žodžių jokiųpauzių nepaliekama, kableliai keičiami 200 msec. pauzėmis, o taškai ir kiti skyrybosženklai – 600 msec. pauzėmis.

1.10. Kalbos tempo keitimas

Kadangi viena iš pagrindinių sintezuotos kalbos taikymo sričių yra padėtiakliems žmonėms dirbti kompiuteriu, tai labai svarbu turėti galimybę keisti (tiksliaudidinti) sintezuojamos kalbos tempą. Akli žmonės sugeba suprasti didesniu greičiupasakytą frazę, nei regintieji. Pvz., [Hunnicut 1995] teigiama, kad regintiemsklausytojams priimtinas kalbos greitis yra apie 150 žodžių per minutę, tuo tarpuakliesiems priimtinas kalbos greitis gali siekti iki 500 žodžių per minutę.

Keičiant kalbos greitį, garso aukštis turi likti nepakitęs, todėl galima keisti(mažinti) pagrindinio tono periodų skaičių, tačiau negalima keisti jų ilgio. Greičiodidinimui buvo paprasčiausiai išmetamas tam tikras skaičius iš eilės einančiųpagrindinio tono periodų. Kuo didesnį greitį norima pasiekti, tuo daugiau periodųišmetama. Signalas pjaunamas laiko ašies kirtimo vietose (analogiškai buvo daroma iriškerpant iš signalo fonetinius vienetus). Šitaip sujungus signalą jame neatsirandatrūkis. Buvo iš anksto nuspręsta, kad kalbą bus galima sintezuoti keliais fiksuotaisgreičiais ir kiekvienam greičiui signalo kirpimo taškai buvo surasti iš anksto pusiauautomatiniu būdu ir surašyti kompiuterio atmintyje, o ne ieškomi kiekvieną kartąsintezuojant kalbą. Realiai sukurtas sintezatorius turi šešis greičius. Pirmu greičiusintezuota kalba yra maždaug tris kartus lėtesnė už sintezuotą šeštu greičiu.

Kalbos supratimui svarbesni yra garsų perėjimai, o ne stacionarios jų dalys[Libermann 1959], todėl buvo stengiamasi išmesti pagrindinio tono periodus išstacionariausių vietų. Visi fonetiniai vienetai buvo suskirstyti į tokias grupes:

1) Nestacionarūs. Šiai grupei priklauso sprogstamieji, pvz., /b/, /p/. Keičiantkalbos greitį jie nekeičiami.

2) Turintys vieną stacionarią dalį, t.y. balsiai, nosiniai ir pučiamieji priebalsiai,pvz., /a/, /m/, /š/. Priklausomai nuo greičio, išmetamas tam tikras skaičius pagrindiniotono periodų (arba tiesiog segmento dalis) iš vidurio.

3) Turintys dvi vienodo ilgio stacionarias dalis. Šiai grupei priklausonekirčiuoti dvibalsiai ir dvigarsiai. Fonetinis vienetas dalinamas į dvi lygias dalis irišmetama maždaug po lygiai pagrindinio tono periodų iš kiekvienos dalies vidurio.

Page 78: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

78

4) Turintys dvi stacionarias dalis, iš kurių ilgesnė pirmoji. Šiai grupeipriklauso tvirtaprade priegaide kirčiuoti dvibalsiai ir dvigarsiai. Fonetinis vienetasdalinamas į dvi dalis santykiu 2:1 ir išmetami pagrindinio tono periodai iš kiekvienosdalies vidurio. Iš pirmos dalies išmetama maždaug du kartus daugiau periodų.

5) Turintys dvi stacionarias dalis, iš kurių ilgesnė antroji. Šiai grupei priklausotvirtagale priegaide kirčiuoti dvibalsiai ir dvigarsiai. Fonetinis vienetas dalinamas įdvi dalis santykiu 1:2 ir išmetami pagrindinio tono periodai iš kiekvienos daliesvidurio. Iš antros dalies išmetama maždaug du kartus daugiau periodų.

Įvairiais greičiais sintezuota grožinė literatūra ir publicistika pateiktakompaktiniame diske failuose „Glgr.wav” ir „Pbgr.wav”. Iš pradžių buvosintezuojama pirmu (lėčiausiu) greičiu, po kurio laiko pereinama prie antro, trečio, …,šešto greičio, tada vėl grįžtama prie pirmo greičio.

Page 79: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

79

2. Sintezuotos kalbos kokybės įvertinimas

Poreikis įvertinti sintezuotos kalbos kokybę gali atsirasti dėl daugeliopriežasčių. Pvz., kuriant sintezės sistemą ir pritaikius naują algoritmą norisi patikrinti,ar pasiektas kokybės pagerėjimas; diegiant sistemą reikia patikrinti, ar tenkinamatechninė specifikacija; renkantis sistemą norisi palyginti kelis konkuruojančiusgaminius.

Jei sintezuotos kalbos kokybė nepakankamai gera, klausytojas gali nesuprastikai kurių žodžių, gali supainioti žodžius arba tiesiog kalbos supratimas reikalauja perdaug pastangų ir žmogus negali lygiagrečiai atlikti kitų darbų.

Vienas iš labai svarbių testams keliamų reikalavimų yra rezultatųpakartojamumas, t.y. skirtingu laiku skirtingose vietose ir su skirtingais žmonėmisatliekant testą turi būti gaunami panašūs rezultatai.

Testo rezultatai priklauso nuo tokių 5 pagrindinių faktorių [Ralston ir kt. 1995]:1) sintezuotos kalbos kokybė; 2) kalbos fragmentų dydis ir sudėtingumas; 3)klausytojo trumpalaikės atminties galimybės; 4) klausymosi ir kitų lygiagrečiaiatliekamų užduočių sudėtingumas; 5) klausytojo patirtis klausantis šio ar panašaussintezatoriaus sintezuotos kalbos.

Sintezuotos kalbos kokybė paprastai vertinama dviem parametrais ([Schmidt-Nielsen 1995], [Косарев 1989]): suprantamumu (angl. intelligibility) ir natūralumu(angl. acceptability). Testavimui naudojami auditoriai, kuriems pateikiami tam tikrisintezuotos kalbos fragmentai, ir jie turi tam tikru būdu reaguoti į tai, ką išgirdo.Egzistuoja ir fizikiniai kalbos signalo kokybės matai, pvz., artikuliacijos indeksas,kalbos perdavimo indeksas [Schmidt-Nielsen 1995]. Šių metodų privalumas yrapigumas, greitumas, rezultatų tikslumas. Nors kartais šie metodai gali būti naudingi,tačiau fizikinių metodų negalima traktuoti kaip testų su auditoriais pakaitalo.

Suprantamumo testas. Kalbos suprantamumas charakterizuoja klausytojosugebėjimą atpažinti atskirus garsus, žodžius ar kitokius kalbos signalo segmentus.Jokia aukštesnio lygio kontekstinė informacija nenaudojama. Suprantamumasnusakomas kaip teisingų atsakymų procentas tarp visų pateiktų pavyzdžių. Taigisuprantamumą galima įvertinti objektyviai.

Suprantamumo testai gali būti uždari (kai klausytojas turi pažymėti vieną iškelių pateiktų atsakymų) ir atviri (kai klausytojas turi užrašyti, ką išgirdo).

Uždarus testus lengviau įvertinti, testo rezultatus patogiau saugoti, įvertinimągali atlikti ir kompiuteris, skirtingu laiku ir skirtingose vietose atlikus eksperimentusgalima gauti pakankamai panašius rezultatus su nedideliais nuokrypiais. Egzistuojatikimybė, kad klausytojas atspės atsakymą, tačiau ją galima minimizuoti naudojantatsitiktinio kalbos fragmentų parinkimo bei atsakymų išdėstymo procedūras.

Atvirų testų privalumas yra tas, kad klausytojas gali nurodyti, ką iš tikrųjų girdi,o ne tai, ką testuotojas mano, kad klausytojas galėtų girdėti. Kitas privalumas, kadįverčiai paprastai būna žemesni ir labiau išsibarstę, nei naudojant uždarus testus. Taisvarbu aukštos kokybės sistemoms, kurių įverčiai artimi 100% ir tuomet sunkupastebėti kokybės pasikeitimus. Siekiant sumažinti rezultatų išsibarstymą gali būtipasitelkiama daugiau klausytojų. Be to, reikalingas didesnis testavimo pavyzdžiųskaičius, o jei atliekamas klausytojų apmokymas – ilgesnis apmokymo laikas(lyginant su uždarais testais). Dėl šių priežasčių sunku palyginti skirtingu laiku irskirtingose vietose atliktų testų rezultatus. Be to, testavimo rezultatus reikia tikrintirankiniu būdu.

Page 80: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

80

Natūralumo testas. Natūralumo testo metu nustatoma subjektyvi klausytojonuomonė apie sintezuotos kalbos skambėjimą. Nors natūralumas dažnai būna susijęssu suprantamumu, tačiau kai kuriais atvejais šie įverčiai gali skirtis. Pvz., kalba,primenanti verkšlenimą aukštu balsu, gali būti suprantama, tačiau nemaloniklausytojui, o triukšmo pašalinimas iš kalbos gali padaryti kalbą malonesnęklausytojui, tačiau ir mažiau suprantamą.

Natūralumui įvertinti dažniausiai naudojami du metodai: lyginimas poromis irįverčių skalė.

Naudojant pirmąjį metodą klausytojui pateikiama po du kalbos segmentus ir jisturi pasirinkti vieną priimtinesnį. Visos poros turi būti pateiktos dar kartą sukeituselementus vietomis.

Naudojant įverčių skalės metodą klausytojas turi išgirstiems kalbos segmentamspriskirti tam tikras žymes. Tai gali būti žodžiai (pvz., puikiai, gerai, patenkinamai,blogai, labai blogai), kurie vėliau pakeičiami į skaitines reikšmes, arba iš kartopriskiriamos skaitinės reikšmės.

Lyginimo poromis metodas neefektyvus (tiek klausytojų sugaišto laiko, tiektesto medžiagos generavimo prasme), jei reikia palyginti daug sintezės sistemų.

Naudojant įverčių skalės metodą (nors iš dalies ir lyginimo poromis metodą)rezultatai labai priklauso nuo klausytojų, nuo to, kaip jie buvo instruktuoti, ar naudojavisą skalę ir pan.

Kai klausytojui pateikiama sintezuota kalba, atpažinimui jis naudoja visusįmanomus šaltinius. Tai gali būti pačiame signale esanti akustinė-fonetinėinformacija, kontekstinė informacija, prozodinė informacija (pvz., intonacija), bendraspasaulio supratimas. Naudojant įvairius testus tam tikro tipo informacija gali būtisusilpninta, arba tam tikra informacija sustiprinta. Pvz., žodžių atpažinimą sakinyjepalengvina kontekstinė informacija, lyginant su atskirų žodžių atpažinimu, tačiauatskirai ištartuose žodžiuose yra tikslesnė akustinė informacija lyginant su atskiraisžodžiais, paimtais iš sakinio. Kai kontekste yra mažai informacijos (pvz., naudojantbeprasmius skiemenis), klausytojas turi remtis tik akustine informacija, o kuo daugiaukontekstinės informacijos, tuo mažiau klausytojui reikia akustinės informacijos.

Suprantamumui įvertinti gali būti naudojami įvairūs testai. Viena grupė testųskirta įvertinti atskirų garsų suprantamumą. Keletas testų anglų kalbai pavyzdžių[Schmidt-Nielsen 1995]:

DRT (Diagnostic Rhyme Test) – dviejų alternatyvų uždaras testas. Naudojamos96 vienskiemenių žodžių poros, kuriuose pradinė priebalsė skiriasi tik vienudiferenciniu požymiu (pvz., „moot” ir „boot”).

MRT (Modified Rhyme Test) – uždaras šešių alternatyvų testas, kuriamenaudojamos žodžių, kurie skiriasi pradine arba galutine priebalse, grupės (pvz., „rust”,„just”, „dust”, „must”, „gust”, „bust”).

Kita testų grupė – sakinių suprantamumo testai. Pavyzdžiui, anglų kalbainaudojami testai [Schmidt-Nielsen 1995]:

Harvard Sentences – sudarytas iš fonetiškai subalansuotų sakinių rinkinių.Sakiniai prasmingi, bet nėra lengvai nuspėjami. Rezultatai vertinami pagal tai, arteisingai užrašyti 5 raktiniai žodžiai.

Haskins Sentences – sudarytas iš gramatiškai teisingų, tačiau semantiškaineįmanomų sakinių. Vertinama pagal suprastus esminius žodžius. Sakiniai skirtiįvertinti suprantamumą remiantis gramatiniais apribojimais, tačiau nesinaudojantsemantiniais. Paprastai tai būna atviri testai.

Page 81: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

81

Testuose gali būti naudojami ir kitokie kalbos fragmentai (pvz.,daugiaskiemeniai žodžiai, pastraipos) ir vertinamos įvairios charakteristikos (pvz.,reakcijos laikas, trumpalaikė atmintis (kiek žodžių žmogus sugebėjo įsiminti), sakiniovisumos suvokimas).

Šiame darbe pagrindinis dėmesys buvo skirtas atskirų žodžių kirčiavimui(atvejai, kai nuo kirčio priklauso žodžio prasmė, šiame darbe nebuvo nagrinėjami) beižodžių transkribavimui, t.y. perrašymui į fonetinių vienetų seką, todėl įvertinantsintezuotą kalbą pagrindinis dėmesys buvo skirtas patikrinti, ar suprantamai skambapagal šiame darbe pateiktus algoritmus sugeneruoti atskiri žodžiai.

Atskirų garsų suprantamumas labiau priklauso nuo fonetinių vienetų bazės, osakinio suprantamumą įtakoja ir intonacija, sakinio kirtis, frazinė sakinio struktūra irkt., todėl atskirų garsų ar sakinių įvertinimui skirtas mažesnis dėmesys.

Sintezuotos kalbos įvertinimo eksperimentus padėjo atlikti VU Filosofijosfakulteto doc. Feliksas Laugalys. Buvo sudarytos trys grupės po 30 sakinių ir trysgrupės po 30 žodžių. Šie sakiniai ir žodžiai pateikti kompaktiniame diske katalogo„SintTestai” pakatalogyje „Tekstai” (failų pavadinimus žr. B priede esantįkompaktinio disko turinį). Minėti sakiniai ir žodžiai buvo: 1) perskaityti diktoriausJuozo Šalkausko, 2) sintezuoti naudojant šiame darbe aprašytą sintezatorių „Aistį”, 3)sintezuoti naudojant „Aistį”, tačiau nekirčiuojant žodžių, 4) naudojant DolphinSystems for People with Disabilities sintezatorių „Apollo II”. Šie dvylika įgarsintųsakinių ir žodžių variantų taip pat pateikti kompaktiniame diske. Kalbossuprantamumui įvertinti buvo pasitelkti klausytojai – 85 studentai nuo 20 iki 31 metų,kuriems ir buvo pateikiamos įvairios įgarsintų sakinių ir žodžių grupės. Klausytojaiturėjo užrašyti, ką išgirdo. Užrašai patikrinti rankiniu būdu. Atskiri žodžiai sukirstyti įnesuprastus, klaidingai suprastus ir teisingai suprastus. Visų keturių kalbos variantųįvertinimo naudojant tris žodžių grupes rezultatai pateikti 4.1 lentelėje kairėje.

4.1 lentelė. Diktoriaus ir sintezuotos kalbos suprantamumas.

Atskiri žodžiai Žodžiai sakinyje Sakiniai

Nes

upra

sta

Kla

idin

gai

supr

asta

Teis

inga

isu

pras

ta

Nes

upra

sta

Kla

idin

gai

supr

asta

Teis

inga

isu

pras

ta

Nes

upra

sta

Teis

inga

isu

pras

ta

Diktorius 0,1% 1,3% 98,5% 0,4% 0,3% 99,3% 1,9% 98,1%

Apollo II 24,1% 23,8% 52,1% 28,3% 5,6% 66,1% 56,6% 43,4%

Aistis 3,7% 8,2% 88,1% 4,2% 2,6% 93,2% 16,6% 83,4%

Aistis bekirčiavimo 10,5% 12,7 76,8% 16,9% 4,5% 78,6% 37,8% 62,2%

Taip pat įvertintas žodžių sakiniuose suprantamumas. Tam tikslui sakiniuosebuvo surasti daugiaskiemeniai reikšminiai žodžiai. Pavyzdžiui, sakinyje „Nuosprendisbuvo rūstus, bet teisingas.” tai žodžiai „nuosprendis”, „rūstus”, „teisingas”. Pirmoje30 sakinių grupėje tokių žodžių išskirta 127, antroje – 134, trečioje – 139. Reikšminiai

Page 82: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

82

žodžiai taip pat suskirstyti į nesuprastus, klaidingai suprastus ir teisingai suprastus.Rezultatai pateikti 4.1 lentelėje viduryje.

Be to, įvertintas sakinių suprantamumas. Sakiniai suskirstyti į nesuprastus irteisingai suprastus. Teisingai suprastais laikomi tokie sakiniai, kuriuose pilnaiišlaikyta sakinio mintis. Pavyzdžiui, jei vietoje sakinio „Krepšininkų varžybossutraukė daug žiūrovų.” klausytojas užrašė „Krepšinio varžybos sutraukė daugžiūrovų.”, toks sakinys laikomas teisingai suprastu, o jei vietoje sakinio „Klausyti irgirdėti nėra tas pats.” klausytojas užrašė „Klausyti ir girdėti yra tas pats.”, tai tokssakinys laikomas nesuprastu. Sakinių suprantamumo rezultatai pateikti 4.1 lentelėjedešinėje.

4.1. lentelėje pateiktus rezultatus įdomu panagrinėti tokiais aspektais: 1) kieksintezatorius „Aistis” atsilieka nuo diktoriaus; 2) kurio sintezatoriaus kalbasuprantamesnė: „Aisčio” ar „Apollo II”; 3) ar pasiektas pagerėjimas naudojant šiamedarbe aprašytus kirčiavimo algoritmus. Sukurtas sintezatorius atsilieka nuo diktoriaus(atskirų žodžių suprantamumas – 10,4%, žodžių sakinyje suprantamumas – 6,1%,sakinių suprantamumas – 14,7%), tačiau žymiai pranoksta sintezatorių „Apollo II”(atitinkamai 36,0%, 27,1%, 40,0%). Sintezatoriuje naudojant šiame darbe aprašytuskirčiavimo algoritmus gaunamas aiškus sintezuotos kalbos suprantamumopadidėjimas, lyginant su sinteze, kurioje nenaudojamas joks kirčiavimo algoritmas(atitinkamai 11,3%, 14,6%, 21,2%).

3. IV skyriaus išvados

Bene paprasčiausias, palyginti greitai realizuojamas ir duodantis gerąsintezuotos kalbos kokybę metodas yra konkatenacinis kalbos signalo formavimometodas.

Parenkant konkatenacinėje sintezėje naudojamus segmentus, jie būtinai turiapimti perėjimus tarp garsų. Segmentai neturi būti labai ilgi, nes tada reikalingas labaididelis fonetinių vienetų skaičius. Šiuos reikalavimus tenkina difonai, pusskiemeniai,trifonai.

Naudojant mišraus ilgio fonetinius vienetus, kurių ilgis svyruoja nuo dvigarsiųiki vieno alofono dalies, galima gauti labai mažą fonetinių vienetų bazę (iki 500fonetinių vienetų), kurią naudojant gaunama pakankamai kokybiška sintezuota kalba.

Išmetant stacionarias signalo segmentų dalis, galima padidinti sintezuotoskalbos tempą išlaikant balso aukštį ir labai nepabloginant jo kokybės.

Sujungus visus šiame darbe aprašytus algoritmus ir prof. A. Girdenio sukurtąfonetinių vienetų bazę į veikiantį sintezatorių buvo įvertintas sintezuotos kalbossuprantamumas. Sukurtas sintezatorius atsilieka nuo diktoriaus (atskirų žodžiųsuprantamumas – 10,4%, žodžių sakinyje suprantamumas – 6,1%, sakiniųsuprantamumas – 14,7%), tačiau žymiai pranoksta sintezatorių „Apollo II”(atitinkamai 36,0%, 27,1%, 40,0%). Sintezatoriuje naudojant šiame darbe aprašytuskirčiavimo algoritmus gaunamas aiškus sintezuotos kalbos suprantamumopadidėjimas, lyginant su sinteze, kurioje nenaudojamas joks kirčiavimo algoritmas(atitinkamai 11,3%, 14,6%, 21,2%).

Page 83: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

83

Išvados

1) Darbe pateiktas sukirčiuoto ir suskiemenuoto lietuvių kalbos tekstotranskribavimo naudojant formalias taisykles metodas leidžia beveik be klaidųtranskribuoti lietuvių kalbos tekstą. Klaidos gali atsirasti tik dėl kirčiavimo irskiemenavimo klaidų, o taip pat kai kuriuose tarptautiniuose žodžiuose. Taisykliųpavidalas nustatytas atsižvelgiant į lietuvių kalbos rašybą ir fonetiką. Taisyklesinterpretuojantis algoritmas nepriklauso nei nuo taisyklių rinkinio, nei nuo fonetiniųvienetų sąrašo.

2) Darbe pateikti lietuvių kalbos teksto automatinio kirčiavimo algoritmai beisudarytos žodžių dalių duomenų bazės leidžia pasiekti pakankamai aukštąpublicistikos ir grožinės literatūros tekstų kirčiavimo tikslumą: apie 82% žodžiųsukirčiuota teisingai, apie 15,5% nebuvo galima vienareikšmiškai sukirčiuotinagrinėjant atskirus žodžius, apie 2,4% nekirčiuota, nes nerasta žodyne, kirčiuotaklaidingai apie 0,1%. Be to, tenkinami reikalavimai minimizuoti klaidingaikirčiuojamų žodžių skaičių ir sudaryti galimybę įtraukti papildomą kontekstinęinformaciją.

3) Darbe pasiūlytas daiktavardžių ir būdvardžių kirčiavimo taisykliųautomatinio sudarymo algoritmas leido sumažinti kirčiavimui naudojamųdaiktavardžių ir būdvardžių kamienų žodyną 64,4%. Kirčiavimo taisyklių taikymasdavė panašius rezultatus, kaip ir naudojant pilnus kamienus (maždaug 0,9%padaugėjo teisingai kirčiuotų žodžių, 1,0% padaugėjo klaidingai kirčiuotų, atitinkamaisumažėjo nekirčiuotų). Papildžius daiktavardžių ir būdvardžių kamienų žodyną 65rankiniu būdu sudarytomis taisyklėmis pavyko teisingai sukirčiuotų žodžių skaičiųpadidinti apie 0,6% išlaikant tą patį 0,1% klaidingai kirčiuotų.

4) Sujungus visus šiame darbe aprašytus algoritmus ir prof. A. Girdenio sukurtąfonetinių vienetų bazę į veikiantį sintezatorių buvo įvertintas sintezuotos kalbossuprantamumas. Pasiektas atskirų žodžių suprantamumas 88,1%, žodžių sakinyjesuprantamumas 93,2%, sakinių suprantamumas 83,4%. Sukurtas sintezatoriusatsilieka nuo diktoriaus (atskirų žodžių suprantamumas – 10,4%, žodžių sakinyjesuprantamumas – 6,1%, sakinių suprantamumas – 14,7%), tačiau žymiai pranokstasintezatorių „Apollo II” (atitinkamai 36,0%, 27,1%, 40,0%). Sintezatoriuje naudojantšiame darbe aprašytus kirčiavimo algoritmus gaunamas aiškus sintezuotos kalbossuprantamumo padidėjimas lyginant su sinteze, kurioje nenaudojamas joks kirčiavimoalgoritmas (atitinkamai 11,3%, 14,6%, 21,2%).

Page 84: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

84

Literatūra

[Abrantes ir kt. 1991] Abrantes, A. J., J. S. Marques, I. M. Transcoso (1991). HybridSinusoidal Modeling of Speech without Voicing Decision. EUROSPEECH 91,pp. 231-234.

[Allen ir kt. 1987] Allen, J., S. Hunnicut, D. Klatt. (1987). From Text-to-Speech, TheMITTALK System, Cambridge University Pres.

[Ambrazas ir kt. 1996] Ambrazas, V. (red.), K. Garšva, A. Girdenis … [ir kt.] (1996).Dabartinės lietuvių kalbos gramatika. 2-asis patais. leid. Mokslo irenciklopedijų leidykla, Vilnius.

[Angelini ir kt. 1997] Angelini, B., C. Barolo, D. Falavigna, M. Omologo, S. Sandri(1997). Automatic Diphone Extraction for an Italian Text-to-Speech SynthesisSystem. Proc. EUROSPEECH 97. Vol. 2, pp. 581-584.

[Atal & Hanauer 1971] Atal, B. S., L. Hanauer (1971). Speech Analysis and Synthesisby Linear Prediction of the Speech Wave. J. Acoust. Soc. Am., 50, pp. 637-655.

[Auberge 1992] Auberge, V. (1992). Developing a structured lexicon for synthesis ofprosody. In G.Bailly, C. Benoit (Eds.), Talking Machines: Theories, Models,and Designs, Amsterdam, pp. 307-322.

[Bagdonas ir kt. 1996] Bagdonas, A., P. Kasparaitis, F. Laugalys (1996). DIGIBOOK:Digitized Speech Processing for Efficient Distribution of Texts. Studies on theEvaluation of the Quality of the Russian Speech Synthesiser and Creation ofLithuanian Speech Synthesiser. COPERNICUS 806, Final Report of VilniusPartner, Vilnius.

[Balestri ir kt. 1999] Balestri, M., A. Pacchiotti, S. Quazza, P. L. Salza (1999).Choose the Best to Modify the Least: A New Generation ConcatenativeSynthesis System. Proc. EUROSPEECH 99, Vol. 5, pp. 2291-2294.

[Barker & Longman 1992] Barker, R., C. Longman (1992). CASE Method: Functionand Process Modelling. Oracle, Wokingham.

[Barker 1994] Barker, R. (1994). CASE Method: Entity Relationship Modelling.Oracle, Wokingham.

[Benello ir kt. 1988] Benello, J., A. W. Mackie, J. A. Anderson, Syntactic categorydisambiguation with neural networks. Computer Speech and Language, No. 3,pp. 203-217.

[Bhaskararao 1994] Bhaskararao, P. (1994). Subphonemic Segment Inventories forConcatenative Speech Synthesis. In E. Keller (Ed.), Fundamentals of SpeechSynthesis and Speech Recognition: Basic Concepts, State of the Art and FutureChallenges, John Willey & Sons, Chichester, New York, Brisbane, Toronto,Singapore, 1994. pp. 63-86.

[Black & Taylor 1997] Black, A. W., P. Taylor (1997). Automatically ClusteringSimilar Units for Unit Selection in Speech Synthesis. Proc. EUROSPEECH 97.Vol. 2, pp. 601-604.

[Campbell 1990] Campbell, W. N. (1990). Analog I/O nets for syllable timing.Speech Communication: Special Issue on Neural Nets and Speech, 9, 57-61.

[Carlson & Granström 1986] Carlson, R., B. Granström (1986). A search fordurational rules in a real-speech data base. Phonetica, 43, 140-154.

[Cohen ir kt. 1982] Cohen, A., R. Collier, J. Hart (1982). Declination: Construct orintrinsic feature of speech pitch? Phonetica. 39, 254-273.

[Coker 1985] Coker, C. H. (1985), A Dictionary-Intensive Letter-to-Sound Program.J. Acoust. Soc. Am., Suppl. 1, No. 78, S7.

Page 85: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

85

[Dolphin Speech Synthesizer Series 2 User Guide]www.e-link.ch/square1/apollo2.html.

[Dutoit ir kt. 1996] Dutoit, T., V. Pagel, N. Pieret, O. Van der Vreken, F. Bataille(1996). The MBROLA Project: Towards a Set of High-Quality SpeechSynthesizers Free of Use for Non-Commercial Purposes, Proc. ICSLP 96, pp.1393 - 1396.

[Dutoit & Gosselin 1996] Dutoit, T, B. Gosselin (1996). On the use of a hybridharmonic/stochastic model for TTS synthesis by concatenation. SpeechCommunication, 19, pp. 119-143.

[Dutoit 1997] Dutoit, T. (1997). A Short Introduction to Text-to-Speech Synthesis.Kluwer Academic Publishers, Dortrecht.

[Edgington 1997] Edgington, M. (1997). Investigating the Limitations ofConcatenative Synthesis. Proc. EUROSPEECH 97. Vol. 2, pp. 593-596.

[El-Imam 1989] El-Imam, Y. A. (1989). An Unrestricted Vocabulary Arabic SpeechSynthesis System. IEEE Transactions on ASSP, 37:12, pp. 1829-45.

[Elovitz ir kt. 1976] Elovitz, H. S., R. Johnson, A. McHugh, J. E. Shore (1976).Letter-to-Sound Rules for Automatic Translation of English Text to Phonetics,IEEE Transactions on Accoustics, Speech and Signal Processing, Vol.ASSP-24,No.6, pp. 446-459.

[Girdenis 1995] Girdenis, A. (1995). Teoriniai fonologijos pagrindai. VilniausUniversitetas, Vilnius.

[Girdenis ir kt. 1996] Girdenis, A., P. Kasparaitis, A. Pečeliūnaitė, P. Skirmantas, V.Undzėnas (1996). Lietuvių kalbos bei jos tarmių prozodinių reiškinių ir fonemųalofonų analizė. Moksl. ataskaita. Lietuvos valst. mokslo ir studijų fondas,registr. Nr. 94–081/3 G–1994 01 06. VU BKK. Vilnius.

[Grabauskas ir kt. 1991] Grabauskas, V. (Redkol. pirm.) ir kiti (1991). Medicinosenciklopedija, T1,Valstybinė enciklopedijų leidykla, Vilnius.

[Haggard 1979] Haggard, M. (1979). Experience and Perspectives in ArticulatorySynthesis. In B. Lindblom, S. Ohman (Eds.), Frontiers of SpeechCommunication Research, Academic, London, pp. 259-274.

[Hirschberg 1991] Hirschberg, J. (1991). Using text analysis to predict intonationalboundaries. Proc EUROSPEECH 91, Genova, pp. 1275-1278.

[Holmes ir kt. 1964] Holmes, J. N., I. G. Mattingly, J. N. Shearme (1964). SpeechSynthesis by Rule. Language and Speech, 7(3), pp. 127-143.

[Holmes 1983] Holmes, J.N. (1983). Formant Synthesizers: Cascade or Parallel.Speech Communication, 2, pp. 251-273.

[Hunnicut 1980] Hunnicut, S. (1980). Grapheme-to-Phoneme rules: A review. RoyalInst. Tech., Stockholm, STL-QPR, 2-3, 38-60.

[Hunnicut 1995] Hunnicut, S. (1995). The Development of Text-To-SpeechTechnology For Use in Communication Aids. In A. Syrdal, R. Bennett, S.Greenspan (Eds.), Applied Speech Technology, CRC Press, Boca Raton, AnnArbor, London, Tokyo. pp. 547-564.

[Иванова & Трунин-Донской 1980] Иванова, Р. С., В. Н. Трунин-Донской(1980). Организация аллофонного компилятивного синтеза речи. АРСО-11.Ереван. С. 159-162.

[Yarowsky 1994] Yarowsky, D. (1994). Homograph Disambiguation in SpeechSynthesis. Procedings 2nd ESCA/IEEE Workshop on Speech Synthesis, NewPaltz.

[Kager & Quene 1989] Kager, R., H. Quene (1989), An algorithm for the assignmentof sentence accents for a Dutch text-to-speech system, In: H. Bennis and A. van

Page 86: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

86

Kemenade (Eds.), Linguistics in the Netherlands 1989, Dordrecht, Foris, 101-109.

[Keinys ir kt. 1993] Keinys, St. (red.), J. Klimavičius, J. Paulauskas, J. Pikčilingis, N.Sližienė, K. Ulvydas, V. Vitkauskas (1993). Dabartinės lietuvių kalbos žodynas.Mokslo ir enciklopedijų leidykla. Vilnius.

[Кейтер 1985] Кейтер, Дж. (1985). Компъютеры – синтезаторы речи. Москва.Мир.

[Kelly & Gerstman 1961] Kelly, J. L., L. J. Gerstman (1961). An Artificial TalkerDriven from Phonetic Input. J. Acoust. Soc. Am., 33, p. 835(A).

[Klatt 1980] Klatt, D. (1980). Software for a cascade/parallel formant synthesizer. J.Acoust. Soc. Am., 67, pp. 971-995.

[Klatt 1987] Klatt, D. (1987). Review of Text-to-Speech Conversion for English. J.Acoust. Soc. Am., 82(3), pp. 737-793.

[Косарев 1989] Косарев, Ю. А. (1989). Естественная форма диалога с ЭВМ.Ленинград. Машиностроение.

[Kupiec 1992] Kupiec, J. (1992). Robust part-of-speech tagging using a HiddenMarkov Model. Computer Speech and Language, No. 6, pp. 225-242.

[Kvietkauskas ir kt. 1985] Kvietkauskas, V. (Red.), A. Kinderys, V. Viluveitas(1985). Tarptautinių žodžių žodynas. Vyriausioji enciklopedijų redakcija.Vilnius.

[Larreur ir kt. 1989] Larreur, D., F. Emerard, F. Marty (1989). Linguistic andprosodic processing for a text-to-speech synthesis system. Proc. EUROSPEECH89, Paris, pp. 510-513.

[Lemmetty 1999] Lemmetty, S. (1999). Review of Speech Synthesis Technology.MSc. Thesis. Laboratory of Acoustics and Audio Signal, Helsinki TechnicalUniversity. www.acoustics.hut.fi/~slemmett/dippa/chap9.html.

[Lewis & Tatham 1999] Lewis, E, M. Tatham (1999). Word and SyllableConcatenation in Text-to-Speech Synthesis. Proc EUROSPEECH 99, Vol. 2,pp. 615-618.

[Liberman ir kt. 1959] Liberman, A. M., F. Ingeman, L. Lisker, P. Delattre, F. S.Cooper (1959). Minimal Rules for Synthesising Speech. J. Acoust. Soc. Am., 31,pp. 1490-1499.

[Liberman & Сhurch 1992] Liberman, M. J., K. W. Сhurch (1992). Text Analysis andWord Pronunciation in Text-to-Speech Synthesis. In S. Furuy, M. M. Sondhi(Eds.), Advances in Speech Signal Processing, Dekker, New York, pp. 791-831.

[Makhoul 1975] Makhoul, J. (1975). Linear Prediction: A Tutorial Review. Proc. ofIEEE, 63(4), pp. 561-580.

[Malfrere ir kt. 1998] Malfrere, F., O. Deroo, T. Dutoit (1998). Phonetic Alignement:Speech Synthesis Based Vs. Hybrid HMM/ANN. Proc. InternationalConference on Speech and Language Processing, Sidney, pp. 1571-1574.

[Маркел & Грей 1980] Маркел, Дж. Д., А. Х. Грей (1980). Линейноепредсказание речи. Москва. Связь.

[Monaghan 1989] Monaghan, A. I. C. (1989), Evaluating intonation in the CSTR text-to-speech system, Proc. ESCA Workshop on Speech I/O assessment and speechdatabases, Noordwijkerhout, 3.6.1-3.6.4.

[Moulines & Charpentier 1989] Moulines, E., F. Charpentier (1989). Pitch-Synchronous Waveform Processing Techniques for Text-To-Speech SynthesisUsing Diphones. Proc. EUROSPEECH 89, (2), pp. 13-19.

[Mumolo 1998] Mumolo, E., W. Costanzo (1998). A Fuzzy Approach to Text-to-Speech Synthesis. EUSIPCO 98, Rhodes, Greece, Vol. 2, pp. 1165-1168.

Page 87: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

87

[Nebbia 1990] Nebbia, L., (1990). Text-to-speech synthesis system for Italian: anoverview. CSELT Technical reports, Vol. XVIII, No. 2, pp. 77-81.

[Ocker 1971] Ocker, W. A. (1971). A Program to Hyphenate English Words. IEEETransactions on Engineering Writing and Speech, Vol. EWS-14, No. 2, pp. 53-59.

[O’Shaughnessy 1995] O’Shaughnessy, D. (1995). Speech Technology. In A. Syrdal,R. Bennett, S. Greenspan (Eds.), Applied Speech Technology, CRC Press, BocaRaton, Ann Arbor, London, Tokyo. pp. 47-98.

[Pakerys 1991] Pakerys, A. (1991). Tarptautinių žodžių kirčiavimas. Šviesa, Kaunas.[Park ir kt. 1998] Park, H. J., S. H. Kim, M. S. Han, J. H. Chung (1998). A Method to

Choose an Appropriate Concatenation Position for Automatically GeneratedSynthesis Unites. EUSIPCO 98, Rhodes, Greece, Vol. 2, pp. 1169-1172.

[Paulus 1998] Paulus, E. (1998). Sprachsignalverarbeitung: Analyse, Erkennung,Synthese, Spektrum Akademischer Verlag, Heidelberg.

[Pfister & Traber 1994] Pfister, B., C. Traber (1994). Text-to-Speech Synthesis: AnIntroduction and A Case Study. In E. Keller (Ed.), Fundamentals of SpeechSynthesis and Speech Recognition: Basic Concepts, State of the Art and FutureChallenges, John Willey & Sons, Chichester, New York, Brisbane, Toronto,Singapore, 1994. pp. 87-108.

[Rahim 1994] Rahim, M. G. (1994). Artificial Neural Networks for SpeechAnalysis/Synthesis. Chapman & Hall, London, Glasgow, Weinheim, New York,Tokyo, Melbourne, Madras, 1994.

[Ralston ir kt. 1995] Ralston, J. V., D. B. Pisoni, J. W. Mullenix (1995). Perceptionand Comprehension of Speech. In A. Syrdal, R. Bennett, S. Greenspan (Eds.),Applied Speech Technology, CRC Press, Boca Raton, Ann Arbor, London,Tokyo. pp. 233-288.

[Schmandt 1995] Schmandt, Ch. (1995). Voiced Mail: Speech Synthesis of ElectronicMail. In A. Syrdal, R. Bennett, S. Greenspan (Eds.), Applied SpeechTechnology, CRC Press, Boca Raton, Ann Arbor, London, Tokyo. pp. 389-402.

[Schmidt-Nielsen 1995] Schmidt-Nielsen, A. (1995). Intelligibility and AcceptabilityTesting for Speech Technology. In A. Syrdal, R. Bennett, S. Greenspan (Eds.),Applied Speech Technology, CRC Press, Boca Raton, Ann Arbor, London,Tokyo. pp. 195-232.

[Sejnowski & Rosenberg 1987] Sejnowski, T., C. R. Rosenberg (1987). ParallelNetworks that Learn to Pronounce English Text. Complex Systems, 1, pp. 145-168.

[Syrdal 1995] Syrdal, A. K. (1995). Text-to-Speech Systems. In A. Syrdal, R.Bennett, S. Greenspan (Eds.), Applied Speech Technology, CRC Press, BocaRaton, Ann Arbor, London, Tokyo. pp. 99-126.

[Sproat ir kt. 1992] Sproat, R., J. Hirshberg, D. Yarowsky (1992). A Corpus basedSynthesizer. Proc. ICSLP 92, Alberta, pp. 563-566.

[Styger & Keller 1994] Styger, T., E. Keller (1994). Formant Synthesis. In E. Keller(Ed.), Fundamentals of Speech Synthesis and Speech Recognition: BasicConcepts, State of the Art and Future Challenges, John Willey & Sons,Chichester, New York, Brisbane, Toronto, Singapore, 1994. pp. 109-128.

[Stöber ir kt. 1999] Stöber, K., T. Portele, P. Wagner, W. Hess (1999). Synthesis byWord Concatenation. Proc. EUROSPEECH 99, Vol. 2, pp. 619-622.

[Šef ir kt. 1998] Šef, T., A. Dobnikar, M. Gams (1998). Text-to-Speech Synthesis inSlovenian Language. EUSIPCO 98, Rhodes, Greece, Vol. 2, pp. 1157-1160.

Page 88: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

88

[Ulvydas ir kt. 1965] Ulvydas, K. (Red.) ir kiti. (1965). Lietuvių kalbos gramatika.T.1., Mintis, Vilnius.

[Vaitkevičiūtė 1997] Vaitkevičiūtė, V. (1997). Bendrinės lietuvių kalbos kirčiavimas.Šviesa. Kaunas.

[Werner & Keller 1994] Werner, S., E. Keller (1994). Prosodic Aspects of Speech. InE. Keller (Ed.), Fundamentals of Speech Synthesis and Speech Recognition:Basic Concepts, State of the Art and Future Challenges, John Willey & Sons,Chichester, New York, Brisbane, Toronto, Singapore, 1994. pp. 23-40.

[Zellner 1994] Zellner, B. (1994). Pauses and the Temporal Structure of Speech. In E.Keller (Ed.), Fundamentals of Speech Synthesis and Speech Recognition: BasicConcepts, State of the Art and Future Challenges, John Willey & Sons,Chichester, New York, Brisbane, Toronto, Singapore, 1994. pp. 41-62.

Publikacijos

Kasparaitis, P. (1999). Transcribing of the Lithuanian Text Using Formal Rules.Informatica, 10(4), 367-376.

Kasparaitis, P. (2000). Automatic Stressing of the Lithuanian Text on the Basis of aDictionary. Informatica, 11(1), 19-40.

Kasparaitis, P. (2001). Automatic Stressing of the Lithuanian Nouns and Adjectiveson the Basis of Rules. Informatica, (priimtas spaudai).

Kasparaitis, P. A. Bagdonas, F. Laugalys (1996). DIGIBOOK: Digitized SpeechProcessing for Efficient Distribution of Texts. Studies on the Evaluation of theQuality of the Russian Speech Synthesiser and Creation of Lithuanian SpeechSynthesiser. COPERNICUS 806, Final Report of Vilnius Partner, Vilnius.

Page 89: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

89

Priedai

A. Terminų žodynėlis

Alofonas – nuo konteksto priklausantis fonemos variantas.Artikuliacija – kalbėjimo padargų veikla tariant tam tikrą garsą.Asimiliacija – arti vienas kito esančių garsų artikuliacijos supanašėjimas, dėl kurio

vienas garsas pavirsta kitu (/b/ į /p/).Asmenavimas – veiksmažodžio kaitymas asmenimis, skaičiais, laikais ir nuosakomis.Asmenuotė – vienodas kaitymo formas turinčių veiksmažodžių grupė.Atskaita – tam tikru laiko momentu išmatuota kalbos signalo energija.Balsė – raidė „a”, „ą”, „e”, „ę”, „ė”, „i”, „y”, „į”, „o”, „u”, „ū” arba „ų”.Balsis – kalbos garsas, pagrinde sudarytas iš balso tono.Būdvardis - kalbos dalis, reiškianti ypatybę. Turi giminę, skaičių, linksnį, laipsnį.Daiktavardis -kalbos dalis, žyminti daiktus ir reiškinius. Turi giminę, skaičių,

linksnį.Difonas – kalbos signalo segmentas nuo vienos fonemos vidurio iki kitos fonemos

vidurio.Duomenų srautų diagrama - kompiuterinių sistemų modeliavimo technologija,

skirta procesams modeliuoti.Duslus – tariamas nevirpant balso stygoms.Dvibalsis – tam tikras dviejų balsių derinys.Esybių ryšių diagrama - kompiuterinių sistemų modeliavimo technologija, skirta

informacijai modeliuoti.Fonema – pagrindinis garsinis kalbos vienetas.Fonetinis vienetas – kalbos signalo segmentas. Iš jų sudaroma sintezuota kalba.Formantė – kalbos signalo spektre išsiskirianti dažnių juosta.Formantinė sintezė – sintezės metodas, pagrįstas formantinių dažnių atstatymu.Frazė – intonaciškai ir reikšmiškai išbaigtas žodžių junginys.Frikatyvinis priebalsis – pučiamasis priebalsis, kurį tariant oras veržiasi siaura anga

tarp suartintų kalbos padargų („s”, „z”, „ch”, „f”).Funkcijų hierarchija – kompiuterinių sistemų modeliavimo technologija, skirta

funkcijoms modeliuoti.Galūnė – kintamoji žodžio dalis, kurios pagrindinė funkcija – žymėti įvairias

gramatines žodžio reikšmes (giminės, skaičiaus, linksnio, asmens).Intensyvumas – kalbos signalo amplitudė (garsumas).Intonacija – pagrindinio tono kitimas, leidžiantis išskirti atskirus žodžius ar frazes.Kalbėjimo padargai – žmogaus organai, naudojami kalbos garsams generuoti.Kamienas – žodžio dalis be galūnės.Kamieno pabaiga – viena ar daugiau raidžių žodžio kamieno pabaigoje.Kamieno tipas - daiktavardžių ar būdvardžių klasė, charakterizuojama galūnių,

kurias galima pridėti linksniuojant, rinkiniu.Kirčiuotė – daiktavardžių ir būdvardžių klasė, turinti bendrus kirčio šokinėjimo iš

kamieno į galūnę linksniuojant požymius.Kirtis – vieno skiemens išskyrimas iš kitų.Koartikuliacija – greta esančių fonemų poveikis viena kitai.Konkatenacija – jungimas į seką.Linksniavimas – žodžio kaitymas skaičiais ir linksniais.Linksniuotė – vienodas kaitymo formas turinčių linksniuojamų žodžių grupė.

Page 90: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

90

Lygiagretus jungimas - jungimo būdas, kai kartu sujungiami visų elementų įėjimai irvisų elementų išėjimai.

Mišrusis dvigarsis - tam tikras balsio ir priebalsio derinys.Morfema – mažiausia reikšminė žodžio dalis.Morfologija – kalbotyros sritis, tirianti žodžių struktūrą, jų formas ir tomis formomis

žymimas gramatines reikšmes.Natūralumas (sintezuotos kalbos) – dydis, nusakantis subjektyvų žmogaus požiūrį į

sintezuotos kalbos priimtinumą.Nosinis priebalsis – priebalsis, kurį tariant naudojama nosis.Nuoseklus jungimas – jungimo būdas, kai vieno elemento išėjimas jungiamas su kito

įėjimu.Pagrindinis tonas – vyraujantis garso šaltinio sukuriamas dažnis.Priebalsė – raidė – ne balsė.Priebalsis – kalbos garsas, priklausantis sprogstamiesiems, frikatyviniams, nosiniams

arba pusbalsiams.Priegaidė – skiemens požymis, diferencijuojantis kitais atžvilgiais vienodus

skiemenis.Priesaga – po šaknies (tiesiog ar po kitos priesagos) einanti žodžio dalis, nelaikoma

galūnės dalimi. Skiriamos darybos ir kaitybos priesagos.Priešdėlis – žodžio dalis, einanti prieš savarankiškų žodžių šaknį.Prozodinis elementas – elementas, susijęs su kalbos segmentu, didesniu nei viena

fonema.Raidžių grandinėlė – kamieno dalis, likusi atmetus kamieno pabaigą.Rezonatorius – įrenginys, sustiprinantis (išskiriantis) tam tikrus dažnius, lyginant su

kitais.Sakinys – iš žodžių sudarytas ir gramatikos dėsnių sąlygotas kalbos vienetas.Semantika – kalbotyros sritis, nagrinėjanti žodžių reikšmes.Sintaksė – žodžių (ir jų formų) jungimo į žodžių junginius ir sakinius, o taip pat

sakinių jungimo į sudėtinius sakinius, būdai.Sintezatorius – įrenginys, generuojantis žmogaus balsą imituojantį garsą.Skardus – tariamas naudojant balso stygas.Skiemuo – 1) mažiausias kalbėjimo vienetas, 2) balsė arba balsių grupė su prie jos

prisišliejusiomis priebalsėmis.Spektras – signalo energijos pasiskirstymas pagal dažnį.Sprogstamasis priebalsis – priebalsis, charakterizuojamas ilga pauze ir po jos

einančiu staigiu amplitudės šuoliu.Suprantamumas (sintezuotos kalbos) – dydis, objektyviai nusakantis žmogaus

sugebėjimą atpažinti tam tikrą dalį (procentais) jam pateiktų sintezuotos kalbosfragmentų.

Transkribavimas – raidžių sekos keitimas fonetinių vienetų seka.Trigarsis – kalbos signalo segmentas, apimantis vieną fonemą ir perėjimus tarp

fonemų iš kairės ir dešinės.Veiksmažodis – kalbos dalis, reiškianti veiksmą arba būseną. Turi laiką, nuosaką,

rūšį, veikslą (eigos, įvykio), asmenį.Žodis – 1) svarbiausias kalbos suvokimo vienetas, 2) raidžių seka tarp dviejų ne

raidžių.

Page 91: LIETUVIŲ KALBOS KOMPIUTERINĖ SINTEZĖ - klevas.mif.vu.ltpijus/publikacijos/KaspDis.pdf · Problema ta, kad kiekviena kalba yra unikali, t.y. turinti savitą žodyną, sakinio struktūrą,

91

B. Kompaktinio disko turinys

Katalogo irpakatalogiųpavadinimai

Failo pavadinimas Aprašymas

SintTestaiTekstai

Aistis

Apollo

Diktor

AistNek

R1.txt, R2.txt, R3.txtZ1.txt, Z2.txt, Z3.txtS1.txt, S2.txt, S3.txt

R1.wav, R2.wav, R3.wavZ1.wav, Z2.wav, Z3.wavS1.wav, S2.wav, S3.wav

R1a.wav, R2a.wav, R3a.wavZ1a.wav, Z2a.wav, Z3a.wavS1a.wav, S2a.wav, S3a.wav

R1d.wav, R2d.wav, R3d.wavZ1d.wav, Z2d.wav, Z3d.wavS1d.wav, S2d.wav, S3d.wav

R1nek.wav, R2nek.wav, R3nek.wavZ1nek.wav, Z2nek.wav, Z3nek.wavS1nek.wav, S2nek.wav, S3nek.wav

Sintezuotos kalbos įvertinimo testuosenaudojamos raidės, žodžiai ir sakiniai.

Autoriaus sukurto sintezatoriaus sintezuotosraidės, žodžiai ir sakiniai.

Sintezatoriaus Apollo II sintezuotos raidės,žodžiai ir sakiniai.

Diktoriaus Juozo Šalkausko perskaitytosraidės, žodžiai ir sakiniai.

Autoriaus sukurto sintezatoriaus bekirčiavimo sintezuotos raidės, žodžiai irsakiniai.

Kirc Gl.txtGlkirc.txt

Pb.txtPbkirc.txt

Grožinės literatūros teksto pavyzdys.Grožinės literatūros teksto žodžių kirčiavimovariantai ir kirčiavimo rezultatai.Publicistikos teksto pavyzdys.Publicistikos teksto žodžių kirčiavimovariantai ir kirčiavimo rezultatai.

SintKalba Gl.txtGl.wavGlgr.wav

Glnek.wav

Pb.txtPb.wavPbgr.wav

Pbnek.wav

Grožinės literatūros teksto pavyzdys.Sintezuotas grožinės literatūros fragmentas.Skirtingu tempu sintezuotas grožinėsliteratūros fragmentas.Be kirčiavimo sintezuotas grožinės literatūrosfragmentas.Publicistikos teksto pavyzdys.Sintezuotas publicistikos fragmentas.Skirtingu tempu sintezuotas publicistikosfragmentas.Be kirčiavimo sintezuotas publicistikosfragmentas.

FvSar FvSar.rtf Fonetinių vienetų sąrašas kartu su žodžių,kuriuos sintezuojant naudojami atitinkamifonetiniai vienetai, pavyzdžiais bei fonetiniųvienetų pavadinimų paaiškinimai.

TrTais TrTais.cpp Transkribavimo taisyklių, užrašytųprogramavimo kalbos C++ struktūra,rinkinys bei taisyklių kodavimo paaiškinimai.