21

27
III Racionalna primjena (1975-1988)

description

21

Transcript of 21

Page 1: 21

III Racionalna primjena

(1975-1988)

Page 2: 21

III Racionalna primjena (1975-1988)

Sustavi koji koriste teoriju pojmovne zavisnosti (eng. conceptual dependency theory ) - prikazuju riječi u osnovnim semantičkim jedinicama (eng. semantic primitives)

letjeti : kretati se – krilima

hodati : kretati se – nogama

Začetnik ideje: Yorick Wilks (1968) - riječi prikazuje kao osnovne značenjske jedinice i na tome

izradio program za strojno prevođenje- teorija razvijena kako bi se izbjegla sintaktička analiza i parsiranje

Ulazna rečenica pretvara se u semantički osnovne jedinice – semantičke primitive

- podaci su tako izravno dohvatljivi, a pravila o kombiniranju riječi nalaze se u leksikonu

- neovisni o vrsti jezika, tj. zajedničke svim jezicima - na taj način stvoren je međukod

Page 3: 21

Nešto dalje u ovom području: Roger Schank (1969) - razvio teoriju pojmovne zavisnosti, gdje su osnovni elementi prikaza pojmovi

Ukoliko riječ ima više značenja prikazuju se samo ona najvjerojatnija, za razliku od prethodno navedenog Wilksovog sistema.

Pr. ako se nešto vidi, čuje ili pročita, prikazuje se kao mentalnu radnja MTRANS za prijenos informacija

Ovakav način prikaza predstavlja znatnu uštedu memorije i povećava brzinu rada, ali ne rješava problem višeznačnosti i pozadinskog znanja u jeziku.

Page 4: 21

Osnovno pitanje koje se tiče svih formalizama za prikaz znanja jest vokabular formalizma

Osnovne semantičke jedinice (semantički primitivi) prikazani su u leksikonu – naglasak na prikazu semantike

U leksikonu se također nalaze pravila kombiniranja riječi (izbjegnuta sintaksa)

Page 5: 21

MTS - Machine Translation System

1968.Yorick Wilks

Page 6: 21

– prevodi manje paragrafe sa engleskog na francuski

– ideja međukoda: rečenice iz engleskog pretvara u internu prezentaciju (međukod koji se sastoji od osnovnih semantičkih jedinica) od čega se generira prijevod na francuskom - ideja semantičkih primitiva

– Podaci o kombiniranju riječi nalaze se u leksikonu

– Prikaz u leksikonu za jedinicu razbiti:

(BREAK: (*HUM SUBJ) (*PHYSOB OBJE)

((((NOTWHOLE KIND) BE) CAUSE) GOAL)

(THING INST) (STRIK)

Opis pravila: eng. break – razbiti, slomiti znači razbijanje (STRIKing) koje izvršava živo biće (HUMan SUBJect) pomoću INSTrumenta koji je stvar (THING) s ciljem (GOAL) da se izazove (of CAUSing) da fizički objekt (PHYSical Object) ne bude cjelina (to be NOTWHOLE).

– izbjegnuta sintaktička analiza i parsiranje; naglasak na semantici

Page 7: 21

Wilks koristi oko 80 osnovnih semantičkih jedinica

Entiteti MAN čovjekSTUFF stvarPART dio entiteta

Akcije CAUSE razlogBE ekvivalentno FLOW kretanje tekućine

Padeži TO prema nečemuIN sadržina

Kvalifikatori GOOD moralno ispravanMUCH količinski mnogo

Tip indikatora HOW tip akcije – za priložne konstrukcijeKIND za kvalitetu – pridjevske konstrukcije

Page 8: 21

1968.Yorick Wilks - MTS

Problem višeznačnosti: ako riječ ima više značenja, opisuju se sva moguća značenja (radi

razlikovanja od ostalih riječi) piće – tekući objekt, subjekt živo biće - prikazano pravilima

zaključivanja koja su odvojena od rječnika i služe kao posljednji mehanizam za razbijanje višeznačnosti (uključuju vino, gorivo)

nedostatak: ne razlikuje čekić, malj, bat, sjekira tekst se pretvara u niz sličnih formula koje se uređuju kao trojke (agent,

akcija, objekt) ili eng. templates

Wilks postavlja razliku između definicije riječi koja izražava činjenice (npr. voda je tekuća tvar) ali ne i činjenicu da se može smrznuti u led, što se se prikazuje pravilima zaključivanja koja su odvojena od rječnika i služe kao posljednji mehanizam za razbijanje višeznačnosti.

Page 9: 21

MARGIE Meaning Analysis, Response Generation

and Inference on English

1975. Roger Schank

Page 10: 21

Wilksov sustav – usmjeren na prevođenje Schank ima šire težnje: prevođenje, prepričavanje, izvođenje zaključaka,

odgovaranje radnje se žele prikazati primjenom pojmova 11 osnovnih radnji (eng. acts): činjenica da se vidi, čuje,

pročita (MTRANS), fizički prijenos ATRANS ne rješava višeznačnost i pozadinsko znanje u jeziku nego

prikazuje samo najvjerojatnija značenja; različite rečenice istog pojmovnog sadržaja moraju

imati isti prikaz (Želim knjigu; Želim posjedovati knjigu; Želim imati knjigu) - osnovni princip ove teorije

reakcija na padežnu gramatiku N. Chomskog

Page 11: 21

Schank tvrdi da se prikaz prirodnog jezika može postići pojmovnom strukturom (eng. conceptual structure)

teorija pojmovne zavisnosti (Conceptual Dependency Theory) - osnovni elementi nisu riječi nego pojmovi (en. concepts)

dakle, temelj jezika čine pojmovi, koji su opisani u međujeziku Međujezik se sastoji od:

pojmova i odnosa (akcije) među pojmovima koji su zajednički jezicima

temelj čini jezik koji je pojmovnog tipa (eng. conceptual language)

pojmovna razina se opisuje u međukodu (interlingua), dok je rečenična razina specifična za jezik (eng. language specific)

prirodni jezik je predvidljiv, tj. temelji se na očekivanjima, zahvaljujući sintaksi i semantici pojmovne razine

za ovakav način obrade jezika, sintaksa je samo pokazivač na pojmovno značenje, te se koristi istovremeno sa pojmovnom obradom

1975. Roger Schank – program MARGIE

Page 12: 21

Conceptual Dependency (CD) Theory- Roger C. Schank (1972) (Conceptual Depandency: Theory of NLU// Cognitive Psychology, (3)4, 532-631)

dakle, temelj jezika čine pojmovi, koji su opisani u međujeziku. Međujezik se sastoji od pojmova i odnosa među pojmovima koji su zajednički jezicima.

Osnovne kategorije:

a) Pojmovi (imenice)

b) Akcije

a) Akcija se razlama u primitivne aktove ACTS i akcija ne odgovara glagolima

b) postoji rječnik aktova (eng. ACTs) kojima se opisuje svaki glagol i time određuje njegovo značenje

• Akciju čini niz aktova (1 glagol se može prikazati pomoću nekoliko aktova)

Page 13: 21

– 11 osnovnih radnji (eng. ACTs)

Fizičke radnjePROPEL primjeniti silu na fizički objektMOVE pokretati dio tijelaINGEST unijeti u tijelo živog bićaEXPEL silom izbaciti iz živog bićaGRASP zgrabiti fizički objekt

Radnje nastale promjenom stanjaPTRANS promjena lokacije fizičkog objektaATRANS promjena apstraktnih odnosa, npr. vlasništva

Radnje koje se koriste kao instrument za druge radnjeSPEAK proizvoditi zvuk govoromATTEND usmjeren na organ osjeta

Mentalne radnjeMTRANS transfer informacijaMBUILD kontrukcija nove informacije na temelju starih

1975. Roger Schank – program MARGIE

Page 14: 21

• svaki glagol zahtijeva niz pojmovnih padeža (eng. OBJECTIVE, RECIPIENT, DIRECTIVE, INSTRUMENTAL). Neophodni padeži čine očekivanja (ideja o predvidivosti jezika)

• Padežni odnosi čine temelj Schankove teorije.

• u rečenici Ivica je razbio prozor ili Prozor je razbijen od Ivice – glagol razbiti se opisuje osnovnim semantičkim jedinicama (aktovima) - (Ivica je vršilac radnje, prozor je objekt)

• Akciju čini niz aktova; glagol razbiti (Ivica je vršilac radnje, prozor je objekt)

• Sintaksa se opisuje nizom pravila, semantika se određuje na pojmovnoj razini

Page 15: 21

Ivica je dao knjigu Marici Marica je dobila knjigu od Ivice.

EVENT1 EVENT1 ACTOR: Ivica ACTOR: Marica

ACTION: ATRANS ACTION: ATRANSOBJECT: knjiga OBJECT: knjigaDIRECTION: DIRECTION:

FROM: Ivica FROM: IvicaTO: Marica TO:

Marica

Page 16: 21

Teorija pojmovne zavisnosti izbjegava sintaktičku obradu, ali se ona ipak nadoknađuje u leksikonu koji pohranjuje više informacija o svakoj riječi

Nedostatak: glagoli kao dati, kupiti, ukrasti opisuju se istim osnovnim semantičkim jedinicama (ATRANS)

CD teorija pogodna za opis jednostavnih akcija, naredbi, jednostavnih pitanja

Uklopljena u sisteme za obradu govora

Pravila određuju način kombiniranja radnji u prikaz značenja

2 osnovne vrste kombiniranja (konceptualizacije):

– živo biće kao vršitelj radnje

– objekt s opisom stanja

Konceptualizacije se mogu međusobno povezati odnosima instrumentalnosti, uzroka itd.

I za Wilksa i za Schanka osnovne jedinice imaju isključivo funkcionalnu ulogu

Zaključak:

Page 17: 21
Page 18: 21

III Racionalna primjena (1975-1988)

– za dobar prijevod potrebno osigurati razumijevanje ulaznog teksta

– Pomak na semantiku

– potrebno znanje o svijetu: rječnik + univerzalna enciklopedija

– Strategija međukoda

– Izlazak iz laboratorija u poduzeća i urede

– PC programi

Page 19: 21

Podjela MT sustava prema cilju (znanstveni ili praktični) (Tucker, A. u S. Nirenburg: Machine translation, p. 29-41 )

A. Operativni – mjere se troškom na 1.000 riječi i brzinom prevođenja po stranici na sat kojom radi post-urednik naprama relativni trošak i brzina ljudskog prevođenja. Georgetown i sljedbenici Taum-meteo Metal Systran Logos

B. Eksperimentalni–temeljeni na lingvističkim teorijama i UI, a ne na proizvodnji; ne vrijede kriteriji troškova i rokova; provode seznanstveni i praktični jezični eksperimenti Eurotra Japanski projekti: Fujitsu, Hitachi Susy DLT

Page 20: 21

Primjena

•Systran

– Ford, General Motors, Aerospatiale, Berlitz, US Air Force, National Air

Intelligence Center, Foreign Broadcasting Information Service, Xerox, European Commission

• Logos

– Ericsson, Lexi-Tech, Osram, Océ Technologies, SAP

• METAL

– Boehringer Ingelheim, Philips, Union Bank of Switzerland, SAP

Page 21: 21

Georgetown

– prvi operativni MT sustav prve generacije (1960-63)– Rusko-engleski– 250 riječi, 6 pravila, 49 rečenica – ali veliki interes Instaliran u Euratom (Ispra, Italy), 1963-76 Instaliran u US Atomic Energy Authority, Oakridge National

Laboratory, 1964-80 [ran until 1980] direktno prevođenje– primjena od 1964. za rusko-englesko prevođenje– Zamjena riječi– Bez lingvističke teorije

– ”The spirit is willing, but the flesh is weak” translated to Russian and then back to English. The result: ”The wine is agreeable, but the meat has spoiled”

I Operativni programi

Page 22: 21

Metal , započeo 1961.

– prevodi s njemačkog na engleski u području telekomunikacija (financira Siemens Corporation); kasnije dodani španjolski i kineski

– metoda transfera– Koristi 10.000 kanoničkih parova riječi u rječnicima koji povezuju

stemove– Gramatika (Phrase Structure Grammar) koristi 600 pravila;

nekoliko parsera– kontekstualna ograničenja uvjetuju sintaktičku i semantičku veću

određenost.– Do 1985. prevedeno se preko 1.000 stranica s njemačkog na

engleski. Kvaliteta varira od 45% do 85% u proteklih 5 godina. – Prevodi se kontekstualno i to cijele knjige

Operativni programi

Page 23: 21

METEO (od 1976. u kanadskoj vladi)

– meteorološki izvještaji eng-fr, fr-eng– Potpuno automatiziran postupak (razlog: prevoditelji nakon 6 mjeseci

daju ostavke) – dnevno obradi cca 80 000 riječi– Razlog: prevoditelji daju ostavke– 1.500 riječi; do 94% točnosti– 5 vrsta stabala

1. jedna riječ 2. stereotipni naslovi (ime, datum, dan)3. rečenica tipa: prilog – prilog – vrijeme (Uglavnom sunčano – s

umjerenim vjetrovima – danas)4. rečenica tipa: imenica – min i max temperaturu - vrijeme

(Temperatura – 15 do 18 stupnjeva – sutra)5. rečenica tipa: imenska skupina – prilog – dodaci (Prognoza za

petak – sunčano – s umjerenim vjetrovima)

Operativni programi

Page 24: 21

II. Eksperimentalni programi

Page 25: 21

Eurotra http://www-sk.let.uu.nl/stt/eurotra.html

– program za razvoj višejezičnog MT sustava za 9 jezika EEZ-a

– leksikoni od 200.000 riječi po jeziku– Sustav ima 7x6=42 transfer modula – jezici mogu koristiti nezavisne parsere

(ATN, gramatika fraznih struktura itd.).

II Eksperimentalni programi

Page 26: 21

Susy (1984)

– izveden iz rusko-njemačkog prototipa iz 1970. god. – višejezične mogućnosti (njemački, ruski, francuski, engleski, esperanto)– više istraživanje u MT, nego operativni sustav; – metoda transfera– Analiza u 8 koraka: identifikacija riječi, morfološka analiza, rješavanje

višeznačnosti homografa, parsiranje jednostavnih rečenica (prostih i proširenih – eng. clauses), analiza NP, analiza VP, kombiniranje NP i VP, rješavanje semantičke višeznačnosti.

– U rješavanju problema homografije koristi se heuristička metoda( za određivanje vrsta riječi )

– Za rješavanje semantičke višeznačnosti koriste se semantički rječnici, koji omogućavaju pridruživanje svojstava, a sintaktičkim strukturama transformacije

– Za transfer koriste se dvojezični rječnici u zamjeni izvornih riječi ciljnima – Za sintezu postoje 3 koraka: stvaranje idioma i “umjetnih”riječi, generiranje

nizova stemova i ciljnom jeziku, daljnje morfološko generiranje na stemove. Iako dobro razrađen, Susy sistem uglavnom je usmjeren na sintaktičku analizu, a manje na semantičku ili pragmatičku.

Eksperimentalni programi

Page 27: 21

DLT (Distributed Language Translation, 1983.)

– Cilj: razviti višejezični MT sustav pomoću međujezika– Pilot-projekt uključuje izradu međujezika za prevođenja s

međukoda na njemački, uz simulaciju izvornog jezika kroz dijalog

– Drugi dio uključuje razvoj ciljnog jezika, uključujući transfer rječnik s međujezika na njemački, sintetiziranje njemačkog rječnika (posuđenog od Susy, 1983)

– Posljednja faza - akumuliranja terminologije o međunarodnom poslovanju i pravu, zbog obogaćivanja rječnika

Eksperimentalni programi