Migowego Polskiego Języka Maszynowe tłumaczeniehome.agh.edu.pl/~jgalka/research/publikacje/Witkom...
Transcript of Migowego Polskiego Języka Maszynowe tłumaczeniehome.agh.edu.pl/~jgalka/research/publikacje/Witkom...
Maszynowe tłumaczenie Polskiego Języka
MigowegoProjekt WiTKoM
Dorota GrądalskaVoicePIN.com Sp. z o.o;
Akademia Górniczo-Hutnicza, Wydział Informatyki, Elektroniki i Telekomunikacji, Katedra Elektroniki
Krzysztof WróbelAkademia Górniczo-Hutnicza, Katedra Informatyki;
Uniwersytet Jagielloński, Katedra Lingwistyki Komputerowej
Wirtualny Tłumacz Komunikacji Migowej (WiTKoM)
Projekt realizowany przez konsorcjum naukowe Akademii Górniczo-Hutniczej oraz VoicePIN.com sp. z o.o. w latach 2013-2015 w ramach Programu Badań Stosowanych Narodowego Centrum Badań i Rozwoju.
Głównym celem projektu jest zbadanie możliwości zastosowania algorytmów rozpoznawania obrazu, uczenia maszynowego i przetwarzania języka naturalnego w kontekście wypowiedzi w Polskim Języku Migowym (PJM).
Cechy Polskiego Języka Migowego (PJM)
● naturalny język osób Głuchych
● dostępny w poznaniu wzrokowym
● odrębny i niezależny od języka polskiego
● wyróżniający się gramatyką wizualno-przestrzenną
● zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.)
● zróżnicowany regionalnie
● obcy dla słyszących
Szyk zdania w Polskim Języku Migowym - przykłady
1. Na stole obok siebie leżą dwie książki. PJM: [STÓŁ] [KSIĄŻKA] [KSIĄŻKA]
2. Kot pije mleko. PJM: [KOT] [PIĆ MLEKO + klasyfikator ruchu]
3. On lubi jabłka. PJM: [ON] [JABŁKO] [LUBIĆ]
4. Dziewczynka podniosła oczy do góry. PJM: [DZIEWCZYNKA] [PATRZEĆ + klasyfikator ruchu gałek ocznych]
5. Kiedy odbędzie się egzamin? PJM: [EGZAMIN] [KIEDY] + {mimika pytająca}
Cechy Polskiego Języka Migowego (PJM)
● naturalny język osób Głuchych
● dostępny w poznaniu wzrokowym
● odrębny i niezależny od języka polskiego
● wyróżniający się gramatyką wizualno-przestrzenną
● zawiera elementy, które nie występują w językach fonicznych (mimika, klasyfikatory kształtu, wielkości, ruchu etc.)
● zróżnicowany regionalnie
● obcy dla słyszących
Stan wiedzy o PJM
● język słabo poznany, Pozostawał w zasadzie poza obszarem zainteresowania polskiego językoznawstwa aż do połowy lat 90-tych XX w. Badania nad PJM prowadzi, powołana w 2010 r. na Wydziale Polonistyki Uniwersytetu Warszawskiego, Pracownia Lingwistyki Migowej. Obecnym kierownikiem Pracowni jest dr Paweł Rutkowski.
● nieustalony korpus leksykalny,
● jedynie cząstkowe opracowania gramatyki,
● niewielka liczba materiałów źródłowych.
Tłumaczenie maszynowe
Słońce jest żółte. - A nap sárga.Słońce jest niebieskie. - A nap kék.Niebo jest niebieskie. - Az ég kék.
Niebo jest żółte. - Az ég sárga.Trawa jest zielona. - A fű zöld.
Kupiłem zieloną trawę. - Megvettem a zöld fű.
Tłumaczenie maszynowe
Słońce jest żółte. - A nap sárga.Słońce jest niebieskie. - A nap kék.Niebo jest niebieskie. - Az ég kék.
Niebo jest żółte. - Az ég sárga.Trawa jest zielona. - A fű zöld.
Kupiłem zieloną trawę. - Megvettem a zöld fű.
żółte - sárganiebieskie - kékzielone - zöld
słońce - a napniebo - az égtrawa - a fű
Korpus
Przykłady:● Daj mi twoją książkę. - [TWÓJ] [KSIĄŻKA] [DAĆ MI] [.]● Ja nie lubię pisać. - [JA] [PISAĆ] [NIE LUBIĆ] [.]
Ogólne Medyczne Wszystkie
Ilość zdań 48 52 100Średnia ilość słów w zdaniu 6,79 8,88 7,88
Ilość słów 326 462 780
Ilość unikalnych słów 108 203 270
Język polski - narzędzia
● tagger morfosyntaktyczny
forma lemma znaczniki
Daj dać impt:sg:sec:perf
mi ja ppron12:sg:dat:m1:pri:nakc
Twoją twój adj:sg:acc:f:pos
książkę książka subst:sg:acc:f
. . interp
Waszczuk J. (2012). „Harnessing the CRF complexity with domain-specific constraints. The case of morphosyntactic tagging of a highly inflected language”. Mumbai: COLING
Język polski - narzędzia
● parser zależnościowy
Wróblewska A., Woliński M. (2012). Preliminary experiments in Polish dependency parsing." Security and Intelligent Information Systems. Springer Berlin Heidelberg, pp. 279-292.
Reguły tłumaczenia
● operują na drzewie zależnościowym○ struktura○ własności
● definiują akcje:○ usuwania słów○ dodawania zależności○ łączenia wyrazów wielosegmentowych
● nie uwzględniają kolejności wyrazów w zdaniu
Kay, M. (1984). "Functional unification grammar: A formalism for machine translation." Proceedings of the 10th International Conference on Computational Linguistics and 22nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics.
Wyniki
System tłumaczenia dla języka hiszpańskiego osiągnął PER 13,17 na 150 zdaniach z 153 regułami. Statystyczna metoda wytrenowana na 266 zdaniach osiągnęła PER 29,14.
PER (%) Ogólne Medyczne Wszystkie
Brak reguł 42,69 56,04 49,64
30 reguł 19,57 35,45 27,83
San-Segundo R. et al. (2008). "Speech to sign language translation system for Spanish." Speech Communication 50.11, pp. 1009-1020.
Dalsze prace
● dokończenie implementacji zdefiniowanych reguł
● próba statystycznego zamodelowania kolejności znaków w zdaniu na poziomie zależnościowym
● {pred, obj_th, obj, punct, subj} → (subj, pred, objt_th, obj, punct)● {adjunct, obj} → (adjunct,obj)
KontaktProjekt WiTKoM
Kierownik projektu: dr inż. Jakub Gałka [email protected]
Dorota Grądalska: [email protected]
Krzysztof Wróbel: [email protected]
Praca finansowana przez Narodowe Centrum Badań i Rozwoju w ramach Programu Badań Stosowanych, projekt nr PBS2/B3/21/2013, pt. „Wirtualny Tłumacz Komunikacji Migowej”.