CKL --- Centrum komput ační lingvistiky

28
CKL CKL --- --- Centrum Centrum komput komput ační ační lingvistiky lingvistiky Projekt MŠMT LC536 Projekt MŠMT LC536 (LC05) (LC05) Univerzita Karlova v Praze, ÚFAL MFF Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň, KKY FAV Západočeská univerzita Plzeň, KKY FAV Masarykova Univerzita Brno, FI Masarykova Univerzita Brno, FI Ústav pro jazyk český AV ČR Praha Ústav pro jazyk český AV ČR Praha http://www.centrumkomputacnilingvistiky.cz http://www.centrumkomputacnilingvistiky.cz

description

CKL --- Centrum komput ační lingvistiky. Projekt MŠMT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň, KKY FAV Masarykova Univerzita Brno, FI Ústav pro jazyk český AV ČR Praha http://www.centrumkomputacnilingvistiky.cz. - PowerPoint PPT Presentation

Transcript of CKL --- Centrum komput ační lingvistiky

Page 1: CKL --- Centrum  komput ační lingvistiky

CKLCKL------

Centrum Centrum komputkomputační ační lingvistikylingvistiky

Projekt MŠMT LC536Projekt MŠMT LC536 (LC05)(LC05)

Univerzita Karlova v Praze, ÚFAL MFFUniverzita Karlova v Praze, ÚFAL MFFZápadočeská univerzita Plzeň, KKY FAVZápadočeská univerzita Plzeň, KKY FAV

Masarykova Univerzita Brno, FIMasarykova Univerzita Brno, FIÚstav pro jazyk český AV ČR PrahaÚstav pro jazyk český AV ČR Prahahttp://www.centrumkomputacnilingvistiky.czhttp://www.centrumkomputacnilingvistiky.cz

Page 2: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 22

ZZávěrečná oponenturaávěrečná oponenturaCentra komputační lingvistikyCentra komputační lingvistiky

MFF UK, Malostranské nám. 25MFF UK, Malostranské nám. 25Refektář a MZ, 1. patroRefektář a MZ, 1. patro

11:00 – 11:10 Uvítání a představení komise a hostů11:00 – 11:10 Uvítání a představení komise a hostů

11:10 – 11:40 Představení činnosti CKL (J. Hajič)11:10 – 11:40 Představení činnosti CKL (J. Hajič)

11:40 – 12:15 Oponentní posudky, vyjádření řešitelů11:40 – 12:15 Oponentní posudky, vyjádření řešitelů

12:15 – 12:15 – Jedn Jednání oponentní rady (uzavřené, MZ)ání oponentní rady (uzavřené, MZ)

13:00 (cca) Seznámení příjemce s výsledky (MZ)13:00 (cca) Seznámení příjemce s výsledky (MZ)

Page 3: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 33

Projekt CentraProjekt Centra

Cíl:Cíl:– integrovat statisticko-matematickou, integrovat statisticko-matematickou,

počítačovou a lingvistickou složku výzkumupočítačovou a lingvistickou složku výzkumu– integrovat výzkum mluvené řeči a zpracování integrovat výzkum mluvené řeči a zpracování

jazykajazyka– vytvořit anotovaná data vytvořit anotovaná data – vytvořit nástroje (významové) analýzy a syntézyvytvořit nástroje (významové) analýzy a syntézy– integrovat lexikální zdroje vč. software integrovat lexikální zdroje vč. software

Page 4: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 44

Kontext vzniku CentraKontext vzniku Centra

Dříve: Centrum komputační lingvistiky Dříve: Centrum komputační lingvistiky (program MŠMT LN), 2000-2004(program MŠMT LN), 2000-2004– UK, ÚJČ, ZČUUK, ÚJČ, ZČU

2005-2011: Centrum komputační lingvistiky2005-2011: Centrum komputační lingvistiky– (opět) základní výzkum, program MŠMT LC(opět) základní výzkum, program MŠMT LC0505– k existujícím partnerům k existujícím partnerům ((UJ, UJ, ZZČU, ÚJČ) přibyla ČU, ÚJČ) přibyla

Fakulta informatiky Fakulta informatiky MU Brno (Laboratoř NLP)MU Brno (Laboratoř NLP)

Page 5: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 55

Centrum komputační lingvistiky:Centrum komputační lingvistiky:personální obsazenípersonální obsazení

Rozpočet a doba řešeníRozpočet a doba řešení– 53,6 mil. Kč, 2005-2009 (4 roky 9 měs.)53,6 mil. Kč, 2005-2009 (4 roky 9 měs.)– 13,0 mil. Kč 2010 + 7,8 mil. Kč 201113,0 mil. Kč 2010 + 7,8 mil. Kč 2011

Personální obsazení (2010 Personální obsazení (2010 [[maxmax]]):):– 1 řešitel-koordinátor (prof.)1 řešitel-koordinátor (prof.)– Dále: 7 řešitelů a garantů (3x prof., 4x doc.)Dále: 7 řešitelů a garantů (3x prof., 4x doc.)– 1122 mladých věd. pracovníků (Ph.D.) mladých věd. pracovníků (Ph.D.)– 23 doktorandů (Mgr., Ing., RNDr.)23 doktorandů (Mgr., Ing., RNDr.)

Celkem 14 obhájilo v době zaměstnání v CKL nebo těsně poté (do března Celkem 14 obhájilo v době zaměstnání v CKL nebo těsně poté (do března 2012)2012)

Page 6: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 88

Koordinace a komunikaceKoordinace a komunikace

Neformální i formální schůzkyNeformální i formální schůzky

Rada Centra Rada Centra – Zahraniční členovéZahraniční členové– Jednou ročně (poslední: jaro 2011)Jednou ročně (poslední: jaro 2011)

Spolupráce v rámci projektů EU / USASpolupráce v rámci projektů EU / USA

Obhajoby doktorských prací, rigorózní zk.Obhajoby doktorských prací, rigorózní zk.

Page 7: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 1414

Rok 2010Rok 2010

CíleCíle– Teoretická analýza jazyka (UK, MU)Teoretická analýza jazyka (UK, MU)

Diskurs, derivační morfologieDiskurs, derivační morfologie– AlgoritmyAlgoritmy

Analýza češtiny a angličtiny, anafora (UK, MU)Analýza češtiny a angličtiny, anafora (UK, MU)Dialogové systémy (UK, ZČU)Dialogové systémy (UK, ZČU)

– Akustické modelování, dekódování (ZČU)Akustické modelování, dekódování (ZČU)– Segmentace řeči (ZČU)Segmentace řeči (ZČU)– Anotace jazykových dat (UK, ZČU)Anotace jazykových dat (UK, ZČU)– Lexikální sémantika, tvorba el. slovníků (MU, ÚJČ, UK)Lexikální sémantika, tvorba el. slovníků (MU, ÚJČ, UK)– Strojový překlad (UK)Strojový překlad (UK)– Software pro lexikální databáze (MU)Software pro lexikální databáze (MU)

Výsledky (RIV): 131Výsledky (RIV): 131– 18 čl. čas., 65 čl. sb., 4 kap. v knize, 33 software a prototypy, 11 ost.18 čl. čas., 65 čl. sb., 4 kap. v knize, 33 software a prototypy, 11 ost.

Page 8: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 1515

Rok 2011Rok 2011

Cíle (objemově redukované)Cíle (objemově redukované)– Analýza češtiny a angličtiny (MU, UK)Analýza češtiny a angličtiny (MU, UK)– Akustické modelování a dekódování (ZČU)Akustické modelování a dekódování (ZČU)– Jazyková data (UK, MU, ZČU)Jazyková data (UK, MU, ZČU)

Dokončení PCEDT (česko-anglický korpus) (UK)Dokončení PCEDT (česko-anglický korpus) (UK)Další data (web), anotovaná data (UK, MU)Další data (web), anotovaná data (UK, MU)

– Lexikální sémantika, tvorba slovníků (UK, MU, ÚJČ)Lexikální sémantika, tvorba slovníků (UK, MU, ÚJČ)– Teoretická formální lingvistikaTeoretická formální lingvistika

Nadvětné vztahy (UK)Nadvětné vztahy (UK)Derivační morfologie (MU, UK)Derivační morfologie (MU, UK)

– Strojový překlad (UK)Strojový překlad (UK)– Softwarové nástroje (UK, MU, ZČU)Softwarové nástroje (UK, MU, ZČU)

Výsledky (RIV: 36 – zatím pouze MU), celkem Výsledky (RIV: 36 – zatím pouze MU), celkem ~65~65– ObdobnObdobné rozdělení jako v předchozích letech, tj. nejvíce typ Dé rozdělení jako v předchozích letech, tj. nejvíce typ D

Page 9: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 1616

UK v Praze – MFF, ÚFALUK v Praze – MFF, ÚFAL

Rozvoj PDT 2.0, paralelní korpus (PCEDT)Rozvoj PDT 2.0, paralelní korpus (PCEDT)– Formalizace obsahu sdělení (teoret. výzkum + anotace)Formalizace obsahu sdělení (teoret. výzkum + anotace)– teoreticko-empirický výzkum (př.: diskurs)teoreticko-empirický výzkum (př.: diskurs)

Anotace mluvených dat (rekonstrukce řeči)Anotace mluvených dat (rekonstrukce řeči)Nové metody morf. disambiguace, anotace ČNKNové metody morf. disambiguace, anotace ČNKGenerování češtiny, angličtiny z formálního zápisuGenerování češtiny, angličtiny z formálního zápisuDialogové systémy – integrace porozumění jazykuDialogové systémy – integrace porozumění jazyku– Výsledky budou využity pro EU IP „Companions“Výsledky budou využity pro EU IP „Companions“

„„Information retrieval“ – data a aut. ZpracováníInformation retrieval“ – data a aut. ZpracováníStrojový překlad - nástroje a dataStrojový překlad - nástroje a data

Page 10: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 1717

ZČU Plzeň – FAV, Kat. kybernetikyZČU Plzeň – FAV, Kat. kybernetiky

Rozpoznávání řečiRozpoznávání řeči– Parametrizace signáluParametrizace signálu– Akustické a jazykové modelyAkustické a jazykové modely

Syntéza řečiSyntéza řeči– Prozodické chrakteristiky (ARTIC)Prozodické chrakteristiky (ARTIC)

Data-driven (statistické) metody modelováníData-driven (statistické) metody modelování

IR (mluvená data)IR (mluvená data)– Vývoj testovací kolekceVývoj testovací kolekce

Spolupráce s UKSpolupráce s UK– (vč. projektů Companions, Malach)(vč. projektů Companions, Malach)

Page 11: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 1818

MU Brno – FI, Laboratoř MU Brno – FI, Laboratoř zpracování přirozeného jazykazpracování přirozeného jazyka

Lexikální nástroje a zdroje (spol. s ÚJČ)Lexikální nástroje a zdroje (spol. s ÚJČ)– Platforma DEB IIPlatforma DEB II

Lexikografická stanice Praled, s ÚJČLexikografická stanice Praled, s ÚJČ

– VerbalexVerbalex– WordNet – rozšíření (29 tis. položek)WordNet – rozšíření (29 tis. položek)

Analýza češtinyAnalýza češtiny– Morfologie (derivace), desambiguaceMorfologie (derivace), desambiguace– SYNT (synt. analyzátor), anaforaSYNT (synt. analyzátor), anafora– Sémantické vztahySémantické vztahy

Page 12: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 1919

ÚJČ AV ČRÚJČ AV ČR

Lexikální zdrojeLexikální zdroje– Vývoj lexikograf. stanice Praled (s MU Brno)Vývoj lexikograf. stanice Praled (s MU Brno)– dokončeno 3,500 položek databázedokončeno 3,500 položek databáze

Digitalizace archívu (s UK)Digitalizace archívu (s UK)– Skenování, „identifikace“ excerptSkenování, „identifikace“ excerpt– cca 4,000,000 celkem (do konce projektu)cca 4,000,000 celkem (do konce projektu)– Nyní: 1,2 mil. identifikovánoNyní: 1,2 mil. identifikováno

Page 13: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2020

Dosažené výsledkyDosažené výsledkySouhrnSouhrn

RIV 2005-2010RIV 2005-2010– 306 unikátních (spolupráce – spol. publikace)306 unikátních (spolupráce – spol. publikace)– Cca 65 za rok 2011Cca 65 za rok 2011

Většina: články ve sbornících konferencíVětšina: články ve sbornících konferencí– Obvyklé schéma v oboru komputační lingvistikyObvyklé schéma v oboru komputační lingvistiky

workshop (specializované) / konference (obecnější)workshop (specializované) / konference (obecnější)

Některé časopisy (původní, ale spíše souhrnné Některé časopisy (původní, ale spíše souhrnné výsledky)výsledky)– LNCS, IEEE Transactions, LRE, PBMLLNCS, IEEE Transactions, LRE, PBML

Software a data: důraz na „open source“Software a data: důraz na „open source“

Page 14: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2121

Nejcennější výsledky - Nejcennější výsledky - publikacepublikace

ČlánkyČlánky– Semi-supervised POS tagging (EACL 2009)Semi-supervised POS tagging (EACL 2009)

Nejlepší dosud dosažené výsledky i pro angličtinuNejlepší dosud dosažené výsledky i pro angličtinu

– Extension of HVS Semantic Parser by Allowing Left-RightExtension of HVS Semantic Parser by Allowing Left-Right BranchBranching (ICASSP 2008)ing (ICASSP 2008)

Nový výsledek navazující na práci S. YoungaNový výsledek navazující na práci S. Younga

– Large-scale Semantic Networks: Annotation and EvaluationLarge-scale Semantic Networks: Annotation and Evaluation NAACL 2009; výsledek spolupráce s Google Research, švýc. NAACL 2009; výsledek spolupráce s Google Research, švýc.

KnihyKnihy– Valenční slovník českých sloves (Karolinum)Valenční slovník českých sloves (Karolinum)

Elektronická verze k dispoziciElektronická verze k dispozici

– Knihy – významné disertace (vydáno ÚFAL)Knihy – významné disertace (vydáno ÚFAL)

Page 15: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2222

Nejcennější výsledky - dataNejcennější výsledky - dataKorpusy (jazykové databáze, vydané celosvětově)Korpusy (jazykové databáze, vydané celosvětově)– Prague Dependency Treebank 2.0, Linguistic Data Consortium 2006Prague Dependency Treebank 2.0, Linguistic Data Consortium 2006– Czech Wordnet 1.0 (ELRA, 2008)Czech Wordnet 1.0 (ELRA, 2008)– Sign Language, Audiovisual (ELRA, 2008)Sign Language, Audiovisual (ELRA, 2008)– Prague Czech-English Dependency Treebank (LDC 2012)Prague Czech-English Dependency Treebank (LDC 2012)

Testovací kolekceTestovací kolekce– CLEF 2006, 2007CLEF 2006, 2007

Multilingual cross-langauge search competitionsMultilingual cross-langauge search competitions

– Machine Translation Open Competition – EuroMatrix/+ 2006-11Machine Translation Open Competition – EuroMatrix/+ 2006-11Czech-English, German, French, Italian, Hungarian, SpanishCzech-English, German, French, Italian, Hungarian, Spanish

– CoNLL Shared Task 2007, 2009, koordinace v r. 2009CoNLL Shared Task 2007, 2009, koordinace v r. 2009Dependency parsing, semantic role labeling (čeština), LDC 2012Dependency parsing, semantic role labeling (čeština), LDC 2012

Page 16: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2323

Nejcennější výsledky - softwareNejcennější výsledky - softwareSoftwareSoftware– Korpusový manažer Bonito/ManateeKorpusový manažer Bonito/Manatee

Celosvětové použití: ČNK, SNK; Hu, Hr, GBCelosvětové použití: ČNK, SNK; Hu, Hr, GB

– Word Sketch EngineWord Sketch EngineKomerční využití, spolupráce s Lexical ComputingKomerční využití, spolupráce s Lexical Computing

– ComPOSTComPOSTState-of-the-art POS tagger (Cz, Sk, En, ...)State-of-the-art POS tagger (Cz, Sk, En, ...)

– Syntaktický parser „MST“ (čeština)Syntaktický parser „MST“ (čeština)Ve spolupráci s Univ. of Pennsylvania (2005)Ve spolupráci s Univ. of Pennsylvania (2005)

– TectoMT / TreeX TectoMT / TreeX Platforma pro analýzu a syntézu přirozeného jazykaPlatforma pro analýzu a syntézu přirozeného jazyka

Page 17: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2424

Vliv vzniku Centra na Vliv vzniku Centra na spolupracující organizacespolupracující organizace

Využití účelové podporyVyužití účelové podpory– > 3/4 nákladů: osobní náklady> 3/4 nákladů: osobní náklady– Cestovné, technické zabezpečeníCestovné, technické zabezpečení– Investice (rok 1 až 3 - 2005 až 2007)Investice (rok 1 až 3 - 2005 až 2007)

Výpočetní technika, statistické výpočtyVýpočetní technika, statistické výpočty

– Malé doplňkové náklady (režie - do 12%)Malé doplňkové náklady (režie - do 12%)

„„nehmotný dopad“ - nejdůležitější:nehmotný dopad“ - nejdůležitější:– Vytvoření perspektivních týmů Vytvoření perspektivních týmů

Mgr./Ph.D. studentiMgr./Ph.D. studenti

Page 18: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2525

Plnění podmínek Plnění podmínek programu a smlouvy Iprogramu a smlouvy I

Zaměstnávání a Zaměstnávání a vedení vedení doktorandů (škol. prac.)doktorandů (škol. prac.)– Nyní na všech 4 pracovištích Nyní na všech 4 pracovištích – Podmínka: min. 1 pracoviště Podmínka: min. 1 pracoviště → → SplněnoSplněno

Účast studentů (Bc./Mgr./Ph.D.)Účast studentů (Bc./Mgr./Ph.D.)– Celkem prošlo CKL 52 studentů Celkem prošlo CKL 52 studentů →→ SplněnoSplněno

– 6 národností6 národností

Uplatnění v komerční sféřeUplatnění v komerční sféře– Petr Němec (UK): TextKernel, Hol.; Kiril Ribarov (UK): ČEZPetr Němec (UK): TextKernel, Hol.; Kiril Ribarov (UK): ČEZ– Jan Romportl, Aleš Pražák: SpeechTech (spinoff, ZČU)Jan Romportl, Aleš Pražák: SpeechTech (spinoff, ZČU)– VladimVladimír Kadlec (MU Brno): Acision (GB)ír Kadlec (MU Brno): Acision (GB)– Petr Pajas (UK): Google Curych, ŠvýcarskoPetr Pajas (UK): Google Curych, Švýcarsko– Václav Němec (UK): Captaworks, CZVáclav Němec (UK): Captaworks, CZ– Býv. CKL (LN): M. Čmejrek, J. Cuřín (UK): IBM ResearchBýv. CKL (LN): M. Čmejrek, J. Cuřín (UK): IBM Research

Page 19: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2626

Plnění podmínek Plnění podmínek programu a smlouvy IIprogramu a smlouvy II

Podmínka: zapojení do evr. výzkumného prostoruPodmínka: zapojení do evr. výzkumného prostoru10 projektů EU v 6. a 7. RP10 projektů EU v 6. a 7. RP– Všechny typy: IP, STREP, NoE; SSA, Dig. Libraries, ESFRIVšechny typy: IP, STREP, NoE; SSA, Dig. Libraries, ESFRI

Companions (IP) - ZČU, UK; Khresmoi (IP) – UK; EuroMatrix, Companions (IP) - ZČU, UK; Khresmoi (IP) – UK; EuroMatrix, EuroMatrixPlus, Faust, META-NET (T4ME) (STREP) – UKEuroMatrixPlus, Faust, META-NET (T4ME) (STREP) – UKEudat (ESFRI) - UKEudat (ESFRI) - UKClarin (CA/SSA) - UK, MU, ÚJČ; KYOTO (Dig. Libraries) – MUClarin (CA/SSA) - UK, MU, ÚJČ; KYOTO (Dig. Libraries) – MUPresemt (MU)Presemt (MU)

USAUSA– Malach (do 2007; UK, ZČU): USC, JHU, IBM, UMDMalach (do 2007; UK, ZČU): USC, JHU, IBM, UMD– PIRE: rozpoznávání řeči a strojový překlad (UK, nepřímo ZČU): PIRE: rozpoznávání řeči a strojový překlad (UK, nepřímo ZČU):

JHU, Brown Univ.JHU, Brown Univ.– Treebanking: Univ. of ColoradoTreebanking: Univ. of Colorado

→ → SplněnoSplněno

Page 20: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2727

PokračováníPokračování

Formálně – (téměř) žádnéFormálně – (téměř) žádné– Žádost o grant GAČR (Centra) neúspěšná (stejní partneři)Žádost o grant GAČR (Centra) neúspěšná (stejní partneři)– [Žádost(i) o grant(y) TAČR (CK) neúspěšné, s výj. ZČU – ale to [Žádost(i) o grant(y) TAČR (CK) neúspěšné, s výj. ZČU – ale to

je jiné Centrum, „pokračování“ aplik. Centra 1M „CAK“]je jiné Centrum, „pokračování“ aplik. Centra 1M „CAK“]– Úspěšná žádost o Centrum GAČR (UK jako partner ČVUT)Úspěšná žádost o Centrum GAČR (UK jako partner ČVUT)

Některé oblasti pokračují:Některé oblasti pokračují:– Financování RIV body (základní výzkum)Financování RIV body (základní výzkum)– Pokračování přípravy dat – LINDAT-ClarinPokračování přípravy dat – LINDAT-Clarin

Všech 4 pracoviště zapojena (nejde o výzkum!)Všech 4 pracoviště zapojena (nejde o výzkum!)– EU projekty (Khresmoi do 2014, další 2013)EU projekty (Khresmoi do 2014, další 2013)

Menší granty GAČR (např. PostDoc, GP)Menší granty GAČR (např. PostDoc, GP)Aplikovaný výzkumAplikovaný výzkum– MK NAKI (UK + ZČU)MK NAKI (UK + ZČU)

Page 21: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 2828

EU Project „Companions“EU Project „Companions“

CílCíl– Inteligentní společník pro konverzaciInteligentní společník pro konverzaci

nad fotografiemi, „how was your day“nad fotografiemi, „how was your day“

TechnologieTechnologie– Plná ASR, emocionální TTSPlná ASR, emocionální TTS– Porozumění přirozenému jazyku, generováníPorozumění přirozenému jazyku, generování– Přirozenost dialogu: „user studies“ / „evaluation“Přirozenost dialogu: „user studies“ / „evaluation“

CKLCKL– UK/ZČU: ASR, TTS, NLU, NLG, částečně dialogUK/ZČU: ASR, TTS, NLU, NLG, částečně dialog

Page 22: CKL --- Centrum  komput ační lingvistiky

Ukázky Ukázky projektůprojektů

CKLCKL

Page 23: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 3030

Významová anotace věty (UK)Významová anotace věty (UK)

Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.

Page 24: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 3131

PDT 2.0:PDT 2.0:AnAnotační vrstvyotační vrstvy

Příklad: věta „Byl by šel do lesa“

Propojení mezi rovinami

Stand-off anotace

Schéma (Relax NG)z-

laye

r

Page 25: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 3232

„„RekonstrukceRekonstrukce”” řeči (UK, ZČU) řeči (UK, ZČU)

● „ „Překlad“Překlad“

SEM NEMOH SEM TO JIM DÁT TEN VOBRAZ

‘m couldn’t ‘m that them give the paintin’

Ten obraz jsem jim nemohl dát.

Ten obraz jsem jim nemohl dát.

I could not give them the painting.

?

Generation

● Nyní: anotace

Page 26: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 3333

““Rekonstrukce” Rekonstrukce” řeči řeči

Spisovná varianta Spisovná varianta promluvy promluvy – „„editované interview“editované interview“– Manuální anotaceManuální anotace– Automatické nástroje, Automatické nástroje,

propojení se syntaxí propojení se syntaxí (v budoucnu)(v budoucnu)

Page 27: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 3434

Akustické modelování Akustické modelování mezislovního kontextu (ZČU)mezislovního kontextu (ZČU)

VyužitíVyužití:: Automatické titulkování televizních pořadů (např. zápasů ledního Automatické titulkování televizních pořadů (např. zápasů ledního hokeje) v reálném časehokeje) v reálném čase

Page 28: CKL --- Centrum  komput ační lingvistiky

15.5.2012, MFF UK15.5.2012, MFF UK 3535

Automatický překladAutomatický překladčeštinčeštinaa -->> znakov znakováá řeč řeč::

– Znakovaná češtinaZnakovaná čeština umělý jazykový systémumělý jazykový systém komunikace mezi slyšícími a neslyšícímikomunikace mezi slyšícími a neslyšícími podobná češtiněpodobná češtině

– Český znakový jazykČeský znakový jazyk mateřský a přirozený jazyk neslyšících mateřský a přirozený jazyk neslyšících komunikace mezi neslyšícími navzájemkomunikace mezi neslyšícími navzájem odlišná od češtiny:odlišná od češtiny:

– simultánnost – např. jeden znak pro „člověk-běží“ simultánnost – např. jeden znak pro „člověk-běží“ – užití prostoru – do prostoru jsou umístěny objekty užití prostoru – do prostoru jsou umístěny objekty

komunikace, na něž se mluvčí odkazujekomunikace, na něž se mluvčí odkazuje– roli intonace zastupuje mimika obličejeroli intonace zastupuje mimika obličeje

– Člověk ovládající znakový jazyk nemusí umět Člověk ovládající znakový jazyk nemusí umět česky (ani rozumět textu)česky (ani rozumět textu)