CLARIN : ziņojums par esošo situāciju
description
Transcript of CLARIN : ziņojums par esošo situāciju
CLARIN:ziņojums par esošo situāciju
Inguna SkadiņaLU MII
CLARIN NKP sēde29.10.2010.
1. pielikumsCLARIN Nacionālās konsultatīvās padomes
2010. gada 29. oktobra protokolam Nr. 2
CLARIN posmi• sagatavošanās (2008–2010): CLARIN organizācijas izveide, plānošana,
prototipa izveide
• izveides (2011–2015):CLARIN infrastruktūras izveide un piepildīšana ar resursiem un rīkiem
• izmantošanas (2016 — ):CLARIN ir izmantojams kā serviss
CLARIN paveiktais
• Sākotnēji sagatavošanās posms bija plānots līdz 2010. gada beigām
• Lai labāk sagatavotos CLARIN izveides posmam, projekts ir pagarināts līdz 2011. gada 30. jūnijam
• Mērķis – izveides posmu īstenot kā CLARIN ERIC (European Research Infrastructure Consortium)
CLARIN paveiktais
• Tehnoloģiski:– izstrādāts CLARIN centru izmēģinājuma modelis starp
Nīderlandes, Vācijas un Somijas partneriem– izstrādāti rīki valodas resursu un rīku metadatu aprakstīšanai– izstrādāts datu kategoriju reģistrs
http://www.isocat.org/interface/index.html – izstrādāti rīki, kas lietotājam ļauj vienkārši apvienot
infrastruktūrā esošos rīkus darba plūsmā (http://weblicht.sfs.uni-tuebingen.de/englisch/weblicht.shtml, http://weblicht.sfs.uni-tuebingen.de:8080/WebLicht1.5/ )
– izstrādāti rīki autorizācijas un autentifikācijas nodrošināšanai
5
Vīzija
CLARIN paveiktais• Saturiski:
– izveidots valodas resursu un rīku katalogs (849 resursi, 183 rīki, http://www.clarin.eu/vlo/)
– izveidots pārskats par minimālo resursu un rīku kopu, kas nepieciešama humanitāro zinātņu pētījumiem
– tiek apkopoti standarti un paraugprakses piemēri valodas resursu un rīku jomā
• Juridiski:– izstrādāti licencēšanas parauglīgumi
Latviešu valodai nepieciešamie resursi un rīki (atbilstoši iesūtītajiem ieteikumiem)
• Resursi– Valodas korpusi (runātās valodas un tekstu) (tostarp paralēlie
un dialektu) – Elektroniskās vārdnīcas un terminoloģijas datu bāzes
• Rīki– Rakstītā/runātā teksta atpazīšana un pārvēršana drukātā
tekstā– Vārdnīcu izstrādes programmatūra– Semantiskās analīzes rīki
• Citi– Starpaugstskolu datorlingvistikas apguves programma
8
ERIC — European Research Infrastructure Consortium
• Juridiska organizācija, kuru izveido Eiropas Komisija, lai nodrošinātu pētniecības infrastruktūras darbu
• Konsorciju veido valstis, kuras maksā dalības maksu• Lai izveidotu ERIC, valstu konsorcijs iesniedz
pieteikumu Eiropas Komisijai, kas ietver:– statūtus– zinātniskā un tehniskā darba aprakstu
9
CLARIN ERIC
• Nepieciešama struktūra, kas nodrošinātu saskaņotību– CLARIN ERIC līmenis– Nacionālais līmenis
• Centri• Saturs
10
CLARIN mērķi• Virtuālas dalītas datu infrastruktūras izveide un uzturēšana, lai
padarītu pieejamus valodas resursus un rīkus humanitāro un sociālo zinātņu pētniekiem
• Tas ietver– Kompetences centru (centres of expertise) izveidi– Federācijas izveidi– Apmācību un izplatīšanu– Standartu definēšanu un uzturēšanu– Jaunu datu ieguvi un izveidi– Licencēšanas nosacījumus – un citas aktivitātes
Daudzas no šīm aktivitātēm iecerētas nacionālajā līmenī
11
Plānotais grafiks • Saprašanās memorandu (memorandum of understanding)
plānots parakstīt šī gada novembra sākumā• Iesniegums Eiropas Komisijai — 2011. gada 1. februārī• Komisijas lēmums — 2011. gada pirmajā pusgadā
• Statūti pabeigti un saskaņoti līdz 2011. gada janvāra sākumam• Zinātnisko un tehnisko aktivitāšu apraksts līdz 2010. gada
novembra beigām/decembra sākumam• Finansiālais novērtējums līdz 2010. gada novembra
beigām/decembra sākumam• Dalības līguma projekts 2010. gada novembrī
ERIC
• CLARIN ERIC izveidi noteikti atbalsta Nīderlande, Vācija, Somija un Igaunija
• LR IZM plāno atbalstīt CLARIN ERIC izveidi un piekritusi parakstīt saprašanās memoranda (memorandum of understanding) par CLARIN izveidi
HLT evolution in EstoniaCoordinated actions:• Estonian HLT program supported by the Estonian Informatics Centre (1997-
2000)
• EU FP5 project eVikings II (2002-2005): Roadmap for Estonian HLT 2004-2011
• Centre of Excellence in HLT (2003): successful in first round, failed in final round
• Estonian Language Technology Development Centre (2005): accepted for financing, but failed due to the withdrawal of the main industrial partner
• National programme “Estonian Language and Cultural Heritage” (1999-2003): some HLT-projects funded
• National programme “Estonian Language and National Memory” (2004-2008): sub-programme for Estonian HLT (2004-2005)
• Development Strategy of the Estonian Language 2004-2010
• National Programme for Estonian Language Technology (2006-2010)
National Programme for Estonian Language Technology 2006-2010
Government supported funding initiative aimed at developing of Estonian language resources and language-specific software in order to enable Estonian to function in the modern information technology environment
Estonian Ministry of Education and Research
General rules
• financing of projects based on open competition • evaluation of projects based on well-established criteria• international standards/formats need to be followed• groups are requested to provide annual progress reports• developed prototypes and language resources are public
Statistics: projects & funding
2006 2007 2008 2009 2010
Number of project applications
22 22 (18+4)
23 (20+3)
24 (15+9)
24 (22+2)
Number of funded projects
18 20 (18+2)
23 (20+3)
23 (15+8)
24 (22+2)
Total funding, MEEK (MEUR)
7.3 (0.47)
7.1 (0.46)
13.4 (0.86)
12.9 (0.83)
11.8 (0.75)
Ca 33% for corpus projects, 65% for software & research projects, 1-2% for management
Supporting activities
• Development of human resources:– Doctoral School of Linguistics and Language Technology
(2005-2008)– Doctoral School in Information and Communication
Technologies (2009-2015)– Centre of Excellence in Computer Science (2008-2015)– Curricula on computer linguistics and language technology
at the University of Tartu – Speech technology course at Tallinn University of
Technology