Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1"...
Transcript of Kokoaineisto ProGraminkorpustyöusers.jyu.fi/~tojantun/opetus/SVKS112_kl15/1-korpustyo.pdf1"...
1
ProGramin korpustyö
Tommi Jantunen, SVKS112, 16.3.2015
Koko aineisto • Korpustyö vii@omakielenkeskuksessa • Vuonna 2013 kerä@y monikuvakulmainen videomateriaali • Tehtävät 5 (sarjakuvat) ja 6 (teemakeskustelu)
– Kokonaiskesto vajaa 2 tunHa (1:49:32) – 12 äidinkielistä vii@ojaa (20-‐60 vuo@a) – Annotoituna:
• Raakaglossit (n=12350) • Virkekäännökset (n=2568) • KommenHt
• 6 vii@ojaa on kuva@u myös Kinect-‐sensorilla.
KuvausHlanne
Puupponen, A.; Jantunen, T.; Takkinen, R.; Wainio, T. & Pippuri, O. (2014). Taking non-‐manuality into account in collecHng and analyzing Finnish Sign Language video data. In O. Crasborn, E. E^himiou, E. FoHnea, T. Hanke, J. Hochgesang, J. Kristoffersen & J. Mesch (Eds.), Proceedings of the 6th Workshop on the Representa6on and Processing of Sign Languages: Beyond the Manual Channel [organized as a part of LREC'14 at Reykjavik, Iceland, May 31, 2014], pp. 143-‐148. Paris: European Language Resources AssociaHon (ELRA).
Fokuksessa sarjakuvanarraHivit (1)
• Lumiukko-‐ ja sammakkotarina (tehtävä 5) • Kokonaiskesto noin 45 minuufa (0:45:12) • SystemaHsoitu annotaaHo:
– Merkityslähtöisyys (asiat eroteltu teoista) – Vii@omia edustavat S-‐glossit (n=4309), jotka jakautuvat
• merkitysglosseihin (n=3356) ja • kuvailuglosseihin (n=953).
– Leksikko, jossa merkitysglosseja edustaa 539 lekseemiä. • AnnotaaHo mahdollistaa strukturoidut haut.
2
Fokuksessa sarjakuvanarraHivit (2)
• Tutkimusta tukeva perusannotaaHo: – Lause-‐alkiot (n=1873) – Pään liiketyypit – Kehon liiketyypit
• NarraHiviaineistoon lii@yvä SLMoHon data: – Pään liikkumisen kuvaus (yaw, pitch, roll; centroid x, y) – Suun horisontaalisen ja verHkaalisen liikkumisen luoki@elu – Silmien avonaisuusasteen luoki@elu – Kulmakarvojen asentojen luoki@elu
Raakaglossit • Raakaglossauksen tavoi@eena:
– idenHfioida vii@omajaksot ja niiden kontekstuaaliset merkitykset – tuo@aa nopeasH aineistoa tutkimuksen hyödynne@äväksi.
• Kirjoite@u yhdelle riville per vii@oja. • Ajoite@u dominoivan käden toiminnan mukaan. • Perustuvat suhteellisen vapaisiin annotoinHkonvenHoihin. • Korostavat merkitystä ennen muotoa, eli esimerkiksi ‘työ’ ja
‘työskentely’ on glossa@u eri tavalla. • Jakautuvat isoilla kirjaimilla kirjoite@uihin merkitysglosseihin ja pienillä
kirjaimilla kirjoite@uihin kuvailuglosseihin, jotka edustavat – vastaavassa järjestyksessä – merkitykseltään suhteellisen vakioisia vii@omia ja merkitykseltään vaikeammin kuva@avia vii@omia.
Esimerkkejä raakaglossausvaiheen merkitysglosseista
Vähemmän kielioppi-etoa
Enemmän kielioppi-etoa
Vähemmän merkitystä
PI OSOITUS POIKA+B-‐OSOITUS
LÄHTEÄ:viuh PÄÄ+TYHJÄ:unohtaa OSOITUS:tuo
Enemmän merkitystä
EI-‐HALUA
LASI+KULHO SYÖDÄ+JO
Raakaglossausnäkymä ELANissa
3
S-‐glossit (1) • Raakaglossauksen pohjalta merkityslähtöisesH systemaHsoitu glossi. • Kirjoite@u yhdelle riville dominoivan käden toiminnan perusteella. • IdenHfioi yksiseli@eisesH yhden vii@oman eli distribuuHoltaan vapaan
merkitys–muoto-‐parin. • Sisäinen jako merkitysglosseihin ja kuvailuglosseihin, joista jälkimmäiset
erikseen indeksoitu glossin eHsellä, alaviivalla glossiin kytketyllä symbolilla (prefiksillä) k ‘kuvailu’.
• S-‐glosseihin on lisäksi prefiksoitu Hetoa vii@oman – pääsanaluokasta (n ‘nominaali’, v ‘verbaali’, x ‘määri@elemätön’) ja – statuksesta yhdisteenä (y ‘yhdiste’).
S-‐glossit (2) • S-‐glossien erikoistapauksia, jotka eivät sisällä prefiksejä, ovat osoitukset
(OS) ja Hetyt konvenHonaalistuneet eleet (esim. PALM-‐UP). • “NegaHivit” on osoite@u glossiosaan liitetyllä alukkeella EI-‐ (esim. EI-‐
HALUA). • Kaikkien S-‐glossien lopussa voi olla Hetoa vii@oman rakenteesta
(sulkujen sisään merki@y Heto vii@oman käsimuodosta, paikasta tai liikkeestä), tai pienillä kirjaimilla kirjoite@u merkityksen tarkennin (tämä on erote@u muusta glossista kaksoispisteellä).
• S-‐glosseihin tullaan myöhemmin lii@ämään lisäHetoa mm. siitä, onko vii@oma numeraali, sormiaakkonen tai sormitus, vii@omanimi tai ele.
S-‐glossien syntaksi ja esimerkkejä
• Merkitysglossit [n,v,x]_y_EI-‐MERKITYS(rakenneHeto):merkityksen_tarkennin
n_AAMU, n_y_AMPIAISPESÄ, n_METSÄ(GG) v_ANTAA:minulle, v_y_MENNÄ-‐ULOS, v_EI-‐TYKÄTÄ, v_JUOSTA(S) x_TAI, x_PIENI(B) OS:minä, OS(V):me_kaksi
• Kuvailuglossit [n,v,x]_k_”merkityksen_kuvaus”
v_k_”lumiukko_kavahtaa_taaksepäin” n_k_”mehiläisparven_muoto” x_k_”hytky@ää_päätä”
Merkityksen ja muodon erikoisyhdistelmät
Vain suhteessa harvinainen synonymia vaaHi erikoismerkinnän, joka toteutetaan glossiin lisä@ävällä rakenneHedolla:
• Perustapaus 1 merkitys–1 muoto EI-‐HALUA, KENKÄ
• Synonymia 1 merkitys–2 muotoa JUOSTA(BB), JUOSTA(GG) • Polysemia 2 (sukulais)merkitystä–1 muoto SUKLAA, RUSKEA • Homonymia 2 merkitystä–1 muoto ARKI, MAASEUTU
4
S-‐glossinäkymä ELANissa Leksikkonäkymä Excelissä
Virkekäännökset
• “Raakakäännöksiä” • Tavoi@eena rakenteellinen vastaavuus lähtöteksHn kanssa. • Virkerajoista on olemassa vaihtoehtoinen näkemys. • Virkejaksoista on tehty lauseraja-‐analyysi. • Aineistoon tullaan myöhemmin lisäämään idiomaafset
käännökset.
LauseannotaaHot • Tavoi@eena idenHfioida aineiston yksinkertaisia lauseita ja
etenkin niiden vii@omatason sisältöjä. • Toteute@u puoliautomaafsesH lauseraja-‐analyysin pohjalta. • AnnotaaHosolujen alut ja loput eivät (väl@ämä@ä) ole lauseiden
tarkkoja alku-‐ ja loppukohHa. • Lause määritelty jaksoksi, joka sisältää predikaaHn. • Lauseeseen väli@ömäsH lii@yvät, mu@a rakenteellisesH sen
yHmen ulkopuolelle sijoi@uvat elemenHt, kuten topiikki, on lähtökohtaisesH lue@u osaksi lause@a.
• LausekonsHtuenfen funkHoanalyysi toteutetaan myöhemmin.
5
Pään ja kehon liiketyyppiannotaaHo
Pää • Nyökkäys (nod) • Nyöky@ely (nodding) • Työntö (thrust) • Veto (pull) • Leuka ylös (chin-‐up) • Leuka alas (chin-‐down) • Kallistus (Hlt) • Kallistelu (HlHng) • Kääntö (turn) • Pudistus (headshake)
Keho • Nojaus eteen (lean forward) • Nojaus taakse (lean backwards) • Nojaus oikealle (lean right) • Nojaus vasemmalle (lean le^) • Kääntö oikealle (turn right) • Kääntö vasemmalle (turn le^) • Kallistelu (HlHng) • Olkapäät ylös (shoulders up) • HarHoiden kohautus (shrug)
SLMoHon-‐data ELANissa