Norsk andrespråkskorpus (ASK)

Post on 22-Nov-2014

2.658 views 3 download

Transcript of Norsk andrespråkskorpus (ASK)

Norsk andrespråkskorpus (ASK)

Samarbeid

• Norsk Språktest• Aksis• Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)

Finansiering: Norges Forskningsråd, Meltzerfondet

• Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig)• Arrangerer:

– Språkprøven i norsk for voksne innvandrere

• Avsluttende prøve for den offentlige grunnopplæring• Arrangeres 3 ganger i året minst ett sted i hvert fylke• Lese- og lytteforståelse, skriftlig og muntlig prøve

– Test i norsk - høyere nivå (Bergenstesten)

• Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter

• Muntlig: for helsepersonell

Norsk Språktest

• 2001: 2309 kandidater (63% kvinner), 62% bestått• 2002: 2593 kandidater (65% kvinner), 60% bestått• 2003: 3174 kandidater (63% kvinner), 58% bestått

• 2003: 106 forskjellige land, 103 ulike morsmål

• Skriftlig prøve: forklarende eller fortellende• Ca. 240 ord

Språkprøven

Høyere nivå (Bergenstesten)

• 2001: 998 kandidater• 2002: 1129 kandidater• 2003: 1286 kandidater

• Skriftlig prøve: forklarende, fortellende eller argumenterende• Ca. 450 ord

Eksempel på oppgaver (Språktesten)Skriv en tekst om:

• adopsjon • alkoholvaner • barneoppdragelse • en bok du har lest • det du mener er viktige verdier i livet • din første jobb • ditt møte med norsk kultur • en eller flere nyheter som har gjort inntrykk på deg • en forfatter og en bok han/hun har skrevet • en hyggelig opplevelse du har hatt • en interesse du har • en kjent person• en person som har betydd mye for deg

Eksempel på oppgaver (Bergenstesten)

Skriv ett av følgende leserbrev til en lokalavis:

1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet;

eller

2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.

Persondata

• Norsk Språktest har lagret persondata i SPSS• Opplysninger kodes, verdi tallkode• Kodebok

v14timer Timer i grunnopplæring Value Label 1 under 200 2 200-400 3 401-500 4 501-850 5 851-1500 6 1501-2000 7 2001-3000

KandidatnummerTestdatoNivå på testenHjemlandMorsmålAlderKjønnEngelsknivåSkolegang utenfor NorgeAntall skoleår utenfor NorgeHva gjør du i NorgeYrke i Norge

Tid i Norge (antall år)Timer i grunnopplæringAntall mnd. siden start på norskkursHvor har du gått på kursHva skal du bruke prøveresultatet til: skoleBruke: arbeid Bruke: dokumentereBruke: annetHvor ofte snakker du norsk utenfor klasserommetHar du sosial omgang med nordmenn?Omgang med norske på fritidenOmgang med norske på jobben/skolen

Persondata

Yrke i Norge Value Label

1 helsearbeid 2 kontorarbeid 3 manuelt arbeid 4 servicenæring 5 opplæring/undervisning 6 transport 7 politi, toll, brann 8 kultur 9 hjemmeværende 10 annet 11 akademisk yrke

Korpus og utvalg

• Utvalg av språk– Spredning etter type språk– Må ha nok besvarelser, alle må ha bestått

• Utvalg innen språk– Samme type oppgave

• 10 språk– 100 besvarelser innen hvert språk– Både Språkprøven og Høyere nivå

• Kontrollgruppe– Nordmenn, fra kor og idrettslag etc.

Problemer vedrørende utvalg

• Ønsket flere/andre morsmål, men ikke nok antall• Ulik fordeling av morsmål i de to testene• Skjev kjønnsfordeling

– Russisk, polsk : 90-95% kvinner• Ønsket flere besvarelser, men ikke økonomi• Ønsket muntlig prøve, men ikke økonomi

Valgte morsmål

• Albansk• Engelsk• Nederlandsk• Polsk• Russisk• Serbokroatisk• Somali• Spansk• Tysk• Vietnamesisk

Feilbegrepet

• Problematisk med begrepene ”feil” og ”korrekt form”• Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ”• Andre termer: avvik, løsning• (kilde) L1 interlanguage L2 (mål)• Feil viser hvorledes språket blir lært• Det å gjøre feil er en måte å teste ut målspråket• Grader av feil, ikke lett å avgjøre hva som er rett

Bakgrunn for feilkoder ASK

Studerte feilkoder i tre større prosjekter

ICLE (International Corpus of Learner English)(tag) feil $rett$ (feil eller rett kan være 0)He took the books (QL) and $,$ the records and the computers.

FRIDA (French Interlanguage Database) corpus.<type><subtype><ordklasse>#rett$feil</..></..></type>

très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>

Cambridge Learner Corpus

<#CODE>wrong word|corrected word</#CODE>

He died <#MP>we|.We</#MP> buried him the next day.

ASK feilkoder

• Enkelt system slik at kodingsfeil unngås• Grammatisk informasjon annoteres automatisk (senere)• Velger retting som krever minst forandringer• Har kodemanual med eksempler• Systematisk sjekk av koding (ved konkordans)

• Bruker TEI sic tag med ekstra attributter

• <sic type=type desc=undertype corr=rett>feil</sic>

• Det kan være flere feilmarkeringer til et ord (men ikke overlapp)

ASK feilkoder

5 hovedgrupper

– Leksemfeil– Morfologifeil– Syntaksfeil– Tegnsettingsfeil– Uidentifiserbar feil

ASK feilkoder: Leksemfeil

• W galt ord • ORT ortografisk feil • PART samskrivningsfeil, avledningsfeil • SPL særskrivningsfeil• DER gal avledning• CAP galt valg av stor/liten bokstav

• FL ord fra andre språk enn norsk

ASK feilkoder: Leksemfeil

• W Fra min mening ... (Etter)• ORT Kun i ordets grunnform (ikke bøying)• PART etterhvert (etter hvert)• SPL sove rom (soverom)• DER stillighet (stillhet)• CAP europa (Europa)• FL lettere å resolvere problemer

(løse)

ASK feilkoder: Morfologifeil

• F (galt valg av morfosyntaktisk bøyningsform)– Hvilken miljø skal man bo. (Hvilket)– ..og ikke så lang fra sentrum (langt)– Det var jo ham som har betydd absolutt mest (er)

• INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)– har mye trafikker og bråker (trafikk og bråk)– Vi hald kontakten (holdt)

ASK feilkoder: Syntaksfeil

• M (et ord eller en frase mangler)– Vi hilser ___ hverandre når vi .... (mangler på)

• R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk)– Etter ti dager senere giftet... (senere redundant)

• O (ord eller fraser står i gal rekkefølge)– ..nok stor for oss... (stor nok)

ASK feilkoder: Undertyper til feiltype O

• INV (inversjonsfeil)– I begynnelsen det var veldig vanskelig... (var det)

• OINV (overgeneralisering av inversjonsregel)– .. selv om er det press .. (det er)

• MCA (gal plassering av setningsadverbialet i helsetning)– fordi jeg har ikke vært i Norge før.. (ikke har)

• SCA (gal plassering av setningsadverbialet i leddsetning)– Man kan ringe alltid hvor man er. (alltid ringe)

ASK feilkoder: Tegnsettingsfeil

• PUNC (galt valg av tegn)– Hvem trekker først. (?)

• PUNCM (tegnsetting mangler)– Når vi ser ca 50 år tilbake (ca.)

• PUNCR (tegnsetting må fjernes)– .. med huset, og barna (ikke komma foran og)

ASK feilkoder: Uidentifiserbar feil

• X

– Vennskapet mitt var utrolig.– de liker virkelig å hjelpe i menneskighet.

Innskriving/redigering: Oxygen

Stilark

Til hjelp ved kontroll kan en kjøre flere stilark på server.

Stilark

Stilark

Konkordans som hjelpemiddel

• De som koder har adgang til konkordans (via web)• Kjøres på de tekstfilene som enhver tid er i katalogen• Kan sjekke hvordan andre har kodet• Kan sjekke konsistens i koding• Kan enkelt gå til fil for retting

Konkordans

Konkordans

Persondata

• Skjema har forandret seg gjennom årene• Data ligger i SPSS-filer (kodet med kodebok)• Ulike formater• Eksporteres som tab-separert fil• Kobles med tekst gjennom kandidatnummer-år/mnd• Diskusjon med Datatilsynet/NSD om hva vi kunne ta

med (tekster ble også anonymisert mht. navn, steder etc.)

Tagging

• Bruker Oslo-Bergen tagger• Kan være problematisk å bruke standard tagger på tekst

med mange feil• Tagger er robust• Tagger bruker corr-feltet ved ortografiske feil

Tilrettelegging for søking

• Bruker Corpus Workbench via TCP/IP socket• Web-basert grensesnitt (Common Lisp)• Web-sider lages som XML og oversettes på server til

HTML via stilark (XSLT)• Det lages en korrektversjon av hver setning, får på

denne måten et parallellkorpus • Kan rette taggefeil ved søking• Kan laste ned resultat til PC (Excel og lignende.)

Konkordans

Parallell konkordans

Tekst

Tagget tekst

Kollokasjon