Norsk andrespråkskorpus (ASK)

43
Norsk andrespråkskorpus (ASK) Samarbeid Norsk Språktest • Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet

Transcript of Norsk andrespråkskorpus (ASK)

Page 1: Norsk andrespråkskorpus (ASK)

Norsk andrespråkskorpus (ASK)

Samarbeid

• Norsk Språktest• Aksis• Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)

Finansiering: Norges Forskningsråd, Meltzerfondet

Page 2: Norsk andrespråkskorpus (ASK)

• Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig)• Arrangerer:

– Språkprøven i norsk for voksne innvandrere

• Avsluttende prøve for den offentlige grunnopplæring• Arrangeres 3 ganger i året minst ett sted i hvert fylke• Lese- og lytteforståelse, skriftlig og muntlig prøve

– Test i norsk - høyere nivå (Bergenstesten)

• Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter

• Muntlig: for helsepersonell

Norsk Språktest

Page 3: Norsk andrespråkskorpus (ASK)

• 2001: 2309 kandidater (63% kvinner), 62% bestått• 2002: 2593 kandidater (65% kvinner), 60% bestått• 2003: 3174 kandidater (63% kvinner), 58% bestått

• 2003: 106 forskjellige land, 103 ulike morsmål

• Skriftlig prøve: forklarende eller fortellende• Ca. 240 ord

Språkprøven

Page 4: Norsk andrespråkskorpus (ASK)

Høyere nivå (Bergenstesten)

• 2001: 998 kandidater• 2002: 1129 kandidater• 2003: 1286 kandidater

• Skriftlig prøve: forklarende, fortellende eller argumenterende• Ca. 450 ord

Page 5: Norsk andrespråkskorpus (ASK)

Eksempel på oppgaver (Språktesten)Skriv en tekst om:

• adopsjon • alkoholvaner • barneoppdragelse • en bok du har lest • det du mener er viktige verdier i livet • din første jobb • ditt møte med norsk kultur • en eller flere nyheter som har gjort inntrykk på deg • en forfatter og en bok han/hun har skrevet • en hyggelig opplevelse du har hatt • en interesse du har • en kjent person• en person som har betydd mye for deg

Page 6: Norsk andrespråkskorpus (ASK)

Eksempel på oppgaver (Bergenstesten)

Skriv ett av følgende leserbrev til en lokalavis:

1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet;

eller

2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.

Page 7: Norsk andrespråkskorpus (ASK)
Page 8: Norsk andrespråkskorpus (ASK)
Page 9: Norsk andrespråkskorpus (ASK)

Persondata

• Norsk Språktest har lagret persondata i SPSS• Opplysninger kodes, verdi tallkode• Kodebok

v14timer Timer i grunnopplæring Value Label 1 under 200 2 200-400 3 401-500 4 501-850 5 851-1500 6 1501-2000 7 2001-3000

Page 10: Norsk andrespråkskorpus (ASK)

KandidatnummerTestdatoNivå på testenHjemlandMorsmålAlderKjønnEngelsknivåSkolegang utenfor NorgeAntall skoleår utenfor NorgeHva gjør du i NorgeYrke i Norge

Tid i Norge (antall år)Timer i grunnopplæringAntall mnd. siden start på norskkursHvor har du gått på kursHva skal du bruke prøveresultatet til: skoleBruke: arbeid Bruke: dokumentereBruke: annetHvor ofte snakker du norsk utenfor klasserommetHar du sosial omgang med nordmenn?Omgang med norske på fritidenOmgang med norske på jobben/skolen

Persondata

Page 11: Norsk andrespråkskorpus (ASK)

Yrke i Norge Value Label

1 helsearbeid 2 kontorarbeid 3 manuelt arbeid 4 servicenæring 5 opplæring/undervisning 6 transport 7 politi, toll, brann 8 kultur 9 hjemmeværende 10 annet 11 akademisk yrke

Page 12: Norsk andrespråkskorpus (ASK)

Korpus og utvalg

• Utvalg av språk– Spredning etter type språk– Må ha nok besvarelser, alle må ha bestått

• Utvalg innen språk– Samme type oppgave

• 10 språk– 100 besvarelser innen hvert språk– Både Språkprøven og Høyere nivå

• Kontrollgruppe– Nordmenn, fra kor og idrettslag etc.

Page 13: Norsk andrespråkskorpus (ASK)

Problemer vedrørende utvalg

• Ønsket flere/andre morsmål, men ikke nok antall• Ulik fordeling av morsmål i de to testene• Skjev kjønnsfordeling

– Russisk, polsk : 90-95% kvinner• Ønsket flere besvarelser, men ikke økonomi• Ønsket muntlig prøve, men ikke økonomi

Page 14: Norsk andrespråkskorpus (ASK)

Valgte morsmål

• Albansk• Engelsk• Nederlandsk• Polsk• Russisk• Serbokroatisk• Somali• Spansk• Tysk• Vietnamesisk

Page 15: Norsk andrespråkskorpus (ASK)

Feilbegrepet

• Problematisk med begrepene ”feil” og ”korrekt form”• Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ”• Andre termer: avvik, løsning• (kilde) L1 interlanguage L2 (mål)• Feil viser hvorledes språket blir lært• Det å gjøre feil er en måte å teste ut målspråket• Grader av feil, ikke lett å avgjøre hva som er rett

Page 16: Norsk andrespråkskorpus (ASK)

Bakgrunn for feilkoder ASK

Studerte feilkoder i tre større prosjekter

ICLE (International Corpus of Learner English)(tag) feil $rett$ (feil eller rett kan være 0)He took the books (QL) and $,$ the records and the computers.

FRIDA (French Interlanguage Database) corpus.<type><subtype><ordklasse>#rett$feil</..></..></type>

très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>

Cambridge Learner Corpus

<#CODE>wrong word|corrected word</#CODE>

He died <#MP>we|.We</#MP> buried him the next day.

Page 17: Norsk andrespråkskorpus (ASK)

ASK feilkoder

• Enkelt system slik at kodingsfeil unngås• Grammatisk informasjon annoteres automatisk (senere)• Velger retting som krever minst forandringer• Har kodemanual med eksempler• Systematisk sjekk av koding (ved konkordans)

• Bruker TEI sic tag med ekstra attributter

• <sic type=type desc=undertype corr=rett>feil</sic>

• Det kan være flere feilmarkeringer til et ord (men ikke overlapp)

Page 18: Norsk andrespråkskorpus (ASK)

ASK feilkoder

5 hovedgrupper

– Leksemfeil– Morfologifeil– Syntaksfeil– Tegnsettingsfeil– Uidentifiserbar feil

Page 19: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Leksemfeil

• W galt ord • ORT ortografisk feil • PART samskrivningsfeil, avledningsfeil • SPL særskrivningsfeil• DER gal avledning• CAP galt valg av stor/liten bokstav

• FL ord fra andre språk enn norsk

Page 20: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Leksemfeil

• W Fra min mening ... (Etter)• ORT Kun i ordets grunnform (ikke bøying)• PART etterhvert (etter hvert)• SPL sove rom (soverom)• DER stillighet (stillhet)• CAP europa (Europa)• FL lettere å resolvere problemer

(løse)

Page 21: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Morfologifeil

• F (galt valg av morfosyntaktisk bøyningsform)– Hvilken miljø skal man bo. (Hvilket)– ..og ikke så lang fra sentrum (langt)– Det var jo ham som har betydd absolutt mest (er)

• INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)– har mye trafikker og bråker (trafikk og bråk)– Vi hald kontakten (holdt)

Page 22: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Syntaksfeil

• M (et ord eller en frase mangler)– Vi hilser ___ hverandre når vi .... (mangler på)

• R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk)– Etter ti dager senere giftet... (senere redundant)

• O (ord eller fraser står i gal rekkefølge)– ..nok stor for oss... (stor nok)

Page 23: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Undertyper til feiltype O

• INV (inversjonsfeil)– I begynnelsen det var veldig vanskelig... (var det)

• OINV (overgeneralisering av inversjonsregel)– .. selv om er det press .. (det er)

• MCA (gal plassering av setningsadverbialet i helsetning)– fordi jeg har ikke vært i Norge før.. (ikke har)

• SCA (gal plassering av setningsadverbialet i leddsetning)– Man kan ringe alltid hvor man er. (alltid ringe)

Page 24: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Tegnsettingsfeil

• PUNC (galt valg av tegn)– Hvem trekker først. (?)

• PUNCM (tegnsetting mangler)– Når vi ser ca 50 år tilbake (ca.)

• PUNCR (tegnsetting må fjernes)– .. med huset, og barna (ikke komma foran og)

Page 25: Norsk andrespråkskorpus (ASK)

ASK feilkoder: Uidentifiserbar feil

• X

– Vennskapet mitt var utrolig.– de liker virkelig å hjelpe i menneskighet.

Page 26: Norsk andrespråkskorpus (ASK)
Page 27: Norsk andrespråkskorpus (ASK)

Innskriving/redigering: Oxygen

Page 28: Norsk andrespråkskorpus (ASK)

Stilark

Til hjelp ved kontroll kan en kjøre flere stilark på server.

Page 29: Norsk andrespråkskorpus (ASK)

Stilark

Page 30: Norsk andrespråkskorpus (ASK)

Stilark

Page 31: Norsk andrespråkskorpus (ASK)

Konkordans som hjelpemiddel

• De som koder har adgang til konkordans (via web)• Kjøres på de tekstfilene som enhver tid er i katalogen• Kan sjekke hvordan andre har kodet• Kan sjekke konsistens i koding• Kan enkelt gå til fil for retting

Page 32: Norsk andrespråkskorpus (ASK)

Konkordans

Page 33: Norsk andrespråkskorpus (ASK)

Konkordans

Page 34: Norsk andrespråkskorpus (ASK)
Page 35: Norsk andrespråkskorpus (ASK)

Persondata

• Skjema har forandret seg gjennom årene• Data ligger i SPSS-filer (kodet med kodebok)• Ulike formater• Eksporteres som tab-separert fil• Kobles med tekst gjennom kandidatnummer-år/mnd• Diskusjon med Datatilsynet/NSD om hva vi kunne ta

med (tekster ble også anonymisert mht. navn, steder etc.)

Page 36: Norsk andrespråkskorpus (ASK)

Tagging

• Bruker Oslo-Bergen tagger• Kan være problematisk å bruke standard tagger på tekst

med mange feil• Tagger er robust• Tagger bruker corr-feltet ved ortografiske feil

Page 37: Norsk andrespråkskorpus (ASK)

Tilrettelegging for søking

• Bruker Corpus Workbench via TCP/IP socket• Web-basert grensesnitt (Common Lisp)• Web-sider lages som XML og oversettes på server til

HTML via stilark (XSLT)• Det lages en korrektversjon av hver setning, får på

denne måten et parallellkorpus • Kan rette taggefeil ved søking• Kan laste ned resultat til PC (Excel og lignende.)

Page 38: Norsk andrespråkskorpus (ASK)
Page 39: Norsk andrespråkskorpus (ASK)

Konkordans

Page 40: Norsk andrespråkskorpus (ASK)

Parallell konkordans

Page 41: Norsk andrespråkskorpus (ASK)

Tekst

Page 42: Norsk andrespråkskorpus (ASK)

Tagget tekst

Page 43: Norsk andrespråkskorpus (ASK)

Kollokasjon