KURSHEFTEMorsmål (no) Albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk, russisk,...
Transcript of KURSHEFTEMorsmål (no) Albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk, russisk,...
-
ASK, kurshefte Hilde Johansen (2011) 1
NORSK ANDRESPRÅKSKORPUS
KURSHEFTE
-
ASK, kurshefte Hilde Johansen (2011) 2
KURSHEFTETS INNHOLD
1. Antall ord i ulike delkorpus (testnivå og morsmål) 2. Persondata 3. Feilkoder 4. Oslo-Bergen-taggerens taggsett 5. AKSs søkemeny 6. KWIC-konkordans 7. Distribusjon 8. Forklaring av felt for søk på språklige trekk 9. Noen regulære søkeuttrykk
-
ASK, kurshefte Hilde Johansen (2011) 3
1. ANTALL ORD
(= 100 tekster, bortsett fra * 24 tekster,** 7 tekster og *** 5 tekster)
Morsmål Språkprøven Høyere nivå
Albansk 24197 10966*
BSK 27289 46041 Engelsk 26527 49691
Nederlandsk 26682 44871
Polsk 28857 49024 Russisk 27064 45783
Spansk 25572 45262 Somali 22881 3063**
Tysk 29152 49745 Vietnamesisk 25500 2598***
Norsk 27556 44198 BSK= bosnisk-serbisk-kroatisk
-
ASK, kurshefte Hilde Johansen (2011) 4
2. PERSONDATA
Norsk språktest har hentet inn tillatelse fra datatilsynet til å samle inn og bruke
personopplysninger, med spesifikke regler for hvordan innsamlingen skulle gå frem.
Innsamlingen begynte uavhengig av ASK, med tanke på fremtidig forskning.
Persondataene har blitt opplyst frivillig under testene og skjemaene som blir brukt har blitt
utviklet med i tråd med teorier om hva som påvirker språklæring. Tekstene i korpuset er
hentet fra testaviklinger i perioden 1996 til 2006, og det har underveis vært gjort noen
endringer i skjemaene, derfor kan en del underkategorier av og til ikke være oppgitt. I
kontrollkorpuset er bare noen få opplysninger oppgitt. Disse er merket (no) i listen nedenfor.
Variabel Kategorier I O Morsmål (no) Albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk,
russisk, somali, spansk, tysk, vietnamesisk (, norsk) 0
Andre andrespråk (diverse)
Engelskkunnskaper Ikke noe, begynner, grunn-nivå, mellomnivå, høyere nivå 213
Hjemland (no) (diverse) 5 Alder (no) (diverse) 7
Kjønn (no) Kvinne/mann 4 Utdanning (no) Grunnskole, videregående, høgskole/universitet,
forskerutdanning, annet 20
Antall år i utdanning (lite pålitelig)
Type norskkurs Kommunale kurs, AMO-kurs, grunnskole voksne, videregående skole, folkeuniversitet, annet
251
Kurslengde i måneder
< 6 mnd, 6-12 mnd, 13-24 mnd, 25-36 mnd, >36 mnd 214
Kurslengde i timer < 200, 201-400, 401-500, 501-850, 851- 1500, 1501-2000, 2001-300
824
Bruk av målspråket Aldri, sjelden, daglig 193 Oppholdstid < 1 år, 1-2 år, 2-3 år, 3-4 år, 4-5 år, >5 år 11
Kursmål/motivasjon Søke arbeid, søke opptak på skole, dokumentere norskkunskaper, annet
Sosial omgang Ja, nei (jobb/skole, fritid) 82
Arbeid i Norge Helsearbeid, hjemmeværende, kontorarbeid, kultur, manuelt arbeid, opplæring/undervisning, servicenæring, transport, annet.
585
Tilknytning Arbeider, studerer, søker arbeid, annet 113
-
ASK, kurshefte Hilde Johansen (2011) 5
3. FEILKODER
LEKSIKALSKE FEILKODER
W Galt ord ORT Ortografisk avvik
PART Avvikende sammensetninger (hjemmelandet) SPL Særskrivingsfeil (barne hage)
DER Avvikende avledninger (snillig) CAP Gal bruk av stor/liten bokstav
FL Ord fra andre språk
MORFOLOGISKE FEILKODER
F Gal morfosyntaktisk katgori
INFL Rett morfosyntaktisk kategori, men avvikende form (gådde) SYNTAKTISKE FEILKODER
O Gal ordstilling på ord- eller frasenivå INV Underinversjon (manglende subjekt/verb-inversjon)
OINV Overinversjon (overgeneralisert) SCA Gal plassering av setningsadverbial i leddsetninger
MCA Gal plassering av setningsadverbial i hovedsetninger M Manglende ord
R Overflødig ord
TEGNSETTINGSFEILKODER
PUNC Galt tegn ved tegnsetting
PUNCR Tegnsetting mangler PUNCM Tegnsetting overflødig
ANDRE FEILKODER
X Uidentifiserbart avvik AGR Underkode for følgefeil, eller feil oppstått pga andre
korrigeringer gjort av feilkoderne
-
ASK, kurshefte Hilde Johansen (2011) 6
4. OSLO-BERGEN-TAGGERENS TAGGSETT
A. SYNTAKTISK TAGGSETT
@
-
ASK, kurshefte Hilde Johansen (2011) 7
B. MORFOSYNTAKTISK TAGGSETT
ordklasse/tegn Kjønn tall type best tid person kasus gradbøy
adj m/f
nøyt
fem
ent
fl
fork
ub
be
pos
kom
sup
adv
det mask
nøyt
fem
ent
fl
dem
dem
forst
kvant
kvant
poss
poss res
poss høflig
sp
forst
ub
be
inf-merke
interj
konj
clb
prep
pron fem
mask
mask
fem
nøyt
ent
fl
hum res
hum sp
pers
pers hum
pers høflig
poss hum sp
refl
sp
res
1 2 3 nom
akk
sbu
subst mask
fem
nøyt
ent
fl
appell
prop
fork
ub
be
gen
ukjent
verb pres inf pass
inf
pres
pret
perf-part
imp
pass
(http://omilia.uio.no/obt/)
http://omilia.uio.no/obt/
-
ASK, kurshefte Hilde Johansen (2011) 8
5. ASKs SØKEMENY
-
ASK, kurshefte Hilde Johansen (2011) 9
6. KWIC-KONKORDANS
-
ASK, kurshefte Hilde Johansen (2011) 10
7. DISTRIBUSJON
-
ASK, kurshefte Hilde Johansen (2011) 11
8. FORKLARING PÅ FELT FOR SØK PÅ SPRÅKLIGE TREKK
ORD:
Søker etter ordet nøyaktig slik det forekommer i originalteksten.
FEILTYPE
Søker etter feilkoder, som er beskrevet i kodeboka.
For valg av flere feiltyper: hold inne CTRL.
UNDERTYPE
Søker etter undertyper, først og fremst til feiltypen O (ordstillingsfeil)
AGR kan være undertype til flere ulike feiltyper (se kodeboka).
KORREKSJON:
Søker etter ordet nøyaktig slik det står i taggen corr=””, (dvs.. den korrigerte formen
av ordet.)
Gjelder kun for søk etter ord som har feiltagg og korreksjon.
LEMMA:
Søker etter den automatiske taggerens lemma-tildeling til ordet
Gir alle ulike former ordet måtte forekomme i i korpuset, også de som har
ortografiske feil.
Enkelte ord kan være tildelt feil lemma homonymi/polysemi
ORDKLASSE
De tradisjonelle ordklassene pluss noen kategorier til (forkortelser og ukjente ord)
Ordklassetaggene er manuelt editert, men det kan forekomme feilkategoriseringer
og ord som er tagget med flere ordklasser, som regel pga homonymi/polysemi
MORFOLOGI
Morfologiske tagger er ikke manuelt editert, en del feil forekommer
SYNTAKS
Syntaktiske tagger er ikke manuelt editert, en del feil forekommer
@ markerer syntaktiske funksjoner og setningsgrenser
< og > peker mot kjernen i ordets frase, for eksempel har @det> (determinativ)
etterstilt kjerne
-
ASK, kurshefte Hilde Johansen (2011) 12
5. NOEN REGULÆRE SØKEUTTRYKK
Regulære søkeuttrykk kan brukes i åpne felt (de som ikke har ferdige lister over valg) og i
feltet for søk med regulære uttrykk.
| (eller)
Brukes for å søke etter flere attributter på en gang, for eksempel:
o ord: bil|båt
o lemma: bil|båt
(Tilsvarer valg av flere bokser vertikalt)
. (vilkårlig tegn)
Står for et vilkårlig tegn, og kan settes før og etter deler av ord. I kombinasjon med
andre tegn angir det hvor mange vilkårlige tegn en tillater.
. (punktum alene) : ett vilkårlig tegn
o .om gir rom, kom, som etc
.+ (punktum pluss): vilkårlig mange tegn, minst ett
o .+om gir rom, from, hjemom etc
.* (punktum asterisk): vilkårlig mange tegn, også ingen.
o .*om gir om, rom, from, hjemom etc
.? (punktum spørsmålstegn): ingen eller ett vilkårlig tegn
o .? om gir om, lom, kom etc
{} target (kan bare brukes i feltet for regulære uttrykk)
Ved bruk av dette tegnet rundt en korpusposisjon, vil bare denne korpusposisjonen være
fremhevet i konkordansen
[lemma = "på" %c] {[pos = "subst"]}