Vanhojen aineistojen aarreaitta, Hannu Karhunen

16
Vanhojen aineistojen aarreaitta Hannu Karhunen, Jyväskylän yliopiston kauppakorkeakoulu [email protected] Tilastokeskus, 20.4.2016

Transcript of Vanhojen aineistojen aarreaitta, Hannu Karhunen

Page 1: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Vanhojen aineistojen aarreaitta

Hannu Karhunen,

Jyväskylän yliopiston kauppakorkeakoulu

[email protected]

Tilastokeskus, 20.4.2016

Page 2: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Tässä esityksessä

1. Taustaa

2. Tietojen tallennushistoria

3. Esimerkkejä mahdollisista aineistoista ja vanhojen aineistojen

palauttamisesta

4. Lopuksi: Mitä aineistojen kehittämiseksi voitaisiin tehdä?

19.4.2016 Hannu Karhunen ([email protected])2

Page 3: Vanhojen aineistojen aarreaitta, Hannu Karhunen

1. Taustaa

Jyväskylän yliopiston kauppakorkeakoulu (JSBE) aloitti tutkimusaineistojen

kehittämisen vuoden 2015 alussa

Epätietoisuutta siitä, että mitä yksilötason aineistoja on säilytetty

Pelkona, että jos nyt ei toimita, niin vanhoja tietoja ei voida myöhemmin palauttaa

Tarkoitus kartoittaa ja mahdollisesti palauttaa vanhoja sähköisessä muodossa

olevia aineistoja tutkimuskäyttöön (käytettävissä myös tilastoissa)

Aineistojen kokoaminen ”moduulimuotoon”

Tiedon jakaminen tilastoihin ja ulos tutkijoille tärkeää. Aineistot tulevat lopulta

kaikkien tutkijoiden käyttöön

Käytännössä JSBE alkoi rahoittamaan määräaikaista virkasuhdetta, sillä

tietojen arkaluontoisuuden takia henkilön tulee olla Tilastokeskuksen työntekijä

Datoissa henkilötunnuksia, henkilöiden nimiä, yritystunnuksia jne.

19.4.2016 Hannu Karhunen ([email protected])3

Page 4: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Myös vanhat aineistot ovat tärkeitä, sillä monilla reformeilla voi olla

kauaskantoisia vaikutuksia.

Esimerkki 1: Yliopistokoulutuksen alueellisen laajentumisen vaikutus koulutuksen periytyvyyteen.

Kirjoilla missä pääaineessa?

Isovanhempien, vanhempien ja

lasten koulutus.

Millä alueilla henkilöt asuivat

ennen reformia?

Minkä kunnan lukioista henkilöt

valmistuivat reformin aikoihin?

19.4.2016 Hannu Karhunen ([email protected])4

Lähde: Karhunen ja Suhonen (2016).

Page 5: Vanhojen aineistojen aarreaitta, Hannu Karhunen

19.4.20165

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

Os

uu

s h

en

kil

öis

tä jo

ilta

pu

utt

uu

äid

in id

SYNTYMÄVUOSI

Lapsi-äiti linkityksen epäonnistuminen syntymäkohorteittain (Varhaisin linkitys on tehty VL70 perhetiedon perusteella)

Esimerkki 2: Aineistoissa on vielä monia ratkaisemattomia ongelmia

Page 6: Vanhojen aineistojen aarreaitta, Hannu Karhunen

19.4.20166

2. Tietojen tallennushistoria

Tilastokeskuksen vanhat tiedostot on tallennettu ajan kuluessa uuteen

muotoon tallennusmenetelmien muuttuessa Esimerkiksi 1970-luvulla tallennettiin reikäkortteja urakalla magneettinauhalle

ks. ”Reikäkorttimaailmasta verkkoaikaan eli TI 1970-2000” (Juha Merimaa, 2000)

Koontitiedostot (alkaen noin vuodesta 1995) Palautus verkkoasemalle kuvaukset saadaan valmiilla SAS-makrolla

Suhteellisen yksinkertaista ja nopeaa

Ennen koontitiedostoja tehdyt historiatiedostot on myös tallennettu

sähköiseen muotoon Puhekielessä monta nimeä, mm. ”historiakasetit”, ”kelatiedostot”, ”nauhat”. Itse

käytän nimeä historiatiedostot.

Tiedostoja vaihtelevasti 1960-luvun lopulta alkaen

Hannu Karhunen ([email protected])

Page 7: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Historiatiedostojen palautus SAS-tiedostoksi mahdollista mikäli aineistosta

löytyy kuvaus

Tarvitaan tiedoston jaksonpituus ja muuttujapositiot

Tilastokeskuksen vanhojen aineistojen kuvaukset on tallennettu

kuvatiedostoina ns. HIMA-kansioon; osa käsinkirjoitettua tekstiä

Tietoa on hävinnyt henkilöiden mukana, mutta pääosin aineistoista

näyttäisi löytyvän kuvaukset (täydentäviä kuvauksia on löytynyt myös

arkistohuoneista)

Aineistoista ei ole valitettavasti olemassa valmista luetteloa

Käytännössä tiedostoja pitää palauttaa olemassa olevien kuvauksien

perusteella ja tarkistaa kuvauksen vastaavuudet aineistoon muuttuja

kerrallaan

Aikaa ja luovuutta vaativaa puuhaa: kuvauksien muuttujapositiot eivät aina

täsmää aineistossa oleviin eli automaattisista SAS-makroista ei ole aina

apua

19.4.20167 Hannu Karhunen ([email protected])

Page 8: Vanhojen aineistojen aarreaitta, Hannu Karhunen

3. Esimerkkejä mahdollisista aineistoista ja vanhojen

aineistojen palauttamisesta käytännössä

Kuvaan seuraavaksi muutamia aineistoja, joiden kanssa olen työskennellyt

tai jotka olen jo palauttanut SAS-muotoon

Esittelyn ei ole tarkoitus antaa kattavaa kuvaa kaikista mahdollisista

aineistoista

Keskityn nyt lähinnä henkilötason koulutusaineistojen esittelyyn

19.4.20168 Hannu Karhunen ([email protected])

Page 9: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Toisen asteen

yhteisvalinta-

tiedostot 1985-

Tietoja yliopistojen

hakijarekisteristä

1992-

(Osittainen Harek)

Ylioppilaskirjoitukset

1967-

(ks. esim. 2)

Kansakoulun/oppikoulun

/peruskoulun

vuositiedostot

alkaen 1968

Ammatillisten

oppilaitosten linjatiedot

alkaen 1971

Oppilaitostason tietojaHenkilötason tietoja

Korkeakoulujen

opiskelijarekisteri

1968- (ks. esim. 1)

Lukioiden vuositilastot

alkaen 1969

Siniset moduulit ovat valmiita tai lähes valmiita

Hannu Karhunen ([email protected])

Tavoitteena oli moduulimuoto ja tietojen linkitettävyys yli ajan

Opintojentuki 2002-

Opettajien

työsuhdejaksotiedot

2010-luvulta

Oppilaitosrekisteri

1971-

Page 10: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Esimerkki 1: Korkeakoulujen opiskelijarekisteri 1968-

19.4.201610 Hannu Karhunen ([email protected])

Page 11: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Esimerkki 2: Ylioppilastutkintolautakunnan tiedostot 1967-

Tilastokeskuksen historiatiedostoista löytyy vain hajanaisia

vuositiedostoja ylioppilaskirjoituksista

Tilastokeskuksen kuvauksista löytyi kuitenkin yksi yhden sivun

tiedostokuvaus vuoden 1971 ylioppilaista ja ylioppilaskirjoituksien

tuloksista

Yhteydenotto Ylioppilastutkintolautakunnan toimistoon paljasti, että vanhat

vuositiedostot ovat tallessa sähköisessä muodossa vuodesta 1967 alkaen.

Vanhemmista vuositiedostoista ei heillä kuitenkaan ollut olemassa

muuttujakuvauksia.

Tilastokeskuksesta löytyneen kuvauksen avulla oli mahdollista

selvittää vanhojen tiedostojen muuttujapositiot

Yhteistyön tuloksena tutkimuskäyttöön saatiin palautettua yksityiskohtainen

aineisto ylioppilaskirjoituksiin osallistuneista henkilöistä 1967-1989

Tavoitteena saada tutkijakäyttöön päivittyvä YTL-moduuli (tähän liittyvät

neuvottelut YTL:n kanssa vielä kesken)

19.4.201611 Hannu Karhunen ([email protected])

Page 12: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Säilynyt muuttujakuvaus YTL:n tiedostoista

19.4.2016 Etunimi Sukunimi12

Page 13: Vanhojen aineistojen aarreaitta, Hannu Karhunen

Esimerkki 3: Väestölaskenta 1960 (VL60)

Tornihuhun mukaan VL60 tuhoutui vesivahingossa

On kuitenkin todennäköisempää, että VL60:n lomakkeet löytyvät

Hämeenlinnan maakunta-arkistosta. VL50 on myös siellä.

Ennen kuin reikäkorttikoneet poistuivat käytöstä, niin VL60:n

reikäkortit ajettiin sähköiseen muotoon. Tietääkseni tätä aineistoa ei

ole aikaisemmin käytetty tutkimuksessa (harva edes tietää

sähköisestä versiosta)

Rajoite: Aineistossa ei ole henkilöille nimiä ja tähän aikaan ei ollut

vielä henkilötunnusta Datan yhdistäminen myöhempiin VL-

tiedostoihin likipitäen mahdotonta

19.4.201613 Hannu Karhunen ([email protected])

Page 14: Vanhojen aineistojen aarreaitta, Hannu Karhunen

19.4.201614

Väestölaskenta 1960

Page 15: Vanhojen aineistojen aarreaitta, Hannu Karhunen

4. Lopuksi: Mitä vanhojen aineistojen kehittämiseksi

voitaisiin tehdä?

Tilastokeskuksen resurssit ovat rajalliset

Läpikäytävää materiaalia on varsin paljon ja on vaikeaa arvioida mitkä

aineistot ovat tutkimuksellisesti tärkeitä

Vanhojen aineistojen kuvaukset pitäisi saada näkyviin Tilastokeskuksen

ulkopuolelle

Palautukset ja aineistojen käsittely ulkopuolisen rahoituksen voimin

Ehdotuksia?

19.4.2016 Hannu Karhunen ([email protected])15

Page 16: Vanhojen aineistojen aarreaitta, Hannu Karhunen

KIITOS!

19.4.2016 Hannu Karhunen ([email protected])16