Tilastovirastot vahvoilla tiedon yhdistämisessä | Tieto & Trendit

Uusin numero

4/2016
Tieto&trendit
Arkisto
Tieto & Trendit
Teema Tieto&trendit 2/2015 13.5.2015 Jari Nieminen

Tilastovirastot vahvoilla tiedon yhdistämisessä

Jari Nieminen

Iso data on ollut viime vuosina esillä tilaston­tekijöiden keskusteluissa perinteisistä tiedonkeruu­menetelmistä poikkeavana uudenlaisena tietolähteenä, jonka mahdollisuuksia ei ole osattu tai haluttu lähteä hyödyntämään virallisen tilaston laatimisessa. Rekisterejä laajasti hyödyntävälle tilastontekijälle nousee mieleen väistämättä kysymys, eivätkö laajat ja jatkuvasti päivittyvät rekisterit ole isoa dataa?

Suomessa ja muissa Pohjoismaissa on jo kauan käytetty rekisteri­aineistoja tilastojen tietolähteenä. Sen sijaan muulla maailmassa, etenkin Yhdysvalloissa ja Isossa-Britanniassa myös rekisteriaineistot ovat uusia tilasto­aineistoja, joiden mahdollisuuksia virallisen tilaston tuottamisessa on lähdetty tutkimaan vasta viime vuosina.

Yhtenä syynä suureen innostukseen ison datan hyödyntämiseksi on oletettavasti juuri rekisteriaineistojen puute etenkin anglo­saksisessa maailmassa. Niin Iso-Britannia, USA, Kanada, Australia kuin Uusi-Seelantikin ovat kaikki maita, joissa ei ole ollut poliittisesti mahdollista virallisten koko väestöä kattavien rekisterien kuten väestö­rekisterin perustaminen.

Tilastoinnissa otostu­tkimuksia ja kyselyjä on perinteisesti totuttu pitämään ainoina oikeina tapoina tuottaa laadukasta tilastotietoa. Kaikki muut tavat on määritelty epäluotettaviksi ja menetelmiltään kyseenalaisiksi.

Tilasto­keskuksellakin on monivuotinen kokemus kansainvälisestä yhteistyöstä, jossa rekisterien käyttöä tilastointiin on pitänyt yhä uudelleen perustella. On pitänyt todistaa, että rekistereihin perustuvat tilastotiedot täyttävät kansainväliset laatukriteerit.

Kansallisissa tilastoissa on jo pitkään ollut itsestään selvää, että joidenkin tietojen osalta rekisteritiedot ovat vähintään yhtä laadukkaita kun kyselyillä kerätyt vastaavat tiedot. Tällaisia ovat esimerkiksi verottajan verotettavia tuloja kuvaavat tiedot ja väestö­rekisterin demografiset tiedot.

Ison datan käyttöön tilastoinnissa liittyy samoja ennakkoluuloja kuin aikoinaan rekisteriaineistoonkin. Rekisterien käyttöönoton seurauksena tilastojen tietosisällöt laajenivat merkittävästi, ja tietoja voidaan julkaista aiempaa useammin. Samalla myös tietojen käyttö on lisääntynyt.

Nykyiset tiedon käyttäjät eivät varmasti hyväksyisi, että esimerkiksi kunnittaisia tietoja työssäkäynnistä ja asumisesta tuotettaisiin vain viiden tai kymmenen vuoden välein.

Iso data mahdollistaa usein lähes ajantasaisen tiedon seurannan, kunhan ratkaistaan edustavuuden ja jatkuvasti muuttuvien teknologioiden haasteet.

Esimerkiksi osa nopeista suhdannetilastoista voitaisiin tuottaa yhdistelemällä rekisteri­tietoa, isoa dataa, suoraa tiedonkeruuta ja kaikkea muuta tietoa, jota jo aikaisemmin kertyneen datan analysointi voi tarjota luotettavuuden parantamiseen. Näitä välineitä ei juurikaan ole hallussa muilla organisaatioilla kuin tilastovirastoilla. Tästä syystä myös tilasto­virastojen pitää nähdä roolinsa ison datan käytön edistämisessä.

Rekisteritieto kerätään, iso data syntyy

Rekisteriaineistoissa ja isossa datassa on yhteisiä ominaisuuksia ja eroja. Rekisteri­aineistot ovat yleensä suuri­volyymisiä ja jatkuvasti päivittyviä aineistoja. Tässä suhteessa rekisterit ovat ainakin nykyisin hyvin lähellä transaktio­dataa.

Myös rekistereissä päivitys­tapahtumat koostuvat useista pienistä tapahtumista, joista osa voi olla vain tieto­järjestelmän sisäiseen ylläpitoon liittyvää lokitietoa.

Ison datan ja rekisterin erona puolestaan on se, että iso data koostuu juuri näistä tapahtumista, joiden lopputulos on esimerkiksi rekisteriin tehtävä ylläpito. Siinä mielessä myös rekisterin ylläpidosta syntyy koko ajan uutta isoa dataa, jota ei ole ehkä toistaiseksi osattu hyödyntää riittävästi.

Erottavana piirteenä ison datan ja rekisteri­datan välillä on mm. se, että rekisterit ovat tyypillisesti julkisen sektorin perustamia ja ylläpitämiä tieto­järjestelmiä, kun iso data on usein yksityistä tietoa.

Rekisterit ovat yleensä syntyneet hallinnon vaatimuksesta, ja nykyiset sähköiset rekisterit on useimmiten perustettu siirtämällä kortistoja tai muita alun perin kirjallisia aineistoja sähköiseen muotoon.

Yleensä tässä vaiheessa on tehty suuri järjestelmä­uudistus, jonka pää­määränä on ollut nimenomaan kerätä ja ylläpitää tärkeiksi katsottuja tietoja ja yleensä vielä kattavasti koko rekisterin kohdejoukosta.

Iso data on puolestaan kertynyt jonkin toiminnan sivutuotteena, ja tarkoituksena ei ole ollut tiedon keruu kyseisestä ilmiöstä, vaan ylipäätään järjestelmän toiminnan ylläpito. Esimerkiksi sosiaalisen median päivitykset tehdään aivan muista lähtö­kohdista käsin kuin tietojen saamiseksi virallisiin tietokantoihin.

Tämä on ison datan keskeinen heikkous, mutta samalla sen suurin vahvuus. Iso data kertyy henkilöiden omasta aloitteesta ilman varsinaista keruu­operaatiota. Datan kertyminen on usein vain sivutuotteena itse tiedon välitykselle.

Tilastontekijän kannalta datan kertyminen ilman varsinaista tiedon­keruuta vaikuttaa ihannetilanteelta. Tiedonkeruu on helppoa ja tapahtuu kaiken aikaa ja vielä siten, että kohde ei edes tiedä olevansa tilastoinnin kohteena eikä koe aikaansa tuhlattavan.

Tähän seikkaan liittyy kuitenkin tietosuoja­ongelmia ja eettisiä kysymyksiä. Tilastontekijät ovat pitäneet erittäin tärkeänä, että tutkimuksessa mukana oleva tietää, miksi kysymys tehdään ja mihin hänen antamaansa tietoa käytetään.

On tärkeää kiinnittää huomiota ison datan laatuun, tietosuojaan ja edustavuuteen. Esimerkiksi sosiaalisen median päivityksistä kerättävä tieto saadaan vain niiltä, jotka ovat kyseisen median käyttäjiä.

Ainakin toistaiseksi osa väestöstä jää kokonaan tällaisen tiedonkeruun ulkopuolelle.

Erilaisen tiedon yhteiskäyttö on Suomen vahvuus

Suomessa on muiden Pohjoismaiden tavoin rakennettu tehokas hallinnollisia rekistereitä laajasti hyödyntävä tilastojärjestelmä, jota muualta maailmasta tullaan tänne opiskelemaan ja mahdollisuuksien mukaan myös jäljittelemään.

Se, että rekisterien käyttö on ollut aikanaan tärkeä ja kansainvälisesti suuria epäilyksiä herättävä tiedonkeruu­tapa, antaa meille kuitenkin jonkinlaista pohjaa uusien tiedonkeruu­tapojen ennakko­luulottomalle käyttöön­otolle.

Rekisterien ja ison datan käytössä on paljon yhtäläisiä piirteitä. Etenkin aineistojen tulkintaan, niiden yhdistelyyn sekä otos­aineiston täydentämiseen liittyy paljon menetelmällistä kehittämistyötä, jota voimme hyödyntää varmasti nopeammin kuin perinteiset, vain suoraa tiedonkeruuta käyttävät tilasto­virastot muualla maailmassa.

Onneksi meillä Suomessa on sekä isoa dataa että rekisteri­aineistoja. Tulevaisuudessa meidän on syytä edelleen ennakko­luulottomasti jatkaa tilastotoimessa näiden hyödyntämistä yhdessä suoran tiedonkeruun kanssa.

Tilasto­aineistot tulevat yhä enemmän koostumaan kaikkien eri tietolähteiden yhdistämisestä, ja jopa yksittäisten muuttujien tiedot voivat olla peräisin monista eri tietolähteistä.

Tietojen laatu voidaan varmistaa myös menetelmällisesti ja dokumentoida tietojen käyttäjälle ymmärrettävässä muodossa.

Voisiko iso data olla ratkaisu vastauskadon kanssa kamppaileville haastattelu­tutkimuksille? Yhä suurempi ongelma haastatteluissa on, että kohteita ei enää tavoiteta puhelimella. Vaikka lähes kaikilla on mobiili­laite, osa meistä ei vastaa tuntemattoman soittajan puheluihin.

Nykyisin haastattelutietoja täydennetään rekisteri­aineistoista. Ison datan osalta suuri puute on se, että sitä ei voida suoraan yhdistää olemassa olevaan tieto­aineistoon. Esimerkiksi henkilön tietoja ei ole yhdistettävissä henkilö­tunnuksella.

Survey-tiedonkeruussa on lähdetty siitä oletuksesta, että otoksen tulee olla mahdollisimman pieni, koska haastattelu on kallista; ison datan kohdalla on mahdollista analysoida suurempaa populaatiota kuin perinteinen otos.

Jos iso data sisältää tietoa, jota haastattelu­aineistossa on tarkoitus kerätä, voidaan haastattelu­tieto korvata tai sitä täydentää ison datan käytöllä. Tämä vaatii paljon menetelmä­työtä etenkin siksi, että tällaisissa muutoksissa menetetään usein vertailu aikaisempiin tutkimuksiin tai joudutaan jopa tinkimään kansain­välisten sopimusten velvoitteista.

Rekisteriaineiston avulla voidaan tutkia ison datan edustavuutta ja jakaumaa. Vinon jakauman korjaamiseen on olemassa tilastollisia menetelmiä kuten uudelleen­painotus, mutta ison datan kohdalla saattaa olla vaikeuksia havaita, miltä osin aineisto on vino, tai mikä osa­joukko puuttuu kokonaan.

Aineiston vinouden tutkimiseen ja menetelmien kehittämiseen on Suomessa erinomaiset mahdollisuudet hyvien rekisteri­aineistojemme vuoksi.

Kun esimerkiksi Isossa-Britanniassa tehtiin arvioita maassa asuvien ulkomaalaisten määristä eri kielisten internet­hakujen avulla, havaittiin mm. suuri lisäys puolan­kielisten hakujen määrässä. Hakujen määrää kuvaava käyrä seurasi melko tarkasti puolalaisten maahan­muuttajien kasvua.

Ongelmana oli kuitenkin, että tietoa ei voitu suhteuttaa väestö­tilastojen aineistoon, koska edelliset tiedot olivat vuoden 2000 väestölaskennasta ja siten vanhentuneet.

Hallinnolliset esteet ison datan käytölle

Iso data on nostettu esille keskeisenä kilpailu­tekijänä Euroopan unionin piirissä (Euroopan komissio 2014).

Tilasto­toimen osalta voi todeta, että Euroopan unionin nykyinen säädös­pohja tilastojen tietosi­sältöjen toimitusten ja joskus jopa yksittäisten kysymysten muotoilun osalta hidastaa tai jopa estää ison datan hyödyntämisen virallisessa tilastoissa.

Tilanne on saman­kaltainen kuin joskus aiemmin oli rekisteriaineistojen käytön kohdalla, vaikka Euroopan unionin sosiaalitilasto­strategia pyrkii uudenlaiseen eri tilasto­järjestelmiä yhdistävään lähestymistapaan.

Nähtäväksi jää onko kehitys tarpeeksi nopeaa, jotta virallinen EU-tilasto säilyttää kilpailu­kykynsä ja ennen kaikkea uskottavuutensa kansalaisten silmissä, kun muut toimijat julkaisevat samoja tietoja julkista tilastointia huomattavasti nopeammin.

Jos ison datan ilmiötä tarkastellaan kansalaisen kannalta, herää kysymys, onko isosta datasta puhuminen keino välttää tosiasiaa, että ison datan kertyminen on tietojen rekisteröintiä enemmän tai vähemmän epä­virallisiin tieto­kantoihin.

Esimerkiksi liikenteen valvonta­kameroiden ja GPS-paikannuksen käyttö liikenne­valvonnassa tai vaikkapa kehitteillä olevat tiemaksu­järjestelmät luovat uuden täysin rekisteriin verrattavan ja virallisen tieto­aineiston, jonka käyttö ei sinällään poikkea mitenkään esimerkiksi verotuksen rekistereistä.

Avointa dataa tulee lisätä

Isosta datasta puhutaan tällä hetkellä usein avoimen datan yhteydessä; ikään kuin kaikki iso data olisi avointa ja avoin data isoa dataa. Tällaista johto­päätöstä ei pidä kuitenkaan tehdä automaattisesti.

Luultavasti jatkossa suurin osa isosta datasta, jota maailman­laajuiset tietojärjestelmät tallentavat ja käsittelevät kaiken aikaa, ei tule suuren yleisön tietoon saati käyttöön avoimena datana.

Tilastoviranomaisten olisi syytä varmistaa pääsy myös niihin yhteiskunnan kannalta merkittäviin ison datan tietolähteisiin, jotka eivät ole avointa dataa. Tilasto­toimen tehtäväksi tulee mieltää näiden datojen jatko­jalostus, jotta niistä voidaan saada käyttäjälle hyödyllistä avointa dataa.

Ison datan ja rekistereissä olevan tiedon välillä on tilastoinnin kannalta sekä eroja että yhtäläisyyksiä.

Olennaista on, että tilasto­toimessa tulee seurata yhteis­kunnan kehitystä niin tilastojen tietosisällön kuin niiden lähde­aineistojenkin osalta. Muuten päädytään tilanteeseen, jossa tehdään perinteistä tilastoa perinteisin menetelmin ilmiöistä, joita yhteis­kunnassa ei enää esiinny, ja uudet tärkeätkin ilmiöt jäävät tilastoinnin ulkopuolelle, koska niistä ei enää saada laadukasta tietoa perinteisin tiedonkeruumenetelmin.

Kirjoittaja on kehittämispäällikkö Tilastokeskuksen väestö- ja elinolotilastot -yksikössä.

 

Lähde:

Euroopan komissio 2014. Komission tiedonanto Euroopan parlamentille, neuvostolle, Euroopan talous- ja sosiaalikomitealle ja alueiden komitealle. Kohti menestyvää datavetoista taloutta. COM(2014)442. final. Bryssel.


Sivun alkuun >>

Kommentit (0 kommenttia)