Dataa täytyy kesyttää

Euroopan komission Fairdata-asiantuntijaryhmän vastikään julkaistussa väliraportissa annetaan kokonaista 14 suositusta eri tahoille tutkimusaineistojen hallinnan parantamiseksi. Suositukset on koottu neljäksi eri askeleeksi, joista ensimmäinen käsittelee määritelmien ja tavoitteiden selkeyttämistä. Toinen vaihe on ekosysteemin rakentaminen, jossa palveluiden ja infrastruktuurien luominen ovat keskeisessä roolissa. Kolmas askel koskee yhteentoimivuuden luomista ja laadun varmistamista eri tasoilla ja neljäs selkeää panostusta tiedonhallintaan, niin sen suunnitteluun kuin osaamisen ja prosessien kehittämiseen.

Olemme leikillämme puhuneet datan domestikaatiosta. Vaikka toisaalta voi olla totta, että ”informaatio haluaa olla vapaata”, on datan hyökyaalto tehnyt varsinaisen tiedon hallinnan haastavaksi. Dataa täytyy kesyttää. Siksi puhumme tutkimuksen tietoaineistoista emmekä vain datasta. Data vaati metadataa, dokumentaatiota ja kuratointia kelvatakseen lähteeksi tai uudelleen käytettäväksi. Tutkimusaineisto on paljon enemmän kuin kasa bittejä.

Tutkijan on kuitenkin itse mahdoton toteuttaa tietojärjestelmien pitkäjänteistä ylläpitoa ja kehitystä varsinaisen tutkimuksensa ohella. Yhteentoimivuus ja tutkimuksen toistettavuuden varmistaminen vaativat kehittynyttä teknologiaa ja laajaa tiedonhallinan ymmärrystä. Siksi tarvitaan tutkimukselle omia palveluita, jotka tukevat reilun datan syntymistä. Fairdata-kokonaisuus on rakennettu tämän ajatuksen pohjalta. Aineiston luotettava säilytys ja hallinnointi yhdistyy metatiedon avoimuuteen ja pysyvien tunnisteiden tehokkaaseen käyttöön. Kokonaisuus ei vielä ole valmis, jos mikään nyt koskaan on valmista edes tämän päivän maailmassa. Kokonaisuus on kuitenkin jo nyt joustava ja hyvin skaalautuva, samalla kun se vahvasti tukee yhteentoimivuutta ja pysyvyyttä.

Jessica Parland-von Essen, Ph.D.
Kuva: Janneke Staaks / Flickr CC 2.0 BY NC