Tutkimusorganisaatioiden datanhallinnan prosessit 2025

Kirjoittajat: Milla Kortelainen (CSC), Kuisma Lehtonen (CSC), Katriina Karkimo (Haaga-Helia AMK), Maria Söderholm (Syke), Turkka Näppilä (Tampereen yliopisto)

CSC:n Fairdata-palvelut järjesti yhdessä muiden CSC:n datanhallinnan palveluiden asiantuntijoiden kanssa kahdeksalle pilottiorganisaatiolle työpajojen sarjan. Tavoitteena oli tarkastella organisaatioiden datanhallinnan prosessien nykytilaa ja tavoitetilaa datanhallinnan viitearkkitehtuurin (DAHA) sekä erityisesti Fairdata-palveluiden näkökulmasta. DAHA on opetus- ja kulttuuriministeriön alaisen tieteellisen laskennan ja datanhallinnan yhteistyöfoorumin muodostama kehys, joka antaa raamit tutkimuksen datanhallinnan tavoitetilalle vuodelle 2030.

Pilotissa oli mukana viisi yliopistoa, yksi ammattikorkeakoulu, sekä kaksi tutkimuslaitosta. CSC:n asiantuntijoiden lisäksi työpajoihin osallistui organisaatioiden Fairdata-palveluiden yhteyshenkilöitä, sekä datatuen ja tutkimuksen palveluiden asiantuntijoita. Tyypillisesti työpajatyöskentely muodostui yhdestä päivän pituisesta live-tapaamisesta sekä 1–2 kahden tunnin pituisesta etätapaamisesta. Työpajoihin osallistui organisaatiolta 3–14 avainhenkilöä, sekä 5–10 CSC:n asiantuntijaa. Pilottiorganisaatio ja CSC valitsivat DAHA-viitearkkitehtuurissa kuvatuista prosesseista ne, joihin työpajoissa syvennytään. Tyypillisesti läpikäytäviä prosesseja oli alle 10.

Pilotin päätavoitteet olivat:

  • Tunnistaa, miten valitut DAHA-prosessit toteutuvat nykytilassa ja millainen olisi tavoitetila Fairdatan ja organisaatioiden yhteistyönä.
  • Yhteensovittaa palveluprosesseja sekä selkeyttää rooleja, vastuita ja edellytyksiä palveluiden hyödyntämiselle.
  • Tunnistaa mahdolliset järjestelmäintegraatio- ja kehitystarpeet.

Mitä työpajoissa opittiin?

Työpajatyöskentelyn myötä kävi ilmi, että datanhallinnan prosessit ovat tutkimusorganisaatioissa yhä kehittymässä. Organisaatioilla on usein puutteellinen näkyvyys käynnissä olevaan tutkimukseen ja sen datanhallinnan käytäntöihin, koska tutkijoilla ei aina ole velvollisuutta raportoida toiminnastaan tai datan käsittelystä. Datanhallinnan osalta tutkimus- ja TKI-hankkeissa voidaan toimia varsin itsenäisesti, datan säilytykseen ja käsittelyyn on tarjolla useita eri ratkaisuita ja aina tutkijoiden valinnat eivät tule organisaatiotasolla näkyviksi. Tämä johtaa siihen, että tutkimusdata voi jäädä hyödyntämättä, se ei ole FAIR-periaatteiden mukaisesti löydettävissä tai uudelleenkäytettävissä, ja datan tutkimuksen jälkeinen säilyttäminen voi vaikeutua. Vahvistamalla organisaation ohjausta datanhallinnassa selkeästi määriteltyjen prosessien avulla voidaan tukea tutkimusdatan hallittua elinkaarta sekä helpottaa tutkijoiden arkea tarjoamalla valmiita ratkaisuja ja toimintamalleja erilaisiin datanhallinnan käyttötapauksiin.

Keskeiset haasteet

Datanhallinnan keskeisiksi haasteiksi tunnistettiin tutkijoiden vastuu datan elinkaaren hallinnasta, tarve johtotason tuelle ja vahvemmalle ohjaukselle sekä se, että organisaatiot eivät tunne riittävästi kansallisesti tarjolla olevia yhteisiä datanhallinnan palveluja. Tutkijoiden tieto datanhallinnan periaatteista on usein rajallista, ja lisäksi käytettävissä olevat resurssit ovat niukat, minkä vuoksi datanhallintaan ei aina kiinnitetä riittävää huomiota oikea-aikaisesti. Tämä vaikeuttaa tutkimusaineistojen säilytystä ja uudelleenkäytettyvyyttä tutkimuksen päätyttyä, kun sopimukselliset asiat jäävät puutteellisiksi tai tarvittavat tiedot säilytyksen kannalta jäävät keräämättä. Lisäämällä tietoisuutta jo olemassa olevista palveluista organisaatiot pystyisivät paremmin ohjaamaan tutkijoita oikeiden palveluiden pariin tutkimuksen elinkaaren eri vaiheissa. Pilotit auttoivat useita organisaatioita hahmottamaan CSC:n palveluiden roolin ja niiden integroinnin osaksi omia datanhallinnan käytäntöjä, mikä jatkossa edistää palveluiden tunnettuutta tutkijoiden keskuudessa.

Prosessit, automaatio ja tekninen tuki

Selkeät prosessit, ohjeet ja kannustimet vahvistavat tutkijoiden edellytyksiä hoitaa datanhallintaa asianmukaisesti. Näitä tukevat tekniset ratkaisut, jotka tehostavat toimintaa ja lisäävät automaatiota. Keskeisiä ovat erityisesti prosessiautomaatiot, jotka mahdollistavat järjestelmien väliset integraatiot, tietojen sujuvan liikkumisen sekä työnkulkujen ja päätöksenteon pitkälle automatisoidun yhteistoiminnan. Osana kokonaisuutta hyödynnetään toiminnallista aineistonhallintasuunnitelmaa (maDMP) tutkimustietojen keräämiseen tutkimuksen elinkaaren päätöspisteissä. Kun tutkijoita kannustetaan kuvailemaan aineisto yhteisten käytänteiden mukaisesti jo varhaisessa vaiheessa, varmistuvat aineistojen löydettävyys ja yhteentoimivuus julkaisu järjestelmien kanssa.

Teknisten ratkaisujen rinnalla käytännönläheinen koulutus, tukihenkilöt ja selkeät ohjeistukset ovat keskeisiä sujuvan toiminnan varmistamiseksi. Selkeiden päätösmallien ja ennakoivien toimenpiteiden avulla mahdollistetaan aineiston vieminen pitkäaikaissäilytykseen (PAS) sekä siihen liittyvä datan arvonmääritys helpottuu. Työpajoissa nousi lisäksi esiin, että CSC:n tarjoamat Sensitive Data -palvelut soveltuvat hyvin arkaluonteisten aineistojen käsittelyyn, mutta edellyttävät edelleen lisää ohjausta, markkinointia ja tukea. Kansalliset palvelut tuovat organisaatioille merkittävää lisäarvoa datanhallinnan toteutuksessa. Ne mahdollistavat yhteentoimivuuden, yhtenäiset tietomallit, automaation ja kustannustehokkuuden sekä tukevat riskienhallintaa, organisaatioiden omaa kontrollia, näkyvyyttä ja vaikuttavuutta.

Johtamisen rooli

Johtotason mahdollisesti puutteellinen tieto datanhallinnan nykytilasta ja tavoitetilasta vaikeuttaa hyötyjen hahmottamista ja resursointia. Johdon tuki on välttämätöntä, jotta organisaation kontrollia voidaan vahvistaa ja datanhallinnan käytännöt saadaan osaksi tutkimusprosessia. Datanhallinnan kehittäminen edellyttää selkeitä organisaatiotason rooleja ja vastuita, jotta tutkijoilta voidaan edellyttää tarvittavia tietoja tutkimusaineistoista tutkimuksen elinkaaren päätöspisteissä. Näin sopimukselliset velvoitteet, aineistojen määrä ja luonne, avoimuus sekä arvonmääritys voidaan käsitellä systemaattisesti, mahdollistaen aineistojen säilytyksen ja uudelleenkäytön. Datanhallinnan prosessien nykytilan ja tavoitetilan määrittely luo kokonaiskuvan tutkimustoiminnan tilasta ja tulevista tarpeista. Se tukee ennakointia osaamisen, henkilöstön ja hankintojen osalta sekä auttaa sopimaan toimintatavat ja vastuut eri tilanteisiin.

Systemaattinen datanhallinta tuottaa organisaatiolle näkymän tutkimuksen kokonaistilanteeseen tuoden esiin, mitä tutkimusta tehdään parhaillaan sekä mitä resurssitarpeita siihen sisältyy nyt ja tulevaisuudessa. Ennustettavuuden myötä organisaatio voi varautua tarvittavien kyvykkyyksien rakentamiseen, osaamisen kasvattamiseen, henkilöstösuunnitteluun, hankintoihin sekä tarvittavan rahoituksen varmistamiseen.

Jatkotoimenpiteet

Työpajoista muodostettiin jokaiselle organisaatiolle kahdenvälinen raportti, joka kokosi työpajojen tulokset ja kehitysehdotukset yhteen, sekä julkinen yhteenveto pilotista.

Jatkotoimenpiteinä suositellaan että organisaatiot sitoutuvat

  • datanhallinnan prossien suunnitteluun johtotason tukemana
  • selkeyttämään ja sopimaan sisäisiä rooleja ja vastuita datanhallinnan prosesseissa,
  • vahvistamaan datanhallinnan koulutusta ja tukirakenteita,
  • sekä edistämään kulttuurin muutosta siten, että datanhallinta otetaan osaksi tutkimusta organisaation tukemana.

Konkreettisia jatkotoimenpiteitä ovat

  • datanhallinnan prosessien automatisointi,
  • maDMP:n käyttöönotto ja integrointi,
  • palveluintegraatioiden ja koneluettavien palvelukatalogien kehittäminen,
  • kansallinen ohjeistus tutkimusaineistojen arvonmääritykselle,
  • sekä PAS-palveluiden käytön aloittaminen ns. helpoimmista tutkimusaineistoista

Työpajoista nousseina jatkotoimenpiteinä ehdotetaan myös, että CSC tukee organisaatioita palveluidensa hyödyntämisessä ja sovittamisessa datanhallinnan prosesseihin. Lisäksi ehdotetaan, että CSC kuvaa tutkijan palvelupolun, tuottaa kohdennettua dokumentaatiota, brändää palvelunsa osaksi organisaatioiden omia ratkaisuja, automatisoi omia datanhallinnan prosessejaan yhteistyössä organisaatioiden kanssa ja fasilitoi datanhallintaan liittyvää kansallista keskustelua.

Pilottiorganisaatioiden kokemuksia

Haaga-Helia ammattikorkeakoulun työpajat vauhdittivat organisaatiossa jo aloitettua DAHA-viitearkkitehtuurin käyttöönottoa, erityisesti saatiin tukea ja selvyyttä datanhallinnan prosesseissa tarvittavien palveluiden tunnistamiseen. ”Pystyimme CSC:n tuella määrittelemään, miten Haaga-Helian omat säilytysratkaisut integroituvat CSC:n palveluiden kanssa ja mitkä palveluratkaisut sopivat parhaiten eri käyttötilanteisiin.” Kehittämispilotin yhteydessä Haaga-Helia AMK päätti Qvain-työkalun käyttöönotosta aineistojen kuvailussa ja myös arkaluonteisten tutkimusaineistojen palveluiden (CSC:n SD-palvelut) käyttöönotossa päästiin askel eteenpäin. Entistä tarkemmin kuvattujen hankeprosessien ja tukipalveluiden avulla voimme jatkossa vahvemmin tuoda Fairdata-palveluita projektitoimijoiden työkaluiksi TKI-aineistojen kuvailuun, säilyttämiseen sekä julkaisemiseen.

Tampereen yliopisto korosti, että kasvokkain järjestetty työpaja tarjosi arvokkaan mahdollisuuden yliopiston ja CSC:n asiantuntijoiden kohtaamiseen ja loi siten vahvemman pohjan vuoropuhelulle jatkossa. Työpaja tarjosi samalla tilaisuuden tuoda CSC:n tietoon ja perustella yliopiston omia datanhallinnan tarpeita ja näkökulmia. Tampereen yliopistossa asiantuntijaryhmä on tehnyt syksyllä 2025 tutkimuksen datanhallinnan nykytilan kuvausta, jota sitten hyödynnetään tutkimuksen datanhallinnan kokonaiskuvan arvioinnissa ja jatkotoimenpiteistä päätettäessä vuoden 2026 aikana. Työpaja lisäsi ymmärrystä DAHA-viitearkkitehtuurin soveltamisen mahdollisuuksista tässä työssä. Lisäksi työpajat syvensivät ymmärrystä CSC:n tarjoamista datanhallinnan työkaluista ja antoivat käytännön vinkkejä niiden käyttöön sekä tarjolla olevaan tukeen.

Suomen ympäristökeskuksella (Syke) kehittämispilotin ajoitus oli oivallinen, sillä datapolitiikan ja (meta)datan hallinnan palveluiden uudistustyö olivat käynnissä. DAHA-viitearkkitehtuurin prosessien tarkastelu Syken omista lähtökohdista auttoi muodostamaan aiempaa systemaattisemman kokonaiskuvan datanhallinnan nykytilasta ja kehittämistarpeista, ja tuki näin käynnissä olevaa politiikkatyötä. Pilotin aikana saatiin lisäksi yksityiskohtaista tietoa CSC:n palveluista ja niiden hyödyntämismahdollisuuksista. Tämä on erityisen merkityksellistä Sykelle, jossa suuri osa ympäristödatasta tuotetaan tutkimushankkeiden ohella myös seurantatoiminnan yhteydessä. Sykelle oli myös tärkeää, että pilotti edisti Syken sisäistä keskustelua CSC:n palveluiden roolista osana Syken omia (meta)datan jakelu- ja julkaisukanavia sekä ohjasi kiinnittämään huomiota Syken palveluiden kehitystyössä yhteentoimivuuteen kansallisten palveluiden kanssa.

Katse eteenpäin

Datanhallinnan prosessien tukemiseen on jo ryhdytty kansallisella tasolla. Fairdata-palvelujen yhteiskehittämisen ryhmässä kehitetään yhteistyössä tutkimusorganisaatioiden kanssa tutkimusaineistojen arvonmäärityksen kansallista ohjeistusta, sekä Kuvailutietojen Noutaja-työkalua, jonka avulla on mahdollista muodostaa kokonaiskuva maailmalla julkaistuista tutkimusaineistoista organisaatiokohtaisesti.

Lisää työpajoja järjestetään syksyllä 2026 ja ilmoittautumisia otetaan halukkailta organisaatioilta vastaa jo kevään aikana. Tavoitteena on aikatauluttaa syksyn työpajat jo loppukeväästä. Jos organisaatiollasi ei vielä ole edustajaa Fairdata-palvelujen yhteiskehittämisen ryhmässä tai jos haluat liittyä Fairdata-verkoston jäseneksi, ota yhteyttä Fairdata-palveluihin sähköpostilla fairdata@csc.fi.