Mitä on referenssidata?

Referenssidata tarkoittaa usein tutkijoille jonkinlaista viiteaineistoa, jota voi verrata omaan aineistoon. Sitä voidaan esimerkiksi käyttää testiaineistona tai normina, jota vasten muutoksia tai poikkeuksia voi mitata ja ilmaista. Referenssiaineiston avulla voidaan myös mitata jonkin laskennallisen menetelmän tehokkuutta.

Tiedonhallinnassa referenssidatalla on myös toinen merkitys. Silloin tarkoitetaan sallittujen arvojen joukkoa jossakin tietyssä yhteydessä. Tällaisia sallittuja arvoja voisivat olla esimerkiksi eri kielten koodit tai vaikkapa arvot “kyllä”, “ei” tai “en osaa sanoa”. Tällaisiin tietojärjestelmän referenssidatoihin käyttäjä käytännössä törmää useimmiten radionappi- tai alasvetovalikoissa. Niistä on hyötyä käyttäjille, koska ne usein helpottavat ja nopeuttavat oikeanlaisen tiedon viemistä järjestelmään. Aina asioiden lokeroiminen ei tietenkään ole helppoa. Valmiit, rajoitetut vastausvaihtoehdot voivat joskus olla todella ärsyttäviä, kun mikään vaihtoehdoista ei tunnu sopivalta. Usein on onneksi kuitenkin tarjolla mahdollisuus tekstin muodossa antaa täydentävää tietoa.

Tällaisesta kontrolloitujen listojen käytöstä on kuitenkin suurta hyötyä tiedon laadun kannalta. Tiedosta saadaan huomattavasti yhtenäisempää ja paremmin yhteentoimivaa, mikäli referenssidatat ja järjestelmäkokonaisuus on suunniteltu ja ylläpidetty hyvin. Käyttäjien tekemät kirjoitusvirheet ja turhat variantit jäävät pois. Mikäli vielä menemme askeleen pidemmälle, kuten Fairdata-palveluissa on tehty, arvoille lisätään kielestä riippumattomat ja globaalisti uniikit ja yhteentoimivat tunnukset. Niitä ei käyttäjien tarvitse edes nähdä, mutta koneille ne ovat karkkia, sillä niiden avulla tietoa voidaan yhdistellä eri tietojärjestelmien välillä (esimerkiksi aineistokatalogin ja kirjastoluettelon kesken) tai tietokannan sisältöä voidaan automaattisesti näyttää käyttöliittymässä eri kieliversiona. Kone pystyy hyödyntämään tietoa paljon tehokkaammin ja toimimaan sen pohjalta, kun se perustuu referenssidatoihin.

Referenssidatat ovatkin olleet Fairdata-palveluiden suunnittelussa tärkeässä roolissa. Olemme keränneet referenssidatasettejä monesta eri asiasta ja julkaisemme niitä avoimesti myös muiden palveluntarjoajien käyttöön. Tutkijat hyötyvät, kun tieto liikkuu tehokkaammin, eikä heidän tulevaisuudessa toivottavasti tarvitse yhtä usein kopioida käsin tietoa järjestelmästä toiseen. Tiedot tutkijoiden aineistosta liikkuvat avointen rajapintojen kautta sutjakkaasti myös ulkomaailmaan, kansainvälisiin tietokantoihin. Näin tutkijat ja heidän työnsä saavat parempaa näkyvyyttä.

Jessica Parland-von Essen
Kuva: OpenGridSchedler/Flickr CC0 (public domain)