UTUGuides: Tutkimusaineistojen elinkaarisuunnittelu: Tutkimusaineiston dokumentointi, kuvailu ja metadata

Hyvän dokumentaation sisältö
Readme-tiedostot

Hyvin organisoitua ja dokumentoitua aineistoa on helppo käyttää, jakaa, avata, säilyttää ja myös uudelleenkäyttää. Dokumentaatio on aineiston menetelmien, rakenteen ja käsittelyn kuvailua. Pidä dokumentaatio ajantasalla koko tutkimuksen ajan. Jälkikäteen aineiston dokumentointi on huomattavasti vaikeampaa, ellei jopa mahdotonta.

Hyvällä aineiston dokumentaatiolla mahdollistetaan aineiston:

löydettävyys
saavutettavuus
ymmärrettävyys
arvioitavuus
pitkäaikaissäilytys
aineiston uudelleenkäytettävyys.

Eri tieteenaloilla on erilaisia dokumentointikäytäntöjä, joita kannattaa seurata. Yksinkertaisimmillaan aineiston yhteyteen luodaan readme-tiedosto, jossa kokonaisuus on kuvailtu.

Hyvä dokumentaatio sisältää:

Aineistonkeruun menetelmät: näytteenotto, miten aineisto on kerätty, mitä laitteita ja ohjelmistoja on käytetty
Laadunvarmistuksen menetelmät
Tiedostojen ja kansioiden rakenne
Versionhallinta
Tieto pääsy- ja käyttöehdoista tai luottamuksellisuudesta
Muuttujien,datasettien ja arvojen nimet, tunnisteet ja kuvaukset
Selitys tai määritelmä käytetyistä koodeista ja luokitusjärjestelmistä
Määritelmät käytetyille erikoistermeille ja lyhenteille
Puuttuvien arvojen koodit ja niiden syyt

Lähde: Fuchs, S., Koivula, H., Korhonen, T., Lindholm, T., Rauste, P., & Siipilehto, L. (2023, May 17). Data Organisation ABC workshop - Datan Organisoinnin ABC työpaja. Zenodo. https://doi.org/10.5281/zenodo.7944449

ReadMe - tiedosto sitoo datakokonaisuuden osaset yhteen.

Siihen kerrytetään:

erillisten tiedostojen väliset yhteydet
keruumenetelmät
datan laatutietoja
käyttötarkoitus
rajoitukset.

ReadMe-tiedostoon kirjataan datan käsittelyssä syntyvä dokumentaatio ja datan laatuun liittyvää tietoa.
Sen avulla myös ohjeistetaan datan uudelleenkäyttöä.

Jyväskylän yliopiston ReadMe esimerkit.

Cornellin yliopiston ReadMe tiedostopohja.

Tutkimusaineistojen kuvailu ja metadata

Tutkimusaineistojen kuvailu on osa tutkimusta ja auttaa muita ymmärtämään tutkimustasi ja tutkimusaineistoja. Metadata eli tieto tiedosta on osa tutkimuksen kuvailua ja yleisesti myös se tutkimusaineistojen osa, joka voidaan avata vapaasti löydettäväksi ja käytettäväksi. Usein tutkimusaineistojen kuvailutietojen avaaminen on myös rahoittajien vaatimuksena. Helpointa ja kustannustehokkainta on tuottaa kuvailevaa metadataa vaiheittain tutkimusaineiston elinkaaren mukaisesti.

Turun yliopistolla ei toistaiseksi ole omaa paikkaa, jossa tutkimuksen metadata voitaisiin avata. Metadata tallennetaan sopivaan kuvailu- tai datapalveluun. Kotimainen Qvain on suositeltava kuvailupalvelu; sen kautta kuvaillut aineistot ovat löydettävissä Etsimestä. Qvainin kautta metatiedot siirtyvät myös kotimaiseen Metax-metatietovarantoon. Metaxin rajapinnan (Metax REST API) kautta voi myös suoraan kuvailla tietoaineistoja.

Metatiedot voi avata myös monissa yleisissä tai tieteenalakohtaisissa data-arkistossa. Kaikissa ei kuitenkaan voi eritellä avausta pelkkään metatietoon. Monet data-arkistot käyttävät metastandardeja tai skeemoja, joita kannattaa seurata heti aineistokuvailun alusta lähtien.

AVOTT-yhteistyön laatima Ohje tutkimusaineiston kuvailuun.

Metadataa ja kuvailevaa tietoa tulee kerätä tutkimuksen aikana. Tutkimuksen jälkeen tehtävä aineiston kuvaileminen on usein työläämpää.

Laadukas metadata on kuin tutkimuksen käyntikortti, jonka tutkija voi antaa tutkimuksestaan. Metadata sisältää tiedot datan

nimestä
tuottamisajankohdasta
tuottajasta
muodosta
aiheesta
käyttöoikeuksista

Eri tieteenaloilla on vakiintuneita käytäntöjä aineistojen kuvailuun ja metadatan merkitsemiseen. On kuitenkin tärkeää, että perusasiat kuvaillaan tieteenalasta riippumatta. Näin edistetään tutkimusaineiston löydettävyyttä, saavutettavuutta, yhteentoimivuutta ja uudelleenkäytettävyyttä FAIR-periaatteiden mukaisesti. Kuvailun voi tallentaa tekstitiedostona tai käyttää jotain solveltuvaa metadataformaattia.

Tietoarkiston ohjeet metadatan tallennukseen

Jokaiselle tutkimusaineistolle suositellaan luotavaksi oma hakemisto, johon tallennetaan sekä tutkimusaineisto että kuvailutiedot. Osa kuvailutiedoista sisältyy varsinaiseen aineistotiedostoon (esimerkiksi muuttujien selitteet tai aineistoyksikön tiedot), mutta suuresta osasta tehdään erilliset kuvailutiedostot.

Tietoarkiston ohjeistuksen mukaisesti tutkimusaineiston metadata sisältää seuraavia elementtejä:

Tutkimuksen toteutuksen kuvailu
- Tutkimuksen toteutuksen kuvailu sisältää (soveltuvin osin) tiedot tutkimuksen alkuperäisestä käyttötarkoituksesta, tiedot aineiston tekijöistä ja tuottajista, listan mahdollisista julkaisuista, tiedot tutkimuksen perusjoukosta, havainto- ja/tai aineistoyksiköstä, valintaperusteista, lähdeaineistoisto sekä tiedot aineistokeruun ajankohdasta, menetelmästä etc.
Aineistonkeruuinstrumentti
- Aineistonkeruuinstrumentti eli esim. haastattelulomake, kysymykset etc tallennetaan kaikilla käytetyillä kielillä.
Tiedostojen kuvailu
- Yksittäiset tiedostot tulee kuvailla ominaisuuksiltaan. Mukaan laitetaan seuraavat tiedot:
  - Tiedoston nimi
  - Tiedostopolku
  - Koko
  - Formaatti
  - Millä ohjelmalla luotu
  - Milloin tuotettu
  - Kuka tiedoston on tuottanut
  - Versio
  - Käyttöoikeudet
Muuttujien kuvailu
- Muuttujien tiedot kuvaillaan mahdollisimman tarkasti. Lisäksi mukaan laitetaan tiedot datan prosessoinnista ja tehdyistä muutoksista. Osa tiedoista voi olla suoraan datatiedostossa, osa kuvailutiedoissa. Muuttujista kerrotaan:
  - muuttujien ja havaintoyksikköjen lukumäärä
  - muuttujalista, jossa luetellaan kunkin muuttujan nimi, selite ja sijainti tiedostossa sekä muuttujien saamat arvot ja niiden selitteet
  - muuttujien suorat jakaumat
  - tiedot käytetyistä luokituksista, esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia" tai "maakoodit: kolminumeroinen ISO 3166".
  - käytettyjen lyhenteiden selitykset
  - puuttuvien tietojen koodaukset
  - konstruoitujen muuttujien tiedot (esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet)
  - uudelleenluokittelut, muuttujien standardoinnit
  - tietosuojatoimenpiteet
Saatavuustiedot
- Kerro kuvailutiedoissa miten aineisto on saatavilla ja missä sitä säilytetään.
Kontekstitiedot ja paradata
- Kuvailutiedoissa kerrotaan myös ulkoisista olosuhteista, kun se on tutkimusaineiston uudelleenkäytön ja ymmärryksen ehtona.

Tutkimusaineiston kuvailussa pyritään löydettävyyteen ja hyödynnettävyyteen, joten se kannattaa toteuttaa mahdollisimman yhdenmukaisesti ja koneluettavasti, hyödyntäen mahdollisimman laajasti olemassa olevia standardeja ja skeemoja.

Metadatastardardeja on lukuisia, ja osa niistä hyvin tieteenalakohtaisia. Tutkijan kannattaa hyödyntää oman tieteenalansa standardia. Listauksia eri metastandardeista löytyy: DCC-listaus, Metadata Standards Catalog, Fairsharing.org

Käytetyimpiä standardeja ovat Dublin Core ja DataCite. Monissa käytetyissä metadatastandardeissa, kuten Dublin Core ja DataCite, on sekä pakollisia että vapaaehtoisia kenttiä.

Huom! Myös datarepositorio tai -arkisto voi vaatia tiettyä metadatastandardia. Jos tiedät jo tutkimuksesi alussa data-arkiston, jota aiot hyödyntää tutkimusaineistosi säilyttämisessä ja jakamisessa, kerää metadatatiedot data-arkiston käyttämän metadatastandardin mukaisesti.

Dublin Core ja DataCite

Dublin Coren metadataformaatin standardi on SFS-ISO 15836-1:2020 tieto ja dokumentointi. Osa 1 on Ydinkentät, ja 15836-2:2020 on osa 2 eli Dublin Core-yhteisön määrittelemät ominaisuudet ja luokat. Dublin Coressa on 15 pakollista kenttää. Niiden sisältöön ja muihin ohjeisiin voi tutustua esim. Dublin Coren omilta sivuilta tai esim Paladinin sivuilta.

DataCiten skeemalla ei ole virallisen standardin asemaa, mutta sen käyttö on hyvin kontrolloitua. DataCite koostuu 20 elementistä. DataCiten koko skeema ja ohjeet löytyvät täältä.

Esimerkkejä DataCiten XML-muotoisista metadatoista.

Kansallinen tutkimusaineistojen kuvailutyökalu Qvain

Qvain:ta on helppo hyödyntää tutkimusaineistojen metadatan luomisessa. Qvainin käyttö ei vaadi IDA-palvelussa olevaa tutkimusaineistoa, mutta ne on helppo yhdistää toisiinsa. Qvainin käytön jälkeen kyseinen kuvailtu tutkimusaineisto on löydettävissä Etsin-työkalun kautta, josta se sitten haravoituu eri palveluihin ja alustoille.

Qvainin ohjeistus

Katso myös CSC:n video, joka esittelee tutkimusaineistojen julkaisemisen Fairdatassa Qvain-työkalun avulla

Qvain edellyttää tiettyjä tietoja kaikilta kuvailluilta tutkimusaineistoilta:

Datalähde (eli missä data sijaitsee)
Lisenssi ja pääsyoikeus (Lisenssi määrittelee, miten aineistossa olevaa dataa voi käyttää, pääsyoikeus kertoo miten tutkimusaineiston saa käyttöönsä(voi olla myös rajoitettu))
Otsikko, kuvaus ja muut perustiedot (Kuvailutiedot Markdoen-syntaxilla, mukana myös tiedot kuten: julkaisupäivämäärä, avainsanat, tieteenala, kieli)
Toimijat (henkilöt ja organisaatio)

Qvainin voi liittää myös tietoja:

Aineistoon liittyvät julkaisut ja muut tuotokset
Maantieteellinen alue
Ajanjakso
Infrastruktuuri
Historiatiedot ja tapahtumat
Projekti ja rahoitus

Tietoarkisto kuvailee arkistoimansa tietoaineiston DDI-formaatin mukaisesti XML-kielellä.

DDI-formaatti tukee Tietoarkiston tavoitetta tallentaa ja arksitoida suomalaisen yhteiskunnan, ihmisten ja kulttuuristen ilmiöiden tutkimiseksi kerättyjä tutkimusaineistoja.

DDI-formaatin mukaisesti kuvailutiedoissa kerrotaan mahdollisimman selvästi seuraavat asiat:

tutkimuksen tekijä(t)
tutkimuksen aihepiiri ja sisältö
aineiston valinta tai otantamenetelmä
aineistonkeruu
havaintoyksikkö/aineistoyksikkö
käyttöehdot
tiedostojen formaatti/formaatit
kvantitatiivisten aineistojen muuttujat, muuttujien määrä
kyselylomakkeen kysymystekstit
kvalitatiivisten aineistojen keskeiset dokumentit (haastattelukysymykset, kirjoituskutsu tms.).

Lisätiedot ja yksityiskohtaiset ohjeet Tietoarkistosta.

Metadata vapaamuotoisena tekstitiedostona

Metadatan voi tuottaa myös vapaamuotoisesti, kunhan varmistetaan että tiedot ovat koneluettavassa muodossa.

Tärkeitä tietoja ovat:

Aineiston nimi
Tekijät rooleineen
Muut aineiston kerääjät rooleineen ja organisaatioineen
Tieteenala
Rahoittajat
Tutkimusaineiston käyttötarkoitus eli projektin perustiedot
Ajankohta
Millaista aineistoa on kerätty ja miten (menetelmät)
Aineiston määrä
Tiedostojen kuvailu (tiedoston nimi, formaatti ja mitä sisältää)
Aineiston muokkauksen avaaminen
Mahdolliset julkaisut jotka pohjautuvat aineistoon

Esimerkkejä vapaamuotoisista metatiedoista:
Harvard: https://datamanagement.hms.harvard.edu/collect-analyze/documentation-metadata/readme-files
Cornell: https://data.research.cornell.edu/data-management/sharing/readme/

Tunnetuimmilla repositorioilla on käytössään seuraavat metadatastandardit tai skeemat:

Repositorio

Standardi

Muuta

Zenodo

DataCite

Pakolliset kentät: Publication date, title, authors, description, access right, license

Figshare

DataCite

Pakolliset kentät: Item title, item type, authors, categories, keywords, description, license

IDA/Qvain

Fairdata Metax tietomalli

Qvaimen pakolliset kentät: Lisenssi, aineiston kuvaus ja otsikko, julkaisupvm, avainsanat, tekijä (henkilö tai organisaatio) ja julkaisija (henkilö tai organisaatio).

Dryad

Dublin Core, DataCite, OAI-ORE, RDF DataCube

Pakolliset kentät: Journal name; Title; Author(s); Abstract; Research domain; Keyword(s)

Pangaea

Darwin Core, Dublin Core, ISO 19115, DIFF

Pakolliset kentät: Event; Expedition; PI; Author(s); Data set title; Reference(s);Method; Abstract;

BOLD system

BOLD = Barcode of life data system. Esimerkiksi valokuvan pakolliset kentät ovat: Image file; Original specimen; View metadata; Sample ID; License; License year; License contact.

Kielipankki

CLARIN Standards Information System

Ilmoitus kielivarasta - pakolliset kentät: Information provider, email address of information provider, organization, name of the language resource in Finnish and in English, type

Tietoarkisto

DDI, Data Documentation Initiative

Pakolliset kentät: Aineiston tekijä tai kerääjän nimi, vastaus tutkittavien informoinnista, aineiston nimi ja lyhyt kuvaus, aineiston koko, ilmoittajan nimi, taustaorganisaatio ja email

EUDAT CDI B2SHARE / EUDAT B2SHARE

EUDAT Core ja Extended schema

Hyviä esimerkkejä aineistonkuvailusta ja sen tekemisestä löytyy monilta yliopistoilta ja yhteisöiltä. Tietoarkiston Aila-palvelusta löytyy esimerkkejä hyvästä kuvailusta; esim. Hyvinvointi ja eriarvoisuus Suomessa

Kansainvälisiä ohjeita:

Tutkimusaineistojen elinkaarisuunnittelu

Tutkimusaineistojen kuvailu ja metadata

Tietoarkiston ohjeet metadatan tallennukseen

Kansallinen tutkimusaineistojen kuvailutyökalu Qvain

Metadata vapaamuotoisena tekstitiedostona

Darwin Core, Dublin Core, ISO 19115, DIFF

Pakolliset kentät: Event; Expedition; PI; Author(s); Data set title; Reference(s);Method; Abstract;

Ilmoitus kielivarasta - pakolliset kentät: Information provider, email address of information provider, organization, name of the language resource in Finnish and in English, type