Siirry pääsisältöön
Turun yliopiston kirjasto

Tutkimusaineistojen elinkaarisuunnittelu

Hyvin organisoitua ja dokumentoitua aineistoa on helppo käyttää, jakaa, avata, säilyttää ja myös uudelleenkäyttää. Dokumentaatio on aineiston menetelmien, rakenteen ja käsittelyn kuvailua. Pidä dokumentaatio ajantasalla koko tutkimuksen ajan. Jälkikäteen aineiston dokumentointi on huomattavasti vaikeampaa, ellei jopa mahdotonta.

Hyvällä aineiston dokumentaatiolla mahdollistetaan aineiston:

  • löydettävyys
  • saavutettavuus
  • ymmärrettävyys
  • arvioitavuus
  • pitkäaikaissäilytys
  • aineiston uudelleenkäytettävyys.

Eri tieteenaloilla on erilaisia dokumentointikäytäntöjä, joita kannattaa seurata. Yksinkertaisimmillaan aineiston yhteyteen luodaan readme-tiedosto, jossa kokonaisuus on kuvailtu.

Hyvä dokumentaatio sisältää:

  1. Aineistonkeruun menetelmät: näytteenotto, miten aineisto on kerätty, mitä laitteita ja ohjelmistoja on käytetty
  2. Laadunvarmistuksen menetelmät
  3. Tiedostojen ja kansioiden rakenne
  4. Versionhallinta
  5. Tieto pääsy- ja käyttöehdoista tai luottamuksellisuudesta
  6. Muuttujien,datasettien ja arvojen nimet, tunnisteet ja kuvaukset
  7. Selitys tai määritelmä käytetyistä koodeista ja luokitusjärjestelmistä
  8. Määritelmät käytetyille erikoistermeille ja lyhenteille
  9. Puuttuvien arvojen koodit ja niiden syyt

 

Lähde: Fuchs, S., Koivula, H., Korhonen, T., Lindholm, T., Rauste, P., & Siipilehto, L. (2023, May 17). Data Organisation ABC workshop - Datan Organisoinnin ABC työpaja. Zenodo. https://doi.org/10.5281/zenodo.7944449

ReadMe - tiedosto sitoo datakokonaisuuden osaset yhteen.

Siihen kerrytetään:

  • erillisten tiedostojen väliset yhteydet
  • keruumenetelmät
  • datan laatutietoja
  • käyttötarkoitus
  •  rajoitukset.


ReadMe-tiedostoon kirjataan datan käsittelyssä syntyvä dokumentaatio ja datan laatuun liittyvää tietoa.
Sen avulla myös ohjeistetaan  datan uudelleenkäyttöä.

Jyväskylän yliopiston ReadMe esimerkit.

Cornellin yliopiston ReadMe tiedostopohja.

Tutkimusaineistojen kuvailu ja metadata

Tutkimusaineistojen kuvailu on osa tutkimusta ja auttaa muita ymmärtämään tutkimustasi ja tutkimusaineistoja. Metadata eli tieto tiedosta on osa tutkimuksen kuvailua ja yleisesti myös se tutkimusaineistojen osa, joka voidaan avata vapaasti löydettäväksi ja käytettäväksi. Usein tutkimusaineistojen kuvailutietojen avaaminen on myös rahoittajien vaatimuksena. Helpointa ja kustannustehokkainta on tuottaa kuvailevaa metadataa vaiheittain tutkimusaineiston elinkaaren mukaisesti.

Turun yliopistolla ei toistaiseksi ole omaa paikkaa, jossa tutkimuksen metadata voitaisiin avata. Metadata tallennetaan sopivaan kuvailu- tai datapalveluun. Kotimainen Qvain on suositeltava kuvailupalvelu; sen kautta kuvaillut aineistot ovat löydettävissä Etsimestä. Qvainin kautta metatiedot siirtyvät myös kotimaiseen Metax-metatietovarantoon. Metaxin rajapinnan (Metax REST API) kautta voi myös suoraan kuvailla tietoaineistoja.

Metatiedot voi avata myös monissa yleisissä tai tieteenalakohtaisissa data-arkistossa. Kaikissa ei kuitenkaan voi eritellä avausta pelkkään metatietoon. Monet data-arkistot käyttävät metastandardeja tai skeemoja, joita kannattaa seurata heti aineistokuvailun alusta lähtien.

 

AVOTT-yhteistyön laatima Ohje tutkimusaineiston kuvailuun.

Metadataa ja kuvailevaa tietoa tulee kerätä tutkimuksen aikana. Tutkimuksen jälkeen tehtävä aineiston kuvaileminen on usein työläämpää.

Laadukas metadata on kuin tutkimuksen käyntikortti, jonka tutkija voi antaa tutkimuksestaan. Metadata sisältää tiedot datan

  • nimestä
  • tuottamisajankohdasta
  • tuottajasta
  • muodosta
  • aiheesta
  • käyttöoikeuksista

 

Eri tieteenaloilla on vakiintuneita käytäntöjä aineistojen kuvailuun ja metadatan merkitsemiseen. On kuitenkin tärkeää, että perusasiat kuvaillaan tieteenalasta riippumatta. Näin edistetään tutkimusaineiston löydettävyyttä, saavutettavuutta, yhteentoimivuutta ja uudelleenkäytettävyyttä FAIR-periaatteiden mukaisesti. Kuvailun voi tallentaa tekstitiedostona tai käyttää jotain solveltuvaa metadataformaattia.

 

Tietoarkiston ohjeet metadatan tallennukseen

Jokaiselle tutkimusaineistolle suositellaan luotavaksi oma hakemisto, johon tallennetaan sekä tutkimusaineisto että kuvailutiedot. Osa kuvailutiedoista sisältyy varsinaiseen aineistotiedostoon (esimerkiksi muuttujien selitteet tai aineistoyksikön tiedot), mutta suuresta osasta tehdään erilliset kuvailutiedostot.

 

Tietoarkiston ohjeistuksen mukaisesti tutkimusaineiston metadata sisältää seuraavia elementtejä:

  • Tutkimuksen toteutuksen kuvailu
    • Tutkimuksen toteutuksen kuvailu sisältää (soveltuvin osin) tiedot tutkimuksen alkuperäisestä käyttötarkoituksesta, tiedot aineiston tekijöistä ja tuottajista, listan mahdollisista julkaisuista, tiedot tutkimuksen perusjoukosta, havainto- ja/tai aineistoyksiköstä, valintaperusteista, lähdeaineistoisto sekä tiedot aineistokeruun ajankohdasta, menetelmästä etc.
  • Aineistonkeruuinstrumentti
    • Aineistonkeruuinstrumentti eli esim. haastattelulomake, kysymykset etc tallennetaan kaikilla käytetyillä kielillä.
  • Tiedostojen kuvailu
    • Yksittäiset tiedostot tulee kuvailla ominaisuuksiltaan. Mukaan laitetaan seuraavat tiedot:
      • Tiedoston nimi
      • Tiedostopolku
      • Koko
      • Formaatti
      • Millä ohjelmalla luotu
      • Milloin tuotettu
      • Kuka tiedoston on tuottanut
      • Versio
      • Käyttöoikeudet
  • Muuttujien kuvailu
    • Muuttujien tiedot kuvaillaan mahdollisimman tarkasti. Lisäksi mukaan laitetaan tiedot datan prosessoinnista ja tehdyistä muutoksista. Osa tiedoista voi olla suoraan datatiedostossa, osa kuvailutiedoissa. Muuttujista kerrotaan:
      • muuttujien ja havaintoyksikköjen lukumäärä
      • muuttujalista, jossa luetellaan kunkin muuttujan nimi, selite ja sijainti tiedostossa sekä muuttujien saamat arvot ja niiden selitteet
      • muuttujien suorat jakaumat
      • tiedot käytetyistä luokituksista, esimerkiksi "ammattiluokituksessa käytettiin ISCO-88:n pääluokkia" tai "maakoodit: kolminumeroinen ISO 3166".
      • käytettyjen lyhenteiden selitykset
      • puuttuvien tietojen koodaukset
      • konstruoitujen muuttujien tiedot (esimerkiksi painomuuttujien laskentakaavat, summamuuttujien muodostamisperiaatteet)
      • uudelleenluokittelut, muuttujien standardoinnit
      • tietosuojatoimenpiteet
  • Saatavuustiedot
    • Kerro kuvailutiedoissa miten aineisto on saatavilla ja missä sitä säilytetään.
  • Kontekstitiedot ja paradata
    • ​​​​​​​Kuvailutiedoissa kerrotaan myös ulkoisista olosuhteista, kun se on tutkimusaineiston uudelleenkäytön ja ymmärryksen ehtona.

Tutkimusaineiston kuvailussa pyritään löydettävyyteen ja hyödynnettävyyteen, joten se kannattaa toteuttaa mahdollisimman yhdenmukaisesti ja koneluettavasti, hyödyntäen mahdollisimman laajasti olemassa olevia standardeja ja skeemoja.

Metadatastardardeja on lukuisia, ja osa niistä hyvin tieteenalakohtaisia. Tutkijan kannattaa hyödyntää oman tieteenalansa standardia. Listauksia eri metastandardeista löytyy: DCC-listaus, Metadata Standards Catalog, Fairsharing.org

Käytetyimpiä standardeja ovat Dublin Core ja DataCite. Monissa käytetyissä metadatastandardeissa, kuten Dublin Core ja DataCite, on sekä pakollisia että vapaaehtoisia kenttiä. 

Huom! Myös datarepositorio tai -arkisto voi vaatia tiettyä metadatastandardia. Jos tiedät jo tutkimuksesi alussa data-arkiston, jota aiot hyödyntää tutkimusaineistosi säilyttämisessä ja jakamisessa, kerää metadatatiedot data-arkiston käyttämän metadatastandardin mukaisesti.

 

Dublin Core ja DataCite

Dublin Coren metadataformaatin standardi on SFS-ISO 15836-1:2020 tieto ja dokumentointi. Osa 1 on Ydinkentät, ja 15836-2:2020 on osa 2 eli Dublin Core-yhteisön määrittelemät ominaisuudet ja luokat. Dublin Coressa on 15 pakollista kenttää. Niiden sisältöön ja muihin ohjeisiin voi tutustua esim. Dublin Coren omilta sivuilta tai esim Paladinin sivuilta

DataCiten skeemalla ei ole virallisen standardin asemaa, mutta sen käyttö on hyvin kontrolloitua. DataCite koostuu 20 elementistä. DataCiten koko skeema ja ohjeet löytyvät täältä. 

Esimerkkejä DataCiten XML-muotoisista metadatoista. 

Kansallinen tutkimusaineistojen kuvailutyökalu Qvain

Qvain:ta on helppo hyödyntää tutkimusaineistojen metadatan luomisessa. Qvainin käyttö ei vaadi IDA-palvelussa olevaa tutkimusaineistoa, mutta ne on helppo yhdistää toisiinsa. Qvainin käytön jälkeen kyseinen kuvailtu tutkimusaineisto on löydettävissä Etsin-työkalun kautta, josta se sitten haravoituu eri palveluihin ja alustoille.

Qvainin ohjeistus

Katso myös CSC:n video, joka esittelee tutkimusaineistojen julkaisemisen Fairdatassa Qvain-työkalun avulla

 

Qvain edellyttää tiettyjä tietoja kaikilta kuvailluilta tutkimusaineistoilta:

  • Datalähde (eli missä data sijaitsee)
  • Lisenssi ja pääsyoikeus (Lisenssi määrittelee, miten aineistossa olevaa dataa voi käyttää, pääsyoikeus kertoo miten tutkimusaineiston saa käyttöönsä(voi olla myös rajoitettu))
  • Otsikko, kuvaus ja muut perustiedot (Kuvailutiedot Markdoen-syntaxilla, mukana myös tiedot kuten: julkaisupäivämäärä, avainsanat, tieteenala, kieli)
  • Toimijat (henkilöt ja organisaatio)

Qvainin voi liittää myös tietoja:

  • Aineistoon liittyvät julkaisut ja muut tuotokset
  • Maantieteellinen alue
  • Ajanjakso
  • Infrastruktuuri
  • Historiatiedot ja tapahtumat
  • Projekti ja rahoitus

 

Tietoarkisto kuvailee arkistoimansa tietoaineiston DDI-formaatin mukaisesti XML-kielellä.

DDI-formaatti tukee Tietoarkiston tavoitetta tallentaa ja arksitoida suomalaisen yhteiskunnan, ihmisten ja kulttuuristen ilmiöiden tutkimiseksi kerättyjä tutkimusaineistoja.

DDI-formaatin mukaisesti kuvailutiedoissa kerrotaan mahdollisimman selvästi seuraavat asiat:

  • tutkimuksen tekijä(t)
  • tutkimuksen aihepiiri ja sisältö
  • aineiston valinta tai otantamenetelmä
  • aineistonkeruu
  • havaintoyksikkö/aineistoyksikkö
  • käyttöehdot
  • tiedostojen formaatti/formaatit
  • kvantitatiivisten aineistojen muuttujat, muuttujien määrä
  • kyselylomakkeen kysymystekstit
  • kvalitatiivisten aineistojen keskeiset dokumentit (haastattelukysymykset, kirjoituskutsu tms.).

Lisätiedot ja yksityiskohtaiset ohjeet Tietoarkistosta.

Metadata vapaamuotoisena tekstitiedostona 


Metadatan voi tuottaa myös vapaamuotoisesti, kunhan varmistetaan että tiedot ovat koneluettavassa muodossa.

Tärkeitä tietoja ovat:

  • Aineiston nimi
  • Tekijät rooleineen
  • Muut aineiston kerääjät rooleineen ja organisaatioineen
  • Tieteenala
  • Rahoittajat
  • Tutkimusaineiston käyttötarkoitus eli projektin perustiedot
  • Ajankohta
  • Millaista aineistoa on kerätty ja miten (menetelmät)
  • Aineiston määrä 
  • Tiedostojen kuvailu (tiedoston nimi, formaatti ja mitä sisältää)
  • Aineiston muokkauksen avaaminen
  • Mahdolliset julkaisut jotka pohjautuvat aineistoon

Esimerkkejä vapaamuotoisista metatiedoista:
Harvard: https://datamanagement.hms.harvard.edu/collect-analyze/documentation-metadata/readme-files
Cornell:  https://data.research.cornell.edu/data-management/sharing/readme/

Tunnetuimmilla repositorioilla on käytössään seuraavat metadatastandardit tai skeemat:

Repositorio Standardi Muuta
Zenodo DataCite Pakolliset kentät: Publication date, title, authors, description, access right, license
Figshare DataCite Pakolliset kentät: Item title, item type, authors, categories, keywords, description, license
IDA/Qvain Fairdata Metax tietomalli Qvaimen pakolliset kentät: Lisenssi, aineiston kuvaus ja otsikko, julkaisupvm, avainsanat, tekijä (henkilö tai organisaatio) ja julkaisija (henkilö tai organisaatio).
Dryad Dublin Core, DataCite, OAI-ORE, RDF DataCube Pakolliset kentät: Journal name; Title; Author(s); Abstract; Research domain; Keyword(s)
Pangaea
Darwin Core, Dublin Core, ISO 19115, DIFF
Pakolliset kentät: Event; Expedition; PI; Author(s); Data set title; Reference(s);Method; Abstract;
BOLD system   BOLD = Barcode of life data system. Esimerkiksi valokuvan pakolliset kentät ovat: Image file; Original specimen; View metadata; Sample ID; License; License year; License contact.
Kielipankki CLARIN Standards Information System
Ilmoitus kielivarasta - pakolliset kentät: Information provider, email address of information provider, organization, name of the language resource in Finnish and in English, type
Tietoarkisto DDI, Data Documentation Initiative Pakolliset kentät: Aineiston tekijä tai kerääjän nimi, vastaus tutkittavien informoinnista, aineiston nimi ja lyhyt kuvaus, aineiston koko, ilmoittajan nimi, taustaorganisaatio ja email
EUDAT CDI B2SHARE / EUDAT B2SHARE EUDAT Core ja Extended schema   

 

Hyviä esimerkkejä aineistonkuvailusta ja sen tekemisestä löytyy monilta yliopistoilta ja yhteisöiltä. Tietoarkiston Aila-palvelusta löytyy esimerkkejä hyvästä kuvailusta; esim. Hyvinvointi ja eriarvoisuus Suomessa

Kansainvälisiä ohjeita: