Siirry pääsisältöön
Turun yliopiston kirjasto

Tutkimusaineistojen elinkaarisuunnittelu

Aineiston avaaminen

Turun yliopisto tukee vahvasti FAIR-periaatteita, joiden mukaisesti tutkimusaineiston tulisi olla niin avointa kuin mahdollista, niin suljettua kuin tarpeellista. Koko aineiston avaaminen ei aina ole mahdollista tai järkevää, mutta tutkimusaineistojen metatiedot voidaan avata. Turun yliopistolla ei ole tutkimusaineiston avaamiseen omaa tietokantaa, vaan avaaminen tehdään joko kansallisilla tai kansainvälisillä alustoilla eli repositoriossa/data-arkistossa.

 

Pitäisikö kaiken datan olla avoimesti saatavilla?

Vastaus on yksinkertaisuudessaan EI. Arviota tehdessäsi käy läpi Digital Curation Centerin (DCC) tarkistuslistan (englanniksi) kanssa sitä, mikä data on sellaista, että se kannattaa säilyttää.

Tutkimusaineistojen jatkokäytön kannalta tutkimusdatan tulisi noudattaa nk. FAIR-periaatteita, eli datan tulisi olla löydettävissä (Findable), saavutettavissa (Accessible), yhteentoimiva (Interoperable) ja uudelleenkäytettävissä (Re-usable). 

1. Löydettävyys -Findable

  • Aineistolla on ainutkertainen ja ikuisesti pysyvä tunnus
    • Tutkimusdatan ja tietellisen julkaisemisen käytetyimmät pysyvät tunnisteet ovat DOI, URN ja Handle. 
    • Yleensä tallennuspaikka myöntää aineistoille pysyvän tunnisteen
  • Aineistolla on kattavat metatiedot
    • Katso vinkkejä aineiston kuvailuun: 
  • Aineiston metatiedot on viety hakupalveluun
    • Monilla data-arkistoilla on rajapinnat hakupalveluihin. 
  • Pysyvä tunniste tulee käydä ilmi metatiedoista

2. Saavutettavuus -Accessible

  • Aineisto tai sen metatiedot voidaan noutaa tunnisteen avulla
    • Kaikki aineisto ei voi olla avointa, mutta metatiedot melkeinpä aina
  • Yhteyskäytäntö on avoin ja maksuton
    • Aineistoa ei sovi piilottaa maksumuurin taa
  • Suljetun aineiston käyttöluvan anominen tulisi olla mahdollisimman helppoa 
  • Metatiedot tulisi pitää saatavutettavina, vaikka itse aineistoa ei enää olisikaan

3. Yhteentoimiva -Interoperable

  • Aineisto ja sen metatiedot ovat määrämuotoisia, monikäyttöisiä, saatavilla olevia ja jaettua kieltä käyttäviä
    • Aineiston tulisi olla sekä ihmis- että koneluettavaa.
    • Tietosisältöjä tulisi voida jakaa järjestelmien välissä.
  • Sanastot, Ontologiat ja koodistot ovat koneluettavia
  • Pysyvien tunnisteiden käytöllä mahdollistetaan aineistoon tai metatiedoihin viittaaminen

4. Uudelleenkäytettävä -Re-Usable

  • Kattavat kuvailutiedot mahdollistavat aineiston uudelleen käytön.
  • Lisenssitiedot ovat kattavat ja näkyvät
    • Suosi CC 0 lisenssiä
  • Aineisto pystytään helposti yhdistämään alkuperään ja elinkaareensa
    • Mahdollisen uudelleen käyttäjän pitää tietää mistä aineiston on tullut ja miten siihen on hyvä viitata
  • Ainesto täyttää oman tieteenalan vaatimukset

Tutkimusaineistoarkiston valinta

Tutkimusaineisto kannattaa julkaista ensisijaisesti oman tieteenalasi tai tutkimusaiheesi tietoarkistossa eli repositoriossa. Kun julkaiset aineistosi tieteenalakohtaisessa tietoarkistossa, päätyy se todennäköisemmin oman alasi tutkijoiden löydettäväksi.

Yleisissä ja monitieteisissä tietoarkistossa tutkimusaineiston löydettävyys oman alan tutkijoille saattaa olla vaikeampaa. 

Oikea tietoarkisto vastaa seuraaviin kysymyksiin:

  • Onko pysyvä tunniste? esimerkiksi DOI, URN, ORCID
  • Säilytysaika; mitä luvataan?
  • Onko metadata koneluettavaa?
  • Jos aineistosi on kumulatiivista tarkista, että aineistoa voi lisätä jälkeenpäin
  • Onko luotettavuutta esittävää sertifikaattia?
  • Millä lisensseillä datan voi tallentaa?
  • Onko alasi käyttämä? 
  • Onko arkisto käytettävä? (maksut, tuki, helppokäyttöisyys, aineistosta huolehtiminen)

Huom! EU rahoittajat vaativat usein sertifikoitua datarepositoriota

Voit etsiä eri arkistoja seuraavista palveluista:

  • CESSDA  - yhteiskuntatieteillisten tietoarkistojen tutkimusinfrakstruktuuri
  • Data repositories - Open Access Directoryn wikissä
  • OpenAIRE -- avoimen tieteen infrastruktuuri
  • re3data.org - datarepositorioiden hakemistopalvelu

Erityispiirteitä esitellään myös Harvardin kirjaston sivustolla.

 

Huom! Muista tarkastella rahoittajasi linjauksia ja vaatimuksia repositoriota valitessa.

Aina ei ole tarvetta avata koko tutkimusaineistoa, pelkkä löydettävyyden takaava metadata riittää. Metatietojen tulee kuitenkin olla tarpeeksi kattavat, jotta niiden kautta ymmärretään tutkimusaineistoa.

Monessa arkistossa on mahdollista avata vain metatiedot, vaikka koko tutkimusaineistokin olisi talletettu arkistoon. Kaikissa tämä ei kuitenkaan ole mahdollista.

Metadatan tuottaminen kannattaa aloittaa heti tutkimuksen alussa. Myöhemmin kirjoitettava metatieto on aikaavievää.  Katso vinkit metadatan kirjoittamiseen tämän oppaan kohdasta Tietoaineiston dokumentointi, kuvailu ja metadata.

Pysyvällä tunnistellaan (persistent identifier, PID) tarkoitetaan verkkoympäristössä käytettävää tunnistetta, jolla yksilöidään esim. julkaisu, henkilö tai tutkimusaineisto.

Turun yliopisto suosittaa jokaiselle tutkijalle oman ORCID-tunnisteen hankkimista. Tunnisteesta on hyötyä esimerkiksi tilanteissa, joissa tutkija vaihtaa nimeä tai nimenkirjoitusasuja on useita tai saman nimisiä tutkjioita on useita. Lisätietoa ORCID-tunnisteesta UTUCRIS-oppaassa.

Tieteellisissä julkaisuissa pysyvän tunnisteen myöntää julkaisualusta, eli usein lehden tai monografian kustantaja.

Julkaistun tutkimusdatan tunnisteena voidaan käyttää esim. URN-tunnisteetta (kotimaisista tietoarkistoista esim- Etsin, Tietoarkisto ja Kielipankki käyttävät URN-tunnistetta) tai DOI. DOI-tunnistetta käytetään laajasti kaupallisten kustantajien ja alustojen järjestelmissä.

Tieteellisten artikkelien kirjoittajia voidaan pyytää lisäämään artikkeliin data availability statement tai data access statement (DAS). Sen tarkoituksena on kertoa, missä artikkeliin liittyvä tutkimusdata on saatavilla ja millä ehdoilla. DASiin voidaan sisällyttää mahdollinen linkki datasettiin.

Kustantajilla on omat ohjeet DASin muodostamiseksi ja sijoittamiseksi artikkelissa, ks. esim. Taylor & FrancisSpringer ja Elsevier.

Yleisesti datan saatavuudesta katso esim. PLOS ONE -Data Availability, Nature -DAS

Datajulkaisut ovat vertaisarvioituja dokumentteja, jotka sisältävät mm. tiedot datan keruu- ja analyysimenetelmistä. Datajulkaisu julkaistaan vertaisarvioidussa lehdessä. Datajulkaisun avulla saa tutkimukselle lisää näkyvyyttä ja ne antavat kirjoittajille tunnustusta samalla tavalla kuin tieteelliset artikkelit.

Yleisiä arkistoja

Zenodo on yleiskäyttöinen data-arkisto, joka sopii monenlaiselle datalle. Zenodo on CERNin tuottama, jonka rahoitus tulee EU:lta.

Ominaisuuksia:

  • tutkimusaineisto saa pysyvän DOI-tunnisteen
  • ORCID tai GitHub-kirjautuminen mahdollista
  • Turun Yliopistolla oma yhteisö
  • Integraation Githubiin, jolloin viittaus lähdekoodiin/ohjelmistoihin DOI:n avulla mahdollinen
  • Tallennustilan oletus 50GB / aineisto
  • Oletuslisenssi CC0, mutta muitakin vaihtoehtoja on laajasti
  • Aineistoista voi avata vain osa, tai avaamiselle voi laatia embargon. Myös ehdollinen avaaminen on mahdollista.
  • Metadata on aina avointa
  • EI sovellu sensitiiviselle aineistoille
  • EI kuratointipalvelua tai apua kuvailuun
  • Toimii vain selaimessa

Tutustu Turun yliopiston yhteisöön ZenodossaTY suosittelee yhteisön käyttöä. Kun lisäät aineistosi Zenodon TY yhteisöön, kirjaston asiantuntijat käyvät hyväksymässä aineistosi ja siihen liitetyn metatiedon.

Dryad on monitieteinen tutkimusdata-arkisto, jonka painopiste on kuitenkin erityisesti luonnontieteellisen ja lääketieteellisen tutkimusaineistoissa.

Ominaisuuksia:

  • Dryad kuratoi datasetit, eli aineisto on korkeatasoista
  • Pysyvä tunniste (DOI)
  • Datalle CC0-lisenssi, ei muita mahdollisuuksia. 
    • Myös CC0-lisenssoituun aineistoon pitää viitata hyvän tieteellisen käytännön mukaisesti
  • Maksullinen ( n. 250€/datasetti, TY:llä ei ole yleissopimusta Dryadin kanssa)
  • Ei mahdollista avata vain osaa aineistoista 
  • Sertifikoitu

Lisätietoja ja ohjeita.

 

Figshare on monitieteinen arkisto, johon voit ladata aineistosi ilmaiseksi

  • Datasetin koko max 5TB (max 5000 tiedostoa/datasetti)
  • Myös maksullinen Figshare+ mahdollisuus
  • CC-lisenssit, mutta myös muut hyväksytään
  • DOI
  • ORCHID-yhteys
  • Ei kuvailuapua

Figsharen käyttäjien kannattaa tutustua käyttöehtoihin ja säilytysaika lupauksiin.

Harvard Dataverse on avoimen lähdekoodin data-arkisto, jota kehitetään Harvardin yliopiston kirjastossa. Harvard Dataversen lähdekoodi on monen muunkin data-arkiston pohjana.

Erityispiirteitä:

  • Selainpohjainen 
  • Aineiston maksimikoko 1TB
  • CC0 -lisenssin käyttö on suositeltavaa
  • ORCID, ISNI, LCNA, VIAF, GND, DAI, ResearcherID, Scopus ID -mahdollisuus
  • DOI
  • Maksuton
  • Maksullinen kuvailuapu
  • Standardoitu metadata

Open Science Framework  on yleisarkisto, joka tarjoaa tutkijoille apua aineistonhallinnassa tutkimuksen kaikissa vaiheissa. Open Science Franmeworkin erityispiirteitä:

  • Avoimen datan koko max. 50GB
  • Suljettua dataa max. 5 GB
  • Useita eri lisenssivaihtoehtoja
  • Maksuton
  • DOI

Kotimainen Tietoarkisto arkistoi sekä kvalitatiivista että kvantitatiivista tutkimusaineistoja. 

Tietoarkisto tarkistaa ja dokumentoi aineiston. Tietoarkiston erityispiirteitä:

  • Keskittynyt yhtiskunnallisiin aineistoihin
  • URN
  • maksuton
  • HAKA-kirjautuminen

 

  • Kielipankki (audiovisuaalinen aineisto)
  • EUDAT - European Data Infrastructuren ylläpitämä tallennus- ja jakopalvelu