Siirry pääsisältöön
Turun yliopiston kirjasto

Tutkimusdata ja datanhallinta

Tutkimusdata-arkistoja

Tutkimusdatan tai sen metadatan säilyttämisellä varmistetaan se, että data on tulevaisuudessakin löydettävissä, ymmärrettävissä ja käytettävissä. Yleisesti tutkimushankkeissa (esim. Horizon2020 (hankkeen sivut englanniksi)) suositellaan tieteenalakohtaisten julkaisukanavien ja -arkistojen käyttöä silloin kun niitä on tarjolla. Kun valitset arkistoa, ota huomioon, palveleeko se riittävän hyvin avoimuutta ja uudelleenkäyttöä. Osa arkistoista mahdollistaa datan pidempiaikaisen talletuksen myös rajatulla näkyvyydellä. 

Turun yliopiston ohjeistus säilytyspaikan valinnasta tietoturvanäkökulmasta.

Suositeltavia data-arkistoja ovat mm.:

Tieteenalakohtaisia data-arkistoja voi etsiä paikasta:

Yleisten data-arkistojen vertailu (Generalist Repository Comparison Chart)

Turun yliopiston IT-pavelut ovat myös koonneet sivuilleen listan Tutkimusaineistojen arkistot.

Tiedostoformaatin valinta

Tiedostoformaatit ja ohjelmistot muuttuvat koko ajan. Miten valita tiedostomuoto, joka on luettavissa vielä vuosienkin päästä ja ylimääräisiltä konvertoinneilta vältyttäisiin?

Tietoarkisto kehottaa tallentamaan ainakin yhden kopion tiedostoista sellaisessa formaatissa, joka on yleisesti käytössä. Näin on todennäköisempää, että tiedosto pystytään lukemaan tulevaisuudessakin, vaikka ohjelmistot muuttuvat.

MIT Libraries (englanniksi) ja UK Data Service (englanniksi) opastavat tutkimusdatasivustollaan formaatin valinnassa.

Taulukko hyvistä, melko hyvistä ja huonoista teksti-, audio-, video-, kuva- ja datatiedostoformaateista.

Hyviä tekstitiedostoformaatteja ovat .txt, .odt, .xml ja .html. Melko hyviä ovat .pdf, .rtf ja .docx. Huono tekstiformaatti on esimerkiksi .doc.

Hyviä audio- tai äänitiedostoformaatteja ovat .flac ja .wav. Melko hyviä ovat .ogg ja .mp3. Huonoja ovat .wma, .ra, .ram ja pakatut tai kompressoidut formaatit.

Videoformaateista hyviä ovat .mp2 ja .mp4, sekä MKV-formaatit. Huonoja ovat .wmv, .mov, .avi ja pakatut formaatit.

Kuvatiedostoille hyviä formaatteja ovat .tif, .png, .svg ja .jpg. Melko hyvä on .gif. Huonoja ovat .psd ja pakatut formaatit.

Datatiedostoformaateista hyviä ovat .sql, .csv sekä .xml. Melko hyvä on .xlsx. Huonoja ovat .xls ja yksityisomistuksessa olevat tietokantaformaatit (proprietary DB formats).

Pysyvät tunnisteet

Turun yliopisto suosittaa jokaiselle tutkijalle oman ORCID-tunnisteen hankkimista. Tunnisteesta on hyötyä esimerkiksi tilanteissa, joissa tutkija vaihtaa nimeä tai nimenkirjoitusasuja on useita tai saman nimisiä tutkjioita on useita. Lisätietoa ORCID-tunnisteesta UTUCRIS-oppaassa.

Julkaistun tutkimusdatan tunnisteena voidaan käyttää esim.:

Tutkimusaineiston arkistointi / hävittäminen

Pohdinta siitä, mitä tutkimusaineistolle tehdään tutkimuksen päätyttyä olisi hyvä tehdä jo tutkimuksen suunnitteluvaiheessa. Aineiston säilytysaikaa pohdittaessa on otettava huomioon tutkimuksen rahoittajan ja tietosuoja-asetuksen erityisehdot.

Erityisen tarkka tulee olla, jos aineisto sisältää henkilötietoja: