Siirry pääsisältöön
Turun yliopiston kirjasto

Tutkimusaineistojen elinkaarisuunnittelu

Tutkimusaineiston säilytys tutkimuksen aikana

Laadi jo tutkimuksen suunnitteluvaiheessa yhtenäinen käytäntö kansioiden ja tiedostojen nimeämiselle. Sovi myös yhtenäinen tapa tallentaa tiedostot kansioihin ja alakansioihin.  On tärkeää, että kaikki projektissa mukana olevat noudattavat sovittua käytäntöä.

Suunnittele ja sovi jo etukäteen, mitkä tiedostoversiot säilytetään ja/tai julkaistaan ja mitkä hävitetään tutkimuksen päätyttyä.

 

Organisointi ja säännönmukainen nimeäminen auttavat:

  • välttämään sekaannuksia tutkimusprosessin aikana ja datan analysointivaiheessa.
  • jakamaan dataa tutkimusryhmän sisällä.
  • varmistamaan datan säilymisen, huolimatta muutoksista tutkimusryhmän kokoonpanossa.
  • varmistamaan datan luettavuuden ja ymmärrettävyyden sen jälkeenkin, kun tutkimusprosessi on jo päättynyt.
  • selvittämään, mitä data sisältää ja millä periaatteilla se on koottu.

Mieti etukäteen, kenellä on pääsy kansioihin. Käytä kansioissa ja tiedostoissa yksilöllisiä nimiä, jotta ne eivät pääse missään tutkimuksen vaiheessa sekoittumaan.

Luo erilliset kansiot:

  • datatiedostoille
  • projektin hallinnalle
  • menetelmille
  • tekstitiedostoille
  • jne.

Hyvä kansiorakenne sisältää ainakin seuraavat elementit:

  • projektilla on yksilöllinen pääkansio
  • koodit
  • data
  • ainakin yksi readme dokumentti, joka kattaa vähintään hallinnolliset asiat (readme tiedostoja voi olla useampia kuin yksi)

Versionhallinta pitää aineistosi järjestyksessä. Se voidaan hoitaa joku manuaalisesti tai automaattisesti.

Data Organisation ABC workshop - Datan Organisoinnin ABC työpajan materiaalit Zenodossa. Työpajan järjesti Helsingin yliopisto ja CSC.

 

Katso esimekkejä Jyväskylän yliopiston sivuilta.

Tutkimusaineisto koostuu usein monenlaisista datoista, joissa jokaisessa on erilainen tiedostomuoto. Tiedostomuotoja on runsaasti erilaisia ja uusi tiedostomuotoja tulee jatkuvasti samalla kuin osa tiedostomuodoista poistuu käytöstä. Tutkimusaineiston pitkäaikaisen käytettävyyden takia on tärkeää kiinnittää huomiota tiedostomuotoihin, jotta aineistot avautuvat myös tulevaisuudessa.

On suositeltavaa, että ainakin yksi tiedostokopio tallennettaisiin sellaisessa avoimessa tiedostomuodossa, jossa tiedoston lukeminen onnistuu eri ohjelmistoilla ilman maksullisia lisenssejä. Kun tiedostomuodoista pidetään huolta jo tutkimuksen teon aikana, ei datan myöhemmässä käytössä jouduta turvautumaan konvertointiin, jossa on aina vaarana tietojen katoaminen tai vääristyminen.

Hyviä tiedostomuotoja ovat esimerkiksi:

  • Tekstitiedostot:
    • .txt.
    • .odt
    • .xml
    • .html
  • Audio-ja äänitiedostot:
    • .flac
    • .wav
  • Videotiedostot::
    • .mp2
    • .mp4
  • Kuvatiedostot:
    • .tif
    • .png
    • .svg
    • .jpg

Tutkimusaineiston tallentamiseen tutkimuksen aikana vaikuttaa aineiston laadun lisäksi sen jakamisen tarve. Jos tutkimusaineisto sisältää arkaluontoisia tai sensitiivistä tietoa, on sen tallentamisessa ja erityisesti jakamisessa noudatettava erityistä huolellisuutta. 
Turun yliopiston digipalvelut tarjoavat tallennuspaikkoja eri tyylisille tutkimusaineistoille, katso ohjeet intranetistä

Henkilökohtaiseen käyttöön

  • Oma verkkokansio 
    • 25 Gt (tai tarpeen mukaan) vapaata tallennustilaa. Luodaan automaattisesti UTU-tunnukselle.
  • Seafile-pilvitallennus
    • 100 Gt (tai tarpeen mukaan) vapaata tallennustilaa. Luodaan automaattisesti UTU-tunnukselle. Lisätilaa Digipalveluilta.
  • GitLab
    • GitLab on yliopiston ylläpitämä koodirepositoriopalvelu, joka perustuu git-tekniikkaan. Palvelua käytetään yleisesti ohjelmistokoodin versionhallintaan, mutta se käy myös kaikenlaisten muiden tekstitiedostojen hallintaan. GitLab on Turun yliopiston IT-palveluiden toteuttama ja ylläpitämä "pilvipalvelu", mikä tarkoittaa, että kaikki palveluun tallennettu data pysyy yliopiston omilla palvelimilla.

 

Parhaat jako-ominaisuudet ja mahdollisuudet yhteiskäyttöön

  • Yksikön verkkolevy / Taltio 
    • Tilaa tarpeen mukaan. Taltion voi tilata helpdesk@utu.fi osoitteesta tiedoilla (kt. ohje
      • Taltion nimi
      • Kuinka paljon levytilaa halutaan
      • Vastuuhenkilö
      • Kustannuspaikkanumero
      • Taltion käyttäjien tunnukset 
  • Työryhmätilat
  • Seafile-pilvitallennus (100Gt) 
  • GitLab

Tietoturvallisuus eli tietojen, järjestelmien ja tietoliikenteen suojaaminen on tärkeä osa tutkimusaineiston hallinnointia. Sähköisten aineistojen kopiointin ja levittäminen on helppoa, joten sen estäminen on tärkeää. Varmuuskopiointi on osa tietoturvaa.

Varmuuskopioinnilla pidät tutkimusaineistosi ajantasaisena ja korruptoimattomana. TY suosittelee automaattista varmuuskopiointia, jolloin aineiston häviämisen riski pienenee. TY:n omista tallennuspalveluissa on automaattinen varmuuskopiointi.

Tietoturvasta tutkimuksen aikaisessa tutkimusaineiston tallennuksessa tulee parhaiten pitäneeksi huolta käyttäen TY:n Digipalveluiden tallennusalustoja. Lisätiedot tietoturvallisesta tutkimusaineiston tallennuksesta, jakamisesta ja käyttämisestä, löytyy Intranetin sivuilta.


Jos käytät jotakin muuta kuin TY:n tallennusalustaa, selvitä ainakin seuraavat asiat:

  • Onko varmuuskopiointia, vai pitääkö minun muistaa tehdä se itse?
  • Pääsenkö tutkimusaineisoihin käsiksi myös etänä?
  • Miten pääsynhallinta on toteutettu? Voinko rajoittaa salasanoin eri tiedostoihin pääsyä?

 

Ota myös tarkasti selvää tallennusalustan tietoturvasta, erityisesti jos tutkimusaineistosi on arkaluontoista tai sensitiivistä. Pidä huoli, että tallennusalustan kapasiteetti riittää omaan tutkimusaineistoosi ja että sen suorituskyky on riittävä. 

Huomio myös esim (aineistohallinnan käsikirjasta):

  • Tietoverkkojen turvallisuus. Tutkimushenkilöstölle tulee luoda henkilökohtaiset luku- ja kirjoitusoikeudet aineistoon (esimerkiksi käyttäjätunnukset ja salasanat). Tämä on erityisen tärkeää, jos tutkimusaineistoon on pääsy tietoverkon kautta. Tietoverkoissa siirrettävä tieto salataan tarpeen mukaan. Salassapidettävää tietoa ei saa säilyttää sellaisilla palvelimilla, jotka tarjoavat palveluja internet-verkkoon (esimerkiksi www- ja sähköpostipalvelimet). Tietosuojavaatimuksiltaan arkaluontoista materiaalia tulee säilyttää vain sellaisilla tietokoneilla, joita ei ole liitetty tietoverkkoihin. Lisäksi on varmistettava, ettei tietojärjestelmä tallenna aineiston käsittelyssä syntyviä väliaikais- tai muita tallenteita käyttöoikeusrajoitetun alueen ulkopuolelle.
  • Fyysisten aineistotilojen turvallisuus. Tutkimusaineistojen säilytys ja varmuuskopiointi tulee suunnitella niin, että aineistot on suojattu palon, murron, vesivahingon tai sabotaasin varalta. Kiinteistössä on hyvä olla kulunvalvonta ja ovet tulee lukita, kun henkilökuntaa ei ole paikalla. Lisäksi voidaan rajoittaa pääsyä niihin tiloihin, joissa tutkimusaineistoa säilytetään. Tietokoneiden ja oheislaitteiden vikaantumiseen on varauduttava. Varmuuskopiot kannattaa sijoittaa turvakaappiin. Aineistosta tulisi myös olla yksi kopio, jota säilytetään fyysisesti mahdollisimman erillään muista aineistokopioista. Tämänkin kopion säilyttämisen tietoturvasta tulee huolehtia.
  • Ohjelmistopäivitykset. Kriittiset käyttöjärjestelmä- ja ohjelmistopäivitykset tulee asentaa mahdollisimman nopeasti. On suositeltavaa käyttää keskitettyä automaattista päivityspalvelua ja pitää mielessä, että joskus ohjelmistopäivitykset voivat aiheuttaa yhteensopivuusongelmia.
  • Virussuojaus. Kaikissa tutkimusprojektiin osallisina olevissa tietokoneissa täytyy olla asennettuna säännöllisesti ja automaattisesti päivittyvä virustorjuntaohjelmisto.

 

Kysy lisää tallennusalustoista ja TY:n ratkaisuista osoittessa data@utu.fi

Tietoturva henkilötietoja sisältävässä tutkimuksessa

Henkilötiedot voidaan pseudonymisoida tai anonymisoida. Niin pitkään, kun tietojen perusteella voi tunnistaa henkilön suoraan tai tiedot voidaan palauttaa takaisin tunnistettavaan muotoon, ne ovat yhä henkilötietoja ja niihin sovelletaan tietosuoja-asetusta.

Aineiston hallintaan ja jakamiseen liittyvät kysymykset on hyvä selvittää koko tutkimusryhmälle.

Selvät käytänteet tulee olla siitä,

  • Kuka saa käyttää aineistoa ja miten
  • Kenellä on oikeus päättää aineiston käytöstä
  • Kuka päättää mitä aineistolla tehdään ja mihin se talletetaan tutkimuksen jälkeen

 

Jo tutkimuksen aloitusvaiheessa pitää miettiä tutkimukseen liittyviä juridisia ja eettisiä kysymyksiä. Sopikaa tutkimusryhmässä siitä, kuka omistaa datan. Käytä apuna tarvittaessa tutkimuksen juridisia tukipalveluja (legal@utu.fi).

Ottakaa huomioon myös rahoittajan ja julkaisijoiden mahdolliset vaatimukset.

 

Aineiston turvallinen jakaminen on mahdollista TY:n Seafile ja Taltio- tallennusalustojen kautta.

 

Henkilötietoja sisältävän datan suhteen pitää aina erikseen varmistaa käytettävän palvelun soveltumisesta ko. datan käsittelyyn ja tallentamiseen.

 

Muita mahdollisuuksia aineiston jakamiseen:

CSC tarjoaa palvelua suurten datamäärien lähettämiseen ja vastaanottamiseen Funet File Senderin kautta. 

Funet FileSender on turvallinen tapa jakaa suuria tiedostoja kenelle tahansa. Kirjaudu sisään ladataksesi tiedostoja palveluun, tai pyytääksesi jotakuta muuta lähettämään sinulle tiedosto. ​

Intranetin ohjeet löytyvät täältä.

 

 

 

Microsoft Teams + Onedrive

Teams on yhteistyö- ja viestintäalusta, joka auttaa ihmisiä työskentelemään tehokkaasti yhdessä, työskentelivätpä he sitten kotona tai toimistossa. ​

Intranetin ohjeistus löytyy täältä. 

Microsoft OneDrive on pilvitallennuspalvelu, jonka avulla voit tallentaa tiedostoja ja valokuvia verkkoon. Voit käyttää tiedostojasi mistä tahansa ja jakaa niitä muiden kanssa. ​​

Google Drive​

Google Drive on Googlen kehittämä pilvitallennuspalvelu. Sen avulla käyttäjät voivat tallentaa tiedostoja pilvipalveluun (Googlen palvelimille), synkronoida tiedostoja eri laitteilla ja jakaa tiedostoja. ​

Avoimet tutkimuspäiväkirjat

Avoimella tutkimuspäiväkirjalla (Open Notebook Science) tarkoitetaan sitä, että tutkimusprojekti tehdään julkiseksi heti alusta alkaen. Avoin tutkimuspäiväkirja kertoo mm. aineistonkeruun vaiheista ja mittaustuloksista. Tavoitteena on tutkimuksen läpinäkyvyyden varmistaminen.

Tutkimuspäiväkirjan voi jakaa esim. tavallisella verkkosivulla tai sosiaalisen median palveluissa. Dokumentteja voi jakaa esim. Turun yliopiston SeaFile-pilvitallennuspalvelun avulla. Katso Seafile-ohjeet IT-palveluiden sivuilta

Tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua, asiallisesti perusteltua ja tietojen käsittelyyn on laillinen käsittelyperuste (esimerkiksi tutkittavan suostumus tai yleisen edun mukainen tutkimus). Henkilötietoja käsittelevässä tutkimusaineisoissa aineistonhallinnan laatu korostuu. Huolehdi aineiston pseudonymisoinnista ja anonymisoinnista, jos ja kun se on tarpeen.

 

Pseudonymisoidulla aineistolla tarkoitetaan aineistoa, jossa suorat yksilöidyt tunnisteet on korvattu koodeilla tai peitenimillä. Koodiavaimet säilytetään aina erillään analyysiaineistosta. Aineiston laadusta riippuu, riittääkö pseudonymisointi aineiston suojakeinoksia tutkimuksen aikana. Koodiavaimen pääsyoikeudet ja käsittely on sovittava selkeästi tutkimusryhmän sisällä.

Pseudonymisoidusta aineistoista hävitetyt suorat tunnisteet, kuten nimet, sotut, kuvat etc, suositellaan hävitettävän heti, kun se on tutkimuksellisesti mahdollista. 

Anonymisoidulla aineistolla tarkoitetaan aineistoa, jossa yksilölliet tunnisteet on poistettu ja niitä ei voi enää yhdistää lunnollisiin ihmisiin.

 

Tietoarkistolla on hyvät ohjeet ja suunnitelmapohja aineistojen anonymisoimiseen sekä yleisesti tunnisteellisten aineistojen käsittelyyn.

Tutustu myös TY:n lakipalveluiden tuottamiin ohjeisiin.

Tutkimusaineiston säilytys tutkimuksen jälkeen

 

Aineiston säilytysaikaa pohdittaessa ota huomioon tutkimuksen rahoittajan ja tietosuoja-asetuksen erityisehdot.

Tutkimusaineiston käyttöarvo tutkimuksen jälkeen määrittää myös sen säilyttämiseen liittyviä vaihtoehtoja.

  • Jos tutkimusaineistoa on mahdollista käyttää uudelleen, tulisi se avata ja jakaa laadukkaassa data-arkistossa.
  • Jos aineisto sisältää henkilötietoja, tulee säilytyksessä olla erityisen tarkkana ja noudattaa tietosuojaohjeistusta.
  • Jos ajattelet aineistosi olevan kansallisesti merkittävää, hyödynnä CSC:n Fairdata PAS-palvelua.

Turun yliopisto suosittaa yleisesti tutkimusaineistoa säilytettäväksi viisi vuotta (lääketieteessä 15 vuotta).

 

Toistaiseksi on huomioitava, että Turun yliopistolla ei ole omaa data-arkistoa, eli tutkimusaineiston pitkäaikaissäilytykseen täytyy tehdä toisia ratkaisuja.

Tutkimusaineiston hävittäminen

Tutkimusaineiston hävittämisessä on otettava huomioon ettei pelkkä tiedostojen deletoiminen välttämättä riitä. Pelkkä tiedoston poistaminen ja tietokoneen roskakorin tyhjentäminen ei tarkoita, että tiedosto olisi lopullisesti tuhottu. Poistetut tiedot voidaan palauttaa, vaikka kiintolevy olisi alustettu uudelleen.Tiedostojen lopulliseen tuhoamiseen on saatavilla erilaisia ohjelmia, kuten tietojen ylikirjoittaminen tai kiintolevyn magnetisointi. Niillä voidaan myös mekaanisesti rikkoa tallennusvälineitä, jolloin ne muuttuvat lukukelvottomiksi.

Lisätiedot:

Erityisen tarkka tulee olla, jos aineisto sisältää henkilötietoja: