Siirry pääsisältöön
Turun yliopiston kirjasto

Opiskelijan aineistonhallintaopas

Aineiston käsittely tutkimuksen aikana

Tällä sivulla annetaan vinkkejä siihen, miten aineistoa voi säilyttää ja käsitellä hallitusti tutkimuksen aikana. Riittävän sisällönkuvailun avulla tutkimuksen pariin palaaminen pitkänkin tauon jälkeen on hepompaa, eikä aikaa kulu liikaa aineistojen etsimiseen ja kokonaiskuvan saamiseen.

  • Tietoturvallisen säilytyspaikan valinnalla vältyt tahattomalta tutkimusaineiston tuhoutumiselta.
  • Tiedostoformaatin valinnalla helpotetaan datan käyttöä eri ohjelmilla ja pitkänkin ajan jälkeen.
  • Looginen tiedostojen nimeäminen ja kansiorakenne auttavat löytämään dataa.
  • Versionhallinnan avulla et menetä tai tuhoa aineistoasi tahattomasti.
  • Sisällönkuvailu (metadata) eli dataa kuvaileva tieto auttaa ymmärtämään, millaista dataa tutkimuksessa on käytetty.
  • Mikäli käsittelet tutkimuksessasi henkilötietoja, koskevat sinua vielä erilliset Tietosuoja-asetuksen sanelemat toimet.

 

Tutkimusaineiston (tieto)turvallinen säilyttäminen

Kun alat työstää aineistoa, säilytä alkuperäinen aineisto erillään versiosta, jota käsittelet. 

Yliopistolla on opiskeluun tarjolla erilaisia tallennuspaikkoja (esim. Seafile ja verkkokansio) erilaisia käyttötarkoituksia varten.

Mikäli olet kerännyt aineistoasi paperimuodossa, kannattaa papereilla oleva aineisto skannata digitaaliseen muotoon, jolloin saat kaikki aineistosi yhteen paikkaan talteen.

Hyvän tallennuspaikan tunnusmerkit ovat yleisesti ottaen:

  • Automaattinen varmuuskopiointi – Aineiston häviämisen riski kasvaa, jos varmuuskopio pitää muistaa tehdä itse.
  • Riippumattomuus paikasta eli aineiston etäkäyttö on mahdollista. 
  • Pääsynhallinta, joka rajoittaa esim. salasanalla kuka pääsee käsiksi tiedostoihin.

Lisää vinkkejä tallennuspaikan valintaan löydät kirjaston Tutkimusdata-oppaasta.

Lisätietoa yliopiston tarjoamista tallennuspaikoista löydät IT-palveluiden intranet-sivulta Minne voin tallentaa dataa sekä palveluosoitteesta data@utu.fi.

HUOM: Älä jätä töitäsi vain yhden tallennuspaikan varaan, sillä mitkään tallennustavat eivät ole 100 % toimintavarmoja! Erityisesti tietokoneen kovalevy ja esimerkiksi muistitikut eivät ole kestäviä eivätkä suojattuja tallennusmedioita, jolloin niillä säilytettävät aineistot ovat alttiita häviämiselle, korruptoitumiselle tai tahattomasti ulkopuolisten haltuun joutumiselle. Näiden syiden vuoksi tallennukseen suositellaan aina yliopiston tarjoamaa tallennuspalvelua, joissa yliopiston IT-palvelut huolehtii aineiston tietoturvasta ja varmuuskopioinnista. Tietosuojasyistä tutkimusaineistoja, jotka sisältävät henkilötietoja, ei tule koskaan säilyttää muualla kuin yliopiston keskitetyissä tallennuspalveluissa.

Tutkimusaineiston sisällönkuvailu eli metadata

Yksi yleisin syy siihen, ettei kerättyjä aineistoja voida käyttää tutkimuksen aikana tai sen jälkeen on se, että tutkimuksen kannalta tärkeät tiedot ovat unohtuneet. Välttääksesi tämän, voit pitää tutkimuksestasi päiväkirjaa ja kirjata ylös aineistoosi tekemäsi muutokset haluamallasi tavalla.. 

Tarkempi dokumentaatio varmistaa aineiston jatkokäytön tulevaisuudessa. Yksinkertaisimmillaan voit kirjoittaa aineistoa koskevia kuvailevia tietoja tavalliseen tekstitiedostoon eli ns. README-tiedostoon, jonka tallennat aineistosi yhteyteen omaksi tiedostokseen. Tiedostoon voi kirjata ylös mm. seuraavia asioita:

  • datan kerääjä/luoja ja organisaatio, jossa hän on kirjoilla
  • mihin data on tallennettu 
  • miten aineisto on valmisteltu analyysia varten
  • miten dataa on muokattu
  • millä metodeilla dataa on analysoitu
  • mitä välineitä/ohjelmistoja on käytetty tutkimuksen eri vaiheissa
  • mitä julkaisuja aineistosta on syntynyt
  • tiedostomuodot ja standardit

Tiedostoformaatin valinta

Etenkin jos työstät opinnäytettäsi useammalla eri laitteella ja ohjelmalla, on syytä varmistaa, että tiedosto on tallennettu sellaisessa tiedostomuodossa, joka aukeaa eri ohjelmilla. Jos esimerkiksi olet kirjoittanut työtäsi Applen Pages-ohjelmalla ja tallentanut dokumentin kyseisen ohjelman omaan formaattiin, et saakaan dokumenttia auki yliopiston Windows-koneella. Tässä tapauksessa voit tuottaa raakatekstiä esimerkiksi txt-muotoisena ja tallentaa tekstin esim. docx/pages-muotoon siinä vaiheessa, kun tekstin muotoilu on ajankohtaista.

Tiedostomuodon valinta vaikuttaa aineiston käytettävyyteen myös pitemmällä aikavälillä. Jotta tutkimusaineistosi olisi pitkään käyttökelpoinen, kannattaa ainakin yksi tiedostokopio tallentaa aina jossain sellaisessa avoimen lähdekoodin formaatissa, joka on yleisesti käytössä ja jota useat eri ohjelmistot tukevat tai joka on kokonaan riippumaton ohjelmistoista. Tällöin todennäköisyys sille, että tiedosto pystytään lukemaan tulevaisuudessakin, kasvaa.

Tietoarkiston Aineistonhallinnan käsikirjasta löydät tarkemman kuvailun teksti-, kuva-, ääni- ja videoaineistojen sekä havaintomatriisien tallentamiseen käytetyistä yleisimmistä tiedostomuodoista.

Tiedostojen nimeäminen ja tiedostorakenteet, versionhallinta

Pyri luomaan yksiselitteinen looginen ja kuvaileva tiedostojen nimeämiskäytäntö. Mitä enemmän sinulla on opinnäytteeseesi liittyviä tiedostoja, sitä tärkeämpää on panostaa tähän.

Älä nimeä kahta tiedostoa täysin samalla tavoin. Pidä nimissä käytettävät lyhenteet ymmärrettävinä, nimessä olevien elementtien välisenä erottimena käytetään alaviivaa (_) kun taas sanojen välisenä erottimena olisi joko väliviiva (-) tai isoja kirjaimia. Erikoismerkkien & , * % # ; * ( ) ! @$ ^ ~ ‘ { } [ ] ? < > käyttöä ei suositella. Päivämäärät ja vuodet suositellaan merkittävän muodossa YYYYMMDD, esim. Esimerkkiaineisto_20200911

Kuvailevassa tiedostojen nimeämiskäytännössä asetetaan metatiedot tiedostonimiin esimerkiksi niin, että tiedostonimi sisältää kohteen taustatiedot kuten päivämäärän, sukupuolen ja iän.

Nimeämiskäytännöt ja lyhenteiden selitykset kannattaa kirjoittaa ylös itselleen jonnekin, jotta ne muistaa myöhemminkin. 

 

Luo kansiorakenne, joka sopii tutkimusprojektillesi. Pohdi, minkä tyyppistä aineistoa keräät tai käytät. Onko tutkimusprojektissasi jotakin alaprojekteja, jotka tarvitsevat erillisen kansiorakenteen? Miten organisoit tutkimuksessa käyttämäsi eri aineistomuodot: alkuperäinen aineisto, analyysin kohteena oleva muokattu aineisto, analyysin tuloksena syntynyt aineisto, kuvailutiedot jne.

Pohdi myös, miten yksityiskohtaisen tai yleisen hierarkian luot kansiorakenteestasi. Liian yksityiskohtaisesti eroteltu, syvälle menevä kansiorakenne vaatii useamman kansion avaamista, ennen kuin oikea tiedosto löytyy. Toisaalta liian yleinen rakenne hukuttaa liian monta tiedostoa yhteen kansioon. 

Löydät esimerkkejä erilaisten tutkimusten (mm. laadullinen ja kyselytutkimus) kansiorakenteesta CESSDA ERICin Data Management Expert Guide -sivustolta.

 

Versionhallinta on tärkeä osa aineiston hallintaa, koska aineistoa käsiteltäessä siitä syntyy eri versioita ja joskus voi tulla tarve palata aiempiin versioihin. Versionhallinta voi olla automaattista (suositeltava) tai manuaalista.

HUOM! Muista säilyttää alkuperäinen aineisto erillisenä käsittelemistäsi versioista. Huolehdi tutkimusaineistoa käsitellessäsi myös tietokoneen virustorjunnasta sekä ohjelmistopäivitysten ajantasaisuudesta.

Automaattisessa versionhallinnassa järjestelmä huolehtii versioiden luomisesta ja järjestämisestä.

► Kehittyneempään versionhallintaan on työkaluja, kuten GitLab (ks. myös GitLabin käyttöön liittyvä ohje), tai GitHub.

Manuaalisessa versionhallinnassa käyttäjä luo ja hallinnoi versioita itse (huom. nimeämisen tärkeys).

► Sopii pieniin aineistomääriin, joita aineiston tuottaja yksin hallinnoi.

 

Käsitteletkö henkilötietoja?

Elossa olevien henkilöiden henkilötietoja sisältävän aineiston tallennuksessa tulee noudattaa erityistä huolellisuutta.Tällaiset aineistot tulee tallentaa yliopiston omiin tallennuspalveluihin. Niitä ei saa tallentaa kaupallisiin palveluihin (iCloud, Google Drive, Dropbox), eikä niitä tule säilyttää muistitikulla tai omalla kryptaamattomalla kovalevyllä.

Huomioithan, että EU:n yleisen tietosuoja-asetuksen (GDPR) ja tietosuojalain mukaan perusteeton henkilötietoja sisältävän aineiston käsittely on kiellettyä. Henkilötietojen käsittelylle tulee siis aina olla lainmukainen peruste. Tällainen on esimerkiksi yleinen etu, kuten tieteellinen tutkimus. Henkilötietojen käsittelyn tulee noudattaa minimointiperiaatetta, mikä tarkoittaa että henkilötietoja tulee kerätä ja käsitellä vain sellaisella tarkkuudella (tunnisteellisuus) kuin on ehdottoman välttämätöntä. Tunnisteellisten tietojen käsittelyä voidaan välttää esimerkiksi pseudonymisoimalla tiedot heti, kun ne eivät enää ole tarpeen tutkimuksen tekemiseksi tai tulosten asianmukaisuuden varmistamiseksi.

Kun käsittelet henkilötietoja, kiinnitä erityistä huomiota tiedostojen ja kansioiden nimeämiseen. Tämänkaltainen tieto, kuten myös tiedostojen metatiedot, voivat paljastaa ulkopuolisille tutkimuksen kohteena olevien henkilöllisyyden. Älä siis käytä nimeämisessä henkilöiden nimiä tai henkilötunnuksia, vaan jotain yleistä nimitystä (esim. haastattelu1, haastattelu2 jne.). Selkeä kansiorakenne auttaa myös pääsyn hallinnoimisessa: voit esimerkiksi erotella henkilötietoja sisältävät tiedostot omaan kansioonsa, jolloin ne on helppo pitää muusta aineistosta erillään.

 

Lisätietoa: Tietosuojaohjeita opinnäytetyön tekijöille.
Lisätietoa pilvipalveluista: Pilviohje.

 

 

Tällä sivulla on muokaten lainattu Datanhallinnan perusopasta (CC BY Helsingin yliopisto).