Siirry pääsisältöön
Turun yliopiston kirjasto

Opiskelijan aineistonhallintaopas

Aineiston käsittely tutkimuksen aikana

Miten aineistoa kannattaa säilyttää ja käsitellä tutkimuksen aikana? Tutkimusaineiston riittävän sisällönkuvailun avulla tutkimuksen pariin palaaminen pitkänkin tauon jälkeen on helpompaa, eikä aikaa ja vaivaa kulu liikaa aineistojen etsimiseen ja kokonaiskuvan saamiseen. 

Huomioi myös, että

  • Tietoturvallisen säilytyspaikan valinnalla vältyt tahattomalta tutkimusaineiston tuhoutumiselta.
  • Tiedostoformaatin valinnalla helpotat datan käyttöä eri ohjelmilla ja pitkänkin ajan jälkeen.
  • Looginen tiedostojen nimeäminen ja kansiorakenne auttavat löytämään datan.
  • Hyvin suunnitellun versionhallinnan avulla et menetä tai tuhoa aineistoasi tahattomasti.
  • Sisällönkuvailu (metadata) eli dataa kuvaileva tieto auttaa ymmärtämään, millaista dataa tutkimuksessa on käytetty.
  • Mikäli käsittelet tutkimuksessasi henkilötietoja, sinun on huomioitava Tietosuoja-asetuksen sanelemat toimet.

 

Tutkimusaineiston (tieto)turvallinen säilyttäminen

Kun alat työstää aineistoa, säilytä alkuperäinen aineisto erillään versiosta, jota käsittelet. 

Yliopisto tarjoaa opiskelijoille tallennuspaikkoja kuten Seafile ja verkkokansio erilaisia käyttötarkoituksia varten.

Jos olet kerännyt aineistoasi paperimuodossa, se kannattaa skannata digitaaliseen muotoon, jolloin saat kaikki aineistosi yhteen paikkaan talteen.

Hyvän tallennuspaikan tunnusmerkit ovat yleisesti ottaen:

  • Automaattinen varmuuskopiointi – Aineiston häviämisen riski kasvaa, jos varmuuskopio pitää muistaa tehdä itse.
  • Riippumattomuus paikasta eli aineiston etäkäyttö on mahdollista. 
  • Pääsynhallinta, joka rajoittaa esim. salasanalla sitä, kuka pääsee käsiksi tiedostoihin.

Lisää vinkkejä tallennuspaikan valintaan löydät kirjaston Tutkimusdata-oppaasta.

Lisätietoa yliopiston tarjoamista tallennuspaikoista löydät IT-palveluiden intranet-sivulta Minne voin tallentaa dataa sekä palveluosoitteesta data@utu.fi.

Huom.! Älä jätä töitäsi vain yhden tallennuspaikan varaan, sillä mikään tallennustapa eivät ole täysin toimintavarma. Erityisesti tietokoneen kovalevy ja esimerkiksi muistitikut eivät ole kestäviä eivätkä suojattuja tallennusmedioita, jolloin niillä säilytettävät aineistot voivat hävitä, korruptoitua tai päätyä tahattomasti ulkopuolisten haltuun. Näiden syiden vuoksi kannattaa aina käyttää yliopiston tarjoamia tallennusratkaisuja, jolloin yliopiston IT-palvelut huolehtii aineiston tietoturvasta ja varmuuskopioinnista. Tietosuojasyistä tutkimusaineistoja, jotka sisältävät henkilötietoja, ei tule koskaan säilyttää muualla kuin yliopiston keskitetyissä tallennuspalveluissa.

Tutkimusaineiston sisällönkuvailu eli metadata

Yksi yleisin syy siihen, ettei kerättyjä aineistoja voida käyttää tutkimuksen aikana tai sen jälkeen on, että tutkimuksen kannalta tärkeät tiedot ovat unohtuneet. Sen välttääksesi voit pitää tutkimuksestasi päiväkirjaa ja kirjata ylös, miten olet toiminut aineistosi kanssa. Kirjaaminen kannattaa aloittaa mahdollisimman aikaisin, mieluiten jo silloin, kun keräät ja tallennat aineistoa.

Tarkka dokumentaatio varmistaa aineiston jatkokäytön tulevaisuudessa. Yksinkertaisimmillaan voit kirjoittaa aineistoa koskevia kuvailevia tietoja tavalliseen tekstitiedostoon eli ns. Readme.txt-tiedostoon, jonka tallennat aineistosi yhteyteen omaksi tiedostokseen. Tiedostoon voi kirjata ylös mm. seuraavia asioita:

  • datan kerääjä tai luoja ja organisaatio, jossa hän on kirjoilla
  • mihin data on tallennettu 
  • miten aineisto on valmisteltu analyysia varten
  • miten dataa on muokattu
  • millä metodeilla dataa on analysoitu
  • mitä välineitä ja ohjelmistoja on käytetty tutkimuksen eri vaiheissa
  • mitä julkaisuja aineistosta on syntynyt
  • tiedostomuodot ja standardit

Tiedostoformaatin valinta

Etenkin jos työstät opinnäytettäsi useammalla eri laitteella ja ohjelmalla, on syytä varmistaa, että tiedosto on tallennettu sellaisessa tiedostomuodossa, joka aukeaa eri ohjelmilla. Jos esimerkiksi olet kirjoittanut työtäsi Applen Pages-ohjelmalla ja tallentanut dokumentin kyseisen ohjelman omaan formaattiin, et saakaan dokumenttia auki yliopiston Windows-koneella. Tässä tapauksessa voit tuottaa raakatekstiä esimerkiksi txt-muotoisena ja tallentaa tekstin esim. docx- tai pages-muotoon sitten kun tekstin muotoilu on ajankohtaista.

Tiedostomuodon valinta vaikuttaa aineiston käytettävyyteen myös pitemmällä aikavälillä. Jotta tutkimusaineistosi olisi pitkään käyttökelpoinen, kannattaa ainakin yksi tiedostokopio tallentaa aina jossakin sellaisessa avoimen lähdekoodin formaatissa, joka on yleisesti käytössä ja jota useat eri ohjelmistot tukevat tai joka on kokonaan riippumaton ohjelmistoista. Tällöin todennäköisyys sille, että tiedosto pystytään lukemaan tulevaisuudessakin, kasvaa.

Tietoarkiston Aineistonhallinnan käsikirjasta löydät lisätietoa teksti-, kuva-, ääni- ja videoaineistojen sekä havaintomatriisien tallentamiseen käytetyistä yleisimmistä tiedostomuodoista.

Tiedostojen nimeäminen ja tiedostorakenteet, versionhallinta

Pyri luomaan yksiselitteinen looginen ja kuvaileva tiedostojen nimeämiskäytäntö. Mitä enemmän sinulla on opinnäytteeseesi liittyviä tiedostoja, sitä tärkeämpää on panostaa niiden nimeämiseen.

Älä nimeä kahta tiedostoa täysin samalla tavoin. Pidä nimissä käytettävät lyhenteet ymmärrettävinä. Nimessä olevien elementtien välisenä erottimena käytetään alaviivaa (_) kun taas sanojen välisenä erottimena olisi joko väliviiva (-) tai isoja kirjaimia. Erikoismerkkien & , * % # ; * ( ) ! @$ ^ ~ ‘ { } [ ] ? < > käyttöä ei suositella. Päivämäärät ja vuodet suositellaan merkittävän muodossa YYYYMMDD, esim. Esimerkkiaineisto_20200911

Kuvailevassa tiedostojen nimeämiskäytännössä asetetaan metatiedot tiedostonimiin esimerkiksi niin, että tiedostonimi sisältää kohteen taustatiedot kuten päivämäärän, sukupuolen ja iän.

Nimeämiskäytännöt ja lyhenteiden selitykset kannattaa kirjata itselleen muistiin siltä varalta, että niihin on myöhemmin syytä palata. 

 

Luo kansiorakenne, joka sopii tutkimusprojektillesi. Pohdi, minkä tyyppistä aineistoa keräät tai käytät. Entä onko tutkimusprojektissasi alaprojekteja, jotka tarvitsevat oman kansiorakenteensa? Miten organisoit tutkimuksessa käyttämäsi eri aineistomuodot: alkuperäisen aineiston, analyysin kohteena olevan muokatun aineiston, analyysin tuloksena syntyneen aineiston, kuvailutiedot jne.?

Pohdi myös, miten yksityiskohtaisen tai yleisen hierarkian luot kansiorakenteestasi. Liian yksityiskohtaisesti eroteltu, syvälle menevä kansiorakenne vaatii useamman kansion avaamista, ennen kuin oikea tiedosto löytyy. Toisaalta liian yleinen rakenne hukuttaa liian monta tiedostoa yhteen kansioon. 

Löydät lisätietoa laadullisen ja survey-tutkimuksen kansiorakenteista CESSDA ERICin Data Management Expert Guide -sivustolta.

 

Versionhallinta on tärkeä osa aineiston hallintaa, koska aineistoa käsiteltäessä siitä syntyy eri versioita ja joskus voi tulla tarve palata aiempiin versioihin. Versionhallinta voi olla automaattista, mikä on suositeltavaa, tai manuaalista.

Huom.! Muista säilyttää alkuperäinen aineisto erillään käsittelemistäsi versioista. Huolehdi tutkimusaineistoa käsitellessäsi myös tietokoneen virustorjunnasta ja ohjelmistopäivitysten ajantasaisuudesta.

Automaattisessa versionhallinnassa järjestelmä huolehtii versioiden luomisesta ja järjestämisestä.

► Kehittyneemmän versionhallinnan työkaluja ovat esim. GitLab (ks. myös GitLabin käyttöön liittyvä ohje), tai GitHub.

Manuaalisessa versionhallinnassa käyttäjä luo ja hallinnoi versioita itse (Huom.! Nimeämisen tärkeys).

► Sopii pieniin aineistomääriin, joita aineiston tuottaja yksin hallinnoi.

 

Käsitteletkö henkilötietoja?

Elossa olevien henkilöiden henkilötietoja sisältävän aineiston tallennuksessa tulee noudattaa erityistä huolellisuutta.Tällaiset aineistot tulee tallentaa yliopiston tarjoamiin tallennuspalveluihin. Niitä ei saa tallentaa kaupallisiin palveluihin kuten iCloud, Google Drive tai Dropbox, eikä niitä pidä säilyttää muistitikulla tai omalla kryptaamattomalla kovalevyllä.

Huomioi, että EU:n yleisen tietosuoja-asetuksen (GDPR) ja tietosuojalain mukaan perusteeton henkilötietoja sisältävän aineiston käsittely on kielletty. Henkilötietojen käsittelylle tulee siis aina olla lainmukainen peruste. Tällainen peruste on esimerkiksi yleinen etu, kuten tieteellinen tutkimus. Henkilötietojen käsittelyn tulee noudattaa minimointiperiaatetta, mikä tarkoittaa että henkilötietoja tulee kerätä ja käsitellä vain sellaisella tarkkuudella (tunnisteellisuus) kuin on ehdottoman välttämätöntä. Tunnisteellisten tietojen käsittelyä voidaan välttää esimerkiksi pseudonymisoimalla aineisto heti, kun henkilötiedot eivät enää ole tarpeen tutkimuksen tekemiseksi tai sen tulosten varmistamiseksi.

Kun käsittelet henkilötietoja, kiinnitä erityistä huomiota tiedostojen ja kansioiden nimeämiseen. Tämänkaltainen tieto, kuten myös tiedostojen metatiedot, voivat paljastaa ulkopuolisille tutkimuksen kohteena olevien henkilöllisyyden. Älä siis käytä nimeämisessä henkilöiden nimiä tai henkilötunnuksia, vaan jotakin yleistä nimitystä (esim. haastattelu1, haastattelu2 jne.). Selkeä kansiorakenne auttaa myös pääsyn hallinnoimisessa: voit esimerkiksi erotella henkilötietoja sisältävät tiedostot omaan kansioonsa, jolloin ne on helppo pitää muusta aineistosta erillään.

 

Lisätietoa: Tietosuojaohjeita opinnäytetyön tekijöille.
Lisätietoa pilvipalveluista: Pilviohje.

 

 

Tällä sivulla on muokaten lainattu Datanhallinnan perusopasta (CC BY Helsingin yliopisto).