Hyvin organisoitua ja dokumentoitua aineistoa on helppo käyttää, jakaa, avata, säilyttää ja myös uudelleenkäyttää. Dokumentaatio on aineiston menetelmien, rakenteen ja käsittelyn kuvailua. Pidä dokumentaatio ajantasalla koko tutkimuksen ajan. Jälkikäteen aineiston dokumentointi on huomattavasti vaikeampaa, ellei jopa mahdotonta.
Hyvällä aineiston dokumentaatiolla mahdollistetaan aineiston:
Eri tieteenaloilla on erilaisia dokumentointikäytäntöjä, joita kannattaa seurata. Yksinkertaisimmillaan aineiston yhteyteen luodaan readme-tiedosto, jossa kokonaisuus on kuvailtu.
Hyvä dokumentaatio sisältää:
Lähde: Fuchs, S., Koivula, H., Korhonen, T., Lindholm, T., Rauste, P., & Siipilehto, L. (2023, May 17). Data Organisation ABC workshop - Datan Organisoinnin ABC työpaja. Zenodo. https://doi.org/10.5281/zenodo.7944449
ReadMe - tiedosto sitoo datakokonaisuuden osaset yhteen.
Siihen kerrytetään:
ReadMe-tiedostoon kirjataan datan käsittelyssä syntyvä dokumentaatio ja datan laatuun liittyvää tietoa.
Sen avulla myös ohjeistetaan datan uudelleenkäyttöä.
Jyväskylän yliopiston ReadMe esimerkit.
Cornellin yliopiston ReadMe tiedostopohja.
Tutkimusaineistojen kuvailu on osa tutkimusta ja auttaa muita ymmärtämään tutkimustasi ja tutkimusaineistoja. Metadata eli tieto tiedosta on osa tutkimuksen kuvailua ja yleisesti myös se tutkimusaineistojen osa, joka voidaan avata vapaasti löydettäväksi ja käytettäväksi. Usein tutkimusaineistojen kuvailutietojen avaaminen on myös rahoittajien vaatimuksena. Helpointa ja kustannustehokkainta on tuottaa kuvailevaa metadataa vaiheittain tutkimusaineiston elinkaaren mukaisesti.
Turun yliopistolla ei toistaiseksi ole omaa paikkaa, jossa tutkimuksen metadata voitaisiin avata. Metadata tallennetaan sopivaan kuvailu- tai datapalveluun. Kotimainen Qvain on suositeltava kuvailupalvelu; sen kautta kuvaillut aineistot ovat löydettävissä Etsimestä. Qvainin kautta metatiedot siirtyvät myös kotimaiseen Metax-metatietovarantoon. Metaxin rajapinnan (Metax REST API) kautta voi myös suoraan kuvailla tietoaineistoja.
Metatiedot voi avata myös monissa yleisissä tai tieteenalakohtaisissa data-arkistossa. Kaikissa ei kuitenkaan voi eritellä avausta pelkkään metatietoon. Monet data-arkistot käyttävät metastandardeja tai skeemoja, joita kannattaa seurata heti aineistokuvailun alusta lähtien.
Metadataa ja kuvailevaa tietoa tulee kerätä tutkimuksen aikana. Tutkimuksen jälkeen tehtävä aineiston kuvaileminen on usein työläämpää.
Laadukas metadata on kuin tutkimuksen käyntikortti, jonka tutkija voi antaa tutkimuksestaan. Metadata sisältää tiedot datan
Eri tieteenaloilla on vakiintuneita käytäntöjä aineistojen kuvailuun ja metadatan merkitsemiseen. On kuitenkin tärkeää, että perusasiat kuvaillaan tieteenalasta riippumatta. Näin edistetään tutkimusaineiston löydettävyyttä, saavutettavuutta, yhteentoimivuutta ja uudelleenkäytettävyyttä FAIR-periaatteiden mukaisesti. Kuvailun voi tallentaa tekstitiedostona tai käyttää jotain solveltuvaa metadataformaattia.
Jokaiselle tutkimusaineistolle suositellaan luotavaksi oma hakemisto, johon tallennetaan sekä tutkimusaineisto että kuvailutiedot. Osa kuvailutiedoista sisältyy varsinaiseen aineistotiedostoon (esimerkiksi muuttujien selitteet tai aineistoyksikön tiedot), mutta suuresta osasta tehdään erilliset kuvailutiedostot.
Tietoarkiston ohjeistuksen mukaisesti tutkimusaineiston metadata sisältää seuraavia elementtejä:
Tutkimusaineiston kuvailussa pyritään löydettävyyteen ja hyödynnettävyyteen, joten se kannattaa toteuttaa mahdollisimman yhdenmukaisesti ja koneluettavasti, hyödyntäen mahdollisimman laajasti olemassa olevia standardeja ja skeemoja.
Metadatastardardeja on lukuisia, ja osa niistä hyvin tieteenalakohtaisia. Tutkijan kannattaa hyödyntää oman tieteenalansa standardia. Listauksia eri metastandardeista löytyy: DCC-listaus, Metadata Standards Catalog, Fairsharing.org
Käytetyimpiä standardeja ovat Dublin Core ja DataCite. Monissa käytetyissä metadatastandardeissa, kuten Dublin Core ja DataCite, on sekä pakollisia että vapaaehtoisia kenttiä.
Huom! Myös datarepositorio tai -arkisto voi vaatia tiettyä metadatastandardia. Jos tiedät jo tutkimuksesi alussa data-arkiston, jota aiot hyödyntää tutkimusaineistosi säilyttämisessä ja jakamisessa, kerää metadatatiedot data-arkiston käyttämän metadatastandardin mukaisesti.
Dublin Core ja DataCite
Dublin Coren metadataformaatin standardi on SFS-ISO 15836-1:2020 tieto ja dokumentointi. Osa 1 on Ydinkentät, ja 15836-2:2020 on osa 2 eli Dublin Core-yhteisön määrittelemät ominaisuudet ja luokat. Dublin Coressa on 15 pakollista kenttää. Niiden sisältöön ja muihin ohjeisiin voi tutustua esim. Dublin Coren omilta sivuilta tai esim Paladinin sivuilta.
DataCiten skeemalla ei ole virallisen standardin asemaa, mutta sen käyttö on hyvin kontrolloitua. DataCite koostuu 20 elementistä. DataCiten koko skeema ja ohjeet löytyvät täältä.
Qvain:ta on helppo hyödyntää tutkimusaineistojen metadatan luomisessa. Qvainin käyttö ei vaadi IDA-palvelussa olevaa tutkimusaineistoa, mutta ne on helppo yhdistää toisiinsa. Qvainin käytön jälkeen kyseinen kuvailtu tutkimusaineisto on löydettävissä Etsin-työkalun kautta, josta se sitten haravoituu eri palveluihin ja alustoille.
Qvain edellyttää tiettyjä tietoja kaikilta kuvailluilta tutkimusaineistoilta:
Qvainin voi liittää myös tietoja:
Tietoarkisto kuvailee arkistoimansa tietoaineiston DDI-formaatin mukaisesti XML-kielellä.
DDI-formaatti tukee Tietoarkiston tavoitetta tallentaa ja arksitoida suomalaisen yhteiskunnan, ihmisten ja kulttuuristen ilmiöiden tutkimiseksi kerättyjä tutkimusaineistoja.
DDI-formaatin mukaisesti kuvailutiedoissa kerrotaan mahdollisimman selvästi seuraavat asiat:
Lisätiedot ja yksityiskohtaiset ohjeet Tietoarkistosta.
Metadatan voi tuottaa myös vapaamuotoisesti, kunhan varmistetaan että tiedot ovat koneluettavassa muodossa.
Tärkeitä tietoja ovat:
Esimerkkejä vapaamuotoisista metatiedoista:
Harvard: https://datamanagement.hms.harvard.edu/collect-analyze/documentation-metadata/readme-files
Cornell: https://data.research.cornell.edu/data-management/sharing/readme/
Tunnetuimmilla repositorioilla on käytössään seuraavat metadatastandardit tai skeemat:
Repositorio | Standardi | Muuta | ||
---|---|---|---|---|
Zenodo | DataCite | Pakolliset kentät: Publication date, title, authors, description, access right, license | ||
Figshare | DataCite | Pakolliset kentät: Item title, item type, authors, categories, keywords, description, license | ||
IDA/Qvain | Fairdata Metax tietomalli | Qvaimen pakolliset kentät: Lisenssi, aineiston kuvaus ja otsikko, julkaisupvm, avainsanat, tekijä (henkilö tai organisaatio) ja julkaisija (henkilö tai organisaatio). | ||
Dryad | Dublin Core, DataCite, OAI-ORE, RDF DataCube | Pakolliset kentät: Journal name; Title; Author(s); Abstract; Research domain; Keyword(s) | ||
Pangaea |
|
|
||
BOLD system | BOLD = Barcode of life data system. Esimerkiksi valokuvan pakolliset kentät ovat: Image file; Original specimen; View metadata; Sample ID; License; License year; License contact. | |||
Kielipankki | CLARIN Standards Information System |
|
||
Tietoarkisto | DDI, Data Documentation Initiative | Pakolliset kentät: Aineiston tekijä tai kerääjän nimi, vastaus tutkittavien informoinnista, aineiston nimi ja lyhyt kuvaus, aineiston koko, ilmoittajan nimi, taustaorganisaatio ja email | ||
EUDAT CDI B2SHARE / EUDAT B2SHARE | EUDAT Core ja Extended schema |
Hyviä esimerkkejä aineistonkuvailusta ja sen tekemisestä löytyy monilta yliopistoilta ja yhteisöiltä. Tietoarkiston Aila-palvelusta löytyy esimerkkejä hyvästä kuvailusta; esim. Hyvinvointi ja eriarvoisuus Suomessa
Kansainvälisiä ohjeita: