Pētniecības dati pastāv ļoti daudzveidīgās formās: tie ir tekstuāli, skaitliski dati, datubāzes, ģeotelpiski dati, attēli, audio-vizuāli ieraksti, kā arī dati, ko ģenerē tehnika vai rīki. Plānojot pētījumu, ir jāapsver, kādi datu datņu formāti tiks izmantoti. Bieži tas nemaz nav atkarīgs no pētnieka izvēles, to diktē pētniecības nozare, taču pastāv situācijas, kad formāti jāizvēlas pašiem. Digitālie dati no dabas ir atkarīgi no programmatūras , tostarp arī pakļauti novecošanās riskam.
Darba un īstermiņa saglabāšanas datnes – ikdienas pētniecībā nepieciešams izmantot tādas datnes, kas atbilst mērķim un ir viegli pieejami pētniecības grupai, piemēram, Microsoft Excel kvantitatīvai datu analīzei un vizualizācijai. Ilgtermiņa saglabāšanai, kur iespējams, nepieciešams saglabāt datus atvērtajos vai plaši izmantotos formātos, kā arī plānot konvertēšanu no patentētiem formātiem, kur nepieciešams.
Daudzas programmatūras pakotnes nodrošina atpakaļsaderību, taču, lai garantētu ilgtermiņa piekļuves iespējamību datiem, vispraktiskāk tos būtu pārvērst uz plaši izmantotu datnes formātu, kuru lielākā programmatūru pakotņu daļa var atpazīt un nodrošināt datu apmaiņu un pārveidošanu.
Piemēram, Lielbritānijas Datu centrs piedāvā izmantot noderīgu datu tipu un ieteicamo datņu formātu sarakstu, lai palīdzētu pētniekiem izvēlēties. Materiāls tabulā pieejams šeit.
Izvēloties datņu formātus, jāpievērš uzmanību arī šādiem būtiskiem faktoriem:
- Nepieciešams apzināt, kādas programmatūras un formāti tika izmantoti līdz šim;
- Nepieciešams apzināt, kādas programmatūras ir saderīgas ar ikkatru šobrīd izmantoto datortehniku;
- Nepieciešams saprast, vai projekta ietvaros var tikt paredzēti līdzekļi jaunu programmatūru iegādei;
- Kā tiek plānots analizēt, šķirot un glabāt datus;
- Ar kādiem formātiem būs visvienkāršāk dalīties starp kolēģiem;
- Kādiem formātiem būs visvienkāršāk pievienot metadatus, lai interesenti varētu datu kopās un datnēs orientēties gan īstermiņā, gan ilgtermiņā.
Dažkārt ir vienkāršāk izmantot vienu formātu datu vākšanai un analizēšanai un tad šos datus pārvērst citā, plašāk pieejamā un izplatītā formātā, datus arhivējot, kad pētījums ir noslēgts.
Lai nodrošinātu, ka dati ir pieejami un izmantojami ilgtermiņā, svarīgi, kur iespējams, deponēt datnes atvērtos vai plaši izplatītos datņu formātos.
- Atvērtiem formātiem var pietrūkt formatēšanas vai funkcionalitātes, kas nodrošinātu datiem iespēju tikt atveidotiem, apstrādātiem vai analizētiem efektīvākā veidā.
- Ar informāciju bagāti bezzuduma formāti, tādi kā augstas izšķirtspējas attēli vai video, var veidot ļoti liela apjoma datnes, kas nav piemērotas piekļuvei interneta vidē vai ātrai apstrādei. Šādos gadījumos ieteicamās datnes deponēt vairāk nekā vienā formātā, tādā veidā datus optimizējot gan saglabāšanai, gan izmantošanai: piemēram, bagātīgi formatēta Excel datne, kas ietver apstrādātus tabulu datus, var tikt padarīts pieejams blakus CSV datnei, kura satur neapstrādātus skaitļus; vai arī liela TIFF attēlu datne var tikt deponēta saglabāšanai, savukārt JPEG vai cita kompresēta attēlu datne var tikt padarīta pieejama interneta lejupielādei.
- Patentētie formāti ir piemēroti saglabāšanai, ja tie ir plaši izmantoti un var tikt atvērti dažādās operētājsistēmās un ar dažādām programmām vai lietotnēm, piemēram, Microsoft Rich Text formāts, Excel un PDF.
- Tāpat ir nepieciešams dokumentēt datņu formātus, piemēram, ierakstot programmatūras versiju, kas izmantota, šīs datnes veidojot, vai arī iekļaujot kompresijas detaļas, codec un bitu pārraides ātruma informāciju. Šo informāciju var ievadīt metadatu ieraksta laukā “Data processing”; tāpat to var ierakstīt README.txt datnē vai citā dokumentēšanas datnē, kas augšupielādēta repozitorijā kopā ar datiem.
Ar speciālistu ieteiktiem datņu formātiem pārskatāmā veidā var iepazīties Redingas Universitātē izveidotajā materiālā šeit, kur tie iedalīti rekomendētajos datņu formātos, pieņemamajos un retajos jeb specializētajos datņu formātos. Ja tiek nolemts publiskot datus pieņemamajos (plaši izplatītos) datņu formātos, tad, lai mazinātu risku datu zudumam un nesaderībai, ieteicams deponēt datnes arī oriģinālos datņu formātos vienkopus ar konvertētiem formātiem. Dažas datnes var tikt saglabātas specializētos vai reti izmantotos, no programmatūras atkarīgos formātos, kas ir specifiski domēnam vai unikāli rīkiem vai programmatūrām, kurās šie neapstrādātie dati tiek ģenerēti. Šādi dati varētu būt nepiemēroti ilgtermiņa glabāšanai, tāpat saglabājas risks, ka nākotnē nebūs iespējams šos datus atvērt, jo programmatūra var novecot vai kļūt nepieejama. Kur vien iespējams, ieteicams datnes konvertēt uz rekomnendētajiem vai pieņemamajiem formātiem. Arī šajā gadījumā oriģinālās un konvertētās datnes var tikt deponētas vienkopus, lai nodrošinātu abējādu izmantošanu un ilgtermiņa pieejamību. Ja datnes formāts ir rets, pētniekam nepieciešams nodrošināt dokumentēšanu, iekļaujot datnes formāta aprakstu un sniedzot informāciju par visām nepieciešamajām programmatūrām, lai nepieciešamības gadījumā būtu iespējams atveidot šīs datnes.