Vytvoř

Jak správně vytvořit datovou sadu

Než dojde ke zveřejnění vašich prvních datových sad, musí se data pro otevření připravit. Některé datové formáty omezují jednoduchost dalšího zpracování. Jiné naopak značně usnadňují další automatizované použití. Pro poskytování otevřených dat je důležité, aby byla poskytnuta ve formátech, které jsou co nejotevřenější. Například tabulková data ve formátu PDF jsou dobře čitelná pro člověka, ale pro stroje je obtížné ji interpretovat. Informace o tom, na co myslet při tvorbě datových sad a jak je správně upravit se dočtete níže.  

Doporučujeme, abyste tématech technické přípravy datových záznamů zapojili do přípravy IT manažera ve vaší organizaci. V lepší orientaci vám pomůžou také odkazy na doplňující zdroje informací, které se snažíme uvádět v textu.  

Analýza datové sady, návrh způsobu zveřejnění

Před publikací vašich datových sad je důležité zamyslet se nad jejím obsahem a samotnou strukturou dat. Samozřejmě je možné publikovat například prostý CSV soubor s jasnou strukturou dat a půjde o dobře použitelná zdroj. I v takovém případě by ale měla datová sada projít vstupní analýzou. Analýzu zajišťuje její Kurátor, který ve spolupráci s IT specialistou kontroluje věcný obsah sady, zvolí stupeň otevřenosti ve kterém bude publikována a případně zvolí datové schéma určující její strukturu.

Vzhledem k tomu, že řada veřejných subjektů publikuje podobné datové sady, vznikají na národní úrovni jednotná datová schémata pro konkrétní oblasti. Jde o snahu sjednotit přístup poskytovatelů dat a standardizovat publikované sady pro danou oblast, což značně zjednodušuje následné využití ze strany zpracovatelů dat. Pokud tedy pro danou množinu dat již existuje Otevřená formální norma, lze ji pro definici obsahu datové daty použít, případně rozšířit.

Otevřené formální normy ve smyslu § 3 odst. 9 zákona č. 106/1999 Sb., o svobodném přístupu k informacím jsou pro poskytovatele otevřených dat kteří jsou povinnými subjekty dle § 4b odst. 1 zákona č. 106/1999 Sb. o svobodném přístupu k informacím závazné. Jedná se o technická doporučení zaměřená na vybrané datové sady, která zajišťují, že stejná data publikovaná různými poskytovateli budou interoperabilní. Tím je umožněno taková data jednodušeji využívat nezávisle na tom, od kterého jsou poskytovatele. Přehled Otevřených formálních norem (OFN), informace o jejich významu a možnosti využití najdete zde.

Mějte na paměti, že spotřebitelé dat mohou chtít zkombinovat vámi poskytnuté datové sady s daty z jiných veřejných orgánů. Podmínky použití by proto měly být co nejvíce kompatibilní s doporučenými standardy. 

Zvolte stupeň otevřenosti 

Aby byla data, která zveřejníte skutečně využitelná, měla by splňovat základní doporučené standardy. To v praxi znamená, že je často nutné data upravit (vyčistit). Například v případě publikace excelového soubor zkontrolovat strukturu a integritu dat podle stupně otevřenosti, zvoleného ve vašem publikačním plánu. V České republice, stejně jako v Německu je pro tento účel na národní úrovni využívána definice 5ti stupňů otevřenosti. V obou zemích se přitom vychází z pětihvězdičkového modelu Tima Bernerse-Lee2 

  • stupeň 1 – datová sada je dostupná v síti WWW s vhodnými podmínkami užití otevřených dat 
  • stupeň 2 – datová sada je poskytována ve strojově čitelném formátu, který umožňuje automatizované zpracování
  • stupeň 3 – datová sada je poskytována v otevřeném formátu, tj. ve formátu s volně dostupnou specifikací 
  • stupeň 4 – na identifikaci entit v datové sadě se používají IRI, 
  • stupeň 5 – datová sada splňuje standard propojených dat. 

S podrobným popisem stupňů otevřenosti, včetně doporučených technických standardů pro každý stupeň se můžete seznámit na stránkách opendata.gov.cz 

Analýza rizik

V průběhu tvorby publikačního plánu vybral koordinátor ve spolupráci s jednotlivými kurátory konkrétní datové sady a vytvořili plán jejich zveřejnění. Vzali přitom v úvahu řadu věcí, jako souladu publikovaných sad s právními předpisy a standardy publikace, posouzení nutnosti a způsobu transformace dat, nebo kvalitu datových sad.  

Před samotným zveřejněním je na základě těchto informací potřeba udělat analýzu rizik a navrhnout způsob, jak případná rizika řešit. Pokud využijete vzorové publikační plány, jsou v nich rizika identifikována a můžete je převzít. Pokud vytváříte vlastní publikační plán ve kterém plánujete otevírat vlastní datové sady, doporučujeme postupovat podle analýzy doporučené portálem otevřených dat: Určení rizik otevření datových sad. 

  • Zveřejnění dat v rozporu se zákonem 
  • Porušení ochrany obchodního tajemství 
  • Porušení ochrany osobních údajů 
  • Zveřejnění nevhodných dat či informací 
  • Dezinterpretace dat 
  • Absence konzumentů dat 
  • Překrývání dat. 
  • Ohrožení bezpečnosti státu / majetku / osob 

Bližší informace o analýza rizik při rozhodování o publikaci datových sad najdete zde.

Stanovení podmínek užití 

Při přípravě vlastních datových sad je důležité myslet i na způsob jejich dalšího využití. První věc, kterou musíte udělat, je ujasnit si, zda vaše organizace skutečně vlastní práva k dotyčným údajům a zda můžete regulovat další použití údajů třetími stranami. V případě údajů, které byly shromážděny například poskytovatelem služeb jménem vaší organizace, mohou existovat smluvní předpisy, které omezují přenos a další použití údajů. Zde by byla nezbytná příslušná jednání mezi vaší organizací a držiteli práv. 

V rámci České republiky můžete využít přehledně zpracovaný návod na vytvoření licenčních oprávnění pro bezproblémové užití otevřených dat publikovaný na opendata.gov.cz

V případě Bavorska doporučujeme informace publikované v rámci Německého národního portálu, které zajišťují jak možnost publikace datových sad na národní úrovni, tak v rámci Open Data Portal Bayern. Seznam licencí akceptovaných na GovData.de naleznete zde

Pokud vaše organizace vlastní práva k daným datovým sadám, můžete se zaměřit na zásady opětovného použití, abyste uživatelům ujasnili, jak mohou vaše data dále zpracovávat. Další omezení dalšího používání vašich datových souborů omezují uživatele v jejich možnostech používat vaše data (smysluplně). Předpisy by tedy měly umožnit bezplatné další použití.