CSV
ChatGPT
Vygenerováno pomocí ChatGPT na základě přednášek od Klimka
-
Definice a specifikace:
- Textový formát: Ukládá tabulková data (čísla a text) v prostém textu.
- Kódování: Výchozí je UTF-8 (dříve US-ASCII).
- Oddělovač sloupců: Čárka (
,), která odděluje jednotlivá pole. - Escape znak: Dvojité uvozovky (
").
-
Struktura CSV:
- Řádky: Každý řádek představuje jeden záznam.
- Sloupce: Jednotlivé hodnoty ve sloupci jsou odděleny čárkami.
- Záhlaví: Volitelné, první řádek může obsahovat názvy sloupců.
-
Použití:
- Import/Export dat: CSV se široce používá pro výměnu tabulkových dat mezi různými aplikacemi, např. Excel, databázové systémy.
- Zpracování: CSV soubory lze snadno zpracovávat pomocí skriptů a programů.
CSV na Webu (CSVW)


-
Co je CSV na Webu?:
- Rozšíření CSV: CSVW je standard W3C, který rozšiřuje možnosti CSV tím, že umožňuje anotaci tabulek pomocí JSON-LD metadat.
- Anotace: Anotace slouží k validaci dat, transformaci do jiných formátů (např. JSON, RDF) a k zajištění konzistence dat.
-
Model anotovaných tabulkových dat:
- Tabulková skupina: Může obsahovat více tabulek.
- Tabulka: Základní jednotka obsahující řádky a sloupce.
- Řádky, Sloupce, Buňky: Každý z těchto prvků může mít různé vlastnosti, např. název, datový typ, schéma.
-
JSON-LD Popisovač (Metadata):
- @context: Obsahuje informace o použitém kontextu, např. základní URL a výchozí jazyk.
- Tabulka: Popisuje jednotlivé tabulky v rámci tabulkové skupiny, např. jejich URL, název, klíčová slova.
- Schéma tabulky: Určuje strukturu dat v tabulce, včetně názvů sloupců, datových typů a klíčů.



-
Transformace do RDF:
- Výchozí konverze: CSVW umožňuje automatickou transformaci CSV do RDF, což je formát vhodný pro výměnu dat na webu.
- Přizpůsobená konverze: Umožňuje specifikaci vlastních pravidel pro konverzi, např. použití URI šablon.
Priklad CSVW to RDF

-
Použití CSV na Webu:
- Validace a anotace: Umožňuje kontrolu správnosti dat a jejich anotaci pro další zpracování.
- Publikace na webu: Zajišťuje, že data jsou vhodná pro publikaci na webu a jsou kompatibilní s RDF.
Nejlepší praktiky pro CSV
-
Datové typy:
- Založené na XML Schema: Např.
xsd:boolean,xsd:integer,xsd:date. - Správné formáty: Důležité je používat správné datové typy, aby byla zajištěna validita a konzistence dat.
- Založené na XML Schema: Např.
-
Záhlaví:
- Doporučeno: Vždy by měl být přítomen první řádek obsahující názvy sloupců.
-
Null hodnoty:
- Vyhněte se řetězcům "null" nebo "NULL": Tyto hodnoty by neměly být použity, protože představují skutečné řetězce, nikoliv absenci hodnoty.
-
Velikosti, množství, ceny:
- Používejte jednotky: Vždy specifikujte jednotky, např.
kg,tne(tun), aby nedocházelo k nedorozuměním.
- Používejte jednotky: Vždy specifikujte jednotky, např.