Co jsou syntetická data?
Odpověď je poměrně jednoduchá. Zatímco originální data se shromažďují při všech vašich interakcích se skutečnými osobami (např. klienty, pacienty, zaměstnanci atd.) a prostřednictvím všech vašich interních procesů, syntetická data jsou generována počítačovým algoritmem. Tento počítačový algoritmus generuje zcela nové a umělé datové body.
Vyřešte problémy s ochranou osobních údajů
Synteticky generovaná data se skládají ze zcela nových a umělých datových bodů bez vzájemných vztahů s původními daty. Žádný ze syntetických datových bodů tedy nelze zpětně vysledovat nebo zpětně upravit na původní data. V důsledku toho jsou syntetická data vyňata z nařízení o ochraně osobních údajů, jako je GDPR, a slouží jako řešení k řešení a překonání problémů s ochranou osobních údajů.
Rozšířit a simulovat
Generativní aspekt generování syntetických dat umožňuje rozšířit a simulovat zcela nová data. Toto funguje jako řešení, když nemáte dostatek dat (nedostatek dat), chcete up-sample edge-cases nebo když ještě nemáte data.
Zde jsou těžištěm Syntho strukturovaná data (data formátovaná v tabulkách obsahujících řádky a sloupce, jak vidíte v listech Excelu), ale vždy rádi ilustrujeme koncept syntetických dat pomocí obrázků, protože jsou atraktivnější.
V rámci deštníku syntetických dat existují tři typy syntetických dat. Tyto 3 typy syntetických dat jsou: fiktivní data, syntetická data generovaná na základě pravidel a syntetická data generovaná umělou inteligencí (AI). Krátce vysvětlíme, jaké jsou 3 různé typy syntetických dat.
Dummy data jsou náhodně generovaná data (např. simulovaným generátorem dat).
V důsledku toho nejsou charakteristiky, vztahy a statistické vzory, které jsou v původních datech, zachovány, zachyceny a reprodukovány ve vygenerovaných fiktivních datech. Proto je reprezentativnost fiktivních dat / falešných dat ve srovnání s původními daty minimální.
Syntetická data generovaná na základě pravidel jsou syntetická data generovaná předem definovanou sadou pravidel. Příkladem těchto předdefinovaných pravidel může být, že byste chtěli mít syntetická data s určitou minimální hodnotou, maximální hodnotou nebo průměrnou hodnotou. Jakákoli z charakteristik, vztahů a statistických vzorců, které byste chtěli reprodukovat v syntetických datech generovaných na základě pravidel, je třeba předem definovat.
V důsledku toho bude kvalita dat stejně dobrá jako předem definovaný soubor pravidel. To má za následek problémy, když je vysoká kvalita dat zásadní. Za prvé, lze definovat pouze omezenou sadu pravidel, která mají být zachycena v syntetických datech. Nastavení více pravidel navíc obvykle povede k překrývajícím se a konfliktním pravidlům. Navíc nikdy plně nepokryjete všechna relevantní pravidla. Kromě toho mohou existovat příslušná pravidla, o kterých ani nevíte. A konečně (a abych nezapomněl), to vám zabere spoustu času a energie, což vede k neefektivnímu řešení.
Jak již z názvu očekáváte, syntetická data generovaná umělou inteligencí (AI) jsou syntetická data generovaná algoritmem umělé inteligence (AI). Model AI je trénován na původních datech, aby se naučil všechny charakteristiky, vztahy a statistické vzorce. Poté je tento algoritmus AI schopen generovat zcela nové datové body a modelovat tyto nové datové body takovým způsobem, že reprodukuje charakteristiky, vztahy a statistické vzory z původní datové sady. Tomu říkáme dvojče syntetických dat.
Model umělé inteligence napodobuje původní data a vytváří dvojčata syntetických dat, která lze použít, jako by se jednalo o původní data. Tím se odemknou různé případy použití, kdy lze syntetická data vygenerovaná AI použít jako alternativu k použití původních (citlivých) dat, jako je použití syntetických dat vygenerovaných AI jako testovací data, demo data nebo pro analýzu.
Ve srovnání se syntetickými daty generovanými na základě pravidel: namísto toho, abyste studovali a definovali příslušná pravidla, algoritmus AI to dělá automaticky za vás. Zde budou pokryty nejen charakteristiky, vztahy a statistické vzorce, které si uvědomujete, ale také charakteristiky, vztahy a statistické vzorce, o kterých ani nevíte.
V závislosti na vašem případu použití se doporučuje kombinace fiktivních dat / falešných dat, syntetických dat generovaných na základě pravidel nebo syntetických dat generovaných umělou inteligencí (AI). Tento přehled vám poskytuje první informace o tom, jaký typ syntetických dat použít. Protože Syntho podporuje všechny z nich, neváhejte kontaktovat naše odborníky, aby s námi váš případ použití podrobně probrali.