Co jsou syntetická data?

Syntetická data rychlého kurzu

 

 

Úvod

Co jsou syntetická data?

Odpověď je poměrně jednoduchá. Zatímco originální data se shromažďují při všech vašich interakcích se skutečnými osobami (např. klienty, pacienty, zaměstnanci atd.) a prostřednictvím všech vašich interních procesů, syntetická data jsou generována počítačovým algoritmem. Tento počítačový algoritmus generuje zcela nové a umělé datové body.

Vyřešte problémy s ochranou osobních údajů

Synteticky generovaná data se skládají ze zcela nových a umělých datových bodů bez vzájemných vztahů s původními daty. Žádný ze syntetických datových bodů tedy nelze zpětně vysledovat nebo zpětně upravit na původní data. V důsledku toho jsou syntetická data vyňata z nařízení o ochraně osobních údajů, jako je GDPR, a slouží jako řešení k řešení a překonání problémů s ochranou osobních údajů.

Rozšířit a simulovat

Generativní aspekt generování syntetických dat umožňuje rozšířit a simulovat zcela nová data. Toto funguje jako řešení, když nemáte dostatek dat (nedostatek dat), chcete up-sample edge-cases nebo když ještě nemáte data.

Zde jsou těžištěm Syntho strukturovaná data (data formátovaná v tabulkách obsahujících řádky a sloupce, jak vidíte v listech Excelu), ale vždy rádi ilustrujeme koncept syntetických dat pomocí obrázků, protože jsou atraktivnější.

Typy syntetických dat

V rámci deštníku syntetických dat existují tři typy syntetických dat. Tyto 3 typy syntetických dat jsou: fiktivní data, syntetická data generovaná na základě pravidel a syntetická data generovaná umělou inteligencí (AI). Krátce vysvětlíme, jaké jsou 3 různé typy syntetických dat.

Falešná data / falešná data

Dummy data jsou náhodně generovaná data (např. simulovaným generátorem dat).

V důsledku toho nejsou charakteristiky, vztahy a statistické vzory, které jsou v původních datech, zachovány, zachyceny a reprodukovány ve vygenerovaných fiktivních datech. Proto je reprezentativnost fiktivních dat / falešných dat ve srovnání s původními daty minimální.

  • Kdy jej použít: nahradit přímé identifikátory (PII) nebo když (zatím) nemáte data a nechcete trávit čas a energii definováním pravidel.

Syntetická data generovaná na základě pravidel

Syntetická data generovaná na základě pravidel jsou syntetická data generovaná předem definovanou sadou pravidel. Příkladem těchto předdefinovaných pravidel může být, že byste chtěli mít syntetická data s určitou minimální hodnotou, maximální hodnotou nebo průměrnou hodnotou. Jakákoli z charakteristik, vztahů a statistických vzorců, které byste chtěli reprodukovat v syntetických datech generovaných na základě pravidel, je třeba předem definovat.

V důsledku toho bude kvalita dat stejně dobrá jako předem definovaný soubor pravidel. To má za následek problémy, když je vysoká kvalita dat zásadní. Za prvé, lze definovat pouze omezenou sadu pravidel, která mají být zachycena v syntetických datech. Nastavení více pravidel navíc obvykle povede k překrývajícím se a konfliktním pravidlům. Navíc nikdy plně nepokryjete všechna relevantní pravidla. Kromě toho mohou existovat příslušná pravidla, o kterých ani nevíte. A konečně (a abych nezapomněl), to vám zabere spoustu času a energie, což vede k neefektivnímu řešení.

  • Kdy jej použít: když nemáte data (zatím)

Syntetická data generovaná umělou inteligencí (AI)

Jak již z názvu očekáváte, syntetická data generovaná umělou inteligencí (AI) jsou syntetická data generovaná algoritmem umělé inteligence (AI). Model AI je trénován na původních datech, aby se naučil všechny charakteristiky, vztahy a statistické vzorce. Poté je tento algoritmus AI schopen generovat zcela nové datové body a modelovat tyto nové datové body takovým způsobem, že reprodukuje charakteristiky, vztahy a statistické vzory z původní datové sady. Tomu říkáme dvojče syntetických dat.

Model umělé inteligence napodobuje původní data a vytváří dvojčata syntetických dat, která lze použít, jako by se jednalo o původní data. Tím se odemknou různé případy použití, kdy lze syntetická data vygenerovaná AI použít jako alternativu k použití původních (citlivých) dat, jako je použití syntetických dat vygenerovaných AI jako testovací data, demo data nebo pro analýzu.

Vizualizace, jak vznikají syntetická data

Ve srovnání se syntetickými daty generovanými na základě pravidel: namísto toho, abyste studovali a definovali příslušná pravidla, algoritmus AI to dělá automaticky za vás. Zde budou pokryty nejen charakteristiky, vztahy a statistické vzorce, které si uvědomujete, ale také charakteristiky, vztahy a statistické vzorce, o kterých ani nevíte.

  • Kdy jej použít: když máte (některá) data jako vstup k napodobování nebo k použití jako výchozí bod pro inteligentní generování dat a funkce rozšiřování

Jaký typ syntetických dat použít?

V závislosti na vašem případu použití se doporučuje kombinace fiktivních dat / falešných dat, syntetických dat generovaných na základě pravidel nebo syntetických dat generovaných umělou inteligencí (AI). Tento přehled vám poskytuje první informace o tom, jaký typ syntetických dat použít. Protože Syntho podporuje všechny z nich, neváhejte kontaktovat naše odborníky, aby s námi váš případ použití podrobně probrali.

Tento graf představuje různé typy syntetických dat

kryt průvodce syntho

Uložte si průvodce syntetickými daty hned teď!