FAQ

Často kladené otázky o syntetických datech

Srozumitelný! Naštěstí máme odpovědi a jsme tu, abychom vám pomohli. Podívejte se na naše často kladené otázky.

Otevřete prosím níže otázku a klikněte na odkazy pro více informací. Máte složitější otázku, která zde není uvedena? Zeptejte se přímo našich odborníků!

Nejčastěji kladené otázky

Syntetická data se týkají dat, která jsou uměle vytvořena, nikoli shromážděna z reálných zdrojů. Obecně platí, že zatímco původní data jsou shromažďována při všech vašich interakcích s osobami (klienty, pacienty atd.) a prostřednictvím všech vašich interních procesů, syntetická data jsou generována počítačovým algoritmem.

Syntetická data lze také použít k testování a vyhodnocování modelů v kontrolovaném prostředí nebo k ochraně citlivých informací generováním dat, která jsou podobná skutečným datům, ale neobsahují žádné citlivé informace. Syntetická data se často používají jako alternativa pro data citlivá na soukromí a mohla by být použita jako testovací data, pro analýzu nebo pro trénování strojového učení.

Dozvědět se více

Zaručit, že syntetická data budou mít stejnou kvalitu dat jako původní data, může být náročné a často závisí na konkrétním případu použití a metodách použitých k vytvoření syntetických dat. Některé metody pro generování syntetických dat, jako jsou generativní modely, mohou produkovat data, která jsou velmi podobná původním datům. Klíčová otázka: jak to demonstrovat?

Existuje několik způsobů, jak zajistit kvalitu syntetických dat:

  • Metriky kvality dat prostřednictvím naší zprávy o kvalitě dat: Jedním ze způsobů, jak zajistit, že syntetická data budou mít stejnou kvalitu dat jako původní data, je použít metriky kvality dat k porovnání syntetických dat s původními daty. Tyto metriky lze použít k měření věcí, jako je podobnost, přesnost a úplnost dat. Software Syntho obsahoval zprávu o kvalitě dat s různými metrikami kvality dat.
  • Externí hodnocení: Vzhledem k tomu, že kvalita dat syntetických dat ve srovnání s původními daty je klíčová, nedávno jsme provedli hodnocení s datovými experty společnosti SAS (vedoucí společnost na trhu v oblasti analytiky), abychom prokázali datovou kvalitu syntetických dat společnosti Syntho ve srovnání se skutečnými daty. Edwin van Unen, analytik ze SAS, vyhodnotil generované syntetické datové sady ze Syntho prostřednictvím různých analytických (AI) hodnocení a sdílel výsledky. Podívejte se na krátkou rekapitulaci tohoto videa zde.
  • Testování a hodnocení sami: syntetická data lze testovat a vyhodnocovat jejich porovnáním s reálnými daty nebo jejich použitím k trénování modelů strojového učení a porovnáním jejich výkonu s modely trénovanými na reálných datech. Proč neotestovat datovou kvalitu syntetických dat sami? Zeptejte se našich odborníků na možnosti zde

Je důležité si uvědomit, že syntetická data nikdy nemohou zaručit, že budou 100% podobná původním datům, ale mohou být dostatečně blízko, aby byla užitečná pro konkrétní případ použití. Tímto konkrétním případem použití může být dokonce pokročilá analytika nebo trénovací modely strojového učení.

Klasická „anonymizace“ není vždy nejlepším řešením, protože:

  1. Riziko soukromí – vždy budete mít
    riziko soukromí. Uplatnění těchto
    klasické anonymizační techniky
    dělá to jen těžší, ale ne
    nemožné identifikovat jednotlivce.
  2. Ničení dat – čím více vás
    anonymizovat, tím lépe chráníte
    vaše soukromí, ale čím více vy
    zničit vaše data. Tohle není co
    chcete pro analýzu, protože
    zničená data budou mít za následek špatné
    postřehy.
  3. Časově náročné – to je řešení
    to zabere hodně času, protože
    ty techniky fungují jinak
    podle datové sady a podle datového typu.

Syntetická data mají za cíl všechny tyto nedostatky vyřešit. Rozdíl je tak markantní, že jsme o tom natočili video. Podívejte se sem.

Často kladené otázky

Syntetická data

Obecně platí, že většina našich klientů používá syntetická data pro:

  • Testování a vývoj softwaru
  • Syntetická data pro analýzu, vývoj modelů a pokročilé analýzy (AI a ML)
  • Ukázky produktů

Přečtěte si více a prozkoumejte případy použití.

Syntetické datové dvojče je algoritmem vygenerovaná replika reálného datového souboru a/nebo databáze. Pomocí Synthetic Data Twin se Syntho snaží napodobit původní datovou sadu nebo databázi co nejblíže původním datům, aby vytvořila realistickou reprezentaci originálu. Pomocí dvojčete syntetických dat se snažíme o vynikající kvalitu syntetických dat ve srovnání s původními daty. Děláme to pomocí našeho softwaru pro syntetická data, který využívá nejmodernější modely umělé inteligence. Tyto modely umělé inteligence generují zcela nové datové body a modelují je tak, abychom zachovali charakteristiky, vztahy a statistické vzorce původních dat do takové míry, že je můžete použít, jako by se jednalo o původní data.

To lze použít pro různé účely, jako je testování a trénování modelů strojového učení, simulace scénářů pro výzkum a vývoj a vytváření virtuálních prostředí pro školení a vzdělávání. Dvojčata syntetických dat lze použít k vytvoření realistických a reprezentativních dat, která lze použít místo skutečných dat, když nejsou dostupná nebo když by použití reálných dat bylo nepraktické nebo neetické kvůli přísným předpisům o ochraně osobních údajů.

Čtěte více.

Ano, máme. Nabízíme různé funkce pro optimalizaci a rozšiřování syntetických dat s přidanou hodnotou, včetně zesměšňovačů, abychom vaše data posunuli na další úroveň.

Čtěte více.

Falešná data a syntetická data generovaná AI jsou oba typy syntetických dat, ale jsou generovány různými způsoby a slouží k různým účelům.

Mock data jsou typ syntetických dat, která se vytvářejí ručně a často se používají pro účely testování a vývoje. Obvykle se používá k simulaci chování reálných dat v kontrolovaném prostředí a často se používá k testování funkčnosti systému nebo aplikace. Často je jednoduchý, snadno se generuje a nevyžaduje složité modely nebo algoritmy. Často se také odkazují na zesměšňování dat jako „fiktivní data“ nebo „falešná data“.

Syntetická data generovaná umělou inteligencí jsou na druhé straně generována pomocí technik umělé inteligence, jako je strojové učení nebo generativní modely. Používá se k vytváření realistických a reprezentativních dat, která lze použít místo dat z reálného světa, pokud by použití skutečných dat bylo nepraktické nebo neetické kvůli přísným předpisům o ochraně soukromí. Často je složitější a vyžaduje více výpočetních zdrojů než manuální falešná data. Ve výsledku je mnohem realističtější a co nejvěrněji napodobuje původní data.

Stručně řečeno, falešná data se vytvářejí ručně a obvykle se používají pro testování a vývoj, zatímco syntetická data generovaná umělou inteligencí se vytvářejí pomocí technik umělé inteligence a používají se k vytváření reprezentativních a realistických dat.

Více otázek? Zeptejte se našich odborníků

Kvalita dat

Zaručit, že syntetická data budou mít stejnou kvalitu dat jako původní data, může být náročné a často závisí na konkrétním případu použití a metodách použitých k vytvoření syntetických dat. Některé metody pro generování syntetických dat, jako jsou generativní modely, mohou produkovat data, která jsou velmi podobná původním datům. Klíčová otázka: jak to demonstrovat?

Existuje několik způsobů, jak zajistit kvalitu syntetických dat:

  • Metriky kvality dat prostřednictvím naší zprávy o kvalitě dat: Jedním ze způsobů, jak zajistit, že syntetická data budou mít stejnou kvalitu dat jako původní data, je použít metriky kvality dat k porovnání syntetických dat s původními daty. Tyto metriky lze použít k měření věcí, jako je podobnost, přesnost a úplnost dat. Software Syntho obsahoval zprávu o kvalitě dat s různými metrikami kvality dat.
  • Externí hodnocení: Vzhledem k tomu, že kvalita dat syntetických dat ve srovnání s původními daty je klíčová, nedávno jsme provedli hodnocení s datovými experty společnosti SAS (vedoucí společnost na trhu v oblasti analytiky), abychom prokázali datovou kvalitu syntetických dat společnosti Syntho ve srovnání se skutečnými daty. Edwin van Unen, analytik ze SAS, vyhodnotil generované syntetické datové sady ze Syntho prostřednictvím různých analytických (AI) hodnocení a sdílel výsledky. Podívejte se na krátkou rekapitulaci tohoto videa zde.
  • Testování a hodnocení sami: syntetická data lze testovat a vyhodnocovat jejich porovnáním s reálnými daty nebo jejich použitím k trénování modelů strojového učení a porovnáním jejich výkonu s modely trénovanými na reálných datech. Proč neotestovat datovou kvalitu syntetických dat sami? Zeptejte se našich odborníků na možnosti zde

Je důležité si uvědomit, že syntetická data nikdy nemohou zaručit, že budou 100% podobná původním datům, ale mohou být dostatečně blízko, aby byla užitečná pro konkrétní případ použití. Tímto konkrétním případem použití může být dokonce pokročilá analytika nebo trénovací modely strojového učení.

Ano to je. Syntetická data dokonce obsahují vzory, o kterých jste nevěděli, že jsou přítomny v původních datech.

Ale neberte nás jen za slovo. Analytici společnosti SAS (vedoucí na globálním trhu v oblasti analytiky) provedli (AI) posouzení našich syntetických dat a porovnali je s původními daty. Zvědavý? Sledujte celá akce zde nebo se podívejte na krátkou verzi o kvalita dat zde.

Ano, máme. Naše platforma je optimalizována pro databáze a následně pro zachování referenční integrity mezi datovými sadami v databázi.

Chcete se o tom dozvědět více?

Zeptejte se přímo našich odborníků.

Ochrana osobních údajů

Ne, nemáme. Syntho Engine můžeme snadno nasadit on-premise nebo ve vašem privátním cloudu přes docker.

Ne. Optimalizovali jsme naši platformu tak, aby ji bylo možné snadno nasadit v důvěryhodném prostředí zákazníka. To zajišťuje, že data nikdy neopustí důvěryhodné prostředí zákazníka. Možnosti nasazení pro důvěryhodné prostředí zákazníka jsou „on-premise“ a v „cloudovém prostředí zákazníka (privátní cloud)“.

Volitelné: Syntho podporuje verzi, která je hostována v „cloudu Syntho“.

Ne. Syntho Engine je samoobslužná platforma. Výsledkem je, že generování syntetických dat pomocí Syntho Engine je možné způsobem, který v end-to-end Proces, Syntho nikdy nevidí a nikdy nevyžaduje zpracování dat.

Ano, děláme to prostřednictvím naší zprávy QA.

 

Při syntéze datové sady je nezbytné prokázat, že není možné znovu identifikovat jednotlivce. v toto video, Marijn zavádí opatření na ochranu soukromí, která jsou v naší zprávě o kvalitě, aby to demonstrovala.

Zpráva o kontrole kvality společnosti Syntho obsahuje tři průmyslový standard metriky pro vyhodnocování soukromí dat. Myšlenka každé z těchto metrik je následující:

  • Syntetická data (S) musí být „co nejblíže“, ale „ne příliš blízko“ cílovým údajům (T).
  • Náhodně vybraná data výdrže (H) určuje měřítko pro „příliš blízko“.
  • A perfektní řešení generuje nová syntetická data, která se chovají přesně jako původní data, ale dosud nebyla vidět (= H).

Jedním z případů použití, na který konkrétně upozornil nizozemský úřad pro ochranu údajů, je použití syntetických dat jako testovacích dat.

Více najdete v tomto článku.

Syntho Engine

Syntho Engine se dodává v kontejneru Docker a lze jej snadno nasadit a zapojit do vámi zvoleného prostředí.

Mezi možné možnosti nasazení patří:

  • On-premise
  • Jakýkoli (soukromý) cloud
  • Jakékoli jiné prostředí

Dozvědět se více.

Syntho vám umožňuje snadné připojení k vašim databázím, aplikacím, datovým kanálům nebo souborovým systémům. 

Podporujeme různé integrované konektory, takže se můžete spojit se zdrojovým prostředím (kde jsou uložena původní data) a cílovým prostředím (kam chcete zapsat syntetická data) end-to-end integrovaný přístup.

Funkce připojení, které podporujeme:

  • Plug-and-play s Dockerem
  • 20+ databázových konektorů
  • 20+ konektorů souborového systému

Dozvědět se více.

Doba generování samozřejmě závisí na velikosti databáze. V průměru je tabulka s méně než 1 milionem záznamů syntetizována za méně než 5 minut.

Algoritmy strojového učení Syntho mohou lépe zobecnit funkce s více dostupnými záznamy entit, což snižuje riziko ochrany soukromí. Doporučuje se minimální poměr sloupců k řádkům 1:500. Pokud má vaše zdrojová tabulka například 6 sloupců, měla by obsahovat minimálně 3000 řádků.

Vůbec ne. Ačkoli to může vyžadovat určité úsilí, abyste plně porozuměli výhodám, fungování a případům použití syntetických dat, proces syntézy je velmi jednoduchý a zvládne jej každý se základními počítačovými znalostmi. Další informace o procesu syntézy naleznete v části tato stránka or požádat o demo.

Syntho Engine nejlépe funguje na strukturovaných tabulkových datech (cokoli, co obsahuje řádky a sloupce). V rámci těchto struktur podporujeme následující datové typy:

  • Strukturuje data formátovaná v tabulkách (kategoriální, číselné atd.)
  • Přímé identifikátory a PII
  • Velké datové sady a databáze
  • Údaje o zeměpisné poloze (např. GPS)
  • Data časových řad
  • Vícetabulkové databáze (s referenční integritou)
  • Otevřete textová data

 

Komplexní podpora dat
Vedle všech běžných typů tabulkových dat podporuje Syntho Engine komplexní datové typy a složité datové struktury.

  • Časové řady
  • Vícetabulkové databáze
  • Otevřený text

Dozvědět se více.

Ne, optimalizovali jsme naši platformu tak, abychom minimalizovali výpočetní požadavky (např. není potřeba GPU), aniž bychom ohrozili přesnost dat. Kromě toho podporujeme automatické škálování, takže lze syntetizovat obrovské databáze.

Ano. Software Syntho je optimalizován pro databáze obsahující více tabulek.

Pokud jde o toto, Syntho automaticky detekuje datové typy, schémata a formáty, aby maximalizovala přesnost dat. Pro vícetabulkové databáze podporujeme automatické odvození a syntézu vztahů mezi tabulkami, abychom zachovali referenční integritu.

skupina lidí s úsměvem

Data jsou syntetická, ale náš tým je skutečný!

Kontaktujte Syntho a jeden z našich odborníků se s vámi spojí rychlostí světla, aby prozkoumal hodnotu syntetických dat!