Čo sú syntetické údaje?

Syntetické údaje rýchleho kurzu

 

 

úvod

Čo sú syntetické údaje?

Odpoveď je pomerne jednoduchá. Zatiaľ čo pri všetkých vašich interakciách so skutočnými osobami (napr. klientmi, pacientmi, zamestnancami atď.) a prostredníctvom všetkých vašich interných procesov sa zbierajú pôvodné dáta, syntetické dáta sú generované počítačovým algoritmom. Tento počítačový algoritmus generuje úplne nové a umelé dátové body.

Vyriešte problémy s ochranou osobných údajov

Synteticky generované údaje sa skladajú z úplne nových a umelých údajových bodov, ktoré nemajú vzťah k pôvodným údajom. Preto žiadny zo syntetických údajových bodov nemožno spätne vysledovať alebo spätne spracovať na pôvodné údaje. Výsledkom je, že syntetické údaje sú vyňaté z nariadení o ochrane osobných údajov, ako je GDPR, a slúžia ako riešenie na riešenie a prekonanie výziev v oblasti ochrany osobných údajov.

Rozšíriť a simulovať

Generatívny aspekt generovania syntetických údajov umožňuje rozširovať a simulovať úplne nové údaje. Funguje to ako riešenie, keď nemáte dostatok údajov (nedostatok údajov), chceli by ste up-sample edge-cases alebo keď ešte nemáte údaje.

Tu sú ťažiskom Syntho štruktúrované údaje (údaje formátované v tabuľkách obsahujúcich riadky a stĺpce, ako vidíte v listoch Excelu), ale koncept syntetických údajov vždy radi ilustrujeme prostredníctvom obrázkov, pretože sú príťažlivejšie.

Typy syntetických údajov

V rámci zastrešenia syntetických údajov existujú tri typy syntetických údajov. Tieto 3 typy syntetických údajov sú: fiktívne údaje, syntetické údaje generované na základe pravidiel a syntetické údaje generované umelou inteligenciou (AI). V krátkosti vysvetlíme, aké sú 3 rôzne typy syntetických údajov.

Falošné údaje / falošné údaje

Falošné údaje sú náhodne generované údaje (napr. falošným generátorom údajov).

V dôsledku toho sa charakteristiky, vzťahy a štatistické vzory, ktoré sú v pôvodných údajoch, nezachovajú, nezachytia a nereprodukujú vo vygenerovaných fiktívnych údajoch. Preto je reprezentatívnosť fiktívnych údajov / falošných údajov v porovnaní s pôvodnými údajmi minimálna.

  • Kedy ho použiť: nahradiť priame identifikátory (PII) alebo keď (zatiaľ) nemáte údaje a nechcete míňať čas a energiu na definovanie pravidiel.

Syntetické údaje generované na základe pravidiel

Syntetické údaje generované na základe pravidiel sú syntetické údaje generované vopred definovaným súborom pravidiel. Príkladom týchto preddefinovaných pravidiel môže byť, že by ste chceli mať syntetické údaje s určitou minimálnou hodnotou, maximálnou hodnotou alebo priemernou hodnotou. Akékoľvek charakteristiky, vzťahy a štatistické vzory, ktoré by ste chceli reprodukovať v syntetických údajoch vygenerovaných na základe pravidiel, musia byť vopred definované.

V dôsledku toho bude kvalita údajov taká dobrá ako vopred definovaný súbor pravidiel. To má za následok problémy, keď je základom vysoká kvalita údajov. Po prvé, je možné definovať iba obmedzený súbor pravidiel, ktoré sa majú zachytiť v syntetických údajoch. Okrem toho nastavenie viacerých pravidiel zvyčajne vedie k prekrývajúcim sa a konfliktným pravidlám. Navyše nikdy nepokryjete všetky príslušné pravidlá. Okrem toho môžu existovať príslušné pravidlá, o ktorých ani neviete. A nakoniec (a aby som nezabudol), toto vám zaberie veľa času a energie, čo vedie k neefektívnemu riešeniu.

  • Kedy to použiť: keď nemáte dáta (zatiaľ)

Syntetické údaje generované umelou inteligenciou (AI)

Ako už z názvu očakávate, syntetické dáta generované umelou inteligenciou (AI) sú syntetické dáta generované algoritmom umelej inteligencie (AI). Model AI je trénovaný na pôvodných údajoch, aby sa naučil všetky charakteristiky, vzťahy a štatistické vzorce. Potom je tento algoritmus AI schopný generovať úplne nové údajové body a modelovať tieto nové údajové body takým spôsobom, že reprodukuje charakteristiky, vzťahy a štatistické vzory z pôvodného súboru údajov. Toto nazývame dvojča syntetických údajov.

Model AI napodobňuje pôvodné údaje na generovanie dvojčiat syntetických údajov, ktoré možno použiť, ako keby išlo o pôvodné údaje. Toto odomkne rôzne prípady použitia, v ktorých možno syntetické údaje vygenerované AI použiť ako alternatívu na použitie pôvodných (citlivých) údajov, ako je použitie syntetických údajov vygenerovaných AI ako testovacích údajov, demo údajov alebo na analýzu.

Vizualizácia, ako sa vytvárajú syntetické dáta

V porovnaní so syntetickými údajmi generovanými na základe pravidiel: namiesto toho, aby ste študovali a definovali príslušné pravidlá, algoritmus AI to robí automaticky za vás. Tu budú zahrnuté nielen charakteristiky, vzťahy a štatistické vzorce, o ktorých ste si vedomí, ale aj charakteristiky, vzťahy a štatistické vzorce, o ktorých si ani neuvedomujete.

  • Kedy to použiť: keď máte (nejaké) údaje ako vstup na napodobňovanie alebo na použitie ako východiskový bod pre funkcie inteligentného generovania a rozširovania údajov

Aký typ syntetických údajov použiť?

V závislosti od vášho prípadu použitia sa odporúča kombinácia fiktívnych údajov / falošných údajov, syntetických údajov generovaných na základe pravidiel alebo syntetických údajov generovaných umelou inteligenciou (AI). Tento prehľad vám poskytuje prvé informácie o tom, aký typ syntetických údajov použiť. Keďže Syntho podporuje všetky z nich, neváhajte kontaktovať našich odborníkov, aby s nami podrobne prediskutovali váš prípad použitia.

Tento graf predstavuje rôzne typy syntetických údajov

kryt sprievodcu syntho

Uložte si svojho sprievodcu syntetickými údajmi teraz!