FAQ

Často kladené otázky o syntetických údajoch

Pochopiteľné! Našťastie máme odpovede a sme tu, aby sme vám pomohli. Pozrite si naše často kladené otázky.

Otvorte otázku nižšie a kliknutím na odkazy získate ďalšie informácie. Máte zložitejšiu otázku, ktorá tu nie je uvedená? Opýtajte sa priamo našich odborníkov!

Najčastejšie kladené otázky

Syntetické údaje sa týkajú údajov, ktoré sú umelo generované a nie zozbierané z reálnych zdrojov. Vo všeobecnosti, zatiaľ čo pôvodné údaje sa zhromažďujú pri všetkých vašich interakciách s osobami (klientmi, pacientmi atď.) a prostredníctvom všetkých vašich interných procesov, syntetické údaje generuje počítačový algoritmus.

Syntetické údaje možno použiť aj na testovanie a hodnotenie modelov v kontrolovanom prostredí alebo na ochranu citlivých informácií generovaním údajov, ktoré sú podobné údajom z reálneho sveta, ale neobsahujú žiadne citlivé informácie. Syntetické údaje sa často používajú ako alternatíva k údajom citlivým na súkromie a mohli by sa použiť ako testovacie údaje, na analýzu alebo na trénovanie strojového učenia.

Čítaj viac

Zaručiť, že syntetické údaje majú rovnakú kvalitu údajov ako pôvodné údaje, môže byť náročné a často závisí od konkrétneho prípadu použitia a metód použitých na generovanie syntetických údajov. Niektoré metódy na generovanie syntetických údajov, ako sú generatívne modely, môžu produkovať údaje, ktoré sú veľmi podobné pôvodným údajom. Kľúčová otázka: ako to dokázať?

Existuje niekoľko spôsobov, ako zabezpečiť kvalitu syntetických údajov:

  • Metriky kvality údajov prostredníctvom našej správy o kvalite údajov: Jedným zo spôsobov, ako zabezpečiť, aby syntetické údaje mali rovnakú kvalitu údajov ako pôvodné údaje, je použiť metriku kvality údajov na porovnanie syntetických údajov s pôvodnými údajmi. Tieto metriky možno použiť na meranie vecí, ako je podobnosť, presnosť a úplnosť údajov. Softvér Syntho obsahoval správu o kvalite údajov s rôznymi metrikami kvality údajov.
  • Externé hodnotenie: keďže kvalita údajov syntetických údajov v porovnaní s pôvodnými údajmi je kľúčová, nedávno sme vykonali hodnotenie s odborníkmi na údaje spoločnosti SAS (líder na trhu v oblasti analytiky), aby sme preukázali kvalitu údajov syntetických údajov od spoločnosti Syntho v porovnaní so skutočnými údajmi. Edwin van Unen, analytik zo SAS, vyhodnotil generované syntetické dátové súbory zo Syntho prostredníctvom rôznych analytických (AI) hodnotení a zdieľal výsledky. Pozrite si krátku rekapituláciu tohto videa tu.
  • Testovanie a hodnotenie sami: syntetické údaje možno testovať a vyhodnocovať ich porovnaním s údajmi z reálneho sveta alebo ich použitím na trénovanie modelov strojového učenia a porovnaním ich výkonu s modelmi trénovanými na údajoch z reálneho sveta. Prečo si sami neotestovať dátovú kvalitu syntetických dát? Tu sa opýtajte našich odborníkov na možnosti

Je dôležité poznamenať, že syntetické údaje nikdy nemôžu zaručiť, že budú 100% podobné pôvodným údajom, ale môžu byť dostatočne blízke na to, aby boli užitočné pre konkrétny prípad použitia. Tento konkrétny prípad použitia môže byť dokonca pokročilou analytikou alebo modelom tréningového strojového učenia.

Klasická „anonymizácia“ nie je vždy najlepším riešením, pretože:

  1. Riziko súkromia - vždy budete mať
    rizikom pre súkromie. Uplatňovanie týchto
    klasické anonymizačné techniky
    robí to len ťažšie, ale nie
    nemožné identifikovať jednotlivcov.
  2. Ničenie údajov – čím viac vás
    anonymizovať, tým lepšie budete chrániť
    vaše súkromie, ale čím viac vy
    zničiť vaše údaje. Toto nie je čo
    chcete analytiku, pretože
    zničené dáta budú mať za následok zlé
    postrehy.
  3. časovo náročné – je to riešenie
    to zaberie veľa času, pretože
    tieto techniky fungujú inak
    na množinu údajov a na typ údajov.

Syntetické dáta majú za cieľ vyriešiť všetky tieto nedostatky. Rozdiel je taký markantný, že sme o tom natočili video. Sledujte to tu.

často kladené otázky

Syntetické údaje

Vo všeobecnosti väčšina našich klientov používa syntetické údaje na:

  • Testovanie a vývoj softvéru
  • Syntetické údaje pre analýzu, vývoj modelov a pokročilú analýzu (AI a ML)
  • Ukážky výrobkov

Prečítajte si viac a preskúmajte prípady použitia.

Syntetické dátové dvojča je algoritmom vygenerovaná replika reálneho dátového súboru a/alebo databázy. So Syntetickými údajmi Twin sa Syntho snaží napodobniť pôvodný súbor údajov alebo databázu čo najbližšie k pôvodným údajom, aby sa vytvorila realistická reprezentácia originálu. S dvojitým syntetickým údajom sa snažíme dosiahnuť vyššiu kvalitu syntetických údajov v porovnaní s pôvodnými údajmi. Robíme to pomocou nášho softvéru na syntetické údaje, ktorý využíva najmodernejšie modely AI. Tieto modely AI generujú úplne nové dátové body a modelujú ich takým spôsobom, aby sme zachovali charakteristiky, vzťahy a štatistické vzorce pôvodných dát do takej miery, že ich môžete použiť, ako keby išlo o pôvodné dáta.

Dá sa to využiť na rôzne účely, ako je testovanie a trénovanie modelov strojového učenia, simulácia scenárov pre výskum a vývoj a vytváranie virtuálnych prostredí na školenia a vzdelávanie. Dvojčatá syntetických údajov možno použiť na vytvorenie realistických a reprezentatívnych údajov, ktoré možno použiť namiesto údajov z reálneho sveta, keď nie sú k dispozícii, alebo ak by použitie údajov z reálneho sveta bolo nepraktické alebo neetické z dôvodu prísnych predpisov o ochrane osobných údajov.

Prečítajte si viac.

Áno, robíme. Ponúkame rôzne funkcie syntetickej optimalizácie a rozšírenia údajov s pridanou hodnotou, vrátane zosmiešňovačov, aby sme vaše údaje posunuli na vyššiu úroveň.

Prečítajte si viac.

Falošné údaje a syntetické údaje generované AI sú oba typy syntetických údajov, ale generujú sa rôznymi spôsobmi a slúžia na rôzne účely.

Falošné údaje sú typom syntetických údajov, ktoré sa vytvárajú manuálne a často sa používajú na účely testovania a vývoja. Zvyčajne sa používa na simuláciu správania skutočných údajov v kontrolovanom prostredí a často sa používa na testovanie funkčnosti systému alebo aplikácie. Často je jednoduchý, ľahko sa generuje a nevyžaduje zložité modely alebo algoritmy. Jeden odkazovač tiež často používa falošné údaje ako „fiktívne údaje“ alebo „falošné údaje“.

Syntetické dáta generované AI sa na druhej strane generujú pomocou techník umelej inteligencie, ako je strojové učenie alebo generatívne modely. Používa sa na vytváranie realistických a reprezentatívnych údajov, ktoré možno použiť namiesto údajov z reálneho sveta, keď by použitie údajov z reálneho sveta bolo nepraktické alebo neetické z dôvodu prísnych predpisov o ochrane osobných údajov. Často je zložitejšia a vyžaduje viac výpočtových zdrojov ako manuálne falošné údaje. Vďaka tomu je oveľa realistickejší a čo najvernejšie napodobňuje pôvodné údaje.

Stručne povedané, falošné údaje sa vytvárajú manuálne a zvyčajne sa používajú na testovanie a vývoj, zatiaľ čo syntetické údaje generované AI sa vytvárajú pomocou techník umelej inteligencie a používajú sa na vytváranie reprezentatívnych a realistických údajov.

Ďalšie otázky? Opýtajte sa našich odborníkov

Kvalita údajov

Zaručiť, že syntetické údaje majú rovnakú kvalitu údajov ako pôvodné údaje, môže byť náročné a často závisí od konkrétneho prípadu použitia a metód použitých na generovanie syntetických údajov. Niektoré metódy na generovanie syntetických údajov, ako sú generatívne modely, môžu produkovať údaje, ktoré sú veľmi podobné pôvodným údajom. Kľúčová otázka: ako to dokázať?

Existuje niekoľko spôsobov, ako zabezpečiť kvalitu syntetických údajov:

  • Metriky kvality údajov prostredníctvom našej správy o kvalite údajov: Jedným zo spôsobov, ako zabezpečiť, aby syntetické údaje mali rovnakú kvalitu údajov ako pôvodné údaje, je použiť metriku kvality údajov na porovnanie syntetických údajov s pôvodnými údajmi. Tieto metriky možno použiť na meranie vecí, ako je podobnosť, presnosť a úplnosť údajov. Softvér Syntho obsahoval správu o kvalite údajov s rôznymi metrikami kvality údajov.
  • Externé hodnotenie: keďže kvalita údajov syntetických údajov v porovnaní s pôvodnými údajmi je kľúčová, nedávno sme vykonali hodnotenie s odborníkmi na údaje spoločnosti SAS (líder na trhu v oblasti analytiky), aby sme preukázali kvalitu údajov syntetických údajov od spoločnosti Syntho v porovnaní so skutočnými údajmi. Edwin van Unen, analytik zo SAS, vyhodnotil generované syntetické dátové súbory zo Syntho prostredníctvom rôznych analytických (AI) hodnotení a zdieľal výsledky. Pozrite si krátku rekapituláciu tohto videa tu.
  • Testovanie a hodnotenie sami: syntetické údaje možno testovať a vyhodnocovať ich porovnaním s údajmi z reálneho sveta alebo ich použitím na trénovanie modelov strojového učenia a porovnaním ich výkonu s modelmi trénovanými na údajoch z reálneho sveta. Prečo si sami neotestovať dátovú kvalitu syntetických dát? Tu sa opýtajte našich odborníkov na možnosti

Je dôležité poznamenať, že syntetické údaje nikdy nemôžu zaručiť, že budú 100% podobné pôvodným údajom, ale môžu byť dostatočne blízke na to, aby boli užitočné pre konkrétny prípad použitia. Tento konkrétny prípad použitia môže byť dokonca pokročilou analytikou alebo modelom tréningového strojového učenia.

Áno, je. Syntetické údaje dokonca obsahujú vzory, o ktorých ste nevedeli, že sú prítomné v pôvodných údajoch.

Ale neberte nás len za slovo. Analytici spoločnosti SAS (globálny líder v oblasti analytiky) vykonali (AI) posúdenie našich syntetických údajov a porovnali ich s pôvodnými údajmi. Ste zvedavý? Sledujte celá akcia tu alebo si pozrite krátku verziu o kvalita údajov tu.

Áno, robíme. Naša platforma je optimalizovaná pre databázy a následne pre zachovanie referenčnej integrity medzi súbormi údajov v databáze.

Chcete sa o tom dozvedieť viac?

Opýtajte sa priamo našich odborníkov.

súkromia

Nie, nemáme. Syntho Engine môžeme jednoducho nasadiť on-premise alebo vo vašom súkromnom cloude cez docker.

Nie. Našu platformu sme optimalizovali tak, aby sa dala jednoducho nasadiť v dôveryhodnom prostredí zákazníka. To zaisťuje, že dáta nikdy neopustia dôveryhodné prostredie zákazníka. Možnosti nasadenia pre dôveryhodné prostredie zákazníka sú „on-premise“ a v „cloudovom prostredí zákazníka (súkromný cloud)“.

Voliteľné: Syntho podporuje verziu, ktorá je hosťovaná v „cloude Syntho“.

Nie. Syntho Engine je samoobslužná platforma. Výsledkom je, že generovanie syntetických údajov pomocou Syntho Engine je možné spôsobom, ktorý v end-to-end Proces, Syntho nikdy nevidí a nikdy sa od neho nevyžaduje spracovanie údajov.

Áno, robíme to prostredníctvom našej správy o kontrole kvality.

 

Pri syntéze súboru údajov je nevyhnutné preukázať, že nie je možné opätovne identifikovať jednotlivcov. In toto video, Marijn zavádza opatrenia na ochranu osobných údajov, ktoré sú v našej správe o kvalite, aby to demonštrovali.

Správa o kontrole kvality spoločnosti Syntho obsahuje tri priemyselný štandard metriky na vyhodnotenie súkromia údajov. Myšlienka každej z týchto metrík je nasledovná:

  • Syntetické údaje (S) musia byť „čo najbližšie“, ale „nie príliš blízko“ k cieľovým údajom (T).
  • Náhodne vybrané údaje o výdrži (H) určuje referenčnú hodnotu pre „príliš blízko“.
  • A perfektné riešenie generuje nové syntetické údaje, ktoré sa správajú presne ako pôvodné údaje, ale predtým neboli viditeľné (= H).

Jedným z prípadov použitia, ktorý holandský úrad na ochranu údajov osobitne zdôrazňuje, je použitie syntetických údajov ako testovacích údajov.

Viac nájdete v tomto článku.

Syntho Engine

Syntho Engine sa dodáva v kontajneri Docker a možno ho jednoducho nasadiť a zapojiť do prostredia podľa vášho výberu.

Možné možnosti nasadenia zahŕňajú:

  • On-premise
  • Akýkoľvek (súkromný) cloud
  • Akékoľvek iné prostredie

Čítaj viac.

Syntho vám umožňuje jednoducho sa pripojiť k vašim databázam, aplikáciám, dátovým kanálom alebo súborovým systémom. 

Podporujeme rôzne integrované konektory, takže sa môžete spojiť so zdrojovým prostredím (kde sú uložené pôvodné údaje) a cieľovým prostredím (do ktorého chcete zapisovať syntetické údaje). end-to-end integrovaný prístup.

Funkcie pripojenia, ktoré podporujeme:

  • Plug-and-play s Dockerom
  • 20+ databázových konektorov
  • 20+ konektorov súborového systému

Čítaj viac.

Prirodzene, čas generovania závisí od veľkosti databázy. V priemere je tabuľka s menej ako 1 miliónom záznamov syntetizovaná za menej ako 5 minút.

Algoritmy strojového učenia Syntho môžu lepšie zovšeobecniť funkcie s väčším počtom záznamov entít, čo znižuje riziko ochrany osobných údajov. Odporúča sa minimálny pomer stĺpcov k riadkom 1:500. Napríklad, ak má vaša zdrojová tabuľka 6 stĺpcov, mala by obsahovať minimálne 3000 XNUMX riadkov.

Vôbec nie. Hoci úplné pochopenie výhod, fungovania a prípadov použitia syntetických údajov môže vyžadovať určité úsilie, proces syntézy je veľmi jednoduchý a zvládne ho každý so základnými počítačovými znalosťami. Ďalšie informácie o procese syntézy nájdete v časti túto stránku or požiadať o demo.

Syntho Engine najlepšie funguje na štruktúrovaných tabuľkových údajoch (všetko, čo obsahuje riadky a stĺpce). V rámci týchto štruktúr podporujeme nasledujúce typy údajov:

  • Štruktúruje údaje formátované v tabuľkách (kategoriálne, číselné atď.)
  • Priame identifikátory a PII
  • Veľké súbory údajov a databázy
  • Údaje o geografickej polohe (napríklad GPS)
  • Údaje časových radov
  • Viactabuľkové databázy (s referenčnou integritou)
  • Otvoriť textové údaje

 

Komplexná podpora údajov
Okrem všetkých bežných typov tabuľkových údajov podporuje Syntho Engine komplexné dátové typy a zložité dátové štruktúry.

  • Časové rady
  • Viactabuľkové databázy
  • Otvorený text

Čítaj viac.

Nie, optimalizovali sme našu platformu, aby sme minimalizovali výpočtové požiadavky (napr. nie je potrebný GPU), bez kompromisov v oblasti presnosti údajov. Okrem toho podporujeme automatické škálovanie, takže je možné syntetizovať obrovské databázy.

Áno. Softvér Syntho je optimalizovaný pre databázy obsahujúce viacero tabuliek.

V tomto prípade Syntho automaticky zisťuje typy údajov, schémy a formáty, aby maximalizovala presnosť údajov. Pre viactabuľkovú databázu podporujeme automatické odvodzovanie a syntézu vzťahov medzi tabuľkami, aby sa zachovala referenčná integrita.

skupina ľudí s úsmevom

Dáta sú syntetické, ale náš tím je skutočný!

Kontaktujte Syntho a jeden z našich odborníkov sa s vami spojí rýchlosťou svetla, aby preskúmal hodnotu syntetických údajov!