FAQ

Faak stelde fragen oer syntetyske gegevens

Begryplik! Gelokkich hawwe wy de antwurden en binne wy ​​hjir om te helpen. Kontrolearje ús faak stelde fragen.

Iepenje asjebleaft in fraach hjirûnder en klikje op de keppelings om mear ynformaasje te finen. Hawwe jo in mear komplisearre fraach dy't hjir net stiet? Freegje ús saakkundigen direkt!

De meast stelde fragen

Syntetyske gegevens ferwize nei gegevens dy't keunstmjittich generearre wurde ynstee fan sammele út echte boarnen. Yn 't algemien, wylst orizjinele gegevens wurde sammele yn al jo ynteraksjes mei persoanen (kliïnten, pasjinten, ensfh.) En fia al jo ynterne prosessen, wurde syntetyske gegevens generearre troch in kompjûteralgoritme.

Syntetyske gegevens kinne ek brûkt wurde om modellen te testen en te evaluearjen yn in kontroleare omjouwing, of om gefoelige ynformaasje te beskermjen troch gegevens te generearjen dy't gelyk binne oan gegevens yn 'e echte wrâld, mar gjin gefoelige ynformaasje befetsje. Syntetyske gegevens wurde faak brûkt as alternatyf foar privacygefoelige gegevens en kinne brûkt wurde as testgegevens, foar analytiken of om masinelearen te trainen.

Lês mear

Garandearje dat syntetyske gegevens deselde gegevenskwaliteit hâlde as de orizjinele gegevens kin útdaagjend wêze, en hinget faaks ôf fan 'e spesifike gebrûksgefal en de metoaden dy't brûkt wurde om de syntetyske gegevens te generearjen. Guon metoaden foar it generearjen fan syntetyske gegevens, lykas generative modellen, kinne gegevens produsearje dy't tige ferlykber binne mei de orizjinele gegevens. Wichtige fraach: hoe kinne jo dit demonstrearje?

D'r binne guon manieren om de kwaliteit fan syntetyske gegevens te garandearjen:

  • Metriken foar gegevenskwaliteit fia ús gegevenskwaliteitsrapport: Ien manier om te soargjen dat syntetyske gegevens deselde gegevenskwaliteit hâlde as de orizjinele gegevens is it brûken fan gegevenskwaliteitsmetriken om de syntetyske gegevens te fergelykjen mei de orizjinele gegevens. Dizze metriken kinne brûkt wurde om dingen te mjitten lykas oerienkomst, krektens en folsleinens fan 'e gegevens. Syntho-software omfette in gegevenskwaliteitsrapport mei ferskate gegevenskwaliteitsmetrizen.
  • Eksterne evaluaasje: om't de gegevenskwaliteit fan syntetyske gegevens yn ferliking mei orizjinele gegevens kaai is, hawwe wy koartlyn in beoardieling dien mei de gegevenseksperts fan SAS (merklieder yn analytyk) om de gegevenskwaliteit fan syntetyske gegevens troch Syntho te demonstrearjen yn ferliking mei de echte gegevens. Edwin van Unen, analytysk ekspert fan SAS, evaluearre generearre syntetyske datasets fan Syntho fia ferskate analytyske (AI) beoardielingen en dielde de útkomsten. Besjoch hjir in koarte gearfetting fan dat fideo.
  • Testen en evaluearje troch josels: syntetyske gegevens kinne wurde hifke en evaluearre troch it te fergelykjen mei gegevens yn 'e echte wrâld of troch it te brûken om masine-learmodellen te trenen en har prestaasjes te fergelykjen mei modellen dy't oplaat binne op gegevens yn 'e echte wrâld. Wêrom net testje de gegevenskwaliteit fan syntetyske gegevens troch josels? Freegje hjir ús saakkundigen nei de mooglikheden dêrfoar

It is wichtich om te notearjen dat syntetyske gegevens noait garandearje kinne 100% fergelykber te wêzen mei de orizjinele gegevens, mar it kin tichtby genôch wêze om nuttich te wêzen foar in spesifyk gebrûk. Dit spesifike gebrûksgefal kin sels avansearre analytiken wêze as modellen foar training fan masine-learen.

Klassike 'anonymisaasje' is net altyd de bêste oplossing, om't:

  1. Privacyrisiko - do silst altyd hawwe
    in privacy risiko. It tapassen fan dy
    klassike anonymisaasjetechniken
    makket it allinnich dreger, mar net
    ûnmooglik om persoanen te identifisearjen.
  2. Data ferneatigje - hoe mear jo
    anonymize, hoe better jo beskermje
    dyn privacy, mar hoe mear do
    ferneatigje jo gegevens. Dit is net wat
    jo wolle foar analytics, omdat
    ferneatige gegevens sil resultearje yn min
    ynsjoch.
  3. Tiidslinend - it is in oplossing
    dat kostet in protte tiid, want
    dy techniken wurkje oars
    per dataset en per datatype.

Syntetyske gegevens hawwe as doel om al dizze tekoarten op te lossen. It ferskil is sa opfallend dat wy der in fideo oer makken. Besjoch it hjir.

Faak Stelde Fragen

Syntetyske gegevens

Yn 't algemien brûke de measte fan ús kliïnten syntetyske gegevens foar:

  • Software testen en ûntwikkeling
  • Syntetyske gegevens foar analytyk, modelûntwikkeling en avansearre analytyk (AI & ML)
  • Produktdemo's

Lês mear en ferkenne gebrûk gefallen.

In syntetyske gegevens twilling is in algoritme-generearre replika fan in echte dataset en/of databank. Mei in Synthetic Data Twin is Syntho fan doel in orizjinele dataset of databank sa ticht mooglik by de orizjinele gegevens te mimikjen om in realistyske foarstelling fan it orizjineel te meitsjen. Mei in syntetyske gegevens twilling, wy stribje nei superieure syntetyske gegevens kwaliteit yn ferliking mei de orizjinele gegevens. Wy dogge dit mei ús software foar syntetyske gegevens dy't state-of-the-art AI-modellen brûkt. Dy AI-modellen generearje folslein nije datapunten en modellearje se op sa'n manier dat wy de skaaimerken, relaasjes en statistyske patroanen fan 'e orizjinele gegevens behâlde yn sa'n mjitte dat jo it brûke kinne as-as it orizjinele gegevens binne.

Dit kin brûkt wurde foar in ferskaat oan doelen, lykas testen en oplieden fan masine-learmodellen, simulearjen fan senario's foar ûndersyk en ûntwikkeling, en it meitsjen fan firtuele omjouwings foar training en ûnderwiis. Syntetyske gegevens twillingen kinne brûkt wurde om realistyske en represintative gegevens te meitsjen dy't kinne wurde brûkt yn plak fan echte gegevens as se net beskikber binne of as it brûken fan 'e echte wrâldgegevens ûnpraktysk of unethysk wêze soe fanwegen strikte regeljouwing foar gegevensprivacy.

Lês mear.

Ja dat dogge wy. Wy biede ferskate wearde-tafoegende syntetyske gegevensoptimalisaasje- en fergruttingsfunksjes, ynklusyf spotters, om jo gegevens nei it folgjende nivo te nimmen.

Lês mear.

Mock-gegevens en AI-generearre syntetyske gegevens binne beide soarten syntetyske gegevens, mar se wurde op ferskate manieren generearre en tsjinje ferskate doelen.

Mock data is in soarte fan syntetyske gegevens dy't mei de hân makke wurde en wurdt faak brûkt foar test- en ûntwikkelingsdoelen. It wurdt typysk brûkt om it gedrach fan gegevens yn 'e echte wrâld te simulearjen yn in kontroleare omjouwing en wurdt faak brûkt om de funksjonaliteit fan in systeem of applikaasje te testen. It is faak ienfâldich, maklik te generearjen, en fereasket gjin komplekse modellen of algoritmen. Faak ferwiist men ek nei spotgegevens as "dummygegevens" of "falske gegevens".

AI-generearre syntetyske gegevens, oan 'e oare kant, wurde generearre mei keunstmjittige yntelliginsjetechniken, lykas masine learen of generative modellen. It wurdt brûkt om realistyske en represintative gegevens te meitsjen dy't kinne wurde brûkt yn plak fan echte gegevens by it brûken fan 'e echte wrâldgegevens soe ûnpraktysk of unethysk wêze fanwege strikte privacyregels. It is faak komplekser en fereasket mear berekkeningsboarnen dan hânmjittich mock-gegevens. As resultaat is it folle realistysker en mimiket de orizjinele gegevens sa ticht mooglik.

Gearfetsjend wurde mock-gegevens mei de hân oanmakke en wurde typysk brûkt foar testen en ûntwikkeling, wylst AI-generearre syntetyske gegevens wurde makke mei keunstmjittige yntelliginsjetechniken en wurde brûkt om represintative en realistyske gegevens te meitsjen.

Mear fragen? Freegje ús saakkundigen

Data kwaliteit

Garandearje dat syntetyske gegevens deselde gegevenskwaliteit hâlde as de orizjinele gegevens kin útdaagjend wêze, en hinget faaks ôf fan 'e spesifike gebrûksgefal en de metoaden dy't brûkt wurde om de syntetyske gegevens te generearjen. Guon metoaden foar it generearjen fan syntetyske gegevens, lykas generative modellen, kinne gegevens produsearje dy't tige ferlykber binne mei de orizjinele gegevens. Wichtige fraach: hoe kinne jo dit demonstrearje?

D'r binne guon manieren om de kwaliteit fan syntetyske gegevens te garandearjen:

  • Metriken foar gegevenskwaliteit fia ús gegevenskwaliteitsrapport: Ien manier om te soargjen dat syntetyske gegevens deselde gegevenskwaliteit hâlde as de orizjinele gegevens is it brûken fan gegevenskwaliteitsmetriken om de syntetyske gegevens te fergelykjen mei de orizjinele gegevens. Dizze metriken kinne brûkt wurde om dingen te mjitten lykas oerienkomst, krektens en folsleinens fan 'e gegevens. Syntho-software omfette in gegevenskwaliteitsrapport mei ferskate gegevenskwaliteitsmetrizen.
  • Eksterne evaluaasje: om't de gegevenskwaliteit fan syntetyske gegevens yn ferliking mei orizjinele gegevens kaai is, hawwe wy koartlyn in beoardieling dien mei de gegevenseksperts fan SAS (merklieder yn analytyk) om de gegevenskwaliteit fan syntetyske gegevens troch Syntho te demonstrearjen yn ferliking mei de echte gegevens. Edwin van Unen, analytysk ekspert fan SAS, evaluearre generearre syntetyske datasets fan Syntho fia ferskate analytyske (AI) beoardielingen en dielde de útkomsten. Besjoch hjir in koarte gearfetting fan dat fideo.
  • Testen en evaluearje troch josels: syntetyske gegevens kinne wurde hifke en evaluearre troch it te fergelykjen mei gegevens yn 'e echte wrâld of troch it te brûken om masine-learmodellen te trenen en har prestaasjes te fergelykjen mei modellen dy't oplaat binne op gegevens yn 'e echte wrâld. Wêrom net testje de gegevenskwaliteit fan syntetyske gegevens troch josels? Freegje hjir ús saakkundigen nei de mooglikheden dêrfoar

It is wichtich om te notearjen dat syntetyske gegevens noait garandearje kinne 100% fergelykber te wêzen mei de orizjinele gegevens, mar it kin tichtby genôch wêze om nuttich te wêzen foar in spesifyk gebrûk. Dit spesifike gebrûksgefal kin sels avansearre analytiken wêze as modellen foar training fan masine-learen.

Ja dat is it. De syntetyske gegevens befetsje sels patroanen wêrfan jo net wisten dat se oanwêzich wiene yn 'e orizjinele gegevens.

Mar nim net allinne ús wurd foar it. De analytyske saakkundigen fan SAS (globale merklieder yn analytyk) diene in (AI) beoardieling fan ús syntetyske gegevens en fergelike it mei de orizjinele gegevens. Nijsgjirrich? Sjoch de hiele evenemint hjir of sjoch de koarte ferzje oer gegevens kwaliteit hjir.

Ja dat dogge wy. Us platfoarm is optimalisearre foar databases en dêrtroch it behâld fan referinsjele yntegriteit tusken datasets yn 'e databank.

Nijsgjirrich om hjir mear oer te witten?

Freegje ús saakkundigen direkt.

privacy

Nee wy net. Wy kinne de Syntho Engine maklik ynsette as yn jo privee wolk fia docker.

Nee, wy hawwe ús platfoarm op sa'n manier optimalisearre dat it maklik ynset wurde kin yn 'e fertroude omjouwing fan 'e klant. Dit soarget derfoar dat gegevens de fertroude omjouwing fan 'e klant noait sille ferlitte. Ynsetopsjes foar de fertroude omjouwing fan 'e klant binne "on-premise" en yn 'e "wolkomjouwing fan 'e klant (privee wolk)".

Opsjoneel: Syntho stipet in ferzje dy't wurdt host yn 'e "Syntho-wolk".

Nee. De Syntho Engine is in selsbetsjinningsplatfoarm. As resultaat is it generearjen fan syntetyske gegevens mei de Syntho Engine mooglik op in manier dy't yn 'e end-to-end proses, Syntho is nea by steat om te sjen en nea nedich om te ferwurkjen gegevens.

Ja, wy dogge dit fia ús QA-rapport.

 

By it synthesisearjen fan in dataset is it essensjeel om te demonstrearjen dat men net by steat is om yndividuen opnij te identifisearjen. Yn dit fideo, fiert Marijn privacymaatregels yn dy't yn ús kwaliteitsrapport steane om dit oan te toanen.

Syntho's QA-rapport befettet trije yndustry-standert metriken foar it evaluearjen fan privacy fan gegevens. It idee efter elk fan dizze metriken is as folget:

  • Syntetyske gegevens (S) sil "sa ticht mooglik" wêze, mar "net te ticht" by de doelgegevens (T).
  • Willekeurich selektearre holdout-gegevens (H) bepaalt de benchmark foar "te tichtby".
  • A perfekte oplossing genereart nije syntetyske gegevens dy't har krekt lykas de orizjinele gegevens gedrage, mar noch net earder sjoen binne (= H).

Ien fan de gebrûksgefallen dy't spesifyk beljochte wurdt troch de Nederlandse Autoriteit Persoonsgegevens is it brûken fan syntetyske gegevens as testgegevens.

Mear kin fûn wurde yn dit artikel.

Syntho Engine

De Syntho Engine wurdt ferstjoerd yn in Docker-kontener en kin maklik ynset wurde en yn jo omjouwing fan kar wurde ynstutsen.

Mooglike ynsetopsjes omfetsje:

  • Op lokaasje
  • Elke (privee) wolk
  • Elke oare omjouwing

Lês mear.

Syntho lit jo maklik ferbine mei jo databases, applikaasjes, gegevenspipelines of bestânsystemen. 

Wy stypje ferskate yntegreare ferbiningen sadat jo ferbine kinne mei de boarne-omjouwing (dêr't de orizjinele gegevens wurde opslein) en de bestimmingsomjouwing (wêr't jo jo syntetyske gegevens nei wolle skriuwe) foar in end-to-end yntegrearre oanpak.

Ferbiningsfunksjes dy't wy stypje:

  • Plug-and-play mei Docker
  • 20+ database-ferbiningen
  • 20+ triemsysteemferbiningen

Lês mear.

Natuerlik hinget de generaasjetiid ôf fan 'e grutte fan' e databank. Gemiddeld wurdt in tabel mei minder dan 1 miljoen records yn minder dan 5 minuten syntetisearre.

Syntho's masine-learalgoritmen kinne de funksjes better generalisearje mei mear entiteitsrecords beskikber, wat it privacyrisiko ferminderet. In minimale kolom-to-rige-ferhâlding fan 1:500 wurdt oanrikkemandearre. Bygelyks, as jo boarnetabel 6 kolommen hat, moat it in minimum fan 3000 rigen befetsje.

Heulendal net. Hoewol it wat muoite kin nimme om de foardielen, wurksumheden en gebrûk fan gefallen fan syntetyske gegevens folslein te begripen, is it proses fan synthesisearjen heul ienfâldich en elkenien mei basiskomputerkennis kin it dwaan. Foar mear ynformaasje oer it synthesizing proses, check out dizze side or in demo oanfreegje.

De Syntho Engine wurket it bêste op strukturearre, tabelgegevens (alles dat rigen en kolommen befettet). Binnen dizze struktueren stypje wy de folgjende gegevenstypen:

  • Strukturearret gegevens opmakke yn tabellen (kategoarysk, numerike, ensfh.)
  • Direkte identifiers en PII
  • Grutte datasets en databases
  • Geografyske lokaasjegegevens (lykas GPS)
  • Tiid rige gegevens
  • Multi-tabel databases (mei referinsjele yntegriteit)
  • Iepenje tekstgegevens

 

Komplekse gegevensstipe
Njonken alle reguliere soarten tabelgegevens stipet de Syntho Engine komplekse gegevenstypen en komplekse gegevensstruktueren.

  • Tiidrige
  • Multi-tabel databanken
  • Tekst iepenje

Lês mear.

Nee, wy hawwe ús platfoarm optimalisearre om berekkeningseasken te minimalisearjen (bgl. gjin GPU fereaske), sûnder kompromittearjen op de gegevenskrektens. Derneist stypje wy automatyske skaalfergrutting, sadat men enoarme databases kin syntetisearje.

Ja. Syntho software is optimalisearre foar databases mei meardere tabellen.

Wat dit oanbelanget, detektearret Syntho automatysk de gegevenstypen, skema's en formaten om de krektens fan gegevens te maksimalisearjen. Foar multi-tabel databank, wy stypje automatyske tabel relaasje inference en synteze te behâlden referinsjele yntegriteit.

groep minsken glimkjend

Gegevens binne syntetysk, mar ús team is echt!

Nim kontakt op mei Syntho en ien fan ús saakkundigen sil yn kontakt komme mei jo op 'e snelheid fan ljocht om de wearde fan syntetyske gegevens te ferkennen!