Anonymisearre gegevens vs syntetyske gegevens

As jo jo gegevens anonymisearje foardat jo gegevenstesten fan gegevensanalytyk útfiere, binne d'r ferskate faktoaren te spyljen:

Yn hast alle gefallen kinne anonime gegevens noch weromfierd wurde nei persoanen troch spesifike en unike rigen (bgl. medyske records)
Hoe mear jo anonymisearje of generalisearje, hoe mear gegevens jo ferneatigje. Dit ferleget de kwaliteit fan jo gegevens en dus jo ynsjoch
Anonymisaasje wurket oars foar ferskate gegevensformaten. Dit betsjut dat it net skalberber is en heul tiidslinend kin wêze

Syntetyske gegevens oplost al dizze tekoartkommingen en mear. Besjoch de fideo hjirûnder om in analytyske ekspert fan SAS (globale merklieder yn analytyk) te sjen útlizze oer syn beoardieling oer it ferskil yn kwaliteit tusken orizjinele gegevens, anonymisearre gegevens en troch Syntho generearre syntetyske gegevens.

Dizze fideo is opnommen fan it Syntho x SAS D[N]A Café oer AI Generated Synthetic Data. Fyn de folsleine fideo hjir.

Edwin van Unen stjoerde in orizjinele dataset nei Syntho en wy makken de dataset. Mar de fraach wie ek: "Wat sil der barre as wy syntetyske gegevens fergelykje mei anonymisearre gegevens?" Om't jo in soad ynformaasje ferlieze yn in anonymisearre gegevens, sil dit ek barre by it synthesisearjen fan in dataset? Wy begûnen mei in dataset út 'e telekommunikaasje-yndustry mei 56.000 rigen en 128 kolommen mei ynformaasje oer bedriuwen. Dizze dataset waard sawol syntetisearre as anonymisearre, sadat Edwin syntetisaasje mei anonymisaasje fergelykje koe. Doe begon Edwin te modellen mei SAS Viya. Hy boude in pear churn-modellen op 'e orizjinele dataset, mei klassike regressiontechniken en beslútbeammen, mar ek mear ferfine techniken lykas neuronale netwurken, gradientferbettering, willekeurige bosk - ditsoarte techniken. Mei help fan de standert SAS Viya opsjes by it bouwen fan de modellen.

Dan wie it tiid om te sjen nei de resultaten. De resultaten wiene tige kânsryk foar syntetyske gegevens en net foar anonymisaasje. Foar de net-masine-learjende saakkundigen yn it publyk sjogge wy nei it gebiet ûnder de ROC-kromme dy't wat fertelt oer de krektens fan it model. Fergelykje de orizjinele gegevens mei de anonymisearre gegevens, sjogge wy dat it orizjinele gegevensmodel in gebiet ûnder de ROC-kromme fan .8 hat, wat aardich goed is, De anonymisearre gegevens hawwe lykwols in gebiet ûnder de ROC-kromme fan .6. Dit betsjut dat wy in protte ynformaasje ferlieze mei it anonime model, sadat jo in protte foarsizzende krêft ferlieze.

Mar dan is de fraach wat oer syntetyske gegevens? Hjir hawwe wy krekt itselde dien, mar ynstee fan de gegevens te anonymisearjen, synthesisearre Syntho de gegevens. No sjogge wy sawol de orizjinele gegevens as de syntetyske gegevens hawwe in gebiet ûnder de ROC-kromme fan .8, wat tige ferlykber is. Net krekt itselde fanwege fariabiliteit, mar hiel ferlykber. Dit betsjut dat it potinsjeel fan syntetyske gegevens tige belofte is - Edwin is hjir tige bliid mei.

Gegevens binne syntetysk, mar ús team is echt!

Nim kontakt op mei Syntho en ien fan ús saakkundigen sil yn kontakt komme mei jo op 'e snelheid fan ljocht om de wearde fan syntetyske gegevens te ferkennen!

Wat binne syntetyske gegevens?

Kwaliteitsfersekering rapport

Eksterne evaluaasje troch SAS

Tiid rige syntetyske gegevens

PII Scanner

Syntetyske Mock Data

Konsekwint mapping

De-identifikaasje en syntetisaasje

Regel-basearre syntetyske gegevens

Subsetting

Ynset en yntegraasje

Connectors

Útwreide funksjes

Stipe gegevens

Brûkersdokumintaasje

Plan in demo

Pricing

Syntetyske gegevens as testgegevens

Syntetyske gegevens foar analytics

Syntetyske gegevens foar dielen fan gegevens

Syntetyske gegevens foar produktdemo's

Sûnenssoarch

Finânsjes

Publike organisaasjes

Brûkersdokumintaasje

Witboeken en gidsen

blog

Webinars

Case Studies

Pricing

Oer ús

careers

Anonymisearre gegevens vs syntetyske gegevens

Gegevens binne syntetysk, mar ús team is echt!

Wat wy dogge

Bedriuw

Resources

Syntho Nijsbrief

Haadmenu