Anonymisearre gegevens vs syntetyske gegevens

As jo ​​​​jo gegevens anonymisearje foardat jo gegevenstesten fan gegevensanalytyk útfiere, binne d'r ferskate faktoaren te spyljen:

  1. Yn hast alle gefallen kinne anonime gegevens noch weromfierd wurde nei persoanen troch spesifike en unike rigen (bgl. medyske records)
  2. Hoe mear jo anonymisearje of generalisearje, hoe mear gegevens jo ferneatigje. Dit ferleget de kwaliteit fan jo gegevens en dus jo ynsjoch
  3. Anonymisaasje wurket oars foar ferskate gegevensformaten. Dit betsjut dat it net skalberber is en heul tiidslinend kin wêze

Syntetyske gegevens oplost al dizze tekoartkommingen en mear. Besjoch de fideo hjirûnder om in analytyske ekspert fan SAS (globale merklieder yn analytyk) te sjen útlizze oer syn beoardieling oer it ferskil yn kwaliteit tusken orizjinele gegevens, anonymisearre gegevens en troch Syntho generearre syntetyske gegevens.

Dizze fideo is opnommen fan it Syntho x SAS D[N]A Café oer AI Generated Synthetic Data. Fyn de folsleine fideo hjir.

Edwin van Unen stjoerde in orizjinele dataset nei Syntho en wy makken de dataset. Mar de fraach wie ek: "Wat sil der barre as wy syntetyske gegevens fergelykje mei anonymisearre gegevens?" Om't jo in soad ynformaasje ferlieze yn in anonymisearre gegevens, sil dit ek barre by it synthesisearjen fan in dataset? Wy begûnen mei in dataset út 'e telekommunikaasje-yndustry mei 56.000 rigen en 128 kolommen mei ynformaasje oer bedriuwen. Dizze dataset waard sawol syntetisearre as anonymisearre, sadat Edwin syntetisaasje mei anonymisaasje fergelykje koe. Doe begon Edwin te modellen mei SAS Viya. Hy boude in pear churn-modellen op 'e orizjinele dataset, mei klassike regressiontechniken en beslútbeammen, mar ek mear ferfine techniken lykas neuronale netwurken, gradientferbettering, willekeurige bosk - ditsoarte techniken. Mei help fan de standert SAS Viya opsjes by it bouwen fan de modellen.

Dan wie it tiid om te sjen nei de resultaten. De resultaten wiene tige kânsryk foar syntetyske gegevens en net foar anonymisaasje. Foar de net-masine-learjende saakkundigen yn it publyk sjogge wy nei it gebiet ûnder de ROC-kromme dy't wat fertelt oer de krektens fan it model. Fergelykje de orizjinele gegevens mei de anonymisearre gegevens, sjogge wy dat it orizjinele gegevensmodel in gebiet ûnder de ROC-kromme fan .8 hat, wat aardich goed is, De anonymisearre gegevens hawwe lykwols in gebiet ûnder de ROC-kromme fan .6. Dit betsjut dat wy in protte ynformaasje ferlieze mei it anonime model, sadat jo in protte foarsizzende krêft ferlieze.

Mar dan is de fraach wat oer syntetyske gegevens? Hjir hawwe wy krekt itselde dien, mar ynstee fan de gegevens te anonymisearjen, synthesisearre Syntho de gegevens. No sjogge wy sawol de orizjinele gegevens as de syntetyske gegevens hawwe in gebiet ûnder de ROC-kromme fan .8, wat tige ferlykber is. Net krekt itselde fanwege fariabiliteit, mar hiel ferlykber. Dit betsjut dat it potinsjeel fan syntetyske gegevens tige belofte is - Edwin is hjir tige bliid mei.

groep minsken glimkjend

Gegevens binne syntetysk, mar ús team is echt!

Nim kontakt op mei Syntho en ien fan ús saakkundigen sil yn kontakt komme mei jo op 'e snelheid fan ljocht om de wearde fan syntetyske gegevens te ferkennen!