As jo jo gegevens anonymisearje foardat jo gegevenstesten fan gegevensanalytyk útfiere, binne d'r ferskate faktoaren te spyljen:
Syntetyske gegevens oplost al dizze tekoartkommingen en mear. Besjoch de fideo hjirûnder om in analytyske ekspert fan SAS (globale merklieder yn analytyk) te sjen útlizze oer syn beoardieling oer it ferskil yn kwaliteit tusken orizjinele gegevens, anonymisearre gegevens en troch Syntho generearre syntetyske gegevens.
Dizze fideo is opnommen fan it Syntho x SAS D[N]A Café oer AI Generated Synthetic Data. Fyn de folsleine fideo hjir.
Edwin van Unen stjoerde in orizjinele dataset nei Syntho en wy makken de dataset. Mar de fraach wie ek: "Wat sil der barre as wy syntetyske gegevens fergelykje mei anonymisearre gegevens?" Om't jo in soad ynformaasje ferlieze yn in anonymisearre gegevens, sil dit ek barre by it synthesisearjen fan in dataset? Wy begûnen mei in dataset út 'e telekommunikaasje-yndustry mei 56.000 rigen en 128 kolommen mei ynformaasje oer bedriuwen. Dizze dataset waard sawol syntetisearre as anonymisearre, sadat Edwin syntetisaasje mei anonymisaasje fergelykje koe. Doe begon Edwin te modellen mei SAS Viya. Hy boude in pear churn-modellen op 'e orizjinele dataset, mei klassike regressiontechniken en beslútbeammen, mar ek mear ferfine techniken lykas neuronale netwurken, gradientferbettering, willekeurige bosk - ditsoarte techniken. Mei help fan de standert SAS Viya opsjes by it bouwen fan de modellen.
Dan wie it tiid om te sjen nei de resultaten. De resultaten wiene tige kânsryk foar syntetyske gegevens en net foar anonymisaasje. Foar de net-masine-learjende saakkundigen yn it publyk sjogge wy nei it gebiet ûnder de ROC-kromme dy't wat fertelt oer de krektens fan it model. Fergelykje de orizjinele gegevens mei de anonymisearre gegevens, sjogge wy dat it orizjinele gegevensmodel in gebiet ûnder de ROC-kromme fan .8 hat, wat aardich goed is, De anonymisearre gegevens hawwe lykwols in gebiet ûnder de ROC-kromme fan .6. Dit betsjut dat wy in protte ynformaasje ferlieze mei it anonime model, sadat jo in protte foarsizzende krêft ferlieze.
Mar dan is de fraach wat oer syntetyske gegevens? Hjir hawwe wy krekt itselde dien, mar ynstee fan de gegevens te anonymisearjen, synthesisearre Syntho de gegevens. No sjogge wy sawol de orizjinele gegevens as de syntetyske gegevens hawwe in gebiet ûnder de ROC-kromme fan .8, wat tige ferlykber is. Net krekt itselde fanwege fariabiliteit, mar hiel ferlykber. Dit betsjut dat it potinsjeel fan syntetyske gegevens tige belofte is - Edwin is hjir tige bliid mei.
Nim kontakt op mei Syntho en ien fan ús saakkundigen sil yn kontakt komme mei jo op 'e snelheid fan ljocht om de wearde fan syntetyske gegevens te ferkennen!