Anonymized na data kumpara sa Synthetic na data

Kung i-anonymize mo ang iyong data bago magsagawa ng pagsubok sa data ng data analytics, may ilang salik na gumaganap:

  1. Sa halos lahat ng kaso, ang hindi nakikilalang data ay maaari pa ring masubaybayan pabalik sa mga indibidwal dahil sa mga partikular at natatanging row (hal. mga medikal na rekord)
  2. Kung mas i-anonymize o i-generalize mo, mas maraming data ang masisira mo. Pinapababa nito ang kalidad ng iyong data at sa gayon ang iyong mga insight
  3. Iba ang paggana ng anonymization para sa iba't ibang format ng data. Nangangahulugan ito na hindi ito nasusukat at maaaring napakatagal

Niresolba ng sintetikong data ang lahat ng mga pagkukulang na ito at higit pa. Panoorin ang video sa ibaba para makita ang isang analytics expert mula sa SAS (global market leader sa analytics) na nagpapaliwanag tungkol sa kanyang assessment sa pagkakaiba sa kalidad sa pagitan ng orihinal na data, anonymized na data at ng Syntho generated synthetic data.

Ang video na ito ay nakunan mula sa Syntho x SAS D[N]A Café tungkol sa AI Generated Synthetic Data. Hanapin ang buong video dito.

Nagpadala si Edwin van Unen ng orihinal na dataset sa Syntho at na-synthesize namin ang dataset. Ngunit ang tanong din ay: "Ano ang mangyayari kung ihahambing natin ang sintetikong data sa hindi nakikilalang data?" Dahil marami kang nawawalang impormasyon sa isang hindi nakikilalang data, mangyayari rin ba ito kapag nag-synthesize ng dataset? Nagsimula kami sa isang dataset mula sa industriya ng telekomunikasyon na may 56.000 row at 128 column ng churn-information ng kumpanya. Parehong na-synthesize at na-anonymize ang dataset na ito para maihambing ni Edwin ang synthetization sa anonymization. Pagkatapos, nagsimulang magmodelo si Edwin gamit ang SAS Viya. Gumawa siya ng ilang modelo ng churn sa orihinal na dataset, gamit ang mga klasikal na diskarte sa regression at decision tree, ngunit pati na rin ang mga mas sopistikadong diskarte gaya ng mga neural network, gradient boosting, random forest – ang mga ganitong uri ng diskarte. Gamit ang karaniwang mga opsyon sa SAS Viya kapag gumagawa ng mga modelo.

Pagkatapos, oras na upang tingnan ang mga resulta. Ang mga resulta ay napaka-promising para sa synthetic na data at hindi para sa anonymization. Para sa mga ekspertong walang-machine-learning sa audience, tinitingnan namin ang lugar sa ilalim ng ROC-curve na nagsasabi tungkol sa katumpakan ng modelo. Kung ihahambing ang orihinal na data sa hindi nakikilalang data, nakikita namin na ang orihinal na modelo ng data ay may lugar sa ilalim ng ROC-curve na .8, na medyo maganda, Gayunpaman, ang hindi nakikilalang data ay may lugar sa ilalim ng ROC-curve na .6. Nangangahulugan ito na nawawalan kami ng maraming impormasyon gamit ang hindi nakikilalang modelo kaya nawalan ka ng maraming predictive power.

Ngunit pagkatapos, ang tanong ay ano ang tungkol sa data ng synthetics? Dito, eksaktong pareho ang ginawa namin ngunit sa halip na i-anonymize ang data, si Syntho ang nag-synthesize ng data. Ngayon, nakikita namin ang parehong orihinal na data at ang sintetikong data ay may lugar sa ilalim ng ROC-curve na .8, na halos magkapareho. Hindi eksaktong pareho dahil sa pagkakaiba-iba, ngunit halos magkapareho. Nangangahulugan ito, ang potensyal ng synthetic data ay napaka-promising - Edwin ay napakasaya tungkol dito.

grupo ng mga taong nakangiti

Sintetiko ang data, ngunit totoo ang aming team!

Makipag-ugnay kay Syntho at isa sa aming mga eksperto ay makikipag-ugnayan sa iyo sa bilis ng liwanag upang tuklasin ang halaga ng synthetic na data!