Dejta anonimizzata vs data sintetika

Jekk anonimizza d-dejta tiegħek qabel ma twettaq l-ittestjar tad-dejta tal-analiżi tad-dejta, hemm diversi fatturi involuti:

  1. Fi kważi l-każijiet kollha, id-dejta anonimizzata xorta tista' tiġi rintraċċata lura għal individwi minħabba ringieli speċifiċi u uniċi (eż. rekords mediċi)
  2. Iktar ma tiġġeneralizza jew tiġġeneralizza, aktar teqred dejta. Dan inaqqas il-kwalità tad-dejta tiegħek u għalhekk l-għarfien tiegħek
  3. L-anonimizzazzjoni taħdem b'mod differenti għal formati ta' data differenti. Dan ifisser li mhuwiex skalabbli u jista' jieħu ħafna ħin

Id-dejta sintetika ssolvi dawn in-nuqqasijiet kollha u aktar. Ara l-vidjo hawn taħt biex tara espert analitiku minn SAS (mexxej tas-suq globali fl-analitika) jispjega dwar il-valutazzjoni tiegħu dwar id-differenza fil-kwalità bejn data oriġinali, data anonimizzata u minn data sintetika ġġenerata minn Syntho.

Dan il-video huwa maqbud mis-Syntho x SAS D[N]A Café dwar id-Dejta Sintetika Ġġenerata mill-AI. Sib il-video sħiħ hawn.

Edwin van Unen bagħat dataset oriġinali lil Syntho u aħna sintetizzajna s-sett tad-data. Iżda l-mistoqsija kienet ukoll: "X'se jiġri jekk inqabblu data sintetika ma 'data anonimizzata?" Minħabba li titlef ħafna informazzjoni f'dejta anonimizzata, dan jiġri wkoll meta tissintetizza sett tad-dejta? Bdejna b'sett tad-dejta mill-industrija tat-telekomunikazzjonijiet b'56.000 ringiela u 128 kolonna ta' informazzjoni dwar il- churn tal-kumpanija. Dan is-sett tad-dejta kien kemm sintetizzat kif ukoll anonimizzat sabiex Edwin seta’ jqabbel is-sintetizzazzjoni mal-anonimizzazzjoni. Imbagħad, Edwin beda jimmudella billi juża SAS Viya. Huwa bena ftit mudelli churn fuq is-sett tad-dejta oriġinali, bl-użu ta 'tekniki ta' rigressjoni klassika u siġar tad-deċiżjonijiet, iżda wkoll tekniki aktar sofistikati bħal netwerks newrali, spinta tal-gradjent, foresti każwali - dawn it-tipi ta 'tekniki. Uża l-għażliet standard SAS Viya meta tibni l-mudelli.

Imbagħad, kien wasal iż-żmien li nħarsu lejn ir-riżultati. Ir-riżultati kienu promettenti ħafna għal data sintetika u mhux għall-anonimizzazzjoni. Għall-esperti fl-udjenza li m'għandhomx tagħlim bil-magna, inħarsu lejn iż-żona taħt il-kurva ROC li tgħid xi ħaġa dwar l-eżattezza tal-mudell. Meta tqabbel id-dejta oriġinali mad-dejta anonimizzata, naraw li l-mudell tad-dejta oriġinali għandu żona taħt il-kurva ROC ta '.8, li hija pjuttost tajba, Madankollu, id-dejta anonimizzata għandha żona taħt il-kurva ROC ta' .6. Dan ifisser li nitilfu ħafna informazzjoni bil-mudell anonimizzat sabiex inti titlef ħafna saħħa ta 'tbassir.

Iżda mbagħad, il-mistoqsija hija xi ngħidu dwar id-dejta sintetika? Hawnhekk, għamilna eżattament l-istess iżda minflok anonimizza d-dejta, Syntho sintetizzat id-dejta. Issa, naraw kemm id-dejta oriġinali kif ukoll id-dejta sintetika għandhom żona taħt il-kurva ROC ta '.8, li hija simili ħafna. Mhux eżattament l-istess minħabba l-varjabbiltà, iżda simili ħafna. Dan ifisser, il-potenzjal tad-dejta sintetika huwa promettenti ħafna - Edwin huwa kuntent ħafna dwar dan.

grupp ta’ nies jitbissem

Id-dejta hija sintetika, iżda t-tim tagħna huwa reali!

Ikkuntattja lil Syntho u wieħed mill-esperti tagħna se jagħmel kuntatt miegħek fil-veloċità tad-dawl biex jesplora l-valur tad-dejta sintetika!