Anonimigitaj datumoj kontraŭ Sintezaj datumoj

Se vi anonimigas viajn datumojn antaŭ ol fari datumtestadon de datuma analizo, ekzistas pluraj faktoroj:

  1. En preskaŭ ĉiuj kazoj, anonimigitaj datumoj ankoraŭ povas esti spuritaj reen al individuoj pro specifaj kaj unikaj vicoj (ekz. medicina registro)
  2. Ju pli vi anonimigas aŭ ĝeneraligas, des pli da datumoj vi detruas. Ĉi tio malaltigas la kvaliton de viaj datumoj kaj tiel viajn komprenojn
  3. Anonimigo funkcias malsame por malsamaj datumformatoj. Ĉi tio signifas, ke ĝi ne estas skalebla kaj povas esti tre tempopostula

Sintezaj datumoj solvas ĉiujn ĉi tiujn mankojn kaj pli. Rigardu la suban videon por vidi analiziston de SAS (tutmonda merkatgvidanto en analizo) klarigi pri sia takso pri la diferenco en kvalito inter originalaj datumoj, anonimigitaj datumoj kaj de Syntho generitaj sintezaj datumoj.

Ĉi tiu video estas kaptita de la Syntho x SAS D[N]A Café pri AI Generad Sintezaj Datumoj. Trovu la plenan videon ĉi tie.

Edwin van Unen sendis originalan datumaron al Syntho kaj ni sintezis la datumaron. Sed la demando ankaŭ estis: "Kio okazos se ni komparos sintezajn datumojn kun anonimigitaj datumoj?" Ĉar vi perdas multajn informojn en anonimigita datumo, ĉu tio ankaŭ okazos dum sintezado de datumaro? Ni komencis kun datumaro de la telekomunika industrio kun 56.000 vicoj kaj 128 kolumnoj de kompanio pri foriro-informo. Ĉi tiu datumaro estis kaj sintezita kaj anonimigita tiel Edvino povis kompari sintezon kun anonimigo. Tiam, Edvino komencis modeligi uzante SAS Viya. Li konstruis kelkajn churn modelojn sur la origina datumaro, uzante klasikajn regresajn teknikojn kaj decidarbojn, sed ankaŭ pli sofistikajn teknikojn kiel ekzemple neŭralaj retoj, gradienta akcelo, hazarda arbaro - ĉi tiuj specoj de teknikoj. Uzante la normajn SAS Viya-opciojn dum konstruado de la modeloj.

Tiam, estis tempo rigardi la rezultojn. La rezultoj estis tre promesplenaj por sintezaj datumoj kaj ne por anonimigo. Por la ne-maŝinlernantaj fakuloj en la spektantaro, ni rigardas la areon sub la ROC-kurbo, kiu rakontas ion pri la precizeco de la modelo. Komparante la originalajn datumojn al la anonimigitaj datumoj, ni vidas, ke la originala datummodelo havas areon sub la ROC-kurbo de .8, kio estas sufiĉe bona, Tamen, la anonimigitaj datumoj havas areon sub la ROC-kurbo de .6. Ĉi tio signifas, ke ni perdas multajn informojn kun la anonimigita modelo, do vi perdas multe da prognoza potenco.

Sed tiam, la demando estas kio pri sintezaj datumoj? Ĉi tie, ni faris ĝuste la samon sed anstataŭ anonimigi la datumojn, Syntho sintezis la datumojn. Nun ni vidas, ke ambaŭ la originaj datumoj kaj la sintezaj datumoj havas areon sub la ROC-kurbo de .8, kiu estas tre simila. Ne ĝuste la sama pro ŝanĝebleco, sed tre simila. Ĉi tio signifas, ke la potencialo de sintezaj datumoj estas tre promesplena - Edwin estas tre feliĉa pri tio.

grupo da homoj ridetantaj

Datumoj estas sintezaj, sed nia teamo estas reala!

Kontaktu Syntho kaj unu el niaj spertuloj kontaktos vin kun la lumrapideco por esplori la valoron de sintezaj datumoj!