Të dhëna anonime kundrejt të dhënave sintetike

Nëse i anonimizoni të dhënat tuaja përpara se të kryeni testimin e të dhënave të analitikës së të dhënave, ka disa faktorë në lojë:

  1. Pothuajse në të gjitha rastet, të dhënat e anonimizuara ende mund të gjurmohen tek individët për shkak të rreshtave specifike dhe unike (p.sh. të dhënat mjekësore)
  2. Sa më shumë që anonimizoni ose përgjithësoni, aq më shumë të dhëna shkatërroni. Kjo ul cilësinë e të dhënave tuaja dhe rrjedhimisht njohuritë tuaja
  3. Anonimizimi funksionon ndryshe për formate të ndryshme të të dhënave. Kjo do të thotë se nuk është i shkallëzueshëm dhe mund të marrë shumë kohë

Të dhënat sintetike zgjidhin të gjitha këto mangësi dhe më shumë. Shikoni videon më poshtë për të parë një ekspert analitik nga SAS (lider i tregut global në analitikë) të shpjegojë në lidhje me vlerësimin e tij mbi ndryshimin në cilësi midis të dhënave origjinale, të dhënave anonime dhe të dhënave sintetike të krijuara nga Syntho.

Kjo video është shkrepur nga Syntho x SAS D[N]A Café rreth të dhënave sintetike të krijuara nga AI. Videon e plotë e gjeni këtu.

Edwin van Unen dërgoi një grup të dhënash origjinale te Syntho dhe ne sintetizuam grupin e të dhënave. Por pyetja ishte gjithashtu: "Çfarë do të ndodhë nëse krahasojmë të dhënat sintetike me të dhënat anonime?" Për shkak se humbni shumë informacion në një të dhënë të anonimizuar, a do të ndodhë kjo edhe kur sintetizoni një grup të dhënash? Ne filluam me një grup të dhënash nga industria e telekomunikacionit me 56.000 rreshta dhe 128 kolona të informacionit për kompaninë. Ky grup i të dhënave u sintetizua dhe u anonimizua, kështu që Edwin mund të krahasonte sintetizimin me anonimizimin. Më pas, Edwin filloi të modelonte duke përdorur SAS Viya. Ai ndërtoi disa modele të ndryshme në bazën e të dhënave origjinale, duke përdorur teknika klasike të regresionit dhe pemë vendimesh, por edhe teknika më të sofistikuara si rrjetet nervore, rritja e gradientit, pylli i rastësishëm - këto lloj teknikash. Përdorimi i opsioneve standarde SAS Viya gjatë ndërtimit të modeleve.

Pastaj, ishte koha për të parë rezultatet. Rezultatet ishin shumë premtuese për të dhënat sintetike dhe jo për anonimizimin. Për ekspertët që nuk mësojnë makinë në audiencë, ne shikojmë zonën nën lakoren ROC e cila tregon diçka për saktësinë e modelit. Duke krahasuar të dhënat origjinale me të dhënat e anonimizuara, shohim se modeli i të dhënave origjinale ka një sipërfaqe nën lakoren ROC prej 8, e cila është mjaft e mirë, megjithatë, të dhënat e anonimizuara kanë një zonë nën lakoren ROC prej 6. Kjo do të thotë që ne humbasim shumë informacion me modelin e anonimizuar, kështu që ju humbni shumë fuqi parashikuese.

Por atëherë, pyetja është se çfarë ndodh me të dhënat sintetike? Këtu, ne bëmë saktësisht të njëjtën gjë, por në vend që të anonimizonim të dhënat, Syntho sintetizoi të dhënat. Tani, ne shohim se të dhënat origjinale dhe të dhënat sintetike kanë një zonë nën lakoren ROC prej 8, e cila është shumë e ngjashme. Jo saktësisht e njëjtë për shkak të ndryshueshmërisë, por shumë e ngjashme. Kjo do të thotë, potenciali i të dhënave sintetike është shumë premtues - Edwin është shumë i lumtur për këtë.

grup njerëzish duke buzëqeshur

Të dhënat janë sintetike, por ekipi ynë është real!

Kontaktoni Syntho dhe një nga ekspertët tanë do të kontaktojë me ju me shpejtësinë e dritës për të eksploruar vlerën e të dhënave sintetike!