Të dhëna anonime kundrejt të dhënave sintetike

Nëse i anonimizoni të dhënat tuaja përpara se të kryeni testimin e të dhënave të analitikës së të dhënave, ka disa faktorë në lojë:

Pothuajse në të gjitha rastet, të dhënat e anonimizuara ende mund të gjurmohen tek individët për shkak të rreshtave specifike dhe unike (p.sh. të dhënat mjekësore)
Sa më shumë që anonimizoni ose përgjithësoni, aq më shumë të dhëna shkatërroni. Kjo ul cilësinë e të dhënave tuaja dhe rrjedhimisht njohuritë tuaja
Anonimizimi funksionon ndryshe për formate të ndryshme të të dhënave. Kjo do të thotë se nuk është i shkallëzueshëm dhe mund të marrë shumë kohë

Të dhënat sintetike zgjidhin të gjitha këto mangësi dhe më shumë. Shikoni videon më poshtë për të parë një ekspert analitik nga SAS (lider i tregut global në analitikë) të shpjegojë në lidhje me vlerësimin e tij mbi ndryshimin në cilësi midis të dhënave origjinale, të dhënave anonime dhe të dhënave sintetike të krijuara nga Syntho.

Kjo video është shkrepur nga Syntho x SAS D[N]A Café rreth të dhënave sintetike të krijuara nga AI. Videon e plotë e gjeni këtu.

Edwin van Unen dërgoi një grup të dhënash origjinale te Syntho dhe ne sintetizuam grupin e të dhënave. Por pyetja ishte gjithashtu: "Çfarë do të ndodhë nëse krahasojmë të dhënat sintetike me të dhënat anonime?" Për shkak se humbni shumë informacion në një të dhënë të anonimizuar, a do të ndodhë kjo edhe kur sintetizoni një grup të dhënash? Ne filluam me një grup të dhënash nga industria e telekomunikacionit me 56.000 rreshta dhe 128 kolona të informacionit për kompaninë. Ky grup i të dhënave u sintetizua dhe u anonimizua, kështu që Edwin mund të krahasonte sintetizimin me anonimizimin. Më pas, Edwin filloi të modelonte duke përdorur SAS Viya. Ai ndërtoi disa modele të ndryshme në bazën e të dhënave origjinale, duke përdorur teknika klasike të regresionit dhe pemë vendimesh, por edhe teknika më të sofistikuara si rrjetet nervore, rritja e gradientit, pylli i rastësishëm - këto lloj teknikash. Përdorimi i opsioneve standarde SAS Viya gjatë ndërtimit të modeleve.

Pastaj, ishte koha për të parë rezultatet. Rezultatet ishin shumë premtuese për të dhënat sintetike dhe jo për anonimizimin. Për ekspertët që nuk mësojnë makinë në audiencë, ne shikojmë zonën nën lakoren ROC e cila tregon diçka për saktësinë e modelit. Duke krahasuar të dhënat origjinale me të dhënat e anonimizuara, shohim se modeli i të dhënave origjinale ka një sipërfaqe nën lakoren ROC prej 8, e cila është mjaft e mirë, megjithatë, të dhënat e anonimizuara kanë një zonë nën lakoren ROC prej 6. Kjo do të thotë që ne humbasim shumë informacion me modelin e anonimizuar, kështu që ju humbni shumë fuqi parashikuese.

Por atëherë, pyetja është se çfarë ndodh me të dhënat sintetike? Këtu, ne bëmë saktësisht të njëjtën gjë, por në vend që të anonimizonim të dhënat, Syntho sintetizoi të dhënat. Tani, ne shohim se të dhënat origjinale dhe të dhënat sintetike kanë një zonë nën lakoren ROC prej 8, e cila është shumë e ngjashme. Jo saktësisht e njëjtë për shkak të ndryshueshmërisë, por shumë e ngjashme. Kjo do të thotë, potenciali i të dhënave sintetike është shumë premtues - Edwin është shumë i lumtur për këtë.

Të dhënat janë sintetike, por ekipi ynë është real!

Kontaktoni Syntho dhe një nga ekspertët tanë do të kontaktojë me ju me shpejtësinë e dritës për të eksploruar vlerën e të dhënave sintetike!

Çfarë janë të dhënat sintetike?

Raporti i sigurimit të cilësisë

Vlerësimi i jashtëm nga SAS

Të dhëna sintetike të serive kohore

Skaneri PII

Të dhëna sintetike sintetike

Hartë konsistente

De-identifikimi dhe sintetizimi

Të dhëna sintetike të bazuara në rregulla

Nënvendosje

Vendosja dhe integrimi

Mbulim Gjuhësh

Karakteristika të zgjeruara

Të dhënat e mbështetura

Dokumentacioni i përdoruesit

Programoni një demonstrim

çmimi

Të dhënat sintetike si të dhëna testimi

Të dhëna sintetike për analitikë

Të dhëna sintetike për ndarjen e të dhënave

Të dhëna sintetike për demonstrimet e produkteve

Healthcare

Financa

Organizatat Publike

Dokumentacioni i përdoruesit

Letra të bardha dhe udhëzues

Blog

Webinars

Raste Studimore

çmimi

Rreth nesh

Karriera

Të dhëna anonime kundrejt të dhënave sintetike

Të dhënat janë sintetike, por ekipi ynë është real!

Çfarë bëjmë ne

kompani

burime

Gazeta Syntho

Menyja kryesore