Анонимизирани податоци наспроти синтетички податоци

Ако ги анонимизирате вашите податоци пред да извршите тестирање на податоци за аналитика на податоци, има неколку фактори во игра:

  1. Во речиси сите случаи, анонимизираните податоци сè уште може да се проследат до поединци поради специфични и единствени редови (на пр. медицинска евиденција)
  2. Колку повеќе анонимизирате или генерализирате, толку повеќе податоци уништувате. Ова го намалува квалитетот на вашите податоци, а со тоа и вашите увиди
  3. Анонимизацијата работи поинаку за различни формати на податоци. Ова значи дека не е скалабилно и може да одземе многу време

Синтетичките податоци ги решаваат сите овие недостатоци и многу повеќе. Погледнете го видеото подолу за да видите експерт за аналитика од SAS (глобален лидер на пазарот во аналитика) како објаснува за неговата проценка за разликата во квалитетот помеѓу оригиналните податоци, анонимизираните податоци и синтетичките генерирани од Syntho.

Ова видео е снимено од кафулето Syntho x SAS D[N]A за синтетички податоци генерирани со вештачка интелигенција. Пронајдете го целото видео овде.

Едвин ван Унен испрати оригинална база на податоци до Syntho и ние ја синтетизиравме базата на податоци. Но, прашањето беше и: „Што ќе се случи ако ги споредиме синтетичките податоци со анонимизираните податоци? Бидејќи губите многу информации во анонимизирани податоци, дали тоа ќе се случи и при синтетизирање на база на податоци? Започнавме со база на податоци од телекомуникациската индустрија со 56.000 редови и 128 колони од информации за компаниските отповикувања. Оваа база на податоци беше и синтетизирана и анонимизирана, така што Едвин можеше да ја спореди синтетизацијата со анонимизацијата. Потоа, Едвин започна да се занимава со моделирање користејќи SAS Viya. Тој изгради неколку модели на раздвојување на оригиналната база на податоци, користејќи класични техники на регресија и стебла на одлучување, но исто така и пософистицирани техники како што се невронски мрежи, засилување на градиент, случајна шума - овие видови техники. Користење на стандардните опции SAS Viya при градење на моделите.

Потоа, дојде време да се погледнат резултатите. Резултатите беа многу ветувачки за синтетички податоци, а не за анонимизација. За експертите кои не учат машински во публиката, ја гледаме областа под ROC-кривата што кажува нешто за точноста на моделот. Споредувајќи ги оригиналните податоци со анонимизираните податоци, гледаме дека оригиналниот модел на податоци има површина под ROC-кривата од 8, што е прилично добро, Сепак, анонимизираните податоци имаат површина под ROC-кривата од 6. Ова значи дека губиме многу информации со анонимизираниот модел, така што губите голема моќ на предвидување.

Но, тогаш, прашањето е што е со податоците за синтетиката? Овде, го направивме истото, но наместо да ги анонимизира податоците, Syntho ги синтетизираше податоците. Сега, гледаме дека и оригиналните и синтетичките податоци имаат површина под ROC-кривата од 8, што е многу слично. Не е баш исто поради варијабилноста, но многу слично. Ова значи дека потенцијалот на синтетичките податоци е многу ветувачки - Едвин е многу среќен поради ова.

група на луѓе кои се смешкаат

Податоците се синтетички, но нашиот тим е реален!

Контактирајте со Синто и еден од нашите експерти ќе стапи во контакт со вас со брзина на светлината за да ја истражи вредноста на синтетичките податоци!