Анонимни данни срещу синтетични данни

Ако анонимизирате данните си, преди да извършите тестване на данни за анализ на данни, има няколко фактора в играта:

  1. В почти всички случаи анонимизираните данни все още могат да бъдат проследени до лица поради специфични и уникални редове (напр. медицински досиета)
  2. Колкото повече анонимизирате или обобщавате, толкова повече данни унищожавате. Това понижава качеството на вашите данни и по този начин вашите прозрения
  3. Анонимизацията работи различно за различните формати на данни. Това означава, че не е мащабируемо и може да отнеме много време

Синтетичните данни решават всички тези недостатъци и още. Гледайте видеоклипа по-долу, за да видите експерт по анализи от SAS (глобален пазарен лидер в анализите) да обясни своята оценка за разликата в качеството между оригиналните данни, анонимизираните данни и генерираните от Syntho синтетични данни.

Това видео е заснето от Syntho x SAS D[N]A Café за синтетични данни, генерирани от ИИ. Намерете цялото видео тук.

Едвин ван Унен изпрати оригинален набор от данни на Syntho и ние синтезирахме набора от данни. Но въпросът беше също така: „Какво ще се случи, ако сравним синтетични данни с анонимизирани данни?“ Тъй като губите много информация в анонимни данни, това ще се случи ли и при синтезиране на набор от данни? Започнахме с набор от данни от телекомуникационната индустрия с 56.000 128 реда и XNUMX колони информация за фирменото оттегляне. Този набор от данни беше както синтезиран, така и анонимизиран, за да може Едуин да сравни синтезирането с анонимизирането. След това Едуин започна да моделира с помощта на SAS Viya. Той изгради няколко модела на churn върху оригиналния набор от данни, използвайки класически техники за регресия и дървета на решения, но също така и по-сложни техники като невронни мрежи, градиентно усилване, произволна гора – тези видове техники. Използване на стандартните опции на SAS Viya при изграждане на моделите.

Тогава беше време да разгледаме резултатите. Резултатите бяха много обещаващи за синтетични данни, а не за анонимизиране. За експертите без машинно обучение в публиката, ние разглеждаме областта под ROC-кривата, която казва нещо за точността на модела. Сравнявайки оригиналните данни с анонимизираните данни, виждаме, че оригиналният модел на данни има площ под ROC-кривата от .8, което е доста добре. Въпреки това, анонимизираните данни имат площ под ROC-кривата от .6. Това означава, че губим много информация с анонимизирания модел, така че губите много предсказваща сила.

Но тогава въпросът е какво да кажем за синтетичните данни? Тук направихме точно същото, но вместо да анонимизира данните, Syntho синтезира данните. Сега виждаме, че както оригиналните данни, така и синтетичните данни имат площ под ROC-кривата от .8, което е много сходно. Не е точно същото поради променливостта, но много сходно. Това означава, че потенциалът на синтетичните данни е много обещаващ – Едуин е много щастлив от това.

група усмихнати хора

Данните са синтетични, но нашият екип е истински!

Свържете се със Syntho и един от нашите експерти ще се свърже с вас със скоростта на светлината, за да проучи стойността на синтетичните данни!