Анонимни данни срещу синтетични данни

Ако анонимизирате данните си, преди да извършите тестване на данни за анализ на данни, има няколко фактора в играта:

В почти всички случаи анонимизираните данни все още могат да бъдат проследени до лица поради специфични и уникални редове (напр. медицински досиета)
Колкото повече анонимизирате или обобщавате, толкова повече данни унищожавате. Това понижава качеството на вашите данни и по този начин вашите прозрения
Анонимизацията работи различно за различните формати на данни. Това означава, че не е мащабируемо и може да отнеме много време

Синтетичните данни решават всички тези недостатъци и още. Гледайте видеоклипа по-долу, за да видите експерт по анализи от SAS (глобален пазарен лидер в анализите) да обясни своята оценка за разликата в качеството между оригиналните данни, анонимизираните данни и генерираните от Syntho синтетични данни.

Това видео е заснето от Syntho x SAS D[N]A Café за синтетични данни, генерирани от ИИ. Намерете цялото видео тук.

Едвин ван Унен изпрати оригинален набор от данни на Syntho и ние синтезирахме набора от данни. Но въпросът беше също така: „Какво ще се случи, ако сравним синтетични данни с анонимизирани данни?“ Тъй като губите много информация в анонимни данни, това ще се случи ли и при синтезиране на набор от данни? Започнахме с набор от данни от телекомуникационната индустрия с 56.000 128 реда и XNUMX колони информация за фирменото оттегляне. Този набор от данни беше както синтезиран, така и анонимизиран, за да може Едуин да сравни синтезирането с анонимизирането. След това Едуин започна да моделира с помощта на SAS Viya. Той изгради няколко модела на churn върху оригиналния набор от данни, използвайки класически техники за регресия и дървета на решения, но също така и по-сложни техники като невронни мрежи, градиентно усилване, произволна гора – тези видове техники. Използване на стандартните опции на SAS Viya при изграждане на моделите.

Тогава беше време да разгледаме резултатите. Резултатите бяха много обещаващи за синтетични данни, а не за анонимизиране. За експертите без машинно обучение в публиката, ние разглеждаме областта под ROC-кривата, която казва нещо за точността на модела. Сравнявайки оригиналните данни с анонимизираните данни, виждаме, че оригиналният модел на данни има площ под ROC-кривата от .8, което е доста добре. Въпреки това, анонимизираните данни имат площ под ROC-кривата от .6. Това означава, че губим много информация с анонимизирания модел, така че губите много предсказваща сила.

Но тогава въпросът е какво да кажем за синтетичните данни? Тук направихме точно същото, но вместо да анонимизира данните, Syntho синтезира данните. Сега виждаме, че както оригиналните данни, така и синтетичните данни имат площ под ROC-кривата от .8, което е много сходно. Не е точно същото поради променливостта, но много сходно. Това означава, че потенциалът на синтетичните данни е много обещаващ – Едуин е много щастлив от това.

Данните са синтетични, но нашият екип е истински!

Свържете се със Syntho и един от нашите експерти ще се свърже с вас със скоростта на светлината, за да проучи стойността на синтетичните данни!

Какво представляват синтетичните данни?

Доклад за осигуряване на качеството

Външно оценяване от SAS

Синтетични данни за времеви редове

Скенер за лични данни

Синтетични фалшиви данни

Последователно картографиране

Деидентификация и синтезиране

Базирани на правила синтетични данни

Подмножество

Внедряване и интеграция

Портове

Разширени функции

Поддържани данни

Потребителска документация

Насрочете демонстрация

Планове

Синтетични данни като тестови данни

Синтетични данни за анализ

Синтетични данни за споделяне на данни

Синтетични данни за демонстрации на продукти

Здравеопазване

финанси

Обществени организации

Потребителска документация

Бели книги и ръководства

Блог

Webinars

Казуси

Планове

За нас

Кариери

Анонимни данни срещу синтетични данни

Данните са синтетични, но нашият екип е истински!

Какво правим

За Компанията

Ресурси

Бюлетин на Syntho

Главно меню