Ако анонимизирате данните си, преди да извършите тестване на данни за анализ на данни, има няколко фактора в играта:
Синтетичните данни решават всички тези недостатъци и още. Гледайте видеоклипа по-долу, за да видите експерт по анализи от SAS (глобален пазарен лидер в анализите) да обясни своята оценка за разликата в качеството между оригиналните данни, анонимизираните данни и генерираните от Syntho синтетични данни.
Това видео е заснето от Syntho x SAS D[N]A Café за синтетични данни, генерирани от ИИ. Намерете цялото видео тук.
Едвин ван Унен изпрати оригинален набор от данни на Syntho и ние синтезирахме набора от данни. Но въпросът беше също така: „Какво ще се случи, ако сравним синтетични данни с анонимизирани данни?“ Тъй като губите много информация в анонимни данни, това ще се случи ли и при синтезиране на набор от данни? Започнахме с набор от данни от телекомуникационната индустрия с 56.000 128 реда и XNUMX колони информация за фирменото оттегляне. Този набор от данни беше както синтезиран, така и анонимизиран, за да може Едуин да сравни синтезирането с анонимизирането. След това Едуин започна да моделира с помощта на SAS Viya. Той изгради няколко модела на churn върху оригиналния набор от данни, използвайки класически техники за регресия и дървета на решения, но също така и по-сложни техники като невронни мрежи, градиентно усилване, произволна гора – тези видове техники. Използване на стандартните опции на SAS Viya при изграждане на моделите.
Тогава беше време да разгледаме резултатите. Резултатите бяха много обещаващи за синтетични данни, а не за анонимизиране. За експертите без машинно обучение в публиката, ние разглеждаме областта под ROC-кривата, която казва нещо за точността на модела. Сравнявайки оригиналните данни с анонимизираните данни, виждаме, че оригиналният модел на данни има площ под ROC-кривата от .8, което е доста добре. Въпреки това, анонимизираните данни имат площ под ROC-кривата от .6. Това означава, че губим много информация с анонимизирания модел, така че губите много предсказваща сила.
Но тогава въпросът е какво да кажем за синтетичните данни? Тук направихме точно същото, но вместо да анонимизира данните, Syntho синтезира данните. Сега виждаме, че както оригиналните данни, така и синтетичните данни имат площ под ROC-кривата от .8, което е много сходно. Не е точно същото поради променливостта, но много сходно. Това означава, че потенциалът на синтетичните данни е много обещаващ – Едуин е много щастлив от това.
Свържете се със Syntho и един от нашите експерти ще се свърже с вас със скоростта на светлината, за да проучи стойността на синтетичните данни!