Anonymized data vs Sintetiki data

Ti o ba sọ data rẹ ailorukọ ṣaaju ṣiṣe idanwo data ti awọn atupale data, awọn ifosiwewe pupọ lo wa ni ere:

  1. Ni gbogbo awọn ọran, data ailorukọ tun le ṣe itopase pada si awọn eniyan kọọkan nitori awọn ori ila kan pato ati alailẹgbẹ (fun apẹẹrẹ awọn igbasilẹ iṣoogun)
  2. Bi o ṣe ṣe ailorukọ tabi ṣe gbogbogbo, diẹ sii data ti o run. Eyi dinku didara data rẹ ati nitorinaa awọn oye rẹ
  3. Anonymization ṣiṣẹ otooto fun orisirisi awọn ọna kika data. Eyi tumọ si pe ko ṣe iwọn ati pe o le gba akoko pupọ

Awọn data sintetiki yanju gbogbo awọn ailagbara wọnyi ati diẹ sii. Wo fidio ti o wa ni isalẹ lati rii amoye atupale lati SAS (olori ọja agbaye ni awọn atupale) ṣe alaye nipa idiyele rẹ lori iyatọ didara laarin data atilẹba, data ailorukọ ati nipasẹ Syntho ti ipilẹṣẹ data sintetiki.

Fidio yii jẹ gbigba lati inu Syntho x SAS D[N] Kafe kan nipa AI Ti ipilẹṣẹ Data Sintetiki. Wa fidio ni kikun nibi.

Edwin van Unen fi ipilẹṣẹ data atilẹba ranṣẹ si Syntho ati pe a ṣe akopọ data naa. Ṣugbọn ibeere naa tun jẹ: “Kini yoo ṣẹlẹ ti a ba ṣe afiwe data sintetiki si data ailorukọ?” Nitoripe o padanu alaye pupọ ninu data ailorukọ, ṣe eyi yoo tun ṣẹlẹ nigbati o ba ṣapọpọ dataset kan bi? A bẹrẹ pẹlu dataset lati ile-iṣẹ ibaraẹnisọrọ pẹlu awọn ori ila 56.000 ati awọn ọwọn 128 ti alaye churn ile-iṣẹ. Akopọ data yii jẹ iṣelọpọ mejeeji ati ailorukọ nitoribẹẹ Edwin le ṣe afiwe imuṣiṣẹpọ pẹlu ailorukọ. Lẹhinna, Edwin bẹrẹ awoṣe ni lilo SAS Viya. O kọ tọkọtaya kan ti awọn awoṣe churn lori dataset atilẹba, ni lilo awọn imuposi ipadasẹhin kilasika ati awọn igi ipinnu, ṣugbọn tun awọn imọ-ẹrọ fafa diẹ sii gẹgẹbi awọn nẹtiwọọki nkankikan, igbega gradient, igbo ID - iru awọn imuposi wọnyi. Lilo awọn aṣayan SAS Viya boṣewa nigbati o ba kọ awọn awoṣe.

Lẹhinna, o to akoko lati wo awọn abajade. Awọn abajade jẹ ileri pupọ fun data sintetiki kii ṣe fun ailorukọ. Fun ko si ẹrọ-eko amoye ninu awọn jepe, a wo ni agbegbe labẹ awọn ROC-ekoro ti o sọ nkankan nipa awọn išedede ti awọn awoṣe. Wé awọn atilẹba data to Anonymized data, ti a ba ri pe awọn atilẹba data awoṣe ni o ni ohun agbegbe labẹ ROC-ekoro ti .8, eyi ti o jẹ lẹwa ti o dara, Sibẹsibẹ, awọn Anonymized data ni o ni agbegbe labẹ ROC-ekoro ti .6. Eyi tumọ si pe a padanu alaye pupọ pẹlu awoṣe ailorukọ ki o padanu agbara asọtẹlẹ pupọ.

Ṣugbọn lẹhinna, ibeere naa ni kini nipa data synthetics? Nibi, a ṣe deede kanna ṣugbọn dipo ailorukọ data naa, Syntho ṣepọ data naa. Bayi, a rii mejeeji data atilẹba ati data sintetiki ni agbegbe labẹ ROC-curve of .8, eyiti o jọra pupọ. Kii ṣe deede kanna nitori iyatọ, ṣugbọn o jọra pupọ. Eyi tumọ si, agbara ti data sintetiki jẹ ileri pupọ - Edwin dun pupọ nipa eyi.

egbe awon eniyan rerin

Data jẹ sintetiki, ṣugbọn ẹgbẹ wa jẹ gidi!

Kan si Syntho ati ọkan ninu awọn amoye wa yoo ni ifọwọkan pẹlu rẹ ni iyara ti ina lati ṣawari iye ti data sintetiki!