Анонимделген деректер және синтетикалық деректер

Деректер аналитикасының деректер сынамасын орындамас бұрын деректеріңізді анонимизацияласаңыз, бірнеше факторлар ойнайды:

  1. Барлық дерлік жағдайларда анонимді деректерді нақты және бірегей жолдарға (мысалы, медициналық жазбалар) байланысты жеке тұлғаларға іздеуге болады.
  2. Неғұрлым анонимдеу немесе жалпылау, соғұрлым көп деректерді жоясыз. Бұл деректеріңіздің сапасын және осылайша сіздің түсініктеріңізді төмендетеді
  3. Анонимизация әртүрлі деректер пішімдері үшін басқаша жұмыс істейді. Бұл оның масштабталмағанын және көп уақытты қажет ететінін білдіреді

Синтетикалық деректер осы кемшіліктердің барлығын және т.б. SAS (аналитикадағы жаһандық нарық көшбасшысы) аналитика сарапшысының бастапқы деректер, анонимді деректер және Syntho жасаған синтетикалық деректер арасындағы сапа айырмашылығына берген бағасы туралы түсіндіріп беру үшін төмендегі бейнені қараңыз.

Бұл бейне AI жасалған синтетикалық деректер туралы Syntho x SAS D[N]A кафесінен түсірілген. Толық бейнені мына жерден табыңыз.

Эдвин ван Унен Syntho-ға түпнұсқа деректер жинағын жіберді және біз деректер жинағын синтездедік. Бірақ сұрақ: «Егер синтетикалық деректерді жасырын деректермен салыстырсақ не болады?» Анонимді деректерде көп ақпаратты жоғалтқандықтан, бұл деректер жиынын синтездеу кезінде де орын ала ма? Біз телекоммуникация саласының 56.000 128 жолы мен XNUMX бағандары бар компания туралы ақпарат жинағымен бастадық. Эдвин синтездеуді анонимизациямен салыстыру үшін бұл деректер жинағы синтезделді және анонимді болды. Содан кейін Эдвин SAS Viya көмегімен модельдеуді бастады. Ол классикалық регрессия әдістері мен шешім ағаштарын, сонымен қатар нейрондық желілер, градиентті күшейту, кездейсоқ орман сияқты күрделірек әдістерді қолдана отырып, бастапқы деректер жиынында бірнеше резеңке модельдер құрастырды. Үлгілерді жасау кезінде стандартты SAS Viya опцияларын пайдалану.

Содан кейін нәтижелерді қарастыратын кез келді. Нәтижелер анонимизация үшін емес, синтетикалық деректер үшін өте перспективалы болды. Аудиториядағы бірде-бір машинаны оқымайтын сарапшылар үшін үлгінің дәлдігі туралы бірдеңе айтатын ROC-қисығының астындағы аумақты қарастырамыз. Түпнұсқа деректерді анонимді деректермен салыстыру, біз бастапқы деректер үлгісінің ROC-қисығы астындағы ауданы бар екенін көреміз .8, бұл өте жақсы, Дегенмен, анонимді деректерде .6 ROC қисығы астындағы аумақ бар. Бұл анонимді үлгімен көптеген ақпаратты жоғалтатынымызды білдіреді, сондықтан сіз көп болжау мүмкіндігін жоғалтасыз.

Бірақ содан кейін синтетикалық деректер туралы не айтуға болады? Мұнда біз дәл солай жасадық, бірақ деректерді анонимизациялаудың орнына Syntho деректерді синтездеді. Енді біз бастапқы деректердің де, синтетикалық деректердің де ROC-қисығының астындағы ауданы .8 болатынын көреміз, бұл өте ұқсас. Өзгергіштікке байланысты дәл солай емес, бірақ өте ұқсас. Бұл дегеніміз, синтетикалық деректердің әлеуеті өте перспективалы - Эдвин бұған өте қуанышты.

күлген адамдар тобы

Деректер синтетикалық, бірақ біздің команда нақты!

Syntho компаниясына хабарласыңыз және біздің мамандардың бірі синтетикалық деректердің құндылығын зерттеу үшін сізбен жарық жылдамдығымен байланысады!