Անանուն տվյալներ ընդդեմ սինթետիկ տվյալների

Եթե դուք անանունացնում եք ձեր տվյալները՝ նախքան տվյալների վերլուծության տվյալների փորձարկումն իրականացնելը, մի քանի գործոն կա.

Գրեթե բոլոր դեպքերում անանուն տվյալները դեռևս կարող են հետագծվել դեպի անհատներ՝ հատուկ և եզակի տողերի պատճառով (օրինակ՝ բժշկական գրառումներ)
Որքան շատ եք անանունացնում կամ ընդհանրացնում, այնքան ավելի շատ տվյալներ եք ոչնչացնում: Սա նվազեցնում է ձեր տվյալների որակը և, հետևաբար, ձեր պատկերացումները
Անանունացումը տարբեր կերպ է աշխատում տվյալների տարբեր ձևաչափերի համար: Սա նշանակում է, որ այն մասշտաբային չէ և կարող է շատ ժամանակատար լինել

Սինթետիկ տվյալները լուծում են այս բոլոր թերությունները և ավելին: Դիտեք ստորև բերված տեսանյութը, որպեսզի տեսնեք, որ SAS-ի (վերլուծության համաշխարհային շուկայի առաջատար) վերլուծական փորձագետը բացատրում է իր գնահատականը բնօրինակ տվյալների, անանուն տվյալների և Syntho-ի կողմից ստեղծված սինթետիկ տվյալների միջև որակի տարբերության վերաբերյալ:

Այս տեսանյութը նկարահանված է Syntho x SAS D[N]A սրճարանից՝ արհեստական ինտելեկտի ստեղծած սինթետիկ տվյալների մասին: Ամբողջական տեսանյութը գտե՛ք այստեղ։

Էդվին վան Ունենը սկզբնական տվյալների բազա ուղարկեց Syntho-ին, և մենք սինթեզեցինք տվյալների բազան: Բայց հարցը նաև հետևյալն էր. «Ի՞նչ կլինի, եթե սինթետիկ տվյալները համեմատենք անանուն տվյալների հետ»: Քանի որ դուք կորցնում եք շատ տեղեկատվություն անանուն տվյալների մեջ, դա տեղի կունենա՞ նաև տվյալների բազան սինթեզելիս: Մենք սկսել ենք հեռահաղորդակցության արդյունաբերության տվյալների բազայից՝ 56.000 տողերով և 128 սյունակներով ընկերության չեղարկման տեղեկատվության: Այս տվյալների բազան և՛ սինթեզված, և՛ անանունացված էր, որպեսզի Էդվինը կարողանար համեմատել սինթեզավորումը անանունացման հետ: Այնուհետև Էդվինը սկսեց մոդելավորել SAS Viya-ի միջոցով: Նա կառուցեց մի քանի շեղման մոդելներ սկզբնական տվյալների բազայի վրա՝ օգտագործելով դասական ռեգրեսիայի տեխնիկան և որոշումների ծառերը, բայց նաև ավելի բարդ տեխնիկա, ինչպիսիք են նեյրոնային ցանցերը, գրադիենտի ուժեղացումը, պատահական անտառը՝ այս տեսակի տեխնիկան: Օգտագործելով ստանդարտ SAS Viya տարբերակները մոդելները կառուցելիս:

Հետո, ժամանակն էր նայելու արդյունքները: Արդյունքները շատ խոստումնալից էին սինթետիկ տվյալների և ոչ անանունացման համար: Լսարանի ոչ մեքենայական ուսուցման մասնագետների համար մենք նայում ենք ROC-կորի տակ գտնվող տարածքին, որը ինչ-որ բան է պատմում մոդելի ճշգրտության մասին: Համեմատելով սկզբնական տվյալները անանուն տվյալների հետ՝ մենք տեսնում ենք, որ սկզբնական տվյալների մոդելը ունի ROC-կորի .8 տարածք, ինչը բավականին լավ է, սակայն անանունացված տվյալները ROC-կորի տակ ունեն .6 տարածք: Սա նշանակում է, որ մենք կորցնում ենք շատ տեղեկատվություն անանուն մոդելի հետ, այնպես որ դուք կորցնում եք շատ կանխատեսող ուժ:

Բայց հետո հարցն այն է, ինչ վերաբերում է սինթետիկ տվյալներին: Այստեղ մենք արեցինք ճիշտ նույնը, բայց տվյալների անանունացման փոխարեն, Syntho-ն սինթեզեց տվյալները: Այժմ մենք տեսնում ենք, որ և՛ սկզբնական տվյալները, և՛ սինթետիկ տվյալները ունեն ROC կորի .8 տարածք, որը շատ նման է: Ոչ լրիվ նույնը փոփոխականության պատճառով, բայց շատ նման: Սա նշանակում է, որ սինթետիկ տվյալների ներուժը շատ խոստումնալից է. Էդվինը շատ ուրախ է դրա համար:

Տվյալները սինթետիկ են, բայց մեր թիմն իրական է:

Կապվեք Syntho- ի հետ և մեր փորձագետներից մեկը լույսի արագությամբ կկապվի ձեզ հետ՝ ուսումնասիրելու սինթետիկ տվյալների արժեքը:

Ի՞նչ է սինթետիկ տվյալները:

Որակի ապահովման հաշվետվություն

Արտաքին գնահատում SAS-ի կողմից

Ժամանակային շարքի սինթետիկ տվյալներ

PII սկաներ

Սինթետիկ ծաղրական տվյալներ

Հետևողական քարտեզագրում

Ապանույնականացում և սինթեզավորում

Կանոնների վրա հիմնված սինթետիկ տվյալներ

Ենթակարգավորում

Տեղակայում և ինտեգրում

Միակցիչներ

Ընդլայնված հնարավորություններ

Աջակցվող տվյալներ

Օգտագործողի փաստաթղթերը

Դասացուցակ ցուցադրում

գնագոյացում

Սինթետիկ տվյալները `որպես փորձարկման տվյալներ

Սինթետիկ տվյալներ վերլուծության համար

Սինթետիկ տվյալներ տվյալների փոխանակման համար

Սինթետիկ տվյալներ արտադրանքի ցուցադրման համար

Առողջապահություն

Ֆինանսավորել

Հասարակական կազմակերպություններ

Օգտագործողի փաստաթղթերը

Սպիտակ թղթեր և ուղեցույցներ

Բլոգ

Webinars

Նյութեր

գնագոյացում

Մեր մասին

Աշխատանք

Անանուն տվյալներ ընդդեմ սինթետիկ տվյալների

Տվյալները սինթետիկ են, բայց մեր թիմն իրական է:

Ինչ ենք մենք անում

Ընկերության մասին

ռեսուրսներ

Syntho տեղեկագիր

Հիմնական մենյու