Անանուն տվյալներ ընդդեմ սինթետիկ տվյալների

Եթե ​​դուք անանունացնում եք ձեր տվյալները՝ նախքան տվյալների վերլուծության տվյալների փորձարկումն իրականացնելը, մի քանի գործոն կա.

  1. Գրեթե բոլոր դեպքերում անանուն տվյալները դեռևս կարող են հետագծվել դեպի անհատներ՝ հատուկ և եզակի տողերի պատճառով (օրինակ՝ բժշկական գրառումներ)
  2. Որքան շատ եք անանունացնում կամ ընդհանրացնում, այնքան ավելի շատ տվյալներ եք ոչնչացնում: Սա նվազեցնում է ձեր տվյալների որակը և, հետևաբար, ձեր պատկերացումները
  3. Անանունացումը տարբեր կերպ է աշխատում տվյալների տարբեր ձևաչափերի համար: Սա նշանակում է, որ այն մասշտաբային չէ և կարող է շատ ժամանակատար լինել

Սինթետիկ տվյալները լուծում են այս բոլոր թերությունները և ավելին: Դիտեք ստորև բերված տեսանյութը, որպեսզի տեսնեք, որ SAS-ի (վերլուծության համաշխարհային շուկայի առաջատար) վերլուծական փորձագետը բացատրում է իր գնահատականը բնօրինակ տվյալների, անանուն տվյալների և Syntho-ի կողմից ստեղծված սինթետիկ տվյալների միջև որակի տարբերության վերաբերյալ:

Այս տեսանյութը նկարահանված է Syntho x SAS D[N]A սրճարանից՝ արհեստական ​​ինտելեկտի ստեղծած սինթետիկ տվյալների մասին: Ամբողջական տեսանյութը գտե՛ք այստեղ։

Էդվին վան Ունենը սկզբնական տվյալների բազա ուղարկեց Syntho-ին, և մենք սինթեզեցինք տվյալների բազան: Բայց հարցը նաև հետևյալն էր. «Ի՞նչ կլինի, եթե սինթետիկ տվյալները համեմատենք անանուն տվյալների հետ»: Քանի որ դուք կորցնում եք շատ տեղեկատվություն անանուն տվյալների մեջ, դա տեղի կունենա՞ նաև տվյալների բազան սինթեզելիս: Մենք սկսել ենք հեռահաղորդակցության արդյունաբերության տվյալների բազայից՝ 56.000 տողերով և 128 սյունակներով ընկերության չեղարկման տեղեկատվության: Այս տվյալների բազան և՛ սինթեզված, և՛ անանունացված էր, որպեսզի Էդվինը կարողանար համեմատել սինթեզավորումը անանունացման հետ: Այնուհետև Էդվինը սկսեց մոդելավորել SAS Viya-ի միջոցով: Նա կառուցեց մի քանի շեղման մոդելներ սկզբնական տվյալների բազայի վրա՝ օգտագործելով դասական ռեգրեսիայի տեխնիկան և որոշումների ծառերը, բայց նաև ավելի բարդ տեխնիկա, ինչպիսիք են նեյրոնային ցանցերը, գրադիենտի ուժեղացումը, պատահական անտառը՝ այս տեսակի տեխնիկան: Օգտագործելով ստանդարտ SAS Viya տարբերակները մոդելները կառուցելիս:

Հետո, ժամանակն էր նայելու արդյունքները: Արդյունքները շատ խոստումնալից էին սինթետիկ տվյալների և ոչ անանունացման համար: Լսարանի ոչ մեքենայական ուսուցման մասնագետների համար մենք նայում ենք ROC-կորի տակ գտնվող տարածքին, որը ինչ-որ բան է պատմում մոդելի ճշգրտության մասին: Համեմատելով սկզբնական տվյալները անանուն տվյալների հետ՝ մենք տեսնում ենք, որ սկզբնական տվյալների մոդելը ունի ROC-կորի .8 տարածք, ինչը բավականին լավ է, սակայն անանունացված տվյալները ROC-կորի տակ ունեն .6 տարածք: Սա նշանակում է, որ մենք կորցնում ենք շատ տեղեկատվություն անանուն մոդելի հետ, այնպես որ դուք կորցնում եք շատ կանխատեսող ուժ:

Բայց հետո հարցն այն է, ինչ վերաբերում է սինթետիկ տվյալներին: Այստեղ մենք արեցինք ճիշտ նույնը, բայց տվյալների անանունացման փոխարեն, Syntho-ն սինթեզեց տվյալները: Այժմ մենք տեսնում ենք, որ և՛ սկզբնական տվյալները, և՛ սինթետիկ տվյալները ունեն ROC կորի .8 տարածք, որը շատ նման է: Ոչ լրիվ նույնը փոփոխականության պատճառով, բայց շատ նման: Սա նշանակում է, որ սինթետիկ տվյալների ներուժը շատ խոստումնալից է. Էդվինը շատ ուրախ է դրա համար:

ժպտացող մարդկանց խումբ

Տվյալները սինթետիկ են, բայց մեր թիմն իրական է:

Կապվեք Syntho- ի հետ և մեր փորձագետներից մեկը լույսի արագությամբ կկապվի ձեզ հետ՝ ուսումնասիրելու սինթետիկ տվյալների արժեքը: