Եթե դուք անանունացնում եք ձեր տվյալները՝ նախքան տվյալների վերլուծության տվյալների փորձարկումն իրականացնելը, մի քանի գործոն կա.
Սինթետիկ տվյալները լուծում են այս բոլոր թերությունները և ավելին: Դիտեք ստորև բերված տեսանյութը, որպեսզի տեսնեք, որ SAS-ի (վերլուծության համաշխարհային շուկայի առաջատար) վերլուծական փորձագետը բացատրում է իր գնահատականը բնօրինակ տվյալների, անանուն տվյալների և Syntho-ի կողմից ստեղծված սինթետիկ տվյալների միջև որակի տարբերության վերաբերյալ:
Այս տեսանյութը նկարահանված է Syntho x SAS D[N]A սրճարանից՝ արհեստական ինտելեկտի ստեղծած սինթետիկ տվյալների մասին: Ամբողջական տեսանյութը գտե՛ք այստեղ։
Էդվին վան Ունենը սկզբնական տվյալների բազա ուղարկեց Syntho-ին, և մենք սինթեզեցինք տվյալների բազան: Բայց հարցը նաև հետևյալն էր. «Ի՞նչ կլինի, եթե սինթետիկ տվյալները համեմատենք անանուն տվյալների հետ»: Քանի որ դուք կորցնում եք շատ տեղեկատվություն անանուն տվյալների մեջ, դա տեղի կունենա՞ նաև տվյալների բազան սինթեզելիս: Մենք սկսել ենք հեռահաղորդակցության արդյունաբերության տվյալների բազայից՝ 56.000 տողերով և 128 սյունակներով ընկերության չեղարկման տեղեկատվության: Այս տվյալների բազան և՛ սինթեզված, և՛ անանունացված էր, որպեսզի Էդվինը կարողանար համեմատել սինթեզավորումը անանունացման հետ: Այնուհետև Էդվինը սկսեց մոդելավորել SAS Viya-ի միջոցով: Նա կառուցեց մի քանի շեղման մոդելներ սկզբնական տվյալների բազայի վրա՝ օգտագործելով դասական ռեգրեսիայի տեխնիկան և որոշումների ծառերը, բայց նաև ավելի բարդ տեխնիկա, ինչպիսիք են նեյրոնային ցանցերը, գրադիենտի ուժեղացումը, պատահական անտառը՝ այս տեսակի տեխնիկան: Օգտագործելով ստանդարտ SAS Viya տարբերակները մոդելները կառուցելիս:
Հետո, ժամանակն էր նայելու արդյունքները: Արդյունքները շատ խոստումնալից էին սինթետիկ տվյալների և ոչ անանունացման համար: Լսարանի ոչ մեքենայական ուսուցման մասնագետների համար մենք նայում ենք ROC-կորի տակ գտնվող տարածքին, որը ինչ-որ բան է պատմում մոդելի ճշգրտության մասին: Համեմատելով սկզբնական տվյալները անանուն տվյալների հետ՝ մենք տեսնում ենք, որ սկզբնական տվյալների մոդելը ունի ROC-կորի .8 տարածք, ինչը բավականին լավ է, սակայն անանունացված տվյալները ROC-կորի տակ ունեն .6 տարածք: Սա նշանակում է, որ մենք կորցնում ենք շատ տեղեկատվություն անանուն մոդելի հետ, այնպես որ դուք կորցնում եք շատ կանխատեսող ուժ:
Բայց հետո հարցն այն է, ինչ վերաբերում է սինթետիկ տվյալներին: Այստեղ մենք արեցինք ճիշտ նույնը, բայց տվյալների անանունացման փոխարեն, Syntho-ն սինթեզեց տվյալները: Այժմ մենք տեսնում ենք, որ և՛ սկզբնական տվյալները, և՛ սինթետիկ տվյալները ունեն ROC կորի .8 տարածք, որը շատ նման է: Ոչ լրիվ նույնը փոփոխականության պատճառով, բայց շատ նման: Սա նշանակում է, որ սինթետիկ տվյալների ներուժը շատ խոստումնալից է. Էդվինը շատ ուրախ է դրա համար:
Կապվեք Syntho- ի հետ և մեր փորձագետներից մեկը լույսի արագությամբ կկապվի ձեզ հետ՝ ուսումնասիրելու սինթետիկ տվյալների արժեքը: