Մեր սինթետիկ տվյալների արտաքին գնահատումը SAS-ի տվյալների փորձագետների կողմից

Մեր սինթետիկ տվյալներն են գնահատված և հաստատել տվյալների փորձագետների կողմից SAS

SAS-ի տվյալների փորձագետների կողմից մեր սինթետիկ տվյալների արտաքին գնահատման ներածություն

Ի՞նչ արեցինք։

Syntho-ի կողմից ստեղծված սինթետիկ տվյալները գնահատվում, վավերացվում և հաստատվում են արտաքին և օբյեկտիվ տեսանկյունից SAS-ի տվյալների փորձագետների կողմից:

Ինչու՞ են մեր սինթետիկ տվյալները արտաքինից գնահատվում SAS-ի տվյալների փորձագետների կողմից:

Թեև Syntho-ն հպարտ է իր օգտատերերին առաջարկել որակի ապահովման առաջադեմ զեկույց, մենք նաև հասկանում ենք ոլորտի առաջատարներից մեր սինթետիկ տվյալների արտաքին և օբյեկտիվ գնահատման կարևորությունը: Այդ իսկ պատճառով մենք համագործակցում ենք SAS-ի հետ, որը հանդիսանում է վերլուծության առաջատարը՝ գնահատելու մեր սինթետիկ տվյալները:

SAS-ն իրականացնում է տարբեր մանրակրկիտ գնահատումներ՝ տվյալների ճշգրտության, գաղտնիության պաշտպանության և Syntho-ի AI-ի կողմից ստեղծված սինթետիկ տվյալների օգտագործման վերաբերյալ՝ սկզբնական տվյալների համեմատ: Որպես եզրակացություն, SAS-ը գնահատեց և հաստատեց Syntho-ի սինթետիկ տվյալները որպես ճշգրիտ, անվտանգ և օգտագործելի սկզբնական տվյալների համեմատ:

Ի՞նչ է արել SAS-ն այս գնահատման ընթացքում։

Որպես թիրախային տվյալներ, մենք օգտագործել ենք հեռահաղորդակցության տվյալները, որոնք օգտագործվում են «խափանման» կանխատեսման համար: Գնահատման նպատակն էր օգտագործել սինթետիկ տվյալներ՝ թրթռման կանխատեսման տարբեր մոդելներ պատրաստելու և յուրաքանչյուր մոդելի կատարողականությունը գնահատելու համար: Քանի որ խափանումների կանխատեսումը դասակարգման խնդիր է, SAS-ն ընտրեց դասակարգման հանրաճանաչ մոդելներ՝ կանխատեսումներ կատարելու համար, այդ թվում՝

Պատահական անտառ
Գրադիենտի բարձրացում
Լոգիստիկ ռեգրեսիա
Նյարդային ցանց

Նախքան սինթետիկ տվյալներ ստեղծելը, SAS-ը պատահականորեն բաժանում է հեռահաղորդակցության տվյալների բազան գնացքների հավաքածուի (մոդելները վարժեցնելու համար) և պահվող հավաքածուի (մոդելները գնահատելու համար): Գնահատման համար առանձին պահվող հավաքածու ունենալը թույլ է տալիս անկողմնակալ գնահատել, թե դասակարգման մոդելը որքան լավ կարող է գործել, երբ կիրառվի նոր տվյալների վրա:

Օգտագործելով գնացքի հավաքածուն որպես մուտքագրում՝ Syntho-ն օգտագործեց իր Syntho Engine-ը՝ սինթետիկ տվյալների բազա ստեղծելու համար: Հենանիշավորման համար SAS-ը նաև ստեղծեց գնացքների հավաքածուի անանուն տարբերակը՝ անանունացման տարբեր մեթոդներ կիրառելուց հետո՝ որոշակի շեմի (k-անանունության) հասնելու համար: Նախկին քայլերը հանգեցրին չորս տվյալների հավաքածուի.

Գնացքի տվյալների շտեմարան (այսինքն սկզբնական տվյալների բազան հանած պահվող տվյալների բազան)
Պահպանվող տվյալների բազա (այսինքն սկզբնական տվյալների բազայի ենթաբազմություն)
Անանուն տվյալների բազա (գնացքի տվյալների բազայի անանուն տվյալներ, սկզբնական տվյալների բազա՝ հանած պահվող տվյալների բազան)
Սինթետիկ տվյալների բազա (գնացքի տվյալների սինթեզված տվյալներ, սկզբնական տվյալների բազա՝ հանած պահվող տվյալների բազան)

1, 3 և 4 տվյալների հավաքածուները օգտագործվել են դասակարգման յուրաքանչյուր մոդելի վերապատրաստման համար, որի արդյունքում ստացվել են 12 (3 x 4) պատրաստված մոդելներ: SAS-ն այնուհետև օգտագործեց պահվող տվյալների բազան՝ յուրաքանչյուր մոդելի ճշգրտությունը հաճախորդի անկման կանխատեսման համար չափելու համար:

Արդյոք դուք ունեք որեւէ հարց.

Խոսեք մեր փորձագետներից մեկի հետ

Հետադարձ կապ

SAS-ի կողմից տվյալների գնահատման նախնական արդյունքները

Սինթետիկ տվյալների վրա ուսուցանված մոդելները շատ նման են սկզբնական տվյալների վրա պատրաստված մոդելներին

Syntho-ի սինթետիկ տվյալները վերաբերում են ոչ միայն հիմնական օրինաչափություններին, այն նաև ընդգրկում է խորը «թաքնված» վիճակագրական օրինաչափություններ, որոնք անհրաժեշտ են առաջադեմ վերլուծական առաջադրանքների համար: Վերջինս ցուցադրված է գծապատկերում, ցույց տալով, որ սինթետիկ տվյալների վրա պատրաստված մոդելների ճշգրտությունը և սկզբնական տվյալների վրա պատրաստված մոդելները նման են: Այսպիսով, սինթետիկ տվյալները կարող են օգտագործվել մոդելների իրական վերապատրաստման համար: Սինթետիկ տվյալների վերաբերյալ ալգորիթմների կողմից ընտրված մուտքերը և փոփոխական նշանակությունը սկզբնական տվյալների համեմատ շատ նման էին: Այսպիսով, եզրակացվում է, որ մոդելավորման գործընթացը կարող է իրականացվել սինթետիկ տվյալների վրա՝ որպես իրական զգայուն տվյալների օգտագործման այլընտրանք:

Ինչո՞ւ են անանուն տվյալների վրա մարզված մոդելներն ավելի վատ միավորներ ստանում:

Դասական անանունացման տեխնիկան ընդհանուր է այն, որ նրանք շահարկում են բնօրինակ տվյալները՝ անհատներին հետախուզելու համար խոչընդոտելու համար: Նրանք շահարկում են տվյալները և դրանով իսկ ոչնչացնում տվյալները գործընթացում: Որքան շատ եք անանունացնում, այնքան ավելի լավ է ձեր տվյալները պաշտպանված, բայց նաև այնքան ավելի շատ են ձեր տվյալները ոչնչացվում: Սա հատկապես կործանարար է AI-ի և մոդելավորման առաջադրանքների համար, որտեղ «կանխատեսող ուժը» կարևոր է, քանի որ վատ որակի տվյալները կհանգեցնեն վատ պատկերացումների AI մոդելից: SAS-ը ցույց տվեց դա՝ կորի տակ գտնվող տարածքով (AUC*) մոտ 0.5-ին, ցույց տալով, որ անանուն տվյալների վրա ուսուցանված մոդելները շատ վատն են գործում:

SAS-ի կողմից սինթետիկ տվյալների գնահատման լրացուցիչ արդյունքներ

Փոփոխականների միջև փոխկապակցվածությունն ու հարաբերությունները ճշգրտորեն պահպանվել են սինթետիկ տվյալների մեջ:

Կորի տակ գտնվող տարածքը (AUC), մոդելի կատարողականությունը չափելու չափիչ, մնաց հետևողական:

Ավելին, փոփոխականի կարևորությունը, որը ցույց էր տալիս մոդելի փոփոխականների կանխատեսող ուժը, մնաց անփոփոխ՝ սինթետիկ տվյալները սկզբնական տվյալների հետ համեմատելիս:

Ելնելով SAS-ի այս դիտարկումներից և օգտագործելով SAS Viya-ն, մենք կարող ենք վստահորեն եզրակացնել, որ Syntho Engine-ի կողմից գեներացված սինթետիկ տվյալները որակի առումով իսկապես համընկնում են իրական տվյալների հետ: Սա հաստատում է սինթետիկ տվյալների օգտագործումը մոդելի մշակման համար՝ ճանապարհ հարթելով սինթետիկ տվյալների հետ առաջադեմ վերլուծությունների համար:

SAS-ի տվյալների փորձագետների եզրակացությունները

Սինթետիկ տվյալների վրա պատրաստված մոդելները, համեմատած սկզբնական տվյալների վրա պատրաստված մոդելների հետ, ցույց են տալիս շատ նման արդյունավետություն
Անանուն տվյալների վրա պատրաստված մոդելները «դասական անանունացման տեխնիկայով» ցույց են տալիս ավելի ցածր արդյունավետություն՝ համեմատած սկզբնական տվյալների կամ սինթետիկ տվյալների վրա պատրաստված մոդելների հետ։
Սինթետիկ տվյալների ստեղծումը հեշտ և արագ է, քանի որ տեխնիկան աշխատում է միանգամայն նույնը յուրաքանչյուր տվյալների տիպի և տվյալների տեսակի համար

Մեր սինթետիկ տվյալներն են հաստատել SAS-ի տվյալների փորձագետների կողմից

Կարդացեք հոդվածը

Տեղեկատվական հոդվածներ

SAS-ի տվյալների փորձագետների գնահատականը. https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

SAS գլոբալ հաքաթոնի Syntho հաղթող. https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Առողջապահության դեպքի ուսումնասիրության արդյունքները. https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Պահպանեք ձեր սինթետիկ տվյալների ուղեցույցը հիմա:

Ի՞նչ է սինթետիկ տվյալները:
Ինչու՞ են կազմակերպությունները օգտագործում այն:
Արժեքի ավելացման սինթետիկ տվյալների հաճախորդի դեպքեր
Ինչպե՞ս սկսել

Ի՞նչ է սինթետիկ տվյալները:

Որակի ապահովման հաշվետվություն

Արտաքին գնահատում SAS-ի կողմից

Ժամանակային շարքի սինթետիկ տվյալներ

PII սկաներ

Սինթետիկ ծաղրական տվյալներ

Հետևողական քարտեզագրում

Ապանույնականացում և սինթեզավորում

Կանոնների վրա հիմնված սինթետիկ տվյալներ

Ենթակարգավորում

Տեղակայում և ինտեգրում

Միակցիչներ

Ընդլայնված հնարավորություններ

Աջակցվող տվյալներ

Օգտագործողի փաստաթղթերը

Դասացուցակ ցուցադրում

գնագոյացում

Թեստի տվյալներ

Վերլուծություն

Տվյալների փոխանակում

Ապրանքի ցուցադրություն

Տվյալների դրամայնացում

Առողջապահություն

Ֆինանսավորել

Հասարակական կազմակերպություններ

Օգտագործողի փաստաթղթերը

Սպիտակ թղթեր և ուղեցույցներ

Բլոգ

Webinars

Նյութեր

գնագոյացում

Մեր մասին

Աշխատանք

Մեր սինթետիկ տվյալների արտաքին գնահատումը SAS-ի տվյալների փորձագետների կողմից

Մեր սինթետիկ տվյալներն են գնահատված և հաստատել տվյալների փորձագետների կողմից SAS

SAS-ի տվյալների փորձագետների կողմից մեր սինթետիկ տվյալների արտաքին գնահատման ներածություն

Ի՞նչ արեցինք։

Ինչու՞ են մեր սինթետիկ տվյալները արտաքինից գնահատվում SAS-ի տվյալների փորձագետների կողմից:

Ի՞նչ է արել SAS-ն այս գնահատման ընթացքում։

Արդյոք դուք ունեք որեւէ հարց.

Խոսեք մեր փորձագետներից մեկի հետ

SAS-ի կողմից տվյալների գնահատման նախնական արդյունքները

Սինթետիկ տվյալների վրա ուսուցանված մոդելները շատ նման են սկզբնական տվյալների վրա պատրաստված մոդելներին

Ինչո՞ւ են անանուն տվյալների վրա մարզված մոդելներն ավելի վատ միավորներ ստանում:

SAS-ի կողմից սինթետիկ տվյալների գնահատման լրացուցիչ արդյունքներ

SAS-ի կողմից սինթետիկ տվյալների գնահատման լրացուցիչ արդյունքներ

SAS-ի տվյալների փորձագետների եզրակացությունները

Մեր սինթետիկ տվյալներն են հաստատել SAS-ի տվյալների փորձագետների կողմից

Տեղեկատվական հոդվածներ

Պահպանեք ձեր սինթետիկ տվյալների ուղեցույցը հիմա:

Հիմնական մենյու

Պահպանեք ձեր սինթետիկ տվյալների ուղեցույցը հիմա: