FAQ

Հաճախակի տրվող հարցեր սինթետիկ տվյալների վերաբերյալ

Հասկանալի՜ Բարեբախտաբար, մենք ունենք պատասխանները, և մենք այստեղ ենք օգնելու համար: Ստուգեք մեր հաճախ տրվող հարցերը:

Խնդրում ենք բացել ներքևում գտնվող հարցը և սեղմել հղումները՝ լրացուցիչ տեղեկություններ գտնելու համար: Ունե՞ք ավելի բարդ հարց, որն այստեղ նշված չէ: Հարցրեք մեր փորձագետներին ուղղակիորեն:

Ամենաշատ տրվող հարցերը

Սինթետիկ տվյալները վերաբերում են այն տվյալներին, որոնք արհեստականորեն ստեղծվում են, այլ ոչ թե հավաքվում են իրական աշխարհի աղբյուրներից: Ընդհանրապես, մինչդեռ բնօրինակ տվյալները հավաքագրվում են մարդկանց (հաճախորդներ, հիվանդներ և այլն) հետ ձեր բոլոր փոխազդեցությունների ժամանակ և ձեր բոլոր ներքին գործընթացների միջոցով, սինթետիկ տվյալները ստեղծվում են համակարգչային ալգորիթմի միջոցով:

Սինթետիկ տվյալները կարող են օգտագործվել նաև վերահսկվող միջավայրում մոդելները փորձարկելու և գնահատելու համար կամ զգայուն տեղեկատվությունը պաշտպանելու համար՝ ստեղծելով տվյալներ, որոնք նման են իրական աշխարհի տվյալներին, բայց չեն պարունակում որևէ զգայուն տեղեկատվություն: Սինթետիկ տվյալները հաճախ օգտագործվում են որպես այլընտրանքային գաղտնիության զգայուն տվյալների համար և կարող են օգտագործվել որպես թեստային տվյալներ, վերլուծություններ կամ մեքենայական ուսուցում վարժեցնելու համար:

Կարդալ ավելին

Երաշխավորումը, որ սինթետիկ տվյալները ունեն տվյալների նույն որակը, ինչ սկզբնական տվյալները, կարող է դժվար լինել և հաճախ կախված է կոնկրետ օգտագործման դեպքից և սինթետիկ տվյալների ստեղծման համար օգտագործվող մեթոդներից: Սինթետիկ տվյալների ստեղծման որոշ մեթոդներ, ինչպիսիք են գեներատիվ մոդելները, կարող են արտադրել տվյալներ, որոնք շատ նման են սկզբնական տվյալներին: Հիմնական հարց. ինչպե՞ս դա ցույց տալ:

Սինթետիկ տվյալների որակն ապահովելու մի քանի եղանակ կա.

  • Տվյալների որակի չափումներ՝ մեր տվյալների որակի հաշվետվության միջոցովՍինթետիկ տվյալների նույն որակը, ինչ բնօրինակը, համոզվելու եղանակներից մեկն է՝ օգտագործել տվյալների որակի չափումներ՝ սինթետիկ տվյալները սկզբնական տվյալների հետ համեմատելու համար: Այս չափումները կարող են օգտագործվել տվյալների նմանությունը, ճշգրտությունը և ամբողջականությունը չափելու համար: Syntho ծրագրաշարը ներառում էր տվյալների որակի հաշվետվություն՝ տվյալների որակի տարբեր չափորոշիչներով.
  • Արտաքին գնահատումՔանի որ սինթետիկ տվյալների տվյալների որակը, համեմատած սկզբնական տվյալների հետ, առանցքային է, մենք վերջերս գնահատում արեցինք SAS-ի (վերլուծական շուկայի առաջատարը) տվյալների փորձագետների հետ՝ ցույց տալու Syntho-ի կողմից սինթետիկ տվյալների որակը իրական տվյալների համեմատ: SAS-ի վերլուծական փորձագետ Էդվին վան Ունենը գնահատել է Syntho-ից ստեղծված սինթետիկ տվյալների հավաքածուները տարբեր վերլուծական (AI) գնահատումների միջոցով և կիսվել արդյունքներով: Դիտեք այդ տեսանյութի կարճ ամփոփումը այստեղ.
  • Փորձարկում և գնահատում ինքներդՍինթետիկ տվյալները կարող են փորձարկվել և գնահատվել՝ համեմատելով դրանք իրական աշխարհի տվյալների հետ կամ օգտագործելով դրանք մեքենայական ուսուցման մոդելներ վարժեցնելու և դրանց կատարողականությունը համեմատելով իրական աշխարհի տվյալների վրա պատրաստված մոդելների հետ: Ինչու՞ ինքնուրույն չստուգել սինթետիկ տվյալների տվյալների որակը: Հարցրեք մեր փորձագետներին դրա հնարավորությունների համար այստեղ

Կարևոր է նշել, որ սինթետիկ տվյալները երբեք չեն կարող երաշխավորել, որ դրանք 100% նման են սկզբնական տվյալներին, բայց դրանք կարող են բավական մոտ լինել, որպեսզի օգտակար լինեն կոնկրետ օգտագործման դեպքում: Այս հատուկ օգտագործման դեպքը կարող է նույնիսկ լինել առաջադեմ վերլուծություն կամ մեքենայական ուսուցման մոդելներ:

Դասական «անանունացումը» միշտ չէ, որ լավագույն լուծումն է, քանի որ.

  1. Գաղտնիության ռիսկ - դուք միշտ կունենաք
    գաղտնիության ռիսկ: Կիրառելով դրանք
    դասական անանունացման տեխնիկա
    միայն դժվարացնում է, բայց ոչ
    անհնար է բացահայտել անձանց.
  2. Տվյալների ոչնչացում - այնքան շատ ես
    անանունացնել, այնքան ավելի լավ եք պաշտպանում
    ձեր գաղտնիությունը, բայց ավելի շատ դուք
    ոչնչացնել ձեր տվյալները. Սա այն չէ
    դուք ցանկանում եք վերլուծության համար, քանի որ
    ոչնչացված տվյալները կհանգեցնեն վատ
    պատկերացումներ։
  3. Ժամանակատար - դա լուծում է
    դա շատ ժամանակ է պահանջում, քանի որ
    այդ տեխնիկան տարբեր կերպ է աշխատում
    ըստ տվյալների բազայի և տվյալների տեսակի:

Սինթետիկ տվյալները նպատակ ունեն լուծել այս բոլոր թերությունները: Տարբերությունն այնքան ապշեցուցիչ է, որ մենք դրա մասին տեսանյութ ենք պատրաստել։ Դիտեք այստեղ.

Հաճախակի տրվող հարցեր

Սինթետիկ տվյալներ

Ընդհանուր առմամբ, մեր հաճախորդների մեծ մասն օգտագործում է սինթետիկ տվյալներ հետևյալի համար.

  • Ծրագրային ապահովման փորձարկում և մշակում
  • Սինթետիկ տվյալներ վերլուծության, մոդելների մշակման և առաջադեմ վերլուծության համար (AI & ML)
  • Արտադրանքի ցուցադրում

Կարդացեք ավելին և ուսումնասիրեք օգտագործման դեպքերը.

Սինթետիկ տվյալների երկվորյակը իրական աշխարհի տվյալների բազայի և/կամ տվյալների բազայի ալգորիթմի կողմից ստեղծված կրկնօրինակն է: Synthetic Data Twin-ի միջոցով Syntho-ն նպատակ ունի ընդօրինակել բնօրինակ տվյալների բազան կամ տվյալների բազան հնարավորինս մոտ սկզբնական տվյալներին՝ բնօրինակի իրատեսական ներկայացում ստեղծելու համար: Սինթետիկ տվյալների երկվորյակով մենք նպատակ ունենք սինթետիկ տվյալների գերազանց որակ՝ համեմատած սկզբնական տվյալների հետ: Մենք դա անում ենք մեր սինթետիկ տվյալների ծրագրաշարի միջոցով, որն օգտագործում է ժամանակակից AI մոդելներ: Այդ AI մոդելները ստեղծում են բոլորովին նոր տվյալների կետեր և մոդելավորում դրանք այնպես, որ մենք պահպանում ենք բնօրինակ տվյալների բնութագրերը, հարաբերությունները և վիճակագրական օրինաչափությունները այնքանով, որ դուք կարող եք դրանք օգտագործել, կարծես դրանք բնօրինակ տվյալներ են:

Սա կարող է օգտագործվել տարբեր նպատակներով, ինչպիսիք են մեքենայական ուսուցման մոդելների փորձարկումն ու ուսուցումը, հետազոտության և զարգացման սցենարների մոդելավորումը և վերապատրաստման և կրթության համար վիրտուալ միջավայրերի ստեղծումը: Սինթետիկ տվյալների երկվորյակները կարող են օգտագործվել իրատեսական և ներկայացուցչական տվյալներ ստեղծելու համար, որոնք կարող են օգտագործվել իրական աշխարհի տվյալների փոխարեն, երբ դրանք հասանելի չեն, կամ երբ իրական տվյալների օգտագործումը անիրագործելի կամ էթիկական կլինի տվյալների գաղտնիության խիստ կանոնակարգերի պատճառով:

Կարդալ ավելին.

Այո, մենք անում ենք: Մենք առաջարկում ենք արժեք ավելացնող սինթետիկ տվյալների օպտիմիզացման և ավելացման տարբեր գործառույթներ, ներառյալ ծաղրողներ, ձեր տվյալները հաջորդ մակարդակ բարձրացնելու համար:

Կարդալ ավելին.

Ծաղրական տվյալները և AI-ի կողմից ստեղծված սինթետիկ տվյալները երկուսն էլ սինթետիկ տվյալների տեսակներ են, բայց դրանք ստեղծվում են տարբեր ձևերով և ծառայում են տարբեր նպատակների:

Ծաղրական տվյալները սինթետիկ տվյալների տեսակ են, որոնք ստեղծվում են ձեռքով և հաճախ օգտագործվում են փորձարկման և զարգացման նպատակներով: Այն սովորաբար օգտագործվում է վերահսկվող միջավայրում իրական տվյալների վարքագիծը մոդելավորելու համար և հաճախ օգտագործվում է համակարգի կամ հավելվածի ֆունկցիոնալությունը ստուգելու համար: Այն հաճախ պարզ է, հեշտ է ստեղծել և չի պահանջում բարդ մոդելներ կամ ալգորիթմներ: Հաճախ մեկը նշում է նաև ծաղրական տվյալները որպես «կեղծ տվյալներ» կամ «կեղծ տվյալներ»:

Մյուս կողմից, արհեստական ​​ինտելեկտի կողմից ստեղծված սինթետիկ տվյալները ստեղծվում են արհեստական ​​ինտելեկտի տեխնիկայի միջոցով, ինչպիսիք են մեքենայական ուսուցումը կամ գեներատիվ մոդելները: Այն օգտագործվում է իրատեսական և ներկայացուցչական տվյալներ ստեղծելու համար, որոնք կարող են օգտագործվել իրական աշխարհի տվյալների փոխարեն, երբ իրական աշխարհի տվյալների օգտագործումը անիրագործելի կամ էթիկական կլինի գաղտնիության խիստ կանոնակարգերի պատճառով: Այն հաճախ ավելի բարդ է և պահանջում է ավելի շատ հաշվողական ռեսուրսներ, քան ձեռքով կեղծ տվյալները: Արդյունքում, այն շատ ավելի իրատեսական է և հնարավորինս մոտեցնում է սկզբնական տվյալները:

Ամփոփելով, կեղծ տվյալները ստեղծվում են ձեռքով և սովորաբար օգտագործվում են փորձարկման և մշակման համար, մինչդեռ AI-ի կողմից ստեղծված սինթետիկ տվյալները ստեղծվում են արհեստական ​​ինտելեկտի տեխնիկայի միջոցով և օգտագործվում են ներկայացուցչական և իրատեսական տվյալներ ստեղծելու համար:

Ավելի շատ հարցեր? Հարցրեք մեր փորձագետներին

Տվյալների որակը

Երաշխավորումը, որ սինթետիկ տվյալները ունեն տվյալների նույն որակը, ինչ սկզբնական տվյալները, կարող է դժվար լինել և հաճախ կախված է կոնկրետ օգտագործման դեպքից և սինթետիկ տվյալների ստեղծման համար օգտագործվող մեթոդներից: Սինթետիկ տվյալների ստեղծման որոշ մեթոդներ, ինչպիսիք են գեներատիվ մոդելները, կարող են արտադրել տվյալներ, որոնք շատ նման են սկզբնական տվյալներին: Հիմնական հարց. ինչպե՞ս դա ցույց տալ:

Սինթետիկ տվյալների որակն ապահովելու մի քանի եղանակ կա.

  • Տվյալների որակի չափումներ՝ մեր տվյալների որակի հաշվետվության միջոցովՍինթետիկ տվյալների նույն որակը, ինչ բնօրինակը, համոզվելու եղանակներից մեկն է՝ օգտագործել տվյալների որակի չափումներ՝ սինթետիկ տվյալները սկզբնական տվյալների հետ համեմատելու համար: Այս չափումները կարող են օգտագործվել տվյալների նմանությունը, ճշգրտությունը և ամբողջականությունը չափելու համար: Syntho ծրագրաշարը ներառում էր տվյալների որակի հաշվետվություն՝ տվյալների որակի տարբեր չափորոշիչներով.
  • Արտաքին գնահատումՔանի որ սինթետիկ տվյալների տվյալների որակը, համեմատած սկզբնական տվյալների հետ, առանցքային է, մենք վերջերս գնահատում արեցինք SAS-ի (վերլուծական շուկայի առաջատարը) տվյալների փորձագետների հետ՝ ցույց տալու Syntho-ի կողմից սինթետիկ տվյալների որակը իրական տվյալների համեմատ: SAS-ի վերլուծական փորձագետ Էդվին վան Ունենը գնահատել է Syntho-ից ստեղծված սինթետիկ տվյալների հավաքածուները տարբեր վերլուծական (AI) գնահատումների միջոցով և կիսվել արդյունքներով: Դիտեք այդ տեսանյութի կարճ ամփոփումը այստեղ.
  • Փորձարկում և գնահատում ինքներդՍինթետիկ տվյալները կարող են փորձարկվել և գնահատվել՝ համեմատելով դրանք իրական աշխարհի տվյալների հետ կամ օգտագործելով դրանք մեքենայական ուսուցման մոդելներ վարժեցնելու և դրանց կատարողականությունը համեմատելով իրական աշխարհի տվյալների վրա պատրաստված մոդելների հետ: Ինչու՞ ինքնուրույն չստուգել սինթետիկ տվյալների տվյալների որակը: Հարցրեք մեր փորձագետներին դրա հնարավորությունների համար այստեղ

Կարևոր է նշել, որ սինթետիկ տվյալները երբեք չեն կարող երաշխավորել, որ դրանք 100% նման են սկզբնական տվյալներին, բայց դրանք կարող են բավական մոտ լինել, որպեսզի օգտակար լինեն կոնկրետ օգտագործման դեպքում: Այս հատուկ օգտագործման դեպքը կարող է նույնիսկ լինել առաջադեմ վերլուծություն կամ մեքենայական ուսուցման մոդելներ:

Այո այդպես է. Սինթետիկ տվյալները նույնիսկ պարունակում են օրինաչափություններ, որոնց մասին դուք չգիտեիք, որ դրանք առկա են սկզբնական տվյալների մեջ:

Բայց մի՛ ընդունեք մեր խոսքը: SAS-ի (վերլուծության համաշխարհային շուկայի առաջատար) վերլուծական փորձագետները գնահատել են մեր սինթետիկ տվյալները և համեմատել դրանք սկզբնական տվյալների հետ: Հետաքրքրե՞ց: Դիտեք ամբողջ միջոցառումն այստեղ կամ դիտեք դրա մասին կարճ տարբերակը տվյալների որակն այստեղ.

Այո, մենք անում ենք: Մեր հարթակը օպտիմիզացված է տվյալների շտեմարանների և, հետևաբար, տվյալների բազայի տվյալների հավաքածուների միջև հղումային ամբողջականության պահպանման համար:

Հետաքրքրու՞մ եք ավելին իմանալ այս մասին:

Հարցրեք մեր փորձագետներին ուղղակիորեն.

Գաղտնիության

Ոչ, մենք չենք: Մենք կարող ենք հեշտությամբ տեղակայել Syntho Engine-ը տեղում կամ ձեր անձնական ամպում docker-ի միջոցով:

Ոչ: Մենք օպտիմիզացրել ենք մեր հարթակը այնպես, որ այն հեշտությամբ տեղակայվի հաճախորդի վստահելի միջավայրում: Սա ապահովում է, որ տվյալները երբեք չեն լքի հաճախորդի վստահելի միջավայրը: Հաճախորդի վստահելի միջավայրի տեղակայման տարբերակներն են «in-premise» և «հաճախորդի ամպային միջավայրում (մասնավոր ամպ)»:

Լրացուցիչ. Syntho-ն աջակցում է մի տարբերակ, որը տեղակայված է «Syntho cloud»-ում:

Ոչ: The Syntho Engine-ը ինքնասպասարկման հարթակ է: Արդյունքում, Syntho Engine-ով սինթետիկ տվյալներ ստեղծելը հնարավոր է այնպես, որ end-to-end գործընթացը, Syntho-ն երբեք չի կարողանում տեսնել և երբեք չի պահանջվում մշակել տվյալները:

Այո, մենք դա անում ենք մեր QA զեկույցի միջոցով:

 

Տվյալների հավաքածուն սինթեզելիս անհրաժեշտ է ցույց տալ, որ անհատն ի վիճակի չէ կրկին նույնականացնել անհատներին: Մեջ Տվյալ տեսահոլովակը, Marijn-ը ներկայացնում է գաղտնիության միջոցներ, որոնք առկա են մեր որակի զեկույցում՝ դա ցույց տալու համար:

Syntho-ի QA զեկույցը պարունակում է երեք արդյունաբերության ստանդարտ տվյալների գաղտնիության գնահատման չափումներ: Այս չափիչներից յուրաքանչյուրի հիմքում ընկած գաղափարը հետևյալն է.

  • Սինթետիկ տվյալներ (S) պետք է լինի «որքան հնարավոր է մոտ», բայց «ոչ շատ մոտ» թիրախային տվյալներին (T).
  • Պատահականորեն ընտրված պահվող տվյալները (H) որոշում է «չափազանց մոտ» չափանիշը:
  • A կատարյալ լուծում առաջացնում է նոր սինթետիկ տվյալներ, որոնք իրենց պահում են ճիշտ այնպես, ինչպես սկզբնական տվյալները, բայց նախկինում չեն տեսել (= H).

Օգտագործման դեպքերից մեկը, որը հատուկ ընդգծված է Նիդեռլանդների տվյալների պաշտպանության մարմնի կողմից, սինթետիկ տվյալների օգտագործումն է որպես թեստային տվյալներ:

Ավելին կարելի է գտնել այս հոդվածում:

Syntho շարժիչ

Syntho Engine-ը առաքվում է Docker կոնտեյներով և կարող է հեշտությամբ տեղակայվել և միացվել ձեր ընտրած միջավայրին:

Տեղակայման հնարավոր տարբերակները ներառում են.

  • Նախադրյալ
  • Ցանկացած (մասնավոր) ամպ
  • Ցանկացած այլ միջավայր

Կարդալ ավելին.

Syntho-ն թույլ է տալիս հեշտությամբ կապվել ձեր տվյալների բազաների, հավելվածների, տվյալների խողովակաշարերի կամ ֆայլային համակարգերի հետ: 

Մենք աջակցում ենք տարբեր ինտեգրված միակցիչների, որպեսզի կարողանաք կապվել աղբյուրի միջավայրի (որտեղ պահվում են սկզբնական տվյալները) և նպատակակետ միջավայրի հետ (որտեղ ցանկանում եք գրել ձեր սինթետիկ տվյալները) end-to-end ինտեգրված մոտեցում.

Կապի առանձնահատկությունները, որոնք մենք աջակցում ենք.

  • Միացրեք և խաղացեք Docker-ի հետ
  • 20+ տվյալների բազայի միակցիչներ
  • 20+ ֆայլային համակարգի միակցիչներ

Կարդալ ավելին.

Բնականաբար, ստեղծման ժամանակը կախված է տվյալների բազայի չափից: Միջին հաշվով 1 միլիոնից պակաս գրառում ունեցող աղյուսակը սինթեզվում է 5 րոպեից պակաս ժամանակում։

Syntho-ի մեքենայական ուսուցման ալգորիթմները կարող են ավելի լավ ընդհանրացնել առանձնահատկությունները ավելի շատ կազմակերպությունների գրառումներով, ինչը նվազեցնում է գաղտնիության ռիսկը: Խորհուրդ է տրվում նվազագույնը սյունակ-տող հարաբերակցությունը 1:500: Օրինակ, եթե ձեր աղբյուրի աղյուսակը ունի 6 սյունակ, այն պետք է պարունակի առնվազն 3000 տող:

Ընդհանրապես. Թեև սինթետիկ տվյալների առավելությունները, աշխատանքի և օգտագործման դեպքերը լիովին հասկանալու համար կարող է որոշակի ջանք պահանջվել, սինթեզման գործընթացը շատ պարզ է, և համակարգչային տարրական գիտելիքներ ունեցող յուրաքանչյուր ոք կարող է դա անել: Սինթեզի գործընթացի մասին լրացուցիչ տեղեկությունների համար ստուգեք Այս էջը or խնդրեք ցուցադրել.

Syntho Engine-ը լավագույնս աշխատում է կառուցվածքային, աղյուսակային տվյալների վրա (այն ամենն, ինչ պարունակում է տողեր և սյունակներ): Այս կառույցներում մենք աջակցում ենք տվյալների հետևյալ տեսակներին.

  • Կառուցում է աղյուսակներում ձևավորված տվյալները (կատեգորիա, թվային և այլն)
  • Ուղղակի նույնացուցիչներ և PII
  • Մեծ տվյալների հավաքածուներ և տվյալների բազաներ
  • Աշխարհագրական դիրքի տվյալներ (օրինակ՝ GPS)
  • Ժամանակային շարքի տվյալներ
  • Բազմասեղանի տվյալների բազաներ (հղման ամբողջականությամբ)
  • Բացեք տեքստային տվյալները

 

Տվյալների համալիր աջակցություն
Աղյուսակային տվյալների բոլոր սովորական տեսակների կողքին Syntho Engine-ն աջակցում է տվյալների բարդ տեսակներին և տվյալների բարդ կառուցվածքներին:

  • Ժամկետային շարքեր
  • Բազմասեղանի տվյալների բազաներ
  • Բաց տեքստ

Կարդալ ավելին.

Ոչ, մենք օպտիմիզացրել ենք մեր հարթակը, որպեսզի նվազագույնի հասցնենք հաշվողական պահանջները (օրինակ՝ GPU չի պահանջվում)՝ չվնասելով տվյալների ճշգրտությունը: Բացի այդ, մենք աջակցում ենք ավտոմատ մասշտաբավորմանը, որպեսզի հնարավոր լինի սինթեզել հսկայական տվյալների բազաներ:

Այո՛։ Syntho ծրագիրը օպտիմիզացված է բազմաթիվ աղյուսակներ պարունակող տվյալների բազաների համար:

Ինչ վերաբերում է դրան, Syntho-ն ավտոմատ կերպով հայտնաբերում է տվյալների տեսակները, սխեմաները և ձևաչափերը՝ առավելագույնի հասցնելու տվյալների ճշգրտությունը: Բազմասեղանի տվյալների բազայի համար մենք աջակցում ենք աղյուսակի փոխհարաբերությունների ավտոմատ եզրակացությունը և սինթեզը՝ հղումային ամբողջականությունը պահպանելու համար:

ժպտացող մարդկանց խումբ

Տվյալները սինթետիկ են, բայց մեր թիմն իրական է:

Կապվեք Syntho- ի հետ և մեր փորձագետներից մեկը լույսի արագությամբ կկապվի ձեզ հետ՝ ուսումնասիրելու սինթետիկ տվյալների արժեքը: