Kas yra sintetiniai duomenys?

Avarinio kurso sintetiniai duomenys

 

 

Įvadas

Kas yra sintetiniai duomenys?

Atsakymas gana paprastas. Kadangi pradiniai duomenys yra renkami visose jūsų sąveikose su tikrais asmenimis (pvz., klientais, pacientais, darbuotojais ir kt.) ir per visus jūsų vidinius procesus, sintetiniai duomenys generuojami kompiuteriniu algoritmu. Šis kompiuterinis algoritmas generuoja visiškai naujus ir dirbtinius duomenų taškus.

Išspręskite duomenų privatumo problemas

Sintetiškai sugeneruoti duomenys susideda iš visiškai naujų ir dirbtinių duomenų taškų, neturinčių tiesioginių ryšių su pradiniais duomenimis. Taigi nė vienas iš sintetinių duomenų taškų negali būti atsektas arba apgręžtas iki pradinių duomenų. Todėl sintetiniams duomenims netaikomos privatumo taisyklės, pvz., BDAR, ir jie naudojami kaip sprendimas sprendžiant ir įveikiant duomenų privatumo problemas.

Padidinkite ir imituokite

Generatyvus sintetinių duomenų generavimo aspektas leidžia papildyti ir imituoti visiškai naujus duomenis. Tai veikia kaip sprendimas, kai neturite pakankamai duomenų (duomenų stygius), norite pakelti kraštinių atvejų pavyzdžius arba kai dar neturite duomenų.

Čia „Syntho“ pagrindinis dėmesys skiriamas struktūriniams duomenims (duomenys suformatuoti lentelėse, kuriose yra eilutės ir stulpeliai, kaip matote „Excel“ lapuose), tačiau mes visada norime iliustruoti sintetinių duomenų sąvoką vaizdais, nes ji yra patrauklesnė.

Sintetinių duomenų rūšys

Sintetinių duomenų skėtyje egzistuoja trys sintetinių duomenų tipai. Šie 3 sintetinių duomenų tipai yra: fiktyvūs duomenys, taisyklėmis pagrįsti sintetiniai duomenys ir dirbtinio intelekto (AI) sukurti sintetiniai duomenys. Trumpai paaiškiname, kas yra 3 skirtingi sintetinių duomenų tipai.

Netinkami duomenys / netikri duomenys

Apgalvoti duomenys yra atsitiktinai sugeneruoti duomenys (pvz., naudojant netikrų duomenų generatorių).

Todėl charakteristikos, ryšiai ir statistiniai modeliai, esantys pirminiuose duomenyse, nėra išsaugomi, fiksuojami ir neatkuriami generuotuose netikruose duomenyse. Taigi fiktyvių duomenų / netikrų duomenų reprezentatyvumas yra minimalus, palyginti su pradiniais duomenimis.

  • Kada jį naudoti: pakeisti tiesioginius identifikatorius (PII) arba kai neturite duomenų (dar) ir nenorite skirti laiko ir energijos taisyklių apibrėžimui.

Taisyklėmis pagrįsti sugeneruoti sintetiniai duomenys

Taisyklėmis pagrįsti sugeneruoti sintetiniai duomenys yra sintetiniai duomenys, generuojami pagal iš anksto nustatytą taisyklių rinkinį. Šių iš anksto nustatytų taisyklių pavyzdžiai gali būti tai, kad norite turėti sintetinių duomenų su tam tikra mažiausia, didžiausia arba vidutine verte. Bet kurios charakteristikos, ryšiai ir statistiniai modeliai, kuriuos norėtumėte atkurti taisyklėmis pagrįstuose sintetiniuose duomenyse, turi būti iš anksto apibrėžti.

Todėl duomenų kokybė bus tokia pat gera, kaip ir iš anksto nustatytų taisyklių rinkinys. Dėl to kyla iššūkių, kai svarbiausia yra aukšta duomenų kokybė. Pirma, galima apibrėžti tik ribotą taisyklių rinkinį, kuris turi būti užfiksuotas sintetiniuose duomenyse. Be to, nustačius kelias taisykles, taisyklės paprastai sutampa ir prieštarauja. Be to, jūs niekada iki galo nepaminėsite visų atitinkamų taisyklių. Be to, gali būti atitinkamų taisyklių, kurių jūs net nežinote. Galiausiai (ir nepamirškite), kad tai atims daug laiko ir energijos, todėl sprendimas bus neefektyvus.

  • Kada naudoti: kai neturite duomenų (dar)

Sintetiniai duomenys, sukurti dirbtinio intelekto (DI)

Kaip ir tikitės iš pavadinimo, dirbtinio intelekto (AI) generuojami sintetiniai duomenys yra dirbtinio intelekto (DI) algoritmo sugeneruoti sintetiniai duomenys. AI modelis mokomas remiantis pradiniais duomenimis, kad išmoktų visas charakteristikas, ryšius ir statistinius modelius. Vėliau šis AI algoritmas gali generuoti visiškai naujus duomenų taškus ir modeliuoti tuos naujus duomenų taškus taip, kad atkurtų charakteristikas, ryšius ir statistinius modelius iš pradinio duomenų rinkinio. Tai mes vadiname sintetinių duomenų dvyniu.

AI modelis imituoja pradinius duomenis, kad generuotų sintetinius duomenų dvynius, kurie gali būti naudojami taip, lyg tai būtų originalūs duomenys. Tai atrakina įvairius naudojimo atvejus, kai dirbtinio intelekto sugeneruoti sintetiniai duomenys gali būti naudojami kaip alternatyva naudojant originalius (jautrius) duomenis, pvz., dirbtinio intelekto sugeneruotus sintetinius duomenis kaip bandymo duomenis, demonstracinius duomenis arba analizę.

Vizualizacija, kaip sukuriami sintetiniai duomenys

Palyginti su taisyklėmis pagrįstais sintetiniais duomenimis: užuot studijavęs ir apibrėžęs atitinkamas taisykles, AI algoritmas tai padarys automatiškai už jus. Čia bus apžvelgtos ne tik charakteristikos, ryšiai ir statistiniai modeliai, apie kuriuos žinote, bet ir charakteristikos, ryšiai ir statistiniai modeliai, kurių net nežinote.

  • Kada jį naudoti: kai turite (kai kuriuos) duomenis kaip įvestį, kad galėtumėte imituoti arba naudoti kaip išmaniųjų duomenų generavimo ir papildymo funkcijų pradžios tašką

Kokio tipo sintetinius duomenis naudoti?

Priklausomai nuo naudojimo atvejo, rekomenduojama derinti netikrus duomenis / netikrus duomenis, taisyklėmis pagrįstus sugeneruotus sintetinius duomenis arba dirbtinio intelekto (AI) sugeneruotus sintetinius duomenis. Šioje apžvalgoje pirmiausia nurodoma, kokio tipo sintetinius duomenis naudoti. Kadangi „Syntho“ palaiko juos visus, nedvejodami susisiekite su mūsų ekspertais ir pasidomėkite savo naudojimo atvejomis.

Šioje diagramoje pateikiami įvairių tipų sintetiniai duomenys

sintinio gido dangtelis

Išsaugokite sintetinių duomenų vadovą dabar!