Vad är syntetiska data?

En snabbkurs syntetisk data

 

 

Beskrivning

Vad är syntetiska data?

Svaret är relativt enkelt. Medan originaldata samlas in i alla dina interaktioner med verkliga personer (t.ex. klienter, patienter, anställda etc.) och via alla dina interna processer, genereras syntetisk data av en datoralgoritm. Denna datoralgoritm genererar helt nya och artificiella datapunkter.

Lös utmaningar för datasekretess

Syntetiskt genererad data består av helt nya och artificiella datapunkter utan en-till-en-relationer till originaldata. Därför kan ingen av de syntetiska datapunkterna spåras tillbaka eller omvändas till originaldata. Som ett resultat är syntetisk data undantagen från integritetsbestämmelser, såsom GDPR, och fungerar som en lösning för att lösa och övervinna dataintegritetsutmaningar.

Förstärk och simulera

Den generativa aspekten av syntetisk datagenerering gör det möjligt att utöka och simulera helt ny data. Detta fungerar som en lösning när du inte har tillräckligt med data (databrist), skulle vilja up-sampla kantfall eller när du inte har data ännu.

Här är fokus för Syntho strukturerade data (data formaterade i tabeller som innehåller rader och kolumner, som du ser i ett Excel -ark), men vi gillar alltid att illustrera begreppet syntetiska data via bilder, eftersom det är mer tilltalande.

Typer av syntetiska data

Tre typer av syntetiska data finns inom paraplyet för syntetiska data. Dessa tre typer av syntetiska data är: dummydata, regelbaserad genererad syntetisk data och syntetisk data genererad av artificiell intelligens (AI). Vi förklarar kort vad de 3 olika typerna av syntetisk data är.

Dummy data / mock data

Dummydata är slumpmässigt genererad data (t.ex. av en skendatagenerator).

Följaktligen bevaras, fångas och reproduceras inte egenskaper, samband och statistiska mönster som finns i originaldatan i den genererade dummydatan. Därför är representativiteten för dummydata / skendata minimal i jämförelse med originaldata.

  • När du ska använda den: för att ersätta direkta identifierare (PII) eller när du inte har data (ännu) och inte vill lägga tid och energi på att definiera regler.

Regelbaserad genererad syntetisk data

Regelbaserad genererad syntetisk data är syntetisk data som genereras av en fördefinierad uppsättning regler. Exempel på de fördefinierade reglerna kan vara att du skulle vilja ha syntetisk data med ett visst lägsta värde, maxvärde eller medelvärde. Alla egenskaper, samband och statistiska mönster som du skulle vilja ha återskapat i den regelbaserade genererade syntetiska informationen måste vara fördefinierade.

Följaktligen kommer datakvaliteten att vara lika bra som den fördefinierade uppsättningen regler. Detta resulterar i utmaningar när hög datakvalitet är avgörande. För det första kan man bara definiera en begränsad uppsättning regler som ska fångas i den syntetiska datan. Dessutom kommer inställning av flera regler vanligtvis att resultera i överlappande och motstridiga regler. Dessutom kommer du aldrig att helt täcka alla relevanta regler. Dessutom kan det finnas relevanta regler som du inte ens känner till. Och slutligen (och inte att förglömma), detta kommer att ta dig mycket tid och energi vilket resulterar i en icke-effektiv lösning.

  • När ska du använda det: när du inte har data (ännu)

Syntetisk data genererad av artificiell intelligens (AI)

Som du förväntar dig av namnet är syntetisk data genererad av artificiell intelligens (AI) syntetisk data som genereras av en artificiell intelligens (AI) algoritm. AI-modellen är tränad på originaldata för att lära sig alla egenskaper, samband och statistiska mönster. Därefter kan denna AI-algoritm generera helt nya datapunkter och modellera dessa nya datapunkter på ett sådant sätt att den återger egenskaperna, sambanden och statistiska mönstren från den ursprungliga datamängden. Detta är vad vi kallar en syntetisk datatvilling.

AI-modellen härmar originaldata för att generera syntetiska datatvillingar som kan användas som om det vore originaldata. Detta låser upp olika användningsfall där AI-genererad syntetisk data kan användas som alternativ för att använda original (känslig) data, såsom användning av AI-genererad syntetisk data som testdata, demodata eller för analys.

En visualisering av hur syntetisk data skapas

I jämförelse med regelbaserad genererad syntetisk data: istället för att du studerar och definierar relevanta regler, gör AI-algoritmen detta automatiskt åt dig. Här kommer inte bara egenskaper, samband och statistiska mönster som du känner till omfattas, även egenskaper, samband och statistiska mönster som du inte ens är medveten om kommer att omfattas.

  • När ska du använda det: när du har (vissa) data som indata att efterlikna eller att använda som utgångspunkt för smart datagenerering och förstärkningsfunktioner

Vilken typ av syntetisk data ska man använda?

Beroende på ditt användningsfall rekommenderas en kombination av dummy-data / mock-data, regelbaserad genererad syntetisk data eller syntetisk data genererad av artificiell intelligens (AI). Denna översikt ger dig en första indikation på vilken typ av syntetisk data du ska använda. Eftersom Syntho stöder dem alla, kontakta gärna våra experter för att fördjupa dig i ditt användningsfall med oss.

Det här diagrammet visar olika typer av syntetiska data

syntho guide lock

Spara din syntetiska dataguide nu!