Wat is sintetiese data?

'N crash kursus sintetiese data

 

 

Inleiding

Wat is sintetiese data?

Die antwoord is relatief eenvoudig. Terwyl oorspronklike data ingesamel word in al jou interaksies met werklike persone (bv. kliënte, pasiënte, werknemers ens.) en via al jou interne prosesse, word sintetiese data deur 'n rekenaaralgoritme gegenereer. Hierdie rekenaaralgoritme genereer heeltemal nuwe en kunsmatige datapunte.

Los data-privaatheidsuitdagings op

Sinteties gegenereerde data bestaan ​​uit heeltemal nuwe en kunsmatige datapunte met geen een-tot-een-verhoudings met die oorspronklike data nie. Gevolglik kan geen van die sintetiese datapunte teruggespoor of omgekeer word na oorspronklike data nie. Gevolglik is sintetiese data vrygestel van privaatheidsregulasies, soos die GDPR, en dien dit as oplossing om data-privaatheidsuitdagings op te los en te oorkom.

Vergroot en simuleer

Die generatiewe aspek van sintetiese datagenerering laat toe om heeltemal nuwe data aan te vul en te simuleer. Dit funksioneer as oplossing wanneer jy nie genoeg data het nie (dataskaarste), randgevalle wil opsteek of wanneer jy nog nie data het nie.

Hier is die fokus van Syntho gestruktureerde data (data geformateer in tabelle wat rye en kolomme bevat, soos u in Excel -velle sien), maar ons wil altyd die konsep van sintetiese data via beelde illustreer, omdat dit aantrekliker is.

Tipes sintetiese data

Drie tipes sintetiese data bestaan ​​wel binne die sintetiese data sambreel. Daardie 3 tipes sintetiese data is: dummy data, reëlgebaseerde gegenereerde sintetiese data en sintetiese data wat deur kunsmatige intelligensie (AI) gegenereer word. Ons verduidelik kortliks wat die 3 verskillende tipes sintetiese data is.

Dummy data / skyndata

Dummy-data is ewekansig gegenereerde data (bv. deur 'n skyn-datagenerator).

Gevolglik word eienskappe, verwantskappe en statistiese patrone wat in die oorspronklike data is nie bewaar, vasgevang en gereproduseer in die gegenereerde dummy data nie. Gevolglik is die verteenwoordigendheid van dummy data / skyndata minimaal in vergelyking met die oorspronklike data.

  • Wanneer om dit te gebruik: om direkte identifiseerders (PII) te vervang of wanneer jy (nog) nie data het nie en nie tyd en energie wil spandeer om reëls te definieer nie.

Reëlgebaseerde gegenereerde sintetiese data

Reël-gebaseerde gegenereerde sintetiese data is sintetiese data wat gegenereer word deur 'n vooraf gedefinieerde stel reëls. Voorbeelde van daardie vooraf gedefinieerde reëls kan wees dat jy sintetiese data met 'n sekere minimum waarde, maksimum waarde of gemiddelde waarde wil hê. Enige van die kenmerke, verwantskappe en statistiese patrone wat jy graag in die reëlgebaseerde gegenereerde sintetiese data wil laat reproduseer, moet vooraf gedefinieer word.

Gevolglik sal die datakwaliteit so goed wees soos die vooraf gedefinieerde stel reëls. Dit lei tot uitdagings wanneer hoë datakwaliteit van die uiterste belang is. Eerstens kan 'n mens slegs 'n beperkte stel reëls definieer wat in die sintetiese data vasgelê moet word. Daarbenewens sal die opstel van veelvuldige reëls tipies lei tot oorvleuelende en botsende reëls. Boonop sal u nooit alle relevante reëls volledig dek nie. Verder kan daar relevante reëls wees waarvan jy nie eers bewus is nie. En ten slotte (en nie om te vergeet nie), dit sal jou baie tyd en energie neem wat lei tot 'n nie-doeltreffende oplossing.

  • Wanneer om dit te gebruik: wanneer jy (nog) nie data het nie

Sintetiese data gegenereer deur kunsmatige intelligensie (KI)

Soos u van die naam verwag, is sintetiese data wat deur kunsmatige intelligensie (AI) gegenereer word, sintetiese data wat deur 'n kunsmatige intelligensie (AI) algoritme gegenereer word. Die KI-model is opgelei op die oorspronklike data om alle eienskappe, verwantskappe en statistiese patrone te leer. Daarna is hierdie KI-algoritme in staat om heeltemal nuwe datapunte te genereer en daardie nuwe datapunte op so 'n manier te modelleer dat dit die eienskappe, verwantskappe en statistiese patrone vanaf die oorspronklike datastel weergee. Dit is wat ons 'n sintetiese data-tweeling noem.

Die KI-model boots oorspronklike data na om sintetiese data-tweelinge te genereer wat gebruik kan word asof dit oorspronklike data is. Dit ontsluit verskeie gebruiksgevalle waar die KI-gegenereerde sintetiese data as alternatief gebruik kan word vir die gebruik van oorspronklike (sensitiewe) data, soos die gebruik van KI-gegenereerde sintetiese data as toetsdata, demonstrasiedata of vir analise.

'n Visualisering hoe sintetiese data geskep word

In vergelyking met reëlgebaseerde gegenereerde sintetiese data: in plaas daarvan dat jy relevante reëls bestudeer en definieer, doen die KI-algoritme dit outomaties vir jou. Hier sal nie net eienskappe, verwantskappe en statistiese patrone waarvan jy bewus is, gedek word nie, ook kenmerke, verwantskappe en statistiese patrone waarvan jy nie eers bewus is nie.

  • Wanneer om dit te gebruik: wanneer jy (sommige) data het as invoer om na te boots of om as beginpunt te gebruik vir slim datagenerering en aanvullingskenmerke

Watter tipe sintetiese data om te gebruik?

Afhangende van jou gebruiksgeval, word 'n kombinasie van skyndata / skyndata, reëlgebaseerde gegenereerde sintetiese data of sintetiese data gegenereer deur kunsmatige intelligensie (KI) aangeraai. Hierdie oorsig gee jou 'n eerste aanduiding van watter tipe sintetiese data om te gebruik. Aangesien Syntho hulle almal ondersteun, kontak gerus ons kundiges om jou gebruiksgeval met ons te verdiep.

Hierdie grafiek bied verskillende tipes sintetiese data aan

sintho gids omslag

Stoor jou sintetiese datagids nou!