Anonieme data vs Sintetiese data

As jy jou data anonimiseer voordat jy datatoetsing van data-analise uitvoer, is daar verskeie faktore wat speel:

  1. In byna alle gevalle kan anonieme data steeds na individue teruggespoor word as gevolg van spesifieke en unieke rye (bv. mediese rekords)
  2. Hoe meer jy anonimiseer of veralgemeen, hoe meer data vernietig jy. Dit verlaag die kwaliteit van jou data en dus jou insigte
  3. Anonimisering werk anders vir verskillende dataformate. Dit beteken dit is nie skaalbaar nie en kan baie tydrowend wees

Sintetiese data los al hierdie tekortkominge en meer op. Kyk na die video hieronder om 'n ontledingskenner van SAS (wêreldmarkleier in analise) te sien verduidelik oor sy beoordeling oor die verskil in kwaliteit tussen oorspronklike data, anonieme data en deur Syntho-gegenereerde sintetiese data.

Hierdie video is geneem vanaf die Syntho x SAS D[N]A Café oor KI-gegenereerde sintetiese data. Kry die volledige video hier.

Edwin van Unen het 'n oorspronklike datastel aan Syntho gestuur en ons het die datastel gesintetiseer. Maar die vraag was ook: "Wat sal gebeur as ons sintetiese data met anonieme data vergelyk?" Omdat jy baie inligting in 'n anonieme data verloor, sal dit ook gebeur wanneer 'n datastel sintetiseer? Ons het begin met 'n datastel van die telekommunikasie-industrie met 56.000 128 rye en XNUMX kolomme met inligting oor maatskappye. Hierdie datastel is beide gesintetiseer en geanonimiseer sodat Edwin sintetisering met anonimisering kon vergelyk. Toe het Edwin begin modelleer deur SAS Viya te gebruik. Hy het 'n paar churn-modelle op die oorspronklike datastel gebou deur klassieke regressietegnieke en besluitnemingsbome te gebruik, maar ook meer gesofistikeerde tegnieke soos neurale netwerke, gradiëntversterking, ewekansige woud – hierdie soort tegnieke. Gebruik die standaard SAS Viya-opsies wanneer die modelle gebou word.

Toe was dit tyd om na die resultate te kyk. Die resultate was baie belowend vir sintetiese data en nie vir anonimisering nie. Vir die nie-masjien-leer kundiges in die gehoor, kyk ons ​​na die area onder die ROC-kurwe wat iets vertel oor die akkuraatheid van die model. As ons die oorspronklike data met die anonieme data vergelyk, sien ons dat die oorspronklike datamodel 'n area onder die ROC-kromme van .8 het, wat redelik goed is. Die anonieme data het egter 'n area onder die ROC-kurwe van .6. Dit beteken dat ons baie inligting verloor met die anonieme model sodat jy baie voorspellingskrag verloor.

Maar dan, die vraag is wat van sintetiese data? Hier het ons presies dieselfde gedoen, maar in plaas daarvan om die data te anonimiseer, het Syntho die data gesintetiseer. Nou sien ons beide die oorspronklike data en die sintetiese data het 'n area onder die ROC-kromme van .8, wat baie soortgelyk is. Nie presies dieselfde as gevolg van veranderlikheid nie, maar baie soortgelyk. Dit beteken die potensiaal van sintetiese data is baie belowend – Edwin is baie bly hieroor.

groep mense wat glimlag

Data is sinteties, maar ons span is werklik!

Kontak Syntho en een van ons kundiges sal met u in verbinding tree met die spoed van lig om die waarde van sintetiese data te ondersoek!