KI-gegenereerde sintetiese data, maklike en vinnige toegang tot hoë kwaliteit data?

KI het sintetiese data in die praktyk gegenereer

Syntho, 'n kenner in KI-gegenereerde sintetiese data, beoog om te draai privacy by design tot 'n mededingende voordeel met KI-gegenereerde sintetiese data. Hulle help organisasies om 'n sterk databasis te bou met maklike en vinnige toegang tot hoë kwaliteit data en het onlangs die Philips Innovation Award gewen.

Sintetiese datagenerering met KI is egter 'n relatief nuwe oplossing wat tipies gereelde vrae bekendstel. Om dit te beantwoord, het Syntho 'n gevallestudie begin saam met SAS, markleier in Advanced Analytics en KI-sagteware.

In samewerking met die Nederlandse KI-koalisie (NL AIC) het hulle die waarde van sintetiese data ondersoek deur KI-gegenereerde sintetiese data wat deur die Syntho Engine gegenereer is, te vergelyk met oorspronklike data via verskeie assesserings oor datakwaliteit, regsgeldigheid en bruikbaarheid.

Is data-anonimisering nie 'n oplossing nie?

Klassieke anonimiseringstegnieke het gemeen dat hulle oorspronklike data manipuleer om die terugspoor van individue te verhinder. Voorbeelde is veralgemening, onderdrukking, uitvee, pseudonimisering, datamaskering en skuif van rye en kolomme. U kan voorbeelde in die tabel hieronder vind.

data anonimisering

Hierdie tegnieke stel 3 sleuteluitdagings bekend:

  1. Hulle werk verskillend per datatipe en per datastel, wat dit moeilik maak om te skaal. Verder, aangesien hulle verskillend werk, sal daar altyd gedebatteer word oor watter metodes om toe te pas en watter kombinasie van tegnieke nodig is.
  2. Daar is altyd 'n een-tot-een verhouding met die oorspronklike data. Dit beteken dat daar altyd 'n privaatheidsrisiko sal wees, veral as gevolg van alle oop datastelle en beskikbare tegnieke om daardie datastelle te koppel.
  3. Hulle manipuleer data en vernietig sodoende data in die proses. Dit is veral verwoestend vir KI-take waar “voorspellingskrag” noodsaaklik is, want data van swak gehalte sal lei tot slegte insigte van die KI-model (Garbage-in sal lei tot vullis-out).

Hierdie punte word ook deur hierdie gevallestudie beoordeel.

'n Inleiding tot die gevallestudie

Vir die gevallestudie was die teikendatastel 'n telekommunikasiedatastel verskaf deur SAS wat die data van 56.600 128 kliënte bevat. Die datastel bevat XNUMX kolomme, insluitend een kolom wat aandui of 'n kliënt die maatskappy verlaat het (dws 'gekrom') of nie. Die doel van die gevallestudie was om die sintetiese data te gebruik om 'n paar modelle op te lei om klantverloop te voorspel en om die prestasie van daardie opgeleide modelle te evalueer. Aangesien afloopvoorspelling 'n klassifikasietaak is, het SAS vier gewilde klassifikasiemodelle gekies om die voorspellings te maak, insluitend:

  1. Ewekansige woud
  2. Gradiëntversterking
  3. Logistieke regressie
  4. Neurale netwerk

Voordat die sintetiese data gegenereer word, het SAS die telekommunikasiedatastel lukraak verdeel in 'n treinstel (vir die opleiding van die modelle) en 'n uithoustel (vir die puntetelling van die modelle). Om 'n aparte uithou-stel vir puntetelling te hê, maak voorsiening vir 'n onbevooroordeelde beoordeling van hoe goed die klassifikasiemodel kan presteer wanneer dit op nuwe data toegepas word.

Deur die treinstel as invoer te gebruik, het Syntho sy Syntho Engine gebruik om 'n sintetiese datastel te genereer. Vir benchmarking het SAS ook 'n gemanipuleerde weergawe van die treinstel geskep nadat verskeie anonimiseringstegnieke toegepas is om 'n sekere drempel (van k-anonimiteit) te bereik. Die vorige stappe het gelei tot vier datastelle:

  1. 'n Treindatastel (dws die oorspronklike datastel minus die uithoudatastel)
  2. 'n Uithou-datastel (dws 'n subset van die oorspronklike datastel)
  3. 'n Anonieme datastel (gebaseer op die treindatastel)
  4. 'n Sintetiese datastel (gebaseer op die treindatastel)

Datastelle 1, 3 en 4 is gebruik om elke klassifikasiemodel op te lei, wat gelei het tot 12 (3 x 4) opgeleide modelle. SAS het daarna die uithou-datastel gebruik om die akkuraatheid te meet waarmee elke model klantverloop voorspel. Die resultate word hieronder aangebied, begin met 'n paar basiese statistieke.

Masjienleer-pyplyn gegenereer in SAS

Figuur: Masjienleer-pyplyn gegenereer in SAS Visual Data Mining en Masjienleer

Basiese statistieke wanneer anonieme data met oorspronklike data vergelyk word

Anonimiseringstegnieke vernietig selfs basiese patrone, besigheidslogika, verhoudings en statistieke (soos in die voorbeeld hieronder). Die gebruik van anonieme data vir basiese analise lewer dus onbetroubare resultate. Trouens, die swak gehalte van die anonieme data het dit byna onmoontlik gemaak om dit vir gevorderde ontledingstake te gebruik (bv. KI/ML-modellering en dashboarding).

anonieme data met oorspronklike data te vergelyk

Basiese statistieke wanneer sintetiese data met oorspronklike data vergelyk word

Sintetiese datagenerering met KI bewaar basiese patrone, besigheidslogika, verhoudings en statistieke (soos in die voorbeeld hieronder). Die gebruik van sintetiese data vir basiese analise lewer dus betroubare resultate. Sleutelvraag, hou sintetiese data vir gevorderde analitiese take (bv. KI/ML-modellering en dashboarding)?

vergelyking van sintetiese data met oorspronklike data

KI-gegenereerde sintetiese data en gevorderde analise

Sintetiese data geld nie net vir basiese patrone (soos in die vorige plotte getoon nie), dit vang ook diep 'versteekte' statistiese patrone vas wat benodig word vir gevorderde analitiese take. Laasgenoemde word in die staafdiagram hieronder gedemonstreer, wat aandui dat die akkuraatheid van modelle wat op sintetiese data opgelei is teenoor modelle wat op oorspronklike data opgelei is, soortgelyk is. Verder, met 'n area onder die kurwe (AUC*) naby aan 0.5, vaar die modelle wat op anonieme data opgelei is, verreweg die swakste. Die volledige verslag met alle gevorderde ontledingsbeoordelings oor sintetiese data in vergelyking met die oorspronklike data is op aanvraag beskikbaar.

*AUC: die area onder die kromme is 'n maatstaf vir die akkuraatheid van gevorderde analitiese modelle, met inagneming van ware positiewe, vals positiewe, vals negatiewe en ware negatiewe. 0,5 beteken dat 'n model ewekansig voorspel en geen voorspellingskrag het nie en 1 beteken dat die model altyd korrek is en volle voorspellingskrag het.

Daarbenewens kan hierdie sintetiese data gebruik word om data-eienskappe en hoofveranderlikes wat nodig is vir werklike opleiding van die modelle te verstaan. Die insette wat deur die algoritmes op sintetiese data gekies is in vergelyking met oorspronklike data was baie soortgelyk. Gevolglik kan die modelleringsproses op hierdie sintetiese weergawe gedoen word, wat die risiko van data-oortredings verminder. Wanneer individuele rekords (bv. Telco-kliënt) egter afgelei word, word heropleiding op oorspronklike data aanbeveel vir verduidelikbaarheid, verhoogde aanvaarding of net as gevolg van regulering.                              

AUC deur Algoritme gegroepeer volgens Metode

AOK

Gevolgtrekkings:

  • Modelle wat op sintetiese data opgelei is in vergelyking met die modelle wat op oorspronklike data opgelei is, toon baie soortgelyke werkverrigting
  • Modelle wat op anonieme data opgelei is met 'klassieke anonimiseringstegnieke' toon minderwaardige werkverrigting in vergelyking met modelle wat op die oorspronklike data of sintetiese data opgelei is
  • Sintetiese datagenerering is maklik en vinnig omdat die tegniek presies dieselfde werk per datastel en per datatipe.

Waardetoevoegende gebruik van sintetiese data

Gebruiksgeval 1: Sintetiese data vir modelontwikkeling en gevorderde analise

Om 'n sterk databasis te hê met maklike en vinnige toegang tot bruikbare data van hoë gehalte is noodsaaklik om modelle te ontwikkel (bv. dashboards [BI] en gevorderde analise [KI & ML]). Baie organisasies ly egter aan 'n suboptimale databasis wat 3 sleuteluitdagings tot gevolg het:

  • Dit verg ouderdomme om toegang tot data te kry weens (privaatheid) regulasies, interne prosesse of datasilo's
  • Klassieke anonimiseringstegnieke vernietig data, wat die data nie meer geskik maak vir ontleding en gevorderde analise nie (vullis in = vullis uit)
  • Bestaande oplossings is nie skaalbaar nie omdat hulle verskillend per datastel en per datatipe werk en nie groot multi-tafel databasisse kan hanteer nie

Sintetiese databenadering: ontwikkel modelle met sintetiese data so goed soos werklik om:

  • Verminder die gebruik van oorspronklike data sonder om u ontwikkelaars te belemmer
  • Ontsluit persoonlike data en kry toegang tot meer data wat voorheen beperk was (bv. As gevolg van privaatheid)
  • Maklike en vinnige toegang tot data tot relevante data
  • Skaalbare oplossing wat dieselfde werk vir elke dataset, datatipe en vir massiewe databasisse

Dit stel organisasie in staat om 'n sterk databasis te bou met maklike en vinnige toegang tot bruikbare data van hoë gehalte om data te ontsluit en om datageleenthede te benut.

 

Gebruiksgeval 2: slim sintetiese toetsdata vir sagtewaretoetsing, ontwikkeling en aflewering

Toetsing en ontwikkeling met hoë kwaliteit toetsdata is noodsaaklik om die nuutste sagteware-oplossings te lewer. Die gebruik van oorspronklike produksiedata lyk voor die hand liggend, maar word nie toegelaat nie weens (privaatheids-) regulasies. Alternatief Test Data Management (TDM) gereedskap stel "legacy-by-design” om die toetsdata reg te kry:

  • Moenie produksiedata weerspieël nie en besigheidslogika en verwysingsintegriteit word nie bewaar nie
  • Werk stadig en tydrowend
  • Handwerk word vereis

Sintetiese databenadering: Toets en ontwikkel met KI-gegenereerde sintetiese toetsdata om die nuutste sagteware-oplossings slim te lewer met:

  • Produksieagtige data met behoue ​​besigheidslogika en verwysingsintegriteit
  • Maklike en vinnige gegenereer data met die nuutste AI
  • Privaatheid-deur-ontwerp
  • Maklik, vinnig en agile

Dit laat organisasie toe om te toets en te ontwikkel met volgende-vlak toetsdata om state-of-the-art sagteware oplossings te lewer!

Meer inligting

Stel u belang? Vir meer inligting oor sintetiese data, besoek die Syntho-webwerf of kontak Wim Kees Janssen. Vir meer inligting oor SAS, besoek www.sas.com of kontak kees@syntho.ai.

In hierdie gebruiksgeval werk Syntho, SAS en die NL AIC saam om die beoogde resultate te bereik. Syntho is 'n kenner in KI-gegenereerde sintetiese data en SAS is 'n markleier in analise en bied sagteware vir die verkenning, ontleding en visualisering van data.

* Voorspel 2021 – Data- en ontledingstrategieë om digitale besigheid te bestuur, skaal en transformeer, Gartner, 2020.

sintho gids omslag

Stoor jou sintetiese datagids nou!