AI-generéiert synthetesch Donnéeën, einfachen a séieren Zougang zu héichqualitativen Donnéeën?

AI generéiert synthetesch Daten an der Praxis

Syntho, en Expert an AI generéiert syntheteschen Daten, zielt ze dréinen privacy by design zu engem kompetitive Virdeel mat AI-generéiert syntheteschen Daten. Si hëllefen Organisatiounen eng staark Daten Fondatioun mat einfachen a séier Zougang zu héichwäerteg Donnéeën ze bauen a viru kuerzem de Philips Innovation Award gewonnen.

Wéi och ëmmer, synthetesch Dategeneratioun mat AI ass eng relativ nei Léisung déi typesch dacks gestallte Froen virstellt. Fir dës ze beäntweren, huet de Syntho eng Case-Studie zesumme mat SAS gestart, Maart Leader am Advanced Analytics an AI Software.

An Zesummenaarbecht mat der hollännescher AI Koalitioun (NL AIC) hunn se de Wäert vun syntheteschen Donnéeën ënnersicht andeems se AI-generéiert syntheteschen Donnéeën, déi vum Syntho Engine generéiert ginn, mat originelle Daten iwwer verschidde Bewäertungen iwwer Datequalitéit, gesetzlech Validitéit an Usability vergläicht.

Ass Dateanonymiséierung keng Léisung?

Klassesch Anonymiséierungstechniken hunn gemeinsam datt se originell Donnéeën manipuléieren fir Individuen zréckzezéien. Beispiller sinn Generaliséierung, Ënnerdréckung, Wëschen, Pseudonymiséierung, Datemaskéierung, an Zeilen vu Reihen a Kolonnen. Dir kënnt Beispiller an der Tabell hei ënnen fannen.

daten Anonymiséierung

Dës Technike stellen 3 Schlësselfuerderunge vir:

  1. Si funktionnéieren anescht pro Datentyp a pro Dataset, wat se schwéier mécht ze skaléieren. Ausserdeem, well se anescht funktionnéieren, gëtt et ëmmer diskutéiert iwwer wéi eng Methoden ze gëllen a wéi eng Kombinatioun vun Techniken néideg sinn.
  2. Et gëtt ëmmer eng een-zu-eent Relatioun mat der original Donnéeën. Dëst bedeit datt et ëmmer e Privatsphärrisiko gëtt, besonnesch wéinst all oppenen Datesätz a verfügbaren Techniken fir dës Datesets ze verbannen.
  3. Si manipuléieren Daten an zerstéieren doduerch Daten am Prozess. Dëst ass besonnesch zerstéierend fir AI Aufgaben wou "Predictive Power" essentiell ass, well schlecht Qualitéitsdaten zu schlechten Abléck vum AI Modell resultéieren (Garbage-in wäert zu Gerempels resultéieren).

Dës Punkte ginn och iwwer dës Fallstudie bewäert.

Eng Aféierung an de Fallstudie

Fir d'Fallstudie war d'Zildatenset eng Telekommunikatiounsdates, déi vun SAS zur Verfügung gestallt gëtt, déi d'Donnéeë vu 56.600 Clienten enthält. Den Dataset enthält 128 Sailen, dorënner eng Kolonn déi uginn, ob e Client d'Firma verlooss huet (dh "gechurt") oder net. D'Zil vun der Fallstudie war d'synthetesch Donnéeën ze benotzen fir e puer Modeller ze trainéieren fir de Client Churn virauszesoen an d'Performance vun deenen trainéierte Modeller ze evaluéieren. Well Churn Prognose eng Klassifikatiounsaufgab ass, huet SAS véier populär Klassifikatiounsmodeller ausgewielt fir d'Prognosen ze maachen, dorënner:

  1. Zoufall Bësch
  2. Gradient Boost
  3. Logistesch Réckgang
  4. Neural Netzwierk

Ier Dir déi synthetesch Donnéeën generéiert, huet SAS den Telekommunikatiounsdates zoufälleg opgedeelt an en Zuchset (fir d'Modeller ze trainéieren) an e Holdout-Set (fir d'Modeller ze markéieren). Eng separat Holdout-Set fir Scoring ze hunn erlaabt eng onparteiesch Bewäertung vu wéi gutt de Klassifikatiounsmodell ka funktionnéieren wann se op nei Daten applizéiert ginn.

Mam Zuchset als Input benotzt, huet Syntho seng Syntho Engine benotzt fir e syntheteschen Dataset ze generéieren. Fir Benchmarking huet SAS och eng manipuléiert Versioun vum Zuchset erstallt nodeems se verschidde Anonymiséierungstechniken applizéiert hunn fir e bestëmmte Schwell (vu k-Anonimitéit) z'erreechen. Déi fréier Schrëtt hunn zu véier Datesätz gefouert:

  1. En Zuch-Datasaz (dh den ursprénglechen Datesaz minus den Holdout-Datasaz)
  2. Eng Holdout-Datasaz (dh en Ënnerdeel vun der ursprénglecher Datesaz)
  3. En anonymiséierte Datesaz (baséiert op der Zuch-Datasaz)
  4. E syntheteschen Datesaz (baséiert op der Zuch-Datasaz)

Datesets 1, 3 a 4 goufen benotzt fir all Klassifikatiounsmodell ze trainéieren, wat zu 12 (3 x 4) trainéiert Modeller resultéiert. SAS huet duerno den Holdout-Datetaz benotzt fir d'Genauegkeet ze moossen, mat där all Modell de Client churn virausgesot. D'Resultater ginn ënnert presentéiert, ugefaange mat e puer grondleeënd Statistiken.

Machine Learning Pipeline generéiert an SAS

Figur: Machine Learning Pipeline generéiert am SAS Visual Data Mining a Machine Learning

Basisstatistike wann Dir anonymiséiert Donnéeën mat originelle Donnéeën vergläicht

Anonymiséierungstechniken zerstéieren souguer Basismuster, Geschäftslogik, Bezéiungen a Statistiken (wéi am Beispill hei ënnen). D'Benotzung vun anonymiséierter Donnéeën fir Basisanalyse produzéiert also onzouverlässeg Resultater. Tatsächlech huet déi schlecht Qualitéit vun den anonymiséierten Donnéeën et bal onméiglech gemaach fir se fir fortgeschratt analytesch Aufgaben ze benotzen (zB AI / ML Modeller an Dashboarding).

anonymiséiert Donnéeën mat originelle Donnéeën ze vergläichen

Basisstatistike wann Dir synthetesch Donnéeën mat originelle Donnéeën vergläicht

Synthetesch Datengeneratioun mat AI behält Basismuster, Geschäftslogik, Bezéiungen a Statistiken (wéi am Beispill hei ënnen). Mat syntheteschen Donnéeën fir Basisanalytik produzéiert also zouverlässeg Resultater. Schlësselfro, gëllen synthetesch Donnéeën fir fortgeschratt analytesch Aufgaben (zB AI / ML Modelléierung an Dashboarding)?

syntheteschen Donnéeën op original Donnéeën ëmparéieren

AI generéiert synthetesch Donnéeën a fortgeschratt Analyse

Synthetesch Donnéeën halen net nëmme fir Basismuster (wéi an de fréiere Plots gewisen), et erfaasst och déif 'verstoppt' statistesch Mustere fir fortgeschratt analytesch Aufgaben erfuerderlech. Déi lescht gëtt an der Bar Chart hei ënnen bewisen, wat beweist datt d'Genauegkeet vu Modeller, déi op syntheteschen Daten trainéiert sinn, versus Modeller, déi op originelle Daten trainéiert sinn, ähnlech sinn. Ausserdeem, mat engem Gebitt ënner der Curve (AUC*) no bei 0.5, sinn d'Modeller, déi op anonymiséiert Daten trainéiert sinn, bei wäitem dat Schlëmmst. De komplette Bericht mat all fortgeschratt analytesche Bewäertungen iwwer syntheteschen Donnéeën am Verglach mat den originelle Donnéeën ass op Ufro verfügbar.

*AUC: d'Gebitt ënner der Kurve ass eng Moossnam fir d'Genauegkeet vun fortgeschrattene Analysemodeller, déi richteg Positiver, falsch Positiv, falsch Negativer a richteg Negativer berücksichtegt. 0,5 heescht datt e Modell zoufälleg virausgesot huet a keng Prädiktivkraaft huet an 1 heescht datt de Modell ëmmer richteg ass a voller Prädiktivkraaft huet.

Zousätzlech kënnen dës synthetesch Donnéeën benotzt ginn fir Dateneigenschaften an Haaptvariablen ze verstoen, déi fir déi aktuell Ausbildung vun de Modeller gebraucht ginn. D'Inputen, déi vun den Algorithmen op syntheteschen Donnéeën ausgewielt goufen am Verglach mat originelle Daten ware ganz ähnlech. Dofir kann de Modelléierungsprozess op dëser synthetescher Versioun gemaach ginn, wat de Risiko vun Dateverstéiss reduzéiert. Wéi och ëmmer, wann Dir individuell Opzeechnungen ofleet (zB Telco Client) gëtt d'Retraining op originell Daten recommandéiert fir Erklärbarkeet, erhéicht Akzeptanz oder just wéinst Regulatioun.                              

AUC vum Algorithmus gruppéiert no Method

AUC

Konklusiounen:

  • Modeller trainéiert op syntheteschen Daten am Verglach zu de Modeller trainéiert op originell Daten weisen héich ähnlech Leeschtung
  • Modeller trainéiert op anonymiséierter Donnéeën mat 'klassescher Anonymiséierungstechniken' weisen mannerwäerteg Leeschtung am Verglach mat Modeller trainéiert op originell Daten oder syntheteschen Donnéeën
  • Synthetesch Dategeneratioun ass einfach a séier well d'Technik genau d'selwecht funktionnéiert pro Dataset a pro Datentyp.

Wäert-dobäi syntheteschen Date benotzt Fäll

Benotzen Fall 1: Synthetesch Donnéeën fir Modell Entwécklung a fortgeschratt Analyse

Eng staark Datebasis ze hunn mat einfachen a séieren Zougang zu benotzbaren, héichqualitativen Daten ass essentiell fir Modeller z'entwéckelen (zB Dashboards [BI] a fortgeschratt Analyse [AI & ML]). Wéi och ëmmer, vill Organisatiounen leiden ënner enger suboptimaler Datefondatioun, déi zu 3 Schlësselfuerderunge resultéiert:

  • Zougang zu Daten ze kréien dauert Alter wéinst (Privatsphär) Reglementer, intern Prozesser oder Datesiloen
  • Klassesch Anonymiséierungstechniken zerstéieren Daten, sou datt d'Donnéeën net méi gëeegent sinn fir Analyse a fortgeschratt Analyse (Müll eran = Gerempels eraus)
  • Bestehend Léisunge sinn net skalierbar well se anescht pro Dataset a pro Datentyp funktionnéieren an net grouss Multi-Table Datenbanken handhaben kënnen

Synthetesch Daten Approche: entwéckelen Modeller mat sou-gutt-wéi-real syntheteschen Daten fir:

  • Miniméiert d'Benotzung vun originelle Donnéeën, ouni Är Entwéckler ze behënneren
  • Spär perséinlech Donnéeën op an hutt Zougang zu méi Daten déi virdru limitéiert waren (zB wéinst Privatsphär)
  • Einfach a séier Daten Zougang zu relevant Donnéeën
  • Skalierbar Léisung déi d'selwecht funktionnéiert fir all Dataset, Datentyp a fir massiv Datenbanken

Dëst erlaabt d'Organisatioun e staarken Datefundament ze bauen mat einfachen a séieren Zougang zu benotzbaren, héichqualitativen Daten fir Daten opzemaachen an Datenméiglechkeeten ze profitéieren.

 

Benotzt Fall 2: Smart synthetesch Testdaten fir Software Testen, Entwécklung a Liwwerung

Testen an Entwécklung mat héichqualitativen Testdaten ass essentiell fir modernste Softwareléisungen ze liwweren. Original Produktiounsdaten benotzen schéngt offensichtlech, awer ass net erlaabt wéinst (Privatsphär) Reglementer. Alternativ Test Data Management (TDM) Tools virstellen "legacy-by-design" fir d'Testdaten richteg ze kréien:

  • Spigelen net Produktiounsdaten a Geschäftslogik a referenzieller Integritéit sinn net erhale bleiwen
  • Aarbecht lues an Zäit Konsuméiere
  • Manuell Aarbecht ass néideg

Synthetesch Daten Approche: Test an entwéckelt mat AI generéiert syntheteschen Testdaten fir modernste Softwareléisungen ze liwweren intelligent mat:

  • Produktiounsähnlech Daten mat erhale Geschäftslogik a referenziell Integritéit
  • Einfach a séier Dategeneratioun mat modernsten AI
  • Privatsphär-vun-Design
  • Einfach, séier an agile

Dëst erlaabt d'Organisatioun ze testen an z'entwéckelen mat nächste Niveau Testdaten fir modernste Softwareléisungen ze liwweren!

méi Informatiounen

Interesséiert? Fir méi Informatiounen iwwer syntheteschen Daten, besicht d'Syntho Websäit oder kontaktéiert de Wim Kees Janssen. Fir méi Informatiounen iwwer SAS, besicht www.sas.com oder kontaktéiert kees@syntho.ai.

An dësem Benotzungsfall schaffen Syntho, SAS an NL AIC zesummen fir déi virgesinn Resultater z'erreechen. Syntho ass en Expert an AI-generéiert syntheteschen Donnéeën an SAS ass e Maart Leader an der Analyse a bitt Software fir Daten z'erklären, analyséieren an visualiséieren.

* Prognostizéiert 2021 - Donnéeën an Analytics Strategien fir Digital Business ze regéieren, skaléieren an transforméieren, Gartner, 2020.

Syntho Guide Cover

Späichert Äre syntheteschen Dateguide elo!