Extern Evaluatioun vun eise syntheteschen Donnéeën vun den Datenexperten vun SAS

Eis syntheteschen Daten ass évaluéiert huet an guttgeheescht vun der daten Experten vun SAS

Aféierung an d'extern Evaluatioun vun eise syntheteschen Donnéeën vun den Datenexperten vun SAS

Wat hu mir gemaach?

Synthetesch Donnéeën generéiert vum Syntho ginn bewäert, validéiert an guttgeheescht vun engem externen an objektive Siicht vun den Datenexperten vun SAS.

Firwat ginn eis synthetesch Donnéeën extern vun den Datenexperten vun SAS bewäert?

Och wann Syntho houfreg ass senge Benotzer en fortgeschratt Qualitéitssécherungsbericht ze bidden, verstinn mir och d'Wichtegkeet vun enger externer an objektiver Evaluatioun vun eise syntheteschen Daten vun Industrieleit. Dofir kollaboréiere mir mat SAS, Leader an der Analyse, fir eis synthetesch Donnéeën ze bewäerten.

SAS féiert verschidde grëndlech Evaluatiounen iwwer Date-Genauegkeet, Privatsphärschutz, an Usability vun Syntho's AI-generéiert syntheteschen Donnéeën am Verglach zu den originelle Donnéeën. Als Schlussfolgerung huet SAS dem Syntho seng synthetesch Donnéeën als korrekt, sécher a benotzbar am Verglach mat den originelle Daten bewäert an guttgeheescht.

Wat huet SAS während dëser Bewäertung gemaach?

Mir hunn Telekommunikatiounsdaten benotzt déi fir "churn" Prognosen als Zildaten benotzt ginn. D'Zil vun der Evaluatioun war d'synthetesch Donnéeën ze benotzen fir verschidde Churn-Prognosemodeller ze trainéieren an d'Performance vun all Modell ze bewäerten. Well Churn-Prognose eng Klassifikatiounsaufgab ass, huet SAS populär Klassifikatiounsmodeller ausgewielt fir d'Prognosen ze maachen, dorënner:

  1. Zoufall Bësch
  2. Gradient Boost
  3. Logistesch Réckgang
  4. Neural Netzwierk

Ier Dir déi synthetesch Donnéeën generéiert, huet SAS den Telekommunikatiounsdates zoufälleg opgedeelt an en Zuchset (fir d'Modeller ze trainéieren) an e Holdout-Set (fir d'Modeller ze markéieren). E separaten Holdout-Set fir Scoring ze hunn erlaabt eng onparteiesch Bewäertung vu wéi gutt de Klassifikatiounsmodell ka maache wann se op nei Donnéeën applizéiert ginn.

Mam Zuchset als Input benotzt, huet Syntho seng Syntho Engine benotzt fir e syntheteschen Dataset ze generéieren. Fir Benchmarking huet SAS och eng anonymiséiert Versioun vum Zuchset erstallt nodeems se verschidde Anonymiséierungstechniken applizéiert hunn fir e bestëmmte Schwell (vu k-Anonymitéit) z'erreechen. Déi fréier Schrëtt hunn zu véier Datesätz gefouert:

  1. En Zuch-Datasaz (dh den ursprénglechen Datesaz minus den Holdout-Datasaz)
  2. Eng Holdout-Datasaz (dh en Ënnerdeel vun der ursprénglecher Datesaz)
  3. En anonymiséierte Datesaz (anonymiséiert Daten vum Zuch-Datasaz, ursprénglechen Datesaz minus der Holdout-Datasaz)
  4. Eng synthetesch Datesaz (synthetiséiert Donnéeën vum Zuch-Dateas, ursprénglechen Datesaz minus der Holdout-Datasaz)

Datesets 1, 3 a 4 goufen benotzt fir all Klassifikatiounsmodell ze trainéieren, wat zu 12 (3 x 4) trainéiert Modeller resultéiert. SAS huet duerno d'Holdout-Dataset benotzt fir d'Genauegkeet vun all Modell an der Prognose vum Client Churn ze moossen.

SAS féiert verschidde grëndlech Evaluatiounen iwwer Date-Genauegkeet, Privatsphärschutz, an Usability vun Syntho's AI-generéiert syntheteschen Donnéeën am Verglach zu den originelle Donnéeën. Als Schlussfolgerung huet SAS dem Syntho seng synthetesch Donnéeën als korrekt, sécher a benotzbar am Verglach mat den originelle Daten bewäert an guttgeheescht.

Hutt Dir Froen?

Schwätzt mat engem vun eisen Experten

Éischt Resultater vun der Daten Bewäertung vun SAS

Modeller trainéiert op syntheteschen Daten score héich ähnlech am Verglach zu Modeller trainéiert op originell Daten

Synthetesch Donnéeën vum Syntho hält net nëmme fir Basismuster, et erfaasst och déif 'verstoppt' statistesch Mustere fir fortgeschratt analytesch Aufgaben erfuerderlech. Déi lescht gëtt an der Bar Chart bewisen, wat beweist datt d'Genauegkeet vu Modeller, déi op syntheteschen Daten trainéiert sinn, versus Modeller, déi op originelle Daten trainéiert sinn, ähnlech sinn. Dofir kënne synthetesch Donnéeën fir tatsächlech Training vun de Modeller benotzt ginn. D'Inputen an d'variabel Wichtegkeet, déi vun den Algorithmen op syntheteschen Donnéeën ausgewielt goufen am Verglach mat originelle Daten ware ganz ähnlech. Dofir gëtt ofgeschloss datt de Modelléierungsprozess op syntheteschen Daten ka gemaach ginn, als Alternativ fir richteg sensibel Donnéeën ze benotzen.

Firwat maachen Modeller, déi op anonymiséiert Daten trainéiert sinn, méi schlecht?

Klassesch Anonymiséierungstechniken hunn gemeinsam datt se originell Donnéeën manipuléieren fir Individuen zréckzezéien. Si manipuléieren Daten an zerstéieren doduerch Daten am Prozess. Wat Dir méi anonymiséiert, wat besser Är Donnéeë geschützt sinn, awer och wat Är Donnéeën zerstéiert ginn. Dëst ass besonnesch zerstéierend fir AI a Modelléierungsaufgaben wou "Predictive Power" wesentlech ass, well schlecht Qualitéitsdaten zu schlechten Abléck vum AI Modell resultéieren. SAS huet dëst bewisen, mat engem Gebitt ënner der Curve (AUC*) no bei 0.5, wat beweist datt d'Modeller, déi op anonymiséierter Donnéeën trainéiert sinn, bei wäitem dat Schlëmmst maachen.

Zousätzlech Resultater vun syntheteschen Daten Bewäertungen vun SAS

Zousätzlech Resultater vun syntheteschen Daten Bewäertungen vun SAS

D'Korrelatiounen a Relatiounen tëscht Variabelen goufen präzis a syntheteschen Daten bewahrt.

D'Area Under the Curve (AUC), eng Metrik fir d'Modellerleistung ze moossen, blouf konsequent.

Ausserdeem ass d'Variabel Wichtegkeet, déi d'predictive Kraaft vu Variablen an engem Modell uginn, intakt bliwwen wann Dir synthetesch Donnéeën mat der ursprénglecher Datesaz vergläicht.

Baséierend op dësen Observatioune vum SAS an andeems Dir SAS Viya benotzt, kënne mir zouversiichtlech ofschléissen datt synthetesch Donnéeën, déi vum Syntho Engine generéiert ginn, wierklech par rapport zu realen Donnéeën a punkto Qualitéit sinn. Dëst validéiert d'Benotzung vu syntheteschen Donnéeën fir Modellentwécklung, a mécht de Wee fir fortgeschratt Analyse mat syntheteschen Donnéeën.

Conclusiounen vun den Daten Experten vun SAS

Sas logo

Eis syntheteschen Daten ass guttgeheescht vun den Daten Experten vun SAS

Referenz Artikelen

Syntho Guide Cover

Späichert Äre syntheteschen Dateguide elo!