Synthetesch Donnéeën generéiert vum Syntho ginn bewäert, validéiert an guttgeheescht vun engem externen an objektive Siicht vun den Datenexperten vun SAS.
Och wann Syntho houfreg ass senge Benotzer en fortgeschratt Qualitéitssécherungsbericht ze bidden, verstinn mir och d'Wichtegkeet vun enger externer an objektiver Evaluatioun vun eise syntheteschen Daten vun Industrieleit. Dofir kollaboréiere mir mat SAS, Leader an der Analyse, fir eis synthetesch Donnéeën ze bewäerten.
SAS féiert verschidde grëndlech Evaluatiounen iwwer Date-Genauegkeet, Privatsphärschutz, an Usability vun Syntho's AI-generéiert syntheteschen Donnéeën am Verglach zu den originelle Donnéeën. Als Schlussfolgerung huet SAS dem Syntho seng synthetesch Donnéeën als korrekt, sécher a benotzbar am Verglach mat den originelle Daten bewäert an guttgeheescht.
Mir hunn Telekommunikatiounsdaten benotzt déi fir "churn" Prognosen als Zildaten benotzt ginn. D'Zil vun der Evaluatioun war d'synthetesch Donnéeën ze benotzen fir verschidde Churn-Prognosemodeller ze trainéieren an d'Performance vun all Modell ze bewäerten. Well Churn-Prognose eng Klassifikatiounsaufgab ass, huet SAS populär Klassifikatiounsmodeller ausgewielt fir d'Prognosen ze maachen, dorënner:
Ier Dir déi synthetesch Donnéeën generéiert, huet SAS den Telekommunikatiounsdates zoufälleg opgedeelt an en Zuchset (fir d'Modeller ze trainéieren) an e Holdout-Set (fir d'Modeller ze markéieren). E separaten Holdout-Set fir Scoring ze hunn erlaabt eng onparteiesch Bewäertung vu wéi gutt de Klassifikatiounsmodell ka maache wann se op nei Donnéeën applizéiert ginn.
Mam Zuchset als Input benotzt, huet Syntho seng Syntho Engine benotzt fir e syntheteschen Dataset ze generéieren. Fir Benchmarking huet SAS och eng anonymiséiert Versioun vum Zuchset erstallt nodeems se verschidde Anonymiséierungstechniken applizéiert hunn fir e bestëmmte Schwell (vu k-Anonymitéit) z'erreechen. Déi fréier Schrëtt hunn zu véier Datesätz gefouert:
Datesets 1, 3 a 4 goufen benotzt fir all Klassifikatiounsmodell ze trainéieren, wat zu 12 (3 x 4) trainéiert Modeller resultéiert. SAS huet duerno d'Holdout-Dataset benotzt fir d'Genauegkeet vun all Modell an der Prognose vum Client Churn ze moossen.
SAS féiert verschidde grëndlech Evaluatiounen iwwer Date-Genauegkeet, Privatsphärschutz, an Usability vun Syntho's AI-generéiert syntheteschen Donnéeën am Verglach zu den originelle Donnéeën. Als Schlussfolgerung huet SAS dem Syntho seng synthetesch Donnéeën als korrekt, sécher a benotzbar am Verglach mat den originelle Daten bewäert an guttgeheescht.
Synthetesch Donnéeën vum Syntho hält net nëmme fir Basismuster, et erfaasst och déif 'verstoppt' statistesch Mustere fir fortgeschratt analytesch Aufgaben erfuerderlech. Déi lescht gëtt an der Bar Chart bewisen, wat beweist datt d'Genauegkeet vu Modeller, déi op syntheteschen Daten trainéiert sinn, versus Modeller, déi op originelle Daten trainéiert sinn, ähnlech sinn. Dofir kënne synthetesch Donnéeën fir tatsächlech Training vun de Modeller benotzt ginn. D'Inputen an d'variabel Wichtegkeet, déi vun den Algorithmen op syntheteschen Donnéeën ausgewielt goufen am Verglach mat originelle Daten ware ganz ähnlech. Dofir gëtt ofgeschloss datt de Modelléierungsprozess op syntheteschen Daten ka gemaach ginn, als Alternativ fir richteg sensibel Donnéeën ze benotzen.
Klassesch Anonymiséierungstechniken hunn gemeinsam datt se originell Donnéeën manipuléieren fir Individuen zréckzezéien. Si manipuléieren Daten an zerstéieren doduerch Daten am Prozess. Wat Dir méi anonymiséiert, wat besser Är Donnéeë geschützt sinn, awer och wat Är Donnéeën zerstéiert ginn. Dëst ass besonnesch zerstéierend fir AI a Modelléierungsaufgaben wou "Predictive Power" wesentlech ass, well schlecht Qualitéitsdaten zu schlechten Abléck vum AI Modell resultéieren. SAS huet dëst bewisen, mat engem Gebitt ënner der Curve (AUC*) no bei 0.5, wat beweist datt d'Modeller, déi op anonymiséierter Donnéeën trainéiert sinn, bei wäitem dat Schlëmmst maachen.
D'Korrelatiounen a Relatiounen tëscht Variabelen goufen präzis a syntheteschen Daten bewahrt.
D'Area Under the Curve (AUC), eng Metrik fir d'Modellerleistung ze moossen, blouf konsequent.
Ausserdeem ass d'Variabel Wichtegkeet, déi d'predictive Kraaft vu Variablen an engem Modell uginn, intakt bliwwen wann Dir synthetesch Donnéeën mat der ursprénglecher Datesaz vergläicht.
Baséierend op dësen Observatioune vum SAS an andeems Dir SAS Viya benotzt, kënne mir zouversiichtlech ofschléissen datt synthetesch Donnéeën, déi vum Syntho Engine generéiert ginn, wierklech par rapport zu realen Donnéeën a punkto Qualitéit sinn. Dëst validéiert d'Benotzung vu syntheteschen Donnéeën fir Modellentwécklung, a mécht de Wee fir fortgeschratt Analyse mat syntheteschen Donnéeën.