Sintetiese data wat deur Syntho gegenereer word, word vanuit 'n eksterne en objektiewe oogpunt deur die datakundiges van SAS beoordeel, bekragtig en goedgekeur.
Alhoewel Syntho trots is om sy gebruikers 'n gevorderde gehalteversekeringsverslag te bied, verstaan ons ook die belangrikheid daarvan om 'n eksterne en objektiewe evaluering van ons sintetiese data van bedryfsleiers te hê. Daarom werk ons saam met SAS, leier in analise, om ons sintetiese data te assesseer.
SAS doen verskeie deeglike evaluerings oor data-akkuraatheid, privaatheidbeskerming en bruikbaarheid van Syntho se KI-gegenereerde sintetiese data in vergelyking met die oorspronklike data. As gevolgtrekking het SAS Syntho se sintetiese data beoordeel en goedgekeur as akkuraat, veilig en bruikbaar in vergelyking met die oorspronklike data.
Ons het telekommunikasiedata wat gebruik word vir “churn”-voorspelling as teikendata gebruik. Die doel van die evaluering was om sintetiese data te gebruik om verskeie churn voorspellingsmodelle op te lei en om die prestasie van elke model te assesseer. Aangesien afloopvoorspelling 'n klassifikasietaak is, het SAS gewilde klassifikasiemodelle gekies om die voorspellings te maak, insluitend:
Voordat die sintetiese data gegenereer word, het SAS die telekommunikasiedatastel lukraak verdeel in 'n treinstel (vir die opleiding van die modelle) en 'n uithoustel (vir die puntetelling van die modelle). Om 'n aparte uithou-stel vir puntetelling te hê, maak voorsiening vir 'n onbevooroordeelde beoordeling van hoe goed die klassifikasiemodel kan vaar wanneer dit op nuwe data toegepas word.
Deur die treinstel as invoer te gebruik, het Syntho sy Syntho Engine gebruik om 'n sintetiese datastel te genereer. Vir benchmarking het SAS ook 'n anonieme weergawe van die treinstel geskep nadat verskeie anonimiseringstegnieke toegepas is om 'n sekere drempel (van k-anonimiteit) te bereik. Die vorige stappe het gelei tot vier datastelle:
Datastelle 1, 3 en 4 is gebruik om elke klassifikasiemodel op te lei, wat gelei het tot 12 (3 x 4) opgeleide modelle. SAS het daarna die uithou-datastel gebruik om die akkuraatheid van elke model in die voorspelling van klantverloop te meet.
SAS doen verskeie deeglike evaluerings oor data-akkuraatheid, privaatheidbeskerming en bruikbaarheid van Syntho se KI-gegenereerde sintetiese data in vergelyking met die oorspronklike data. As gevolgtrekking het SAS Syntho se sintetiese data beoordeel en goedgekeur as akkuraat, veilig en bruikbaar in vergelyking met die oorspronklike data.
Sintetiese data van Syntho geld nie net vir basiese patrone nie, dit vang ook diep 'versteekte' statistiese patrone vas wat benodig word vir gevorderde ontledingstake. Laasgenoemde word in die staafgrafiek gedemonstreer, wat aandui dat die akkuraatheid van modelle wat op sintetiese data opgelei is teenoor modelle wat op oorspronklike data opgelei is, soortgelyk is. Gevolglik kan sintetiese data gebruik word vir werklike opleiding van die modelle. Die insette en veranderlike belangrikheid gekies deur die algoritmes op sintetiese data in vergelyking met oorspronklike data was baie soortgelyk. Daarom word die gevolgtrekking gemaak dat die modelleringsproses op sintetiese data gedoen kan word, as 'n alternatief vir die gebruik van werklike sensitiewe data.
Klassieke anonimiseringstegnieke het gemeen dat hulle oorspronklike data manipuleer om die terugspoor van individue te verhinder. Hulle manipuleer data en vernietig daardeur data in die proses. Hoe meer jy anonimiseer, hoe beter word jou data beskerm, maar ook hoe meer word jou data vernietig. Dit is veral verwoestend vir KI en modelleringstake waar "voorspellende krag" noodsaaklik is, want swak kwaliteit data sal lei tot slegte insigte van die KI-model. SAS het dit gedemonstreer, met 'n area onder die kurwe (AUC*) naby aan 0.5, wat bewys dat die modelle wat op anonieme data opgelei is, verreweg die swakste presteer.
Die korrelasies en verwantskappe tussen veranderlikes is akkuraat in sintetiese data bewaar.
Die Area Under the Curve (AUC), 'n maatstaf vir die meet van modelprestasie, het konsekwent gebly.
Verder het die veranderlike belangrikheid, wat die voorspellende krag van veranderlikes in 'n model aangedui het, ongeskonde gebly wanneer sintetiese data met die oorspronklike datastel vergelyk word.
Gebaseer op hierdie waarnemings deur SAS en deur SAS Viya te gebruik, kan ons met vertroue aflei dat sintetiese data wat deur die Syntho Engine gegenereer word, inderdaad op gelyke voet is met werklike data in terme van kwaliteit. Dit bevestig die gebruik van sintetiese data vir modelontwikkeling, wat die weg baan vir gevorderde analise met sintetiese data.