Eksterne evaluering van ons sintetiese data deur die datakenners van SAS

Ons sintetiese data is beoordeel en goedgekeur deur die datakenners van SAS

Inleiding tot die eksterne evaluering van ons sintetiese data deur die datakenners van SAS

Wat het ons gedoen?

Sintetiese data wat deur Syntho gegenereer word, word vanuit 'n eksterne en objektiewe oogpunt deur die datakundiges van SAS beoordeel, bekragtig en goedgekeur.

Waarom word ons sintetiese data ekstern deur die datakenners van SAS geëvalueer?

Alhoewel Syntho trots is om sy gebruikers 'n gevorderde gehalteversekeringsverslag te bied, verstaan ​​ons ook die belangrikheid daarvan om 'n eksterne en objektiewe evaluering van ons sintetiese data van bedryfsleiers te hê. Daarom werk ons ​​saam met SAS, leier in analise, om ons sintetiese data te assesseer.

SAS doen verskeie deeglike evaluerings oor data-akkuraatheid, privaatheidbeskerming en bruikbaarheid van Syntho se KI-gegenereerde sintetiese data in vergelyking met die oorspronklike data. As gevolgtrekking het SAS Syntho se sintetiese data beoordeel en goedgekeur as akkuraat, veilig en bruikbaar in vergelyking met die oorspronklike data.

Wat het SAS tydens hierdie assessering gedoen?

Ons het telekommunikasiedata wat gebruik word vir “churn”-voorspelling as teikendata gebruik. Die doel van die evaluering was om sintetiese data te gebruik om verskeie churn voorspellingsmodelle op te lei en om die prestasie van elke model te assesseer. Aangesien afloopvoorspelling 'n klassifikasietaak is, het SAS gewilde klassifikasiemodelle gekies om die voorspellings te maak, insluitend:

  1. Ewekansige woud
  2. Gradiëntversterking
  3. Logistieke regressie
  4. Neurale netwerk

Voordat die sintetiese data gegenereer word, het SAS die telekommunikasiedatastel lukraak verdeel in 'n treinstel (vir die opleiding van die modelle) en 'n uithoustel (vir die puntetelling van die modelle). Om 'n aparte uithou-stel vir puntetelling te hê, maak voorsiening vir 'n onbevooroordeelde beoordeling van hoe goed die klassifikasiemodel kan vaar wanneer dit op nuwe data toegepas word.

Deur die treinstel as invoer te gebruik, het Syntho sy Syntho Engine gebruik om 'n sintetiese datastel te genereer. Vir benchmarking het SAS ook 'n anonieme weergawe van die treinstel geskep nadat verskeie anonimiseringstegnieke toegepas is om 'n sekere drempel (van k-anonimiteit) te bereik. Die vorige stappe het gelei tot vier datastelle:

  1. 'n Treindatastel (dws die oorspronklike datastel minus die uithoudatastel)
  2. 'n Uithou-datastel (dws 'n subset van die oorspronklike datastel)
  3. 'n Anonieme datastel (anonieme data van die treindatastel, oorspronklike datastel minus die uithou datastel)
  4. 'n Sintetiese datastel (gesintetiseerde data van die treindatastel, oorspronklike datastel minus die uithou datastel)

Datastelle 1, 3 en 4 is gebruik om elke klassifikasiemodel op te lei, wat gelei het tot 12 (3 x 4) opgeleide modelle. SAS het daarna die uithou-datastel gebruik om die akkuraatheid van elke model in die voorspelling van klantverloop te meet.

SAS doen verskeie deeglike evaluerings oor data-akkuraatheid, privaatheidbeskerming en bruikbaarheid van Syntho se KI-gegenereerde sintetiese data in vergelyking met die oorspronklike data. As gevolgtrekking het SAS Syntho se sintetiese data beoordeel en goedgekeur as akkuraat, veilig en bruikbaar in vergelyking met die oorspronklike data.

Het jy enige vrae?

Praat met een van ons kundiges

Aanvanklike resultate van die data-assessering deur SAS

Modelle wat op sintetiese data opgelei is, behaal baie soortgelyke punte in vergelyking met modelle wat op oorspronklike data opgelei is

Sintetiese data van Syntho geld nie net vir basiese patrone nie, dit vang ook diep 'versteekte' statistiese patrone vas wat benodig word vir gevorderde ontledingstake. Laasgenoemde word in die staafgrafiek gedemonstreer, wat aandui dat die akkuraatheid van modelle wat op sintetiese data opgelei is teenoor modelle wat op oorspronklike data opgelei is, soortgelyk is. Gevolglik kan sintetiese data gebruik word vir werklike opleiding van die modelle. Die insette en veranderlike belangrikheid gekies deur die algoritmes op sintetiese data in vergelyking met oorspronklike data was baie soortgelyk. Daarom word die gevolgtrekking gemaak dat die modelleringsproses op sintetiese data gedoen kan word, as 'n alternatief vir die gebruik van werklike sensitiewe data.

Waarom kry modelle wat op anonieme data opgelei is, swakker?

Klassieke anonimiseringstegnieke het gemeen dat hulle oorspronklike data manipuleer om die terugspoor van individue te verhinder. Hulle manipuleer data en vernietig daardeur data in die proses. Hoe meer jy anonimiseer, hoe beter word jou data beskerm, maar ook hoe meer word jou data vernietig. Dit is veral verwoestend vir KI en modelleringstake waar "voorspellende krag" noodsaaklik is, want swak kwaliteit data sal lei tot slegte insigte van die KI-model. SAS het dit gedemonstreer, met 'n area onder die kurwe (AUC*) naby aan 0.5, wat bewys dat die modelle wat op anonieme data opgelei is, verreweg die swakste presteer.

Bykomende resultate van sintetiese data-assesserings deur SAS

Bykomende resultate van sintetiese data-assesserings deur SAS

Die korrelasies en verwantskappe tussen veranderlikes is akkuraat in sintetiese data bewaar.

Die Area Under the Curve (AUC), 'n maatstaf vir die meet van modelprestasie, het konsekwent gebly.

Verder het die veranderlike belangrikheid, wat die voorspellende krag van veranderlikes in 'n model aangedui het, ongeskonde gebly wanneer sintetiese data met die oorspronklike datastel vergelyk word.

Gebaseer op hierdie waarnemings deur SAS en deur SAS Viya te gebruik, kan ons met vertroue aflei dat sintetiese data wat deur die Syntho Engine gegenereer word, inderdaad op gelyke voet is met werklike data in terme van kwaliteit. Dit bevestig die gebruik van sintetiese data vir modelontwikkeling, wat die weg baan vir gevorderde analise met sintetiese data.

Gevolgtrekkings deur die datakenners van SAS

Sas logo

Ons sintetiese data is goedgekeur deur die datakenners van SAS

Verwysingsartikels

sintho gids omslag

Stoor jou sintetiese datagids nou!