Voor de casus, de doeldataset was een telecom dataset geleverd door SAS met de data van 56.600 klanten. De dataset bevat 128 kolommen, waaronder één kolom die aangeeft of een klant het bedrijf heeft verlaten ('churnned') of niet. Het doel van de case study was om de synthetische data te gebruiken om enkele modellen te trainen om klantverloop te voorspellen en om de prestaties van elk model te beoordelen. Aangezien churn-voorspelling een classificatietaak is, heeft SAS vijf populaire classificatiemodellen geselecteerd om de voorspellingen te doen, waaronder:
- Beslissingsboom
- Willekeurig bos
- gradiëntversterking
- Logistische regressie
- Neuraal netwerk
Alvorens de synthetische data te genereren, splitste SAS de telecomdataset willekeurig op in een treinset (voor het trainen van de modellen) en een holdout-set (voor het scoren van de modellen). Het hebben van een aparte holdout-set voor scores zorgt voor een onbevooroordeelde beoordeling van hoe goed het classificatiemodel zou kunnen werken wanneer het wordt toegepast op nieuwe data.
Met het treinstel als invoer, Syntho gebruikte zijn Syntho Engine om een synthetische dataset te genereren. Voor benchmarking heeft SAS ook een geanonimiseerde versie van het treinstel gemaakt na toepassing van verschillende anonimiseringstechnieken om een bepaalde drempel (van k-anonimiteit) te bereiken. De vorige stappen resulteerden in vier datasets:
- Een treindataset (dwz de originele dataset minus de holdout-dataset)
- Een holdout-dataset (dwz een subset van de originele dataset)
- Een geanonimiseerde dataset (gebaseerd op de originele dataset minus de holdout-dataset)
- Een synthetische dataset (gebaseerd op de originele dataset minus de holdout-dataset)
Datasets 1, 3 en 4 werden gebruikt om elk classificatiemodel te trainen, wat resulteerde in 15 (3 x 5) getrainde modellen. SAS gebruikte vervolgens de holdout-dataset om de nauwkeurigheid te meten waarmee elk model klantverloop voorspelt. De resultaten worden hieronder weergegeven, te beginnen met enkele basisstatistieken.