Het kwaliteitsborgingsrapport van Syntho beoordeelt de gegenereerde synthetische data en toont de nauwkeurigheid, privacy en snelheid van de synthetische data aan in vergelijking met de originele data.
Bij Syntho begrijpen we het belang van betrouwbare en nauwkeurige synthetische data. Daarom bieden wij voor elke synthetische datarun een uitgebreid kwaliteitsborgingsrapport. Ons kwaliteitsrapport bevat verschillende statistieken, zoals distributies, correlaties, multivariate distributies, privacystatistieken en meer. Op deze manier kunt u eenvoudig beoordelen of de synthetische data die wij leveren van de hoogste kwaliteit zijn en met hetzelfde niveau van nauwkeurigheid en betrouwbaarheid kunnen worden gebruikt als uw originele data.
Een glimp opvangen: dit gedeelte illustreert hoogtepunten uit ons rapport over de kwaliteit van synthetische data. Onze beoordelingen onderzoeken de synthetische data in vergelijking met de echte data over verschillende dimensies heen.
Synthetische data Multivariate verdelingen in vergelijking met echte data
Multivariate verdelingen en multivariate correlaties brengen ons verder dan enkelvoudige dimensies en bieden een uitgebreid beeld van hoe meerdere variabelen met elkaar samenhangen. De Syntho Engine legt deze relaties vast.
Het genereren van synthetische data is complex en er zijn valkuilen die moeten worden ondervangen. Bij AI-algoritmen is overfitting een risico en dit geldt ook voor het genereren van synthetische data met AI. Daarom moet men bij het genereren van synthetische data rekening houden met het risico van overfitting. Het risico van overfitting wordt onder controle gehouden in de Syntho Engine. Bovendien kunnen organisaties met het Syntho Quality Assurance (QA)-rapport aantonen dat de synthetische data niet te veel passen bij de oorspronkelijke data. We beoordelen ook op meer privacygerelateerde aspecten, die vaak worden gebruikt door interne auditors.
Test op “Exacte matches” met de Identical Match Ratio (IMR)
Demonstratie dat de verhouding van de synthetische datarecords die overeenkomen met een echt record uit de originele data niet significant groter is dan de verhouding die kan worden verwacht bij het analyseren van de treindata.
Test op “Gelijkaardige wedstrijden” met de afstand tot het dichtstbijzijnde record (DCR)
Demonstratie dat de genormaliseerde afstand voor synthetische datarecords tot hun dichtstbijzijnde feitelijke record binnen de originele data niet significant kleiner is dan de afstand die kan worden verwacht bij het analyseren van de treindata.
Test op “Uitschieters” met de Afstandsratio van dichtstbijzijnde buren (NNDR)
Demonstratie dat de afstandsverhouding tussen het dichtstbijzijnde en op een na dichtstbijzijnde synthetische record tot hun dichtstbijzijnde record binnen de originele data niet significant dichterbij is dan de verhouding die te verwachten is voor de treindata.
Dit is slechts een momentopname die de essentie samenvat van ons rapport over de verkenning en kwaliteitsborging van synthetische datakwaliteit. Het biedt een genuanceerd inzicht in distributies, correlaties en multivariate distributies als onderdeel van synthetische data zoals vastgelegd door de geavanceerde mogelijkheden van de Syntho Engine. Meer details over ons kwaliteitsborgingsrapport zijn op aanvraag verkrijgbaar.