FAQ
Veelgestelde vragen over synthetische data
Begrijpelijk! Gelukkig hebben we de antwoorden en zijn we hier om te helpen. Check onze veelgestelde vragen.
Stel hieronder een vraag en klik op de links voor meer informatie. Heeft u een meer gecompliceerde vraag die hier niet wordt vermeld? Vraag het direct aan onze experts!
De meest gestelde vragen
Synthetische data verwijzen naar data die kunstmatig zijn gegenereerd in plaats van verzameld uit echte bronnen. In het algemeen, terwijl originele data worden verzameld in al uw interacties met personen (klanten, patiënten, enz.) en via al uw interne processen, worden synthetische data gegenereerd door een computeralgoritme.
Synthetische data kunnen ook worden gebruikt om modellen in een gecontroleerde omgeving te testen en te evalueren, of om gevoelige informatie te beschermen door data te genereren die vergelijkbaar zijn met data uit de echte wereld, maar die geen gevoelige informatie bevatten. Synthetische data wordt vaak gebruikt als alternatief voor privacygevoelige data en kan gebruikt worden als testdata, voor analytics of om machine learning te trainen.
Garanderen dat synthetische data dezelfde datakwaliteit hebben als de originele data, kan een uitdaging zijn en hangt vaak af van de specifieke use case en de methoden die zijn gebruikt om de synthetische data te genereren. Sommige methoden voor het genereren van synthetische data, zoals generatieve modellen, kunnen data produceren die sterk lijken op de oorspronkelijke data. Kernvraag: hoe dit aan te tonen?
Er zijn enkele manieren om de kwaliteit van synthetische data te waarborgen:
- Gegevenskwaliteitsstatistieken via ons datakwaliteitsrapport: Een manier om ervoor te zorgen dat synthetische data dezelfde datakwaliteit hebben als de oorspronkelijke data, is het gebruik van datakwaliteitsstatistieken om de synthetische data te vergelijken met de oorspronkelijke data. Deze statistieken kunnen worden gebruikt om zaken als gelijkenis, nauwkeurigheid en volledigheid van de data te meten. De Syntho-software bevatte een datakwaliteitsrapport met verschillende datakwaliteitsstatistieken.
- Externe evaluatie: aangezien de datakwaliteit van synthetische data in vergelijking met originele data cruciaal is, hebben we onlangs een assessment gedaan met de data-experts van SAS (marktleider in analytics) om de datakwaliteit van synthetische data van Syntho in vergelijking met de echte data aan te tonen. Edwin van Unen, analytics expert van SAS, evalueerde gegenereerde synthetische datasets van Syntho via verschillende analytics (AI) assessments en deelde de uitkomsten. Bekijk hier een korte samenvatting van die video.
- Zelf testen en beoordelen: synthetische data kunnen worden getest en geëvalueerd door ze te vergelijken met data uit de echte wereld of door ze te gebruiken om machine learning-modellen te trainen en hun prestaties te vergelijken met modellen die zijn getraind op data uit de echte wereld. Waarom test u de datakwaliteit van synthetische data niet zelf? Vraag onze experts hier naar de mogelijkheden hiervan.
Het is belangrijk op te merken dat synthetische data nooit kunnen garanderen dat ze 100% vergelijkbaar zijn met de oorspronkelijke data, maar ze kunnen dichtbij genoeg zijn om nuttig te zijn voor een specifieke use-case. Deze specifieke use case kan zelfs geavanceerde analyse- of machine learning-modellen zijn.
Klassieke 'anonimisering' is niet altijd de beste oplossing, want:
- Privacyrisico - dat zal je altijd hebben
een privacyrisico. Die toepassen
klassieke anonimiseringstechnieken
maakt het alleen maar moeilijker, maar niet
onmogelijk om personen te identificeren. - Gegevens vernietigen - hoe meer je
anonimiseren, hoe beter je beschermt
uw privacy, maar hoe meer u
vernietig je data. Dit is niet wat
u wilt voor analyse, omdat
vernietigde data zullen resulteren in slechte
inzichten. - Tijdrovend - het is een oplossing
dat kost veel tijd, want
die technieken werken anders
per dataset en per datatype.
Synthetische data is bedoeld om al deze tekortkomingen op te lossen. Het verschil is zo opvallend dat we er een video over hebben gemaakt. Bekijk het hier.
Veelgestelde Vragen / FAQ
Synthetische data
Over het algemeen gebruiken de meeste van onze klanten synthetische data voor:
- Software testen en ontwikkelen
- Synthetische data voor analytics, modelontwikkeling en advanced analytics (AI & ML)
- Productdemo's
Een synthetische data-tweeling is een door een algoritme gegenereerde replica van een real-world dataset en/of database. Met een Synthetic Data Twin probeert Syntho een originele dataset of database zo dicht mogelijk bij de originele data na te bootsen om een realistische weergave van het origineel te creëren. Met een synthetische datatweeling streven we naar een superieure synthetische datakwaliteit in vergelijking met de originele data. Dit doen we met onze synthetische datasoftware die gebruik maakt van state-of-the-art AI-modellen. Die AI-modellen genereren geheel nieuwe datapunten en modelleren die zo dat we de kenmerken, relaties en statistische patronen van de originele data zodanig behouden dat je het kunt gebruiken alsof het originele data zijn.
Dit kan voor verschillende doeleinden worden gebruikt, zoals het testen en trainen van machine learning-modellen, het simuleren van scenario's voor onderzoek en ontwikkeling en het creëren van virtuele omgevingen voor training en opleiding. Synthetische datatweelingen kunnen worden gebruikt om realistische en representatieve data te creëren die kunnen worden gebruikt in plaats van data uit de echte wereld wanneer deze niet beschikbaar zijn of wanneer het gebruik van data uit de echte wereld onpraktisch of onethisch zou zijn vanwege strikte regelgeving inzake dataprivacy.
Ja dat doen we. We bieden verschillende waardetoevoegende optimalisatie- en augmentatiefuncties voor synthetische data, waaronder mockers, om uw data naar een hoger niveau te tillen.
Nepdata en door AI gegenereerde synthetische data zijn beide soorten synthetische data, maar ze worden op verschillende manieren gegenereerd en hebben verschillende doelen.
Nepdata zijn een type synthetische data die handmatig worden gemaakt en vaak worden gebruikt voor test- en ontwikkelingsdoeleinden. Het wordt meestal gebruikt om het gedrag van real-world data in een gecontroleerde omgeving te simuleren en wordt vaak gebruikt om de functionaliteit van een systeem of applicatie te testen. Het is vaak eenvoudig, gemakkelijk te genereren en vereist geen complexe modellen of algoritmen. Vaak verwijst men ook naar nepdata als "dummy-data" of "nepdata".
Door kunstmatige intelligentie gegenereerde synthetische data daarentegen worden gegenereerd met behulp van kunstmatige-intelligentietechnieken, zoals machine learning of generatieve modellen. Het wordt gebruikt om realistische en representatieve data te creëren die kunnen worden gebruikt in plaats van data uit de echte wereld wanneer het gebruik van data uit de echte wereld onpraktisch of onethisch zou zijn vanwege strikte privacyregels. Het is vaak complexer en vereist meer rekenkracht dan handmatige nepdata. Als resultaat is het veel realistischer en bootst het de originele data zo goed mogelijk na.
Samengevat, nepdata worden handmatig gemaakt en worden meestal gebruikt voor testen en ontwikkeling, terwijl door AI gegenereerde synthetische data worden gemaakt met behulp van kunstmatige-intelligentietechnieken en worden gebruikt om representatieve en realistische data te creëren.
Datakwaliteit
Garanderen dat synthetische data dezelfde datakwaliteit hebben als de originele data, kan een uitdaging zijn en hangt vaak af van de specifieke use case en de methoden die zijn gebruikt om de synthetische data te genereren. Sommige methoden voor het genereren van synthetische data, zoals generatieve modellen, kunnen data produceren die sterk lijken op de oorspronkelijke data. Kernvraag: hoe dit aan te tonen?
Er zijn enkele manieren om de kwaliteit van synthetische data te waarborgen:
- Gegevenskwaliteitsstatistieken via ons datakwaliteitsrapport: Een manier om ervoor te zorgen dat synthetische data dezelfde datakwaliteit hebben als de oorspronkelijke data, is het gebruik van datakwaliteitsstatistieken om de synthetische data te vergelijken met de oorspronkelijke data. Deze statistieken kunnen worden gebruikt om zaken als gelijkenis, nauwkeurigheid en volledigheid van de data te meten. De Syntho-software bevatte een datakwaliteitsrapport met verschillende datakwaliteitsstatistieken.
- Externe evaluatie: aangezien de datakwaliteit van synthetische data in vergelijking met originele data cruciaal is, hebben we onlangs een assessment gedaan met de data-experts van SAS (marktleider in analytics) om de datakwaliteit van synthetische data van Syntho in vergelijking met de echte data aan te tonen. Edwin van Unen, analytics expert van SAS, evalueerde gegenereerde synthetische datasets van Syntho via verschillende analytics (AI) assessments en deelde de uitkomsten. Bekijk hier een korte samenvatting van die video.
- Zelf testen en beoordelen: synthetische data kunnen worden getest en geëvalueerd door ze te vergelijken met data uit de echte wereld of door ze te gebruiken om machine learning-modellen te trainen en hun prestaties te vergelijken met modellen die zijn getraind op data uit de echte wereld. Waarom test u de datakwaliteit van synthetische data niet zelf? Vraag onze experts hier naar de mogelijkheden hiervan.
Het is belangrijk op te merken dat synthetische data nooit kunnen garanderen dat ze 100% vergelijkbaar zijn met de oorspronkelijke data, maar ze kunnen dichtbij genoeg zijn om nuttig te zijn voor een specifieke use-case. Deze specifieke use case kan zelfs geavanceerde analyse- of machine learning-modellen zijn.
Jazeker. De synthetische data bevatten zelfs patronen waarvan je niet wist dat ze in de originele data aanwezig waren.
Maar geloof ons niet alleen op ons woord. De analytics experts van SAS (wereldwijd marktleider in analytics) deden een (AI) assessment van onze synthetische data en vergeleken deze met de originele data. Nieuwsgierig? Kijk de hele evenement hier of bekijk de korte versie over datakwaliteit hier.
Ja dat doen we. Ons platform is geoptimaliseerd voor databases en daarmee voor het behoud van referentiële integriteit tussen datasets in de databank.
Benieuwd om hier meer over te weten te komen?
Privacy
Nee, dat doen we niet. We kunnen de Syntho Engine eenvoudig on-premise of in uw private cloud implementeren via docker.
Nee. We hebben ons platform zo geoptimaliseerd dat het eenvoudig kan worden ingezet in de vertrouwde omgeving van de klant. Dit zorgt ervoor dat data nooit de vertrouwde omgeving van de klant verlaat. Deployment mogelijkheden voor de vertrouwde omgeving van de klant zijn “on-premise” en in de “cloud omgeving van de klant (private cloud)”.
Optioneel: Syntho ondersteunt een versie die wordt gehost in de “Syntho cloud”.
Nee. De Syntho Engine is een zelfbedieningsplatform. Als gevolg hiervan is het genereren van synthetische data met de Syntho Engine mogelijk op een manier dat Syntho in het end-to-end proces nooit data kan zien en nooit hoeft te verwerken.
Ja, dat doen we via ons QA-rapport.
Bij het synthetiseren van een dataset is het essentieel om aan te tonen dat men niet in staat is om individuen opnieuw te identificeren. In Deze video, introduceert Marijn privacymaatregelen die in ons kwaliteitsrapport staan om dit aan te tonen.
Het QA-rapport van Syntho bevat er drie industriestandaard statistieken voor het evalueren van dataprivacy. Het idee achter elk van deze statistieken is als volgt:
- Synthetische data (S) moet "zo dicht mogelijk", maar "niet te dicht" bij de doeldata liggen (T).
- Willekeurig geselecteerde holdout-data (H) bepaalt de maatstaf voor “te dichtbij”.
- A perfecte oplossing genereert nieuwe synthetische data die zich precies zo gedraagt als de originele data, maar nog niet eerder is gezien (= H).
Een van de use cases die specifiek door de Autoriteit Persoonsdata wordt genoemd, is het gebruik van synthetische data als testdata.
Syntho-engine
De Syntho Engine wordt geleverd in een Docker-container en kan eenvoudig worden ingezet en aangesloten op uw omgeving naar keuze.
Mogelijke implementatie-opties zijn onder meer:
- On-premise
- Elke (private) cloud
- Elke andere omgeving
Met Syntho kunt u eenvoudig verbinding maken met uw databases, applicaties, datapijplijnen of bestandssystemen.
Wij ondersteunen diverse geïntegreerde connectoren zodat u verbinding kunt maken met de bronomgeving (waar de originele data is opgeslagen) en de bestemmingsomgeving (waar u uw synthetische data naartoe wilt schrijven) voor een end-to-end geïntegreerde aanpak.
Verbindingsfuncties die we ondersteunen:
- Plug-and-play met Docker
- 20+ database-connectoren
- 20+ bestandssysteemconnectoren
Uiteraard is de generatietijd afhankelijk van de grootte van de database. Gemiddeld wordt een tabel met minder dan 1 miljoen records gesynthetiseerd in minder dan 5 minuten.
De machine learning-algoritmen van Syntho kunnen de functies beter generaliseren met meer beschikbare entiteitsrecords, wat het privacyrisico verkleint. Een minimale kolom-naar-rijverhouding van 1:500 wordt aanbevolen. Als uw brontabel bijvoorbeeld 6 kolommen heeft, moet deze minimaal 3000 rijen bevatten.
Helemaal niet. Hoewel het enige moeite kan kosten om de voordelen, werking en gebruiksscenario's van synthetische data volledig te begrijpen, is het proces van het synthetiseren heel eenvoudig en kan iedereen met elementaire computerkennis het doen. Ga voor meer informatie over het syntheseproces naar deze pagina or vraag een demo aan.
De Syntho Engine werkt het beste met gestructureerde data in tabelvorm (alles dat rijen en kolommen bevat). Binnen deze structuren ondersteunen we de volgende datatypen:
- Structureert data die zijn opgemaakt in tabellen (categorisch, numeriek, enz.)
- Directe identifiers en PII
- Grote datasets en databases
- Geografische locatiedata (zoals GPS)
- Tijdreeksdata
- Databases met meerdere tabellen (met referentiële integriteit)
- Tekstdata openen
Ondersteuning voor complexe data
Naast alle reguliere typen data in tabelvorm, ondersteunt de Syntho Engine complexe datatypen en complexe datastructuren.
- Tijdreeksen
- Databases met meerdere tabellen
- Open tekst
Nee, we hebben ons platform geoptimaliseerd om de rekenvereisten te minimaliseren (bijv. geen GPU vereist), zonder afbreuk te doen aan de datanauwkeurigheid. Bovendien ondersteunen we automatisch schalen, zodat men enorme databases kan synthetiseren.
Ja. Syntho-software is geoptimaliseerd voor databases met meerdere tabellen.
Wat dit betreft, detecteert Syntho automatisch de datatypen, schema's en indelingen om de datanauwkeurigheid te maximaliseren. Voor databases met meerdere tabellen ondersteunen we automatische inferentie en synthese van tabelrelaties om de referentiële integriteit te behouden.
Gegevens zijn synthetisch, maar ons team is echt!
Neem contact op met Syntho en een van onze experts neemt razendsnel contact met je op om de waarde van synthetische data te onderzoeken!