Hallo, hoe kunnen wij u vandaag helpen?

Blader door onze bronnen, doorzoek de kennisbank

Webinar: De toekomst van testdatabeheer
Kan Syntho PII in tekst en ongestructureerde data detecteren en maskeren? Werkt Syntho over het algemeen met ongestructureerde data?

Ja, Syntho heeft een PII-tekstscanner die PII in ongestructureerde tekstdata kan identificeren en maskeren. Het kan bijvoorbeeld PII in tekstvelden, zoals doktersnotities, detecteren en vervangen door gevoelige informatie zoals namen, data en BSN's te taggen en te verhullen, terwijl er nepvervangingen worden gemaakt.

Meer informatie is te vinden op deze pagina onder het gedeelte “Introductie van de PII-tekstscanner”.

Als financieel bedrijf is databeveiliging onze topprioriteit. Ondersteunt Syntho on-premise implementatie en zo ja, zijn alle functies on-premise beschikbaar?

Ja, wij faciliteren implementaties op locatie en alle functies zijn on-premise beschikbaar.

Worden synthetische data gegenereerd “in overeenstemming” met impliciete bedrijfsregels? Met andere woorden, is de generator in staat om bedrijfsregels af te leiden?

Ja, de AI-gestuurde generatie van Syntho legt automatisch patronen en complexe relaties tussen kolommen vast en reproduceert deze in de gegenereerde synthetische data.

Daarnaast biedt Syntho op regels gebaseerde synthetische datamethoden, waaronder berekende kolommen, om bedrijfsregels vanaf nul te modelleren, bijvoorbeeld voor gevallen waarin u nog geen data hebt.

Kunnen we het PII-scanrapport downloaden in Excel of Kladblok, of is het alleen zichtbaar in de tool?

U kunt het bekijken in de tool en er is ook een optie om het te exporteren als tekst.

Kan Syntho synthetische versies van complexe relationele datasets genereren (die verder gaan dan eenvoudige boomstructuren)?

De Test Data Management-oplossingen van Syntho zijn ontworpen om gevoelige data op schaal te maskeren en te de-identificeren, inclusief complexe relationele datasets. De consistente mapping-functie van Syntho is belangrijk om consistentie en referentiële integriteit te behouden voor complexe relationele datasets en werkt in tabellen, databases, systemen en zelfs in de loop van de tijd.

Hoe controleer je de geldigheid van nepdata?

Syntho biedt meer dan 150 mock data generators die de karakteristieken van echte data nauwkeurig nabootsen. Op regels gebaseerde synthetische data kan ook worden aangepast om aan specifieke vereisten te voldoen.

Kan PII-informatie worden gedetecteerd en aangepast?

Ja, Syntho kan PII-data detecteren en aanpassen zoals geconfigureerd tijdens de installatie en zoals gedemonstreerd tijdens de webinar.

Meer informatie over onze PII-scanner vindt u hier hier.

Meer informatie over onze mockers om PII aan te passen is te vinden hier.

Kan Syntho Blobs verwerken?

Syntho ondersteunt het verwerken van Blob-data, zowel door duplicatie als door uitsluiting van dergelijke kolommen. Details vindt u in onze gebruikersdocumentatie. We kunnen hier indien gewenst dieper op ingaan.

Hoe zorgt u ervoor dat alle PII, zoals geboortedata, wordt gedetecteerd?

De PII-scanner detecteert alle PII-kenmerken en identificatoren. Hoewel een geboortedatum op zichzelf een individu mogelijk niet uniek identificeert, kunt u de scanner aanpassen om kenmerken zoals geboortedatum en andere variabelen op te nemen indien nodig. Vervolgens kan onze PII-scanner ook niet-identificatoren detecteren, zoals de geboortedatum.

De scanner biedt zowel "ondiepe" als "diepe" scans: een ondiepe scan bekijkt metadata, zoals kolomnamen en datatypen, terwijl een diepe scan geavanceerde entiteitsherkenning gebruikt om werkelijke data diepgaand te analyseren. Deze flexibiliteit stelt u in staat om te specificeren welke PII-typen u wilt detecteren.

Waarom moeten nepdata, zelfs als ze PII-gerelateerd zijn, worden beschermd?

PII, of Personally Identifiable Information, verwijst naar gevoelige data die aan individuen zijn gekoppeld. Privacyregelgeving maakt het lastig om persoonlijke data te gebruiken voor testdoeleinden, dus het is essentieel om deze data dienovereenkomstig te beschermen.

PII-scanner
Kan ik PII ook handmatig identificeren?

Ja, gebruikers kunnen PII-entiteiten ook handmatig identificeren als alternatief voor de PII-scanner. Gebruikers kunnen mockers ook handmatig toepassen als alternatief voor de automatisch voorgestelde mockers. Wij hebben ons platform echter zo geoptimaliseerd dat AI het werk voor u doet om handmatig werk te verminderen en grote datavolumes snel te kunnen verwerken.

Waarom gebruiken organisaties de PII-kolomscanner?

Om de-identificatie te initiëren, is het identificeren van kolommen met persoonlijk identificeerbare informatie (PII) essentieel. Dit vergt echter vaak veel tijd en handmatige inspanningen van ontwikkelaars.

Onze oplossing stroomlijnt dit proces via een geautomatiseerde PII-scanner, waardoor klanten PII efficiënt kunnen identificeren en de-identificeren met onze AI-aangedreven PII-scanner. Onze geavanceerde AI-aangedreven oplossing elimineert handmatige inspanningen, verbetert de efficiëntie en zorgt automatisch voor een uitgebreide identificatie van gevoelige data.

PII-definitie

PII staat voor Persoonlijk identificeerbare informatiePII is uniek voor elk individu en slechts één persoon heeft dezelfde eigenschap. Meer informatie over de definitie van PII hier.

Webinar: Veilige data, slimmer testen
Kan Syntho worden geïntegreerd in een full-stack dataplatform voor bedrijven?

Ja, Syntho kan worden geïntegreerd in een full-stack dataplatform. Hoewel we graag meer details horen over uw specifieke use case, ondersteunen we vaak integraties via onze REST API.

Naast het UI-gebaseerde platform, kunt u met onze REST API alle functionaliteiten automatiseren en integreren, wat naadloze integratie binnen bestaande datapijplijnen of testomgevingen mogelijk maakt. Als u dit verder wilt onderzoeken, bespreken we graag hoe Syntho in uw architectuur past.

Hoe gaat Syntho doorgaans om met implementaties?

Ons implementatieproces volgt een gestructureerde onboardingfase, waarmee organisaties het platform succesvol integreren en gebruiken. Dit proces omvat:

  • Vereisten verzamelen – Inzicht krijgen in de specifieke behoeften van de organisatie
  • Stapsgewijze implementatie – Zorgen voor een naadloze integratie in bestaande systemen
  • Syntho Bootcamp – Een trainingsprogramma dat teams voorziet van de kennis om het platform effectief te gebruiken

Als u geïnteresseerd bent in een demo of een diepgaande sessie, neem dan gerust contact met ons op. reik naar ons uit.

Hoe werkt de implementatie van Syntho qua kosten in de cloudomgeving van een klant?

Omdat Syntho binnen de infrastructuur van de klant wordt geïmplementeerd, draait het op de hardware van de organisatie.

Om duidelijkheid te verschaffen over de resourcevereisten, hebben we gedetailleerde hardwarespecificaties beschikbaar in onze gebruikersdocumentatie.

Typische startvereisten zijn onder meer:

  • 12–20 virtuele CPU's
  • 32GB geheugen
  • 128 GB schijfruimte

De exacte resourcevereisten zijn echter afhankelijk van de hoeveelheid data die wordt verwerkt. We delen de documentatie met de relevante details om organisaties te helpen hun infrastructuurbehoeften te schatten.

Is deze techniek ook mogelijk voor een ziekenhuis dat met Chipsoft werkt?

Ja, dat is zeker mogelijk. We hebben met meerdere medische organisaties gesproken die Chipsoft-software gebruiken.

Een van de belangrijkste uitdagingen die we hebben waargenomen bij Chipsoft is dat organisaties nog steeds de data bezitten, maar de relaties tussen tabellen worden opgeslagen aan de Chipsoft-kant. Dit levert een uitdaging op met foreign keys, die essentieel zijn voor het onderhouden van relaties tussen tabellen.

Om dit aan te pakken, biedt ons platform een ​​oplossing waarmee u automatisch foreign keys kunt toevoegen aan de gegenereerde testdata. In plaats van ze handmatig één voor één toe te voegen, kunt u foreign keys importeren met behulp van een JSON-bestand en een foreign key scan uitvoeren binnen het platform om relaties te detecteren en toe te passen

Zo behoudt u de benodigde structuur in uw testdata en stroomlijnt u het proces.

Synthetische data
Wat is het verschil tussen synthetische data (een synthetische data-tweeling) en nepdata?

Nepdata en door AI gegenereerde synthetische data zijn beide soorten synthetische data, maar ze worden op verschillende manieren gegenereerd en hebben verschillende doelen.

Nepdata zijn een type synthetische data die handmatig worden gemaakt en vaak worden gebruikt voor test- en ontwikkelingsdoeleinden. Het wordt meestal gebruikt om het gedrag van real-world data in een gecontroleerde omgeving te simuleren en wordt vaak gebruikt om de functionaliteit van een systeem of applicatie te testen. Het is vaak eenvoudig, gemakkelijk te genereren en vereist geen complexe modellen of algoritmen. Vaak verwijst men ook naar nepdata als "dummy-data" of "nepdata".

Door kunstmatige intelligentie gegenereerde synthetische data daarentegen worden gegenereerd met behulp van kunstmatige-intelligentietechnieken, zoals machine learning of generatieve modellen. Het wordt gebruikt om realistische en representatieve data te creëren die kunnen worden gebruikt in plaats van data uit de echte wereld wanneer het gebruik van data uit de echte wereld onpraktisch of onethisch zou zijn vanwege strikte privacyregels. Het is vaak complexer en vereist meer rekenkracht dan handmatige nepdata. Als resultaat is het veel realistischer en bootst het de originele data zo goed mogelijk na.

Samengevat, nepdata worden handmatig gemaakt en worden meestal gebruikt voor testen en ontwikkeling, terwijl door AI gegenereerde synthetische data worden gemaakt met behulp van kunstmatige-intelligentietechnieken en worden gebruikt om representatieve en realistische data te creëren.

Ondersteunt u mockers en nepdata?

Ja dat doen we. We bieden verschillende waardetoevoegende optimalisatie- en augmentatiefuncties voor synthetische data, waaronder mockers, om uw data naar een hoger niveau te tillen.

Wat bedoel je met het genereren van een 'synthetische data-tweeling'?

Een synthetische data-tweeling is een door een algoritme gegenereerde replica van een real-world dataset en/of database. Met een Synthetic Data Twin probeert Syntho een originele dataset of database zo dicht mogelijk bij de originele data na te bootsen om een ​​realistische weergave van het origineel te creëren. Met een synthetische datatweeling streven we naar een superieure synthetische datakwaliteit in vergelijking met de originele data. Dit doen we met onze synthetische datasoftware die gebruik maakt van state-of-the-art AI-modellen. Die AI-modellen genereren geheel nieuwe datapunten en modelleren die zo dat we de kenmerken, relaties en statistische patronen van de originele data zodanig behouden dat je het kunt gebruiken alsof het originele data zijn.

Dit kan voor verschillende doeleinden worden gebruikt, zoals het testen en trainen van machine learning-modellen, het simuleren van scenario's voor onderzoek en ontwikkeling en het creëren van virtuele omgevingen voor training en opleiding. Synthetische datatweelingen kunnen worden gebruikt om realistische en representatieve data te creëren die kunnen worden gebruikt in plaats van data uit de echte wereld wanneer deze niet beschikbaar zijn of wanneer het gebruik van data uit de echte wereld onpraktisch of onethisch zou zijn vanwege strikte regelgeving inzake dataprivacy.

Wat zijn typische use-cases voor synthetische data?

Over het algemeen gebruiken de meeste van onze klanten synthetische data voor:

  • Software testen en ontwikkelen
  • Synthetische data voor analytics, modelontwikkeling en advanced analytics (AI & ML)
  • Productdemo's
Datakwaliteit
Bewaart u de referentiële integriteit van databases met meerdere tabellen?

Ja dat doen we. Ons platform is geoptimaliseerd voor databases en daarmee voor het behoud van referentiële integriteit tussen datasets in de databank.

Benieuwd om hier meer over te weten te komen?

Vraag het direct aan onze experts.

Is de kwaliteit van door AI gegenereerde synthetische data goed genoeg voor geavanceerde analyses (bijv. AI, ML, BI)?

Jazeker. De synthetische data bevatten zelfs patronen waarvan je niet wist dat ze in de originele data aanwezig waren.

Maar geloof ons niet alleen op ons woord. De analytics experts van SAS (wereldwijd marktleider in analytics) deden een (AI) assessment van onze synthetische data en vergeleken deze met de originele data. Nieuwsgierig? Kijk de hele evenement hier of bekijk de korte versie over datakwaliteit hier.

Hoe toont Syntho de kwaliteit van gegenereerde synthetische data aan?

Garanderen dat synthetische data dezelfde datakwaliteit hebben als de originele data, kan een uitdaging zijn en hangt vaak af van de specifieke use case en de methoden die zijn gebruikt om de synthetische data te genereren. Sommige methoden voor het genereren van synthetische data, zoals generatieve modellen, kunnen data produceren die sterk lijken op de oorspronkelijke data. Kernvraag: hoe dit aan te tonen?

Er zijn enkele manieren om de kwaliteit van synthetische data te waarborgen:

  • Gegevenskwaliteitsstatistieken via ons datakwaliteitsrapport: Een manier om ervoor te zorgen dat synthetische data dezelfde datakwaliteit hebben als de oorspronkelijke data, is het gebruik van datakwaliteitsstatistieken om de synthetische data te vergelijken met de oorspronkelijke data. Deze statistieken kunnen worden gebruikt om zaken als gelijkenis, nauwkeurigheid en volledigheid van de data te meten. De Syntho-software bevatte een datakwaliteitsrapport met verschillende datakwaliteitsstatistieken.
  • Externe evaluatie: aangezien de datakwaliteit van synthetische data in vergelijking met originele data cruciaal is, hebben we onlangs een assessment gedaan met de data-experts van SAS (marktleider in analytics) om de datakwaliteit van synthetische data van Syntho in vergelijking met de echte data aan te tonen. Edwin van Unen, analytics expert van SAS, evalueerde gegenereerde synthetische datasets van Syntho via verschillende analytics (AI) assessments en deelde de uitkomsten. Bekijk hier een korte samenvatting van die video.
  • Zelf testen en beoordelen: synthetische data kunnen worden getest en geëvalueerd door ze te vergelijken met data uit de echte wereld of door ze te gebruiken om machine learning-modellen te trainen en hun prestaties te vergelijken met modellen die zijn getraind op data uit de echte wereld. Waarom test u de datakwaliteit van synthetische data niet zelf? Vraag onze experts hier naar de mogelijkheden hiervan.

Het is belangrijk op te merken dat synthetische data nooit kunnen garanderen dat ze 100% vergelijkbaar zijn met de oorspronkelijke data, maar ze kunnen dichtbij genoeg zijn om nuttig te zijn voor een specifieke use-case. Deze specifieke use case kan zelfs geavanceerde analyse- of machine learning-modellen zijn.

Privacy
Wat zegt de Autoriteit Persoonsdata over het gebruik van synthetische data?

Een van de use cases die specifiek door de Autoriteit Persoonsdata wordt genoemd, is het gebruik van synthetische data als testdata.

Meer vind je in dit artikel.

Welke privacystatistieken staan ​​in het Syntho QA-rapport?

Het QA-rapport van Syntho bevat er drie industriestandaard statistieken voor het evalueren van dataprivacy. Het idee achter elk van deze statistieken is als volgt:

  • Synthetische data (S) moet "zo dicht mogelijk", maar "niet te dicht" bij de doeldata liggen (T).
  • Willekeurig geselecteerde holdout-data (H) bepaalt de maatstaf voor “te dichtbij”.
  • perfecte oplossing genereert nieuwe synthetische data die zich precies zo gedraagt ​​als de originele data, maar nog niet eerder is gezien (= H).
Hoe toon je privacy?

Ja, dat doen we via ons QA-rapport.

Bij het synthetiseren van een dataset is het essentieel om aan te tonen dat men niet in staat is om individuen opnieuw te identificeren. In Deze video, introduceert Marijn privacymaatregelen die in ons kwaliteitsrapport staan ​​om dit aan te tonen.

Ziet en/of verwerkt Syntho mijn data?

Nee. De Syntho Engine is een zelfbedieningsplatform. Als gevolg hiervan is het genereren van synthetische data met de Syntho Engine mogelijk op een manier dat Syntho in het end-to-end proces nooit data kan zien en nooit hoeft te verwerken.

Moet ik mijn data delen met Syntho om synthetische data te genereren?

Nee. We hebben ons platform zo geoptimaliseerd dat het eenvoudig kan worden ingezet in de vertrouwde omgeving van de klant. Dit zorgt ervoor dat data nooit de vertrouwde omgeving van de klant verlaat. Deployment mogelijkheden voor de vertrouwde omgeving van de klant zijn “on-premise” en in de “cloud omgeving van de klant (private cloud)”.

Heeft Syntho toegang tot mijn data nodig om synthetische data te maken?

Nee, dat doen we niet. We kunnen de Syntho Engine eenvoudig on-premise of in uw private cloud implementeren via docker.

Syntho-engine
Blijft de referentiële integriteit behouden als ik een database heb?

Ja. Syntho-software is geoptimaliseerd voor databases met meerdere tabellen.

Wat dit betreft, detecteert Syntho automatisch de datatypen, schema's en indelingen om de datanauwkeurigheid te maximaliseren. Voor databases met meerdere tabellen ondersteunen we automatische inferentie en synthese van tabelrelaties om de referentiële integriteit te behouden.

Heb ik een GPU nodig om Syntho te gebruiken?

Nee, we hebben ons platform geoptimaliseerd om de rekenvereisten te minimaliseren (bijv. geen GPU vereist), zonder afbreuk te doen aan de datanauwkeurigheid. Bovendien ondersteunen we automatisch schalen, zodat men enorme databases kan synthetiseren.

Welke datatypen ondersteunt u?

De Syntho Engine werkt het beste met gestructureerde data in tabelvorm (alles dat rijen en kolommen bevat). Binnen deze structuren ondersteunen we de volgende datatypen:

  • Structureert data die zijn opgemaakt in tabellen (categorisch, numeriek, enz.)
  • Directe identifiers en PII
  • Grote datasets en databases
  • Geografische locatiedata (zoals GPS)
  • Tijdreeksdata
  • Databases met meerdere tabellen (met referentiële integriteit)
  • Tekstdata openen

 

Ondersteuning voor complexe data
Naast alle reguliere typen data in tabelvorm, ondersteunt de Syntho Engine complexe datatypen en complexe datastructuren.

  • Tijdreeksen
  • Databases met meerdere tabellen
  • Open tekst
Zijn er specifieke vaardigheden vereist om de Syntho Engine te gebruiken?

Helemaal niet. Hoewel het enige moeite kan kosten om de voordelen, werking en use cases van synthetische data volledig te begrijpen, is het proces van synthetiseren heel eenvoudig en kan iedereen met basiskennis van computers het doen. Voor meer informatie over het synthetiseringsproces, bekijk deze pagina of vraag een demo aan.

Hoeveel trainingsrecords heb ik nodig om mijn data te synthetiseren?

De machine learning-algoritmen van Syntho kunnen de functies beter generaliseren met meer beschikbare entiteitsrecords, wat het privacyrisico verkleint. Een minimale kolom-naar-rijverhouding van 1:500 wordt aanbevolen. Als uw brontabel bijvoorbeeld 6 kolommen heeft, moet deze minimaal 3000 rijen bevatten.

Hoe lang duurt het om synthetische data te genereren?

Uiteraard is de generatietijd afhankelijk van de grootte van de database. Gemiddeld wordt een tabel met minder dan 1 miljoen records gesynthetiseerd in minder dan 5 minuten.

Hoe koppel je de Syntho Engine aan je data?

Met Syntho kunt u eenvoudig verbinding maken met uw databases, applicaties, datapijplijnen of bestandssystemen.

Wij ondersteunen diverse geïntegreerde connectoren zodat u verbinding kunt maken met de bronomgeving (waar de originele data is opgeslagen) en de bestemmingsomgeving (waar u uw synthetische data naartoe wilt schrijven) voor een end-to-end geïntegreerde aanpak.

Verbindingsfuncties die we ondersteunen:

  • Plug-and-play met Docker
  • 20+ database-connectoren
  • 20+ bestandssysteemconnectoren
Welke implementatie-opties ondersteunt u?

De Syntho Engine wordt geleverd in een Docker-container en kan eenvoudig worden ingezet en aangesloten op uw omgeving naar keuze.

Mogelijke implementatie-opties zijn onder meer:

  • On-premise
  • Elke (private) cloud
  • Elke andere omgeving

Lees verder.

Bouw beter en sneller met synthetische data vandaag

Ontgrendel datatoegang, versnel de ontwikkeling en verbeter de dataprivacy.

Schrijf je in op onze nieuwsbrief

Blijf op de hoogte van het laatste nieuws over synthetische data