Subinstelling
Reduceer records om een kleinere, representatieve subset van een relationele database te creëren, terwijl de referentiële integriteit behouden blijft
Inleiding Subsetting
Wat is subsetten?
Verlaag het aantal records om een kleinere representatieve subset van een relationele database te creëren met behoud van referentiële integriteit
Waarom gebruiken organisaties subsetting?
Veel organisaties hebben productieomgevingen met enorme hoeveelheden data en willen geen enorme hoeveelheden data in niet-productietestomgevingen. Daarom wordt database-subsetting gebruikt om een kleinere, representatieve subset van een grotere relationele database te creëren met behoud van referentiële integriteit. Organisaties maken gebruik van subsettings voor testdata om de kosten te verlagen, beheersbaar te maken en voor snellere installatie en onderhoud.
Reduceer de infrastructuur- en computerkosten
Overmatige datavolumes kunnen leiden tot hoge infrastructuur- en rekenkosten, die niet nodig zijn voor testdata in niet-productieomgevingen. Met de mogelijkheden voor subsets kunt u eenvoudig kleinere subsets van uw data maken om uw kosten te verlagen.
Beheerbare testdata door testers en ontwikkelaars
Het beheren van enorme datavolumes in niet-productieomgevingen brengt uitdagingen met zich mee voor testers en ontwikkelaars. Kleinere en daardoor beter beheersbare testdata, waardoor test- en ontwikkelingsprocessen aanzienlijk worden gestroomlijnd en uiteindelijk de hele cyclus wordt geoptimaliseerd in termen van tijd en middelen.
Snellere installatie en onderhoud van testdata
Kleinere datavolumes maken een snellere en eenvoudigere installatie en onderhoud van niet-productietestomgevingen mogelijk. Dit is met name relevant in complexe IT-landschappen en wanneer frequente veranderingen in datastructuren regelmatige updates en vernieuwingen vereisen om de representativiteit van testdata te garanderen.
Wat is referentiële integriteit en waarom is het belangrijk?
Referentiële integriteit is een concept in databasebeheer dat consistentie en nauwkeurigheid tussen tabellen in een relationele database garandeert. Referentiële integriteit zou ervoor zorgen dat elke waarde die overeenkomt met “Persoon 1” van “Tabel 1” overeenkomt met de juiste waarde van “persoon 1” in “Tabel 2” en elke andere gekoppelde tabel.
Het afdwingen van referentiële integriteit is cruciaal voor het handhaven van de betrouwbaarheid van testdata in een relationele database als onderdeel van niet-productieomgevingen. Het voorkomt inconsistenties in de data en zorgt ervoor dat de relaties tussen tabellen betekenisvol en betrouwbaar zijn voor een goede test- en softwareontwikkeling.
Testdata in een relationele databaseomgeving moeten de referentiële integriteit behouden om bruikbaar te zijn. Het handhaven van referentiële integriteit in niet-productieomgevingen, zoals die worden gebruikt voor testen en softwareontwikkeling, is om verschillende redenen belangrijk:
Subsetting, niet zo eenvoudig als “gewoon data verwijderen”
Subsetting is niet zo eenvoudig als het simpelweg verwijderen van data, aangezien alle stroomafwaartse en upstream-gerelateerde gekoppelde tabellen proportioneel moeten worden subset om de referentiële integriteit te behouden. Subsetting zorgt ervoor dat niet alleen data in een doeltabel worden verwijderd, maar ook dat alle data in een andere gekoppelde tabel die verband houden met de verwijderde data uit de doeltabel, worden verwijderd. Dit zorgt ervoor dat de referentiële integriteit tussen tabellen, databases en systemen behouden blijft als onderdeel van het verwijderen van data.
Het datavolume verkleinen door “Persoon X” uit “Tabel Y” te verwijderen, alle records gerelateerd aan “Persoon X” in “Tabel Y” moeten worden verwijderd, maar ook alle records gerelateerd aan “Persoon X” in een andere upstream of downstream gerelateerde tabel (tabel A, B, C etc.) moeten ook worden verwijderd.
Het datavolume verminderen door “Richard” uit de tabel “Klanten” te verwijderen, alle records gerelateerd aan “Richard” in de tabel “Klant” moeten worden verwijderd, maar ook alle records gerelateerd aan “Richard” in enige andere upstream- of downstream-gerelateerde tabel (Betalingstabel, Incidententabel, Verzekeringsdekkingstabel etc.) moeten ook worden verwijderd verwijderd.
Over tafels heen
Subsetting werkt over meerdere tabellen heen
Over databases heen
Subsetting werkt in databases
Over systemen heen
Subsetting werkt op verschillende systemen
Heb je nog vragen?
Neem contact op met een van onze experts
Hoe kan ik subinstellingen gebruiken?
Proportionele subsetting
U kunt de Syntho Engine configureren om een relationele database in te delen en ervoor te zorgen dat alle “gekoppelde tabellen” zijn onderverdeeld op basis van de “Doeltabel”.
- Doeltabel: Gebruikers kunnen de doeltabel definiëren als startpunt voor subsetting.
- Gebruikers kunnen bijvoorbeeld definiëren dat de “Patiëntentabel” moet worden onderverdeeld in 5% of 500 records in plaats van 10.000 records.
- Gekoppelde tabellen: Dit zijn allemaal direct of indirect verbonden tabellen met de “Doeltabel”. Koppelingen tussen tabellen kunnen direct zijn, zoals een doeltabel met allergieën die verwijst naar een patiëntentabel via een externe sleutelrelatie, of indirect, zoals een doeltabel die verwijst naar een patiëntentabel, die op zijn beurt verwijst naar de tabel van een ziekenhuis.
- Subsetting zorgt ervoor dat alle records die betrekking hebben op de verwijderde data in het “Patiënttabel” wordt ook verwijderd. In het voorbeeld zorgt subsetting ervoor dat er in elke “Gekoppelde Tabel” alleen data zijn die gerelateerd zijn aan de 5% (500 records) en dat alle andere data die betrekking hebben op de 95% (10.000 – 500 = 9.500 records) worden verwijderd. om een kleinere representatieve subset van een relationele database te creëren met behoud van referentiële integriteit
Subsetting op basis van bedrijfsregels
Naast proportionele subsetting, waarbij u een percentage opgeeft voor data-extractie, kunt u met onze geavanceerde mogelijkheden de doelgroep voor subsetting nauwkeurig definiëren. U kunt bijvoorbeeld criteria opgeven om specifieke subsets op te nemen of uit te sluiten, waardoor u meer flexibiliteit en controle over het dataextractieproces krijgt
- Klanten jonger dan 60 jaar en ouder dan 30 jaar en
- Als mannelijke klanten
Sla uw synthetische datagids nu op!
- Wat is synthetische data?
- Waarom gebruiken organisaties het?
- Klantcases met toegevoegde waarde op basis van synthetische data
- Hoe te beginnen