Bekijk alle berichten

Wat is de ROI van synthetische data?

Auteur van het artikel
Wim Kees Janssen
Wim Kees Janssen CEO & oprichter
Inhoudsopgave

Naarmate meer bedrijven de voordelen en uitdagingen van databeheer bespreken, worden synthetische dataoplossingen een steeds frequenter onderwerp. Kunstmatig gegenereerde data zonder persoonlijk identificeerbare informatie (PII) klinkt immers als een oplossing voor echte dataproblemen zoals privacyzorgen. Maar wat is de ROI van synthetische data? Is het een goed idee om te investeren in synthetische data?

Begrijpelijkerwijs is er geen definitief ROI-cijfer voor het genereren van synthetische data, aangezien het nog steeds een opkomende technologie is met verschillende use cases in verschillende branches. De potentiële voordelen die synthetische data met zich meebrengt, zijn echter enorm in termen van snellere innovatiecycli, kostenbesparingen en schaalbaarheid.

Syntho-gids

Uw gids voor het genereren van synthetische data

De wereldwijde markt voor synthetische datageneratie zal naar verwachting groeien van 351.2 miljoen dollar in 2023 naar 2.3 miljard dollar in 2030 bij een CAGR van 30-35%. En volgens Gartner: bijna 60% van de data die worden gebruikt voor machine learning, AI en analyseprojecten zullen tegen 2024 synthetisch worden gegenereerd. Wat betreft use cases, zijn de datateams van Nvidia op dit moment maken gebruik van synthetische data om datalacunes op te vullen tijdens het ontwikkelen en het testen van zijn infrastructuur voor autonome voertuigen.

Noord-Amerika-markt voor synthetische datageneratie

Lees verder om te ontdekken welke kosten verbonden zijn aan synthetische data, hoe u het succes ervan kunt meten en de zakelijke haalbaarheid ervan. We bespreken ook de besparingen en extra inkomstenstromen die u kunt behalen met synthetische data.

De kosten van het beschermen van gevoelige data

Bedrijven die overwegen om synthetische data te gebruiken voor het anonimiseren van data kunnen op twee dimensies een rendement op hun investering verwachten. De eerste dimensie is eenvoudig te meten en brengt tastbare voordelen met zich mee, zoals hogere inkomsten of lagere kosten als gevolg van hun grotere capaciteit om data te gebruiken. De tweede dimensie is moeilijker te kwantificeren, maar blijft van cruciaal belang, waarbij de risico's en kosten die gepaard gaan met ontoereikende databescherming worden beperkt.

Echte data brengt risico's met zich mee die synthetische data niet met zich meebrengt: de overweldigende verantwoordelijkheid voor privacybescherming en de constante angst voor inbreuken. Daarom investeren bedrijven zoveel in cybersecurity. Gartner voorspelt zelfs dat wereldwijd de uitgaven aan beveiliging en risicobeheer zullen met 14% stijgen in 2024. Gegevensbescherming in de echte wereld is een probleem met meerdere lagen: enerzijds moeten gevoelige data worden beveiligd, verborgen of gemaskeerd voor kwaadwillende actoren; anderzijds moeten ze toegankelijk zijn voor de gecontroleerde personen die ermee moeten werken. En het onderhouden van veel databeschermingsmechanismen, het naleven van regelgeving en het raadplegen van experts is duur. Dit zijn de kosten waar we het over hebben:

  • Gegevensontdekking en classificatieBedrijven moeten gevoelige data in hun systemen, applicaties en databases identificeren en classificeren. En hoe groter het bedrijf, hoe duurder dit proces kan zijn.
  • BeveiligingsmaatregelenDeze omvatten encryptie, datamaskering, toegangscontroles (rolgebaseerde toegang, multifactorauthenticatie, enz.) en data anonimisering. Deze benaderingen vereisen investeringen in software, hardware en doorlopend onderhoud.
  • Beleid voor databeheer. U moet investeren in het ontwikkelen en implementeren van data governance-beleid en -procedures om naleving van de regelgeving inzake dataprivacy te garanderen. Dit omvat ook kosten voor juridisch advies en audits.
  • Naleving van dataBedrijven die in gereguleerde sectoren (gezondheidszorg, financiën, etc.) werken, moeten voldoen aan verschillende regelgevingen voor dataprivacy, zoals HIPAA, GDPR of PCI DSS. Compliance-inspanningen, waaronder audits, beoordelingen en rapportage, kunnen kostbaar zijn.
  • Kosten voor respons op incidenten en risicobeperking. Als er zich een datalek voordoet, kunnen organisaties te maken krijgen met aanzienlijke kosten in verband met het onderzoek, de melding, het herstel en mogelijke juridische kosten of boetes.
  • Werknemerstraining. Dit omvat het inhuren van data engineers en het trainen van andere teamleden om gevoelige data te verwerken. U zult ook doorlopende trainingsprogramma's, bewustmakingscampagnes en ondersteuning aan uw werknemers moeten bieden. En ze kunnen nog steeds het slachtoffer worden van phishing of andere social engineering-aanvallen.

Natuurlijk moeten bedrijven gevoelige data koste wat kost beschermen. Maar met synthetische data zijn de kosten veel lager. 

Kosten in verband met synthetische data

de ROI van synthetische data

Zoals elke technologie vereisen synthetische data investeringen. Het grootste deel van het synthetische databudget van uw organisatie wordt besteed aan het volgende:

  • Software hulpmiddelen. U zult voornamelijk moeten investeren in softwaretools of platforms voor het genereren van synthetische data. Afhankelijk van de complexiteit van de datageneratietaak kunnen deze tools variëren van eenvoudige scriptbibliotheken tot geavanceerde AI-gestuurde platforms (zoals Syntho).
  • Computerbronnen. Dit omvat de prijs van cloud computing-instances of speciale hardware voor het genereren en verwerken van synthetische data.
  • Validatie en testen. De uitgaven die verband houden met het valideren en testen van de kwaliteit en effectiviteit van synthetische data om ervoor te zorgen dat deze de datadistributie in de echte wereld accuraat weerspiegelen.
  • Infrastructuur en onderhoud. Dit zijn doorlopende kosten, waaronder softwarelicenties, serveronderhoud en updates van algoritmen voor datasynthese.
  • Integratiekosten. De kosten die gepaard gaan met het integreren van synthetische data in bestaande datapijplijnen, applicaties of machine learning-workflows. Dit kan het aanpassen van bestaande systemen, het ontwikkelen van nieuwe interfaces of het opnieuw trainen van modellen om met synthetische data te werken, omvatten.

Hoewel dit misschien als een grote investering klinkt, is het creëren van synthetische data feitelijk goedkoper dan alternatieve oplossingen. En dat is nog maar één van de voordelen.

  • KostenreductieHet genereren van data vergt niet veel tijd of speciale vaardigheden vergeleken met het verzamelen en labelen van echte data. Daarom hebt u waarschijnlijk geen data-engineer nodig.
  • Tijdsbespaarder. Het genereren of anonimiseren van synthetische data gaat snel omdat deze niet onderhevig zijn aan beperkingen uit de praktijk. Zo hoef je bijvoorbeeld geen vijf maanden te wachten totdat de immer drukke data engineer data heeft geanonimiseerd, of enkele weken te wachten totdat 10,000 auto’s door de camera zijn vastgelegd.
  • SchaalbaarheidDe generatie van synthetische data kan eenvoudig worden geschaald om grote datasets te creëren voor het trainen van machine learning-modellen, waardoor de ontwikkeling en implementatie van modellen sneller verloopt.
  • Data diversiteit. Synthetische data kunnen helpen problemen op te lossen die gerelateerd zijn aan dataschaarste en onevenwichtigheid door diverse datasets te creëren die de echte populatie beter vertegenwoordigen. Het gebruik van synthetische data kan ook het risico op bias of fouten in echte data verminderen.
  • Het handhaven data kwaliteit. Gegenereerde data voldoen aan vooraf gedefinieerde regels en specificaties, zodat de kwaliteit ervan consistent hoog is voor alle datasets. Geen inconsistenties, fouten of ontbrekende waarden, wat ook betekent dat het niet nodig is data op te schonen en voor te verwerken.

Nu organisaties worden geconfronteerd met de uitdaging om hun grote datameren efficiënt te beheren en te benaderen (vooral voor AI-modeltraining en databeheer), bieden synthetische data snelle toegang tot de noodzakelijke informatie zonder de noodzaak van afzonderlijke, vooraf opgeschoonde of geanonimiseerde datasets.

Met synthetische data kunnen bedrijven snel data definiëren en genereren op basis van specifieke gebruiksscenario's, waardoor de kosten voor dataopslag worden verminderd en flexibiliteit wordt geboden. Bovendien bieden synthetische dataplatforms voordelen zoals toegang tot de gewenste data, snelle synthese en eenvoudig delen tussen teams, waardoor tijdrovende en kostbare voorverwerkingstaken worden geëlimineerd.

Synthetische data kunnen echter niet alleen de kosten verlagen, maar ook nieuwe mogelijkheden voor datagebruik openen.

Synthetische data gebruiken om nieuwe inkomstenstromen te creëren

het gebruik van synthetische data om inkomstenstromen te creëren

Bedrijven hebben talloze mogelijkheden om te profiteren van de groeiende vraag naar synthetische data:

  • Diensten voor het genereren van dataBedrijven die data verkopen, kunnen synthetische datageneratie gebruiken om hun aanbod te versterken. Synthetische data kan worden gegenereerd met dezelfde patronen en afhankelijkheden als echte data en, nog belangrijker, het bevat geen PII. Hierdoor kunnen synthetische data worden gedeeld of verkocht zonder beperkingen of strikte regelgeving. Het lost ook het arbeidsintensieve probleem op van het verzamelen van relevante, hoogwaardige echte data, die vaak schaars is.
  • Branchespecifieke toepassingen. Bedrijven die synthetische data genereren, kunnen deze verkopen aan startups die actief zijn in sterk gereguleerde niches zoals de gezondheidszorg, de financiële sector of de automobielsector, waar het verkrijgen van echte data kostbaar en tijdrovend is.
  • Partnerschappen voor onderzoek en ontwikkeling. Bedrijven kunnen samenwerken met academische instellingen, onderzoeksorganisaties en gevestigde bedrijven om onderzoeks- en ontwikkelingsprojecten uit te voeren met behulp van synthetische data.
  • Advies- en opleidingsdienstenBedrijven kunnen advies- en trainingsdiensten leveren om andere organisaties te helpen de voordelen en toepassingen van synthetische data te begrijpen. Dit kan bestaan ​​uit het bieden van begeleiding bij datastrategieën, best practices voor het genereren van synthetische data en trainingsworkshops voor datawetenschappers en -technici.
  • Marktplaats voor synthetische data. Bedrijven kunnen online marktplaatsen of platforms opzetten waar gebruikers synthetische datasets kunnen bekijken, kopen, verkopen of uitwisselen. Door transacties tussen dataproviders en consumenten te faciliteren, kunnen startups een deel van de inkomsten genereren uit de verkoop van synthetische data.
  • Gegevenscatalogus met synthetische voorbeelddata. Organisaties kunnen veilige en gecontroleerde data preview-omgevingen opzetten door sandbox-omgevingen te creëren die uitgebreide datazoekopdrachten en snelle toegang tot relevante datasets mogelijk maken.

Het gebruik van synthetische data voor het genereren van inkomsten opent nieuwe mogelijkheden voor commercialisering, het verzamelen van data-inzichten of het aanbieden van datagestuurde producten die moeilijker te realiseren zijn met echte data.

Hoe de ROI van synthetische data te berekenen

We hebben de kosten van synthetische data en de inkomsten die het kan genereren onderzocht. Tot slot hebben we genoeg informatie om het rendement op de investering te bespreken.

De ROI van synthetische data kan variëren afhankelijk van het gebruiksscenario en de branche. Over het algemeen geeft een positieve ROI echter aan dat de voordelen opwegen tegen de kosten, wat betekent dat het gebruik van synthetische data een winstgevende investering is. Een negatieve ROI geeft daarentegen aan dat de kosten opwegen tegen de voordelen, wat betekent dat het gebruik van synthetische data in de huidige vorm mogelijk niet kosteneffectief is.

Dit is wat u moet doen om de ROI van synthetische data voor uw bedrijf te berekenen:

1. Identificeer de voordelen

Begin met het gemakkelijke deel: welke voordelen brengt synthetische data in uw specifieke geval voor uw bedrijf? Mogelijkheden zijn onder andere lagere uitgaven, tijdsbesparing, verbeterde databescherming, schaalbaarheid, verminderd risico en betere prestaties.

2. Kwantificeer deze voordelen

Dit kan lastig zijn: Wijs een monetaire waarde of andere kwantitatieve metingen toe aan de voordelen die u hebt geïdentificeerd. Schat bijvoorbeeld de kostenbesparingen van het gebruik van synthetische data in vergelijking met echte data of bereken de waarde van verbeterde modelprestaties in termen van hogere inkomsten of efficiëntiewinsten. 

Houd bovendien rekening met de transformerende impact op de workflow van datawetenschappers. Momenteel kan het verwerken van de tijdrovende processen voor het anonimiseren of de-identificeren van data vier tot zes maanden duren. Zelfs na deze inspanningen hebben datawetenschappers doorgaans slechts toegang tot een subset van de oorspronkelijke dataset, waardoor hun inzichten beperkt blijven. Bij het genereren van AI wordt de gehele dataset echter omgezet in synthetische datasets, waardoor uitgebreidere analyses en inzichten voor de ontwikkeling van robuuste AI-modellen mogelijk worden.

3. Evalueer de kosten

Bereken de uitgaven die gepaard gaan met het maken en implementeren van synthetische data. Dit kan uitgaven omvatten voor softwaretools, computerbronnen, expertise en andere relevante kosten die zijn gemaakt tijdens het proces voor het genereren van synthetische data.

4. Doe de wiskunde

Om de ROI te berekenen, moet u eerst de nettovoordelen berekenen:

Totale voordelen – Totale kosten = Nettovoordelen

Gebruik vervolgens de volgende vergelijking:

(Nettovoordelen ÷ kosten) x 100 = ROI

Hoewel u de ROI van de synthetische data voor uw bedrijf heeft berekend, moet u er rekening mee houden dat dit een ruwe waarde is en dat u rekening moet houden met de factoren die in de volgende sectie worden besproken.

Wat kan de ROI van synthetische data beïnvloeden?

Ten eerste moet u realistisch zijn in uw schattingen van de baten en kosten. Het overschatten van de voordelen of het onderschatten van de kosten kan leiden tot onnauwkeurige ROI-berekeningen.

Het is ook belangrijk om rekening te houden met het tijdsbestek waarover u de ROI meet. Sommige voordelen, zoals verbeterde modelprestaties, kunnen langetermijneffecten hebben waarmee rekening moet worden gehouden.

Over impact op de lange termijn gesproken: we raden aan om de prestaties en impact van synthetische data in de loop van de tijd te monitoren en uw berekeningen indien nodig aan te passen. De ROI is geen eenmalige berekening, maar moet af en toe worden herzien om rekening te houden met veranderingen in de omgeving en veranderende omstandigheden.

Tot slot moet u bij het evalueren van de ROI van synthetische data ook rekening houden met de mogelijke beperkingen en uitdagingen. Bijvoorbeeld: de kwaliteit van synthetische data is van cruciaal belang, omdat slecht gegenereerde synthetische data mogelijk niet nauwkeurig de scenario's uit de echte wereld weerspiegelen en kunnen resulteren in suboptimale modelprestaties.

Samenvatting

Het is van cruciaal belang om de ins en outs van de ROI van synthetische data te begrijpen, zodat u kunt beslissen of investeren daarin de juiste keuze is voor uw bedrijf. Het begrijpen van de voordelen van het gebruik van synthetische data voor uw bedrijf en de mogelijkheden om inkomsten te genereren met data is de sleutel tot het berekenen van uw potentiële ROI.

Bij Syntho zijn we ervan overtuigd dat synthetische data de toegang tot data voor analytics zullen verbeteren, het delen van data zullen vereenvoudigen en de innovatie in het algemeen zullen versnellen. Voor ons bestaat er geen twijfel over: synthetische data zijn een goede investering en wij moedigen u aan deze te doen.

Over Syntho

syntho biedt een slim platform voor het genereren van synthetische data, waarbij gebruik wordt gemaakt van meerdere synthetische datavormen en generatiemethoden, waardoor organisaties data op intelligente wijze kunnen transformeren in een concurrentievoordeel. Onze door AI gegenereerde synthetische data bootsen statistische patronen van originele data na, waardoor nauwkeurigheid, privacy en snelheid worden gegarandeerd, zoals beoordeeld door externe experts zoals SAS. Met slimme de-identificatiefuncties en consistente mapping wordt gevoelige informatie beschermd terwijl de referentiële integriteit behouden blijft. Ons platform maakt het creëren, beheren en controleren van testdata voor niet-productieomgevingen mogelijk, waarbij gebruik wordt gemaakt van op regels gebaseerde methoden voor het genereren van synthetische data voor gerichte scenario's. Bovendien kunnen gebruikers programmatisch synthetische data genereren en realistische testdata verkrijgen om eenvoudig uitgebreide test- en ontwikkelingsscenario's te ontwikkelen.  

Wil je meer praktische toepassingen van synthetische data leren? Voel je vrij om plan een demo!

Red je synthetisch datagids nu

Wat is synthetische data?

Hoe werkt het?

Waarom gebruiken organisaties het?

Hoe te beginnen?

Privacybeleid

Schrijf je in op onze nieuwsbrief

Blijf op de hoogte van het laatste nieuws over synthetische data