Hvad er syntetiske data?

Et lynkursus syntetiske data

 

 

Introduktion

Hvad er syntetiske data?

Svaret er relativt enkelt. Hvor originale data indsamles i alle dine interaktioner med virkelige personer (f.eks. klienter, patienter, medarbejdere osv.) og via alle dine interne processer, genereres syntetiske data af en computeralgoritme. Denne computeralgoritme genererer helt nye og kunstige datapunkter.

Løs udfordringer med databeskyttelse

Syntetisk genererede data består af helt nye og kunstige datapunkter uden en-til-en relationer til de originale data. Derfor kan ingen af ​​de syntetiske datapunkter spores tilbage eller omvendt konstrueres til originale data. Som et resultat er syntetiske data undtaget fra privatlivsbestemmelser, såsom GDPR, og tjener som løsning til at løse og overvinde data-privatlivsudfordringer.

Forøg og simuler

Det generative aspekt ved syntetisk datagenerering gør det muligt at udvide og simulere helt nye data. Dette fungerer som en løsning, når du ikke har nok data (dataknaphed), gerne vil up-sample edge-cases eller når du ikke har data endnu.

Her er fokus for Syntho strukturerede data (data formateret i tabeller, der indeholder rækker og kolonner, som du ser i et Excel -ark), men vi illustrerer altid gerne begrebet syntetiske data via billeder, fordi det er mere tiltalende.

Typer af syntetiske data

Der findes tre typer syntetiske data inden for den syntetiske dataparaply. Disse 3 typer syntetiske data er: dummydata, regelbaserede genererede syntetiske data og syntetiske data genereret af kunstig intelligens (AI). Vi forklarer kort, hvad de 3 forskellige typer syntetiske data er.

Dummy data / mock data

Dummy-data er tilfældigt genererede data (f.eks. af en falsk datagenerator).

Som følge heraf bliver karakteristika, relationer og statistiske mønstre, der er i de originale data, ikke bevaret, fanget og reproduceret i de genererede dummy-data. Derfor er repræsentativiteten af ​​dummy-data / mock-data minimal i forhold til de originale data.

  • Hvornår skal du bruge det: til at erstatte direkte identifikatorer (PII), eller når du ikke har data (endnu) og ikke ønsker at bruge tid og energi på at definere regler.

Regelbaserede genererede syntetiske data

Regelbaserede genererede syntetiske data er syntetiske data genereret af et foruddefineret sæt regler. Eksempler på de foruddefinerede regler kunne være, at du gerne vil have syntetiske data med en bestemt minimumsværdi, maksimumværdi eller gennemsnitsværdi. Enhver af de karakteristika, relationer og statistiske mønstre, som du gerne vil have gengivet i de regelbaserede genererede syntetiske data, skal foruddefineres.

Som følge heraf vil datakvaliteten være lige så god som det foruddefinerede regelsæt. Dette resulterer i udfordringer, når høj datakvalitet er af afgørende betydning. For det første kan man kun definere et begrænset sæt regler, der skal indfanges i de syntetiske data. Derudover vil opsætning af flere regler typisk resultere i overlappende og modstridende regler. Desuden vil du aldrig fuldt ud dække alle relevante regler. Desuden kan der være relevante regler, som du ikke engang kender til. Og endelig (og ikke at forglemme), vil dette tage dig meget tid og energi, hvilket resulterer i en ueffektiv løsning.

  • Hvornår skal du bruge det: når du ikke har data (endnu)

Syntetiske data genereret af kunstig intelligens (AI)

Som du forventer af navnet, er syntetiske data genereret af kunstig intelligens (AI) syntetiske data genereret af en kunstig intelligens (AI) algoritme. AI-modellen er trænet på de originale data for at lære alle karakteristika, sammenhænge og statistiske mønstre. Derefter er denne AI-algoritme i stand til at generere helt nye datapunkter og modellere disse nye datapunkter på en sådan måde, at den reproducerer karakteristika, relationer og statistiske mønstre fra det originale datasæt. Det er det, vi kalder en syntetisk datatvilling.

AI-modellen efterligner originale data for at generere syntetiske datatvillinger, der kan bruges, som om det var originale data. Dette låser op for forskellige use cases, hvor de AI-genererede syntetiske data kan bruges som alternativ til at bruge originale (følsomme) data, såsom brugen af ​​AI-genererede syntetiske data som testdata, demodata eller til analyser.

En visualisering af, hvordan syntetiske data skabes

I sammenligning med regelbaserede genererede syntetiske data: I stedet for at du studerer og definerer relevante regler, gør AI-algoritmen dette automatisk for dig. Her vil ikke kun karakteristika, sammenhænge og statistiske mønstre, som du har kendskab til, blive dækket, også karakteristika, sammenhænge og statistiske mønstre, som du ikke selv er klar over.

  • Hvornår skal du bruge det: når du har (nogle) data som input til at efterligne eller til at bruge som udgangspunkt for smart datagenerering og forstærkningsfunktioner

Hvilken type syntetiske data skal bruges?

Afhængigt af din use-case anbefales en kombination af dummy-data / mock-data, regelbaserede genererede syntetiske data eller syntetiske data genereret af kunstig intelligens (AI). Denne oversigt giver dig en første indikation af, hvilken type syntetiske data du skal bruge. Da Syntho støtter dem alle, er du velkommen til at kontakte vores eksperter for at dykke i dybden med din use-case med os.

Dette diagram viser forskellige typer syntetiske data

syntho guide cover

Gem din guide til syntetiske data nu!