Ghid pentru generarea de date sintetice: definiție, tipuri și aplicații

Nu este un secret pentru nimeni că companiile se confruntă cu provocări în achiziționarea și partajarea datelor de înaltă calitate. Generarea de date sintetice este o soluție practică care ajută la producerea de seturi de date artificiale mari și de date de testare de înaltă calitate, fără riscuri de confidențialitate sau birocrație.

Seturile de date sintetice pot fi create folosind o varietate de metode, oferind aplicații diverse. Când sunt evaluate corespunzător, seturile de date sintetice generate folosind algoritmi avansați ajută organizațiile să-și accelereze analiza, cercetarea și testarea. Deci, să aruncăm o privire mai atentă.

Acest articol vă prezintă datele sintetice, inclusiv principalele tipuri, diferențele față de seturile de date anonimizate și nuanțe de reglementare. Veți afla cum datele generate artificial rezolvă problemele critice ale datelor și minimizează anumite riscuri. Vom discuta, de asemenea, despre aplicațiile sale în diverse industrii, însoțite de exemple din studiile noastre de caz.

Cuprins

Date sintetice: definiție și statistici de piață

Date sintetice este informații generate artificial, lipsite de conținut confidențial și servesc ca alternativă la seturile de date reale. Oamenii de știință de date sună adesea Date sintetice generate de AI un geamăn de date sintetice datorită preciziei sale statistice ridicate în imitarea datelor reale.

Seturile de date artificiale sunt create folosind algoritmi și simulări de inteligență artificială (AI) care mențin tiparele și corelațiile datelor originale. Aceste date pot include text, tabele și imagini. Algoritmii înlocuiesc informațiile de identificare personală (PII) cu date simulate.

Platformă de date sintetice Syntho cu toate soluțiile grafice

Prognoze Grand View Research că piața pentru generarea de date sintetice cu IA generativă va crește de la 1.63 miliarde USD în 2022 la aproximativ 13.5 miliarde USD până în 2030, la un CAGR de 35%. Potrivit lui Gartner, 60% din datele utilizate pentru IA în 2024 vor fi sintetice — este de 60 de ori mai mult decât în ​​2021.

Platformele de date sintetice sunt, de asemenea, în creștere. Piața Statesville se așteaptă piața globală a platformelor de date sintetice va crește de la 218 milioane USD în 2022 la 3.7 miliarde USD până în 2033.

De ce datele artificiale sunt în creștere? Un factor determinant este lipsa de supraveghere reglementară.

Legile privind confidențialitatea reglementează datele sintetice generate de AI?

Multe SUA și UE securitatea datelor și confidențialitatea reglementările se aplică datelor cu caracter personal identificabile. 

Dar acele reglementări nu se aplică date sintetice — datele sintetice sunt tratate în mod similar date anonimizate. Ele formează așa-numitul „nucleu” al altor norme juridice.

De exemplu, considerentul 26 din GDPR spune că regulile de protecție a vieții private se aplică numai datelor care se referă la o persoană identificabilă. Dacă datele dvs. sintetice sunt generate astfel încât să nu poată fi urmărite până la persoane identificabile, acestea sunt scutite de supravegherea reglementară. Lăsând la o parte supravegherea reglementară, există și alte obstacole în calea utilizării datelor reale care conduc companiile să genereze date sintetice.

Principalele provocări ale utilizării datelor reale

Multe companii au dificultăți în găsirea și utilizarea datelor relevante, de înaltă calitate, în special în cantități suficiente pentru antrenamentul algoritmului AI. Chiar și atunci când îl găsesc, partajarea sau utilizarea setului de date poate fi o provocare din cauza riscurilor de confidențialitate și a problemelor de compatibilitate. Această secțiune prezintă cheia provoacă datele sintetice poate rezolva.

Riscurile privind confidențialitatea împiedică utilizarea și partajarea datelor

Reglementările privind securitatea și confidențialitatea datelor, cum ar fi GDPR și HIPAA, introduc obstacole birocratice în calea partajării și utilizării datelor. În industrii precum asistența medicală, chiar și partajarea informațiilor personale între departamentele din cadrul aceleiași organizații poate consuma mult timp din cauza verificărilor de guvernanță. Partajarea datelor cu entități externe este și mai dificilă și implică mai multe riscuri de securitate.

Cercetare de la Perspective de afaceri din avere identifică riscurile de confidențialitate în creștere ca un catalizator principal pentru adoptarea practicilor de date sintetice. Cu cât stocați mai multe date, cu atât riscați să compromiteți confidențialitatea. Conform Raportul IBM 2023 privind costul de securitate al unei încălcări a datelor, costul mediu al încălcării datelor în SUA a fost de 9.48 milioane USD. La nivel mondial, costul mediu a fost de 4.45 milioane USD; companiile cu mai puțin de 500 de angajați pierd 3.31 milioane USD per încălcare. Și asta nu ține cont de prejudiciul reputației.

Dificultăți în găsirea datelor de înaltă calitate

Un sondaj din 2022 dintre cei 500 de profesioniști în domeniul datelor, au arătat că 77% dintre ingineri, analiști și cercetători s-au confruntat cu probleme de calitate a datelor. Potrivit raportului, calitatea datelor împiedică performanța financiară și productivitatea unei companii și face ca obținerea unei viziuni holistice a serviciilor sale să fie greu de atins.

Este posibil ca companiile să nu aibă suficiente date din anumite date demografice pentru a-și antrena în mod corespunzător modelele de învățare automată (ML). Și seturile de date conțin adesea inconsecvențe, inexactități și valori lipsă. Dacă îți antrenezi platformele AI cu modele de învățare automată pe date de calitate scăzută, lipsite de diversitate demografică, va face predicții inexacte, părtinitoare. În mod similar, la fel ca generarea de date anonimizate, algoritmii nerafinați pot produce seturi de date artificiale nesigure care afectează rezultatul analizei datelor.

Eșantionarea cu date sintetice poate îmbunătăți calitatea datelor prin abordarea dezechilibrelor din seturile de date. Acest lucru asigură că clasele subreprezentate primesc o reprezentare mai proporțională și reduce părtinirea. Un set de date mai robust și mai reprezentativ oferă rezultate de analiză îmbunătățite și instruire model.

Incompatibilități ale setului de date

Seturile de date provenite din diverse origini sau din bazele de date cu mai multe tabele pot introduce incompatibilități, creând complexități în procesarea și analiza datelor și împiedicând inovarea.

De exemplu, agregarea datelor în asistența medicală implică înregistrări medicale electronice (EHR), dispozitive purtabile, software proprietar și instrumente terțe. Fiecare sursă poate utiliza formate de date și sisteme de informații distincte, ceea ce duce la disparități în formatele, structurile sau unitățile de date în timpul integrării. Utilizarea datelor sintetice poate aborda această provocare, asigurând compatibilitatea și permițând genera date în formatul dorit.

Anonimizarea este insuficientă

Tehnicile de anonimizare nu sunt suficiente pentru a depăși riscurile de confidențialitate sau problemele legate de calitatea datelor. În plus, mascarea sau eliminarea identificatorilor poate elimina detaliile necesare pentru o analiză aprofundată în seturi mari de date.

În plus, datele anonimizate pot fi reidentificate și urmărite până la persoane. Actorii rău intenționați pot folosi analize avansate pentru a descoperi modele bazate pe timp care compromit anonimatul datelor aparent de-identificate. Datele sintetice sunt superioare datelor anonimizate în acest sens.

Spre deosebire de anonimizare, date sintetice nu modifică seturile de date existente, ci generează date noi care seamănă cu caracteristicile și structura date neprelucrate, păstrându-și utilitatea. Este un set de date complet nou, care nu conține informații de identificare personală.

Dar este mai nuanțat decât atât. Există mai multe tipuri de metode sintetice de generare a datelor.

Tipuri de generare de date sintetice

Crearea de date sintetice procesele variază în funcție de tipul de date solicitate. Tipurile de date sintetice includ date complet generate de AI, bazate pe reguli și date simulate - fiecare îndeplinește o nevoie diferită.

Date sintetice complet generate de AI

Acest tip de date sintetice este construit de la zero folosind algoritmi ML. The model de învățare automată trenuri pe date reale pentru a afla despre structura, modelele și relațiile datelor. AI generativ folosește apoi aceste cunoștințe pentru a genera date noi care seamănă foarte mult cu proprietățile statistice ale originalului (din nou, făcându-l neidentificabil).

Acest tip de date complet sintetice este util pentru antrenamentul modelului AI și este suficient de bun pentru a fi folosit ca și cum ar fi date reale. Este deosebit de benefic atunci când nu vă puteți partaja seturile de date din cauza acordurilor contractuale de confidențialitate. Cu toate acestea, pentru a genera date sintetice, aveți nevoie de o cantitate semnificativă de date originale ca punct de plecare pentru model de învățare automată de formare.

Date simulate sintetice

Acest date sintetice tipul se referă la date create artificial care imită structura și formatul datelor reale, dar nu reflectă neapărat informațiile reale. Ajută dezvoltatorii să se asigure că aplicațiile lor pot gestiona diverse intrări și scenarii fără a utiliza autentice, private sau date sensibile și, cel mai important, fără a te baza pe date din lumea reală. Această practică este esențială pentru testarea funcționalității și rafinarea aplicațiilor software într-un mod controlat și sigur.

Când să-l folosești: pentru a înlocui identificatorii direcți (PII) sau când în prezent vă lipsesc datele și preferați să nu investiți timp și energie în definirea regulilor. Dezvoltatorii folosesc de obicei date simulate pentru a evalua funcționalitatea și aspectul aplicațiilor în primele etape de dezvoltare, permițându-le să identifice probleme potențiale sau defecte de proiectare. 

Chiar dacă datele simulate nu au autenticitatea informațiilor din lumea reală, acestea rămân un instrument valoros pentru a asigura funcționarea corectă a sistemelor și reprezentarea vizuală înainte de integrarea efectivă a datelor. 

Notă: datele sintetice batjocorite sunt adesea denumite „date false,', deși nu vă recomandăm să folosiți acești termeni în mod interschimbabil, deoarece pot diferi ca conotații. 

Date simulate sintetice

Date sintetice bazate pe reguli

Date sintetice bazate pe reguli este un instrument util pentru generarea de seturi de date personalizate bazate pe reguli, constrângeri și logică predefinite. Această metodă oferă flexibilitate, permițând utilizatorilor să configureze datele de ieșire în funcție de nevoile specifice ale afacerii, ajustând parametri precum valorile minime, maxime și medii. Spre deosebire de datele complet generate de AI, care nu dispun de personalizare, datele sintetice bazate pe reguli oferă o soluție personalizată pentru îndeplinirea cerințelor operaționale distincte. Acest proces sintetic de generare a datelor se dovedește deosebit de util în testare, dezvoltare și analiză, unde generarea de date precisă și controlată este esențială.

Fiecare metodă de generare a datelor sintetice are aplicații diferite. Platforma Syntho iese în evidență prin crearea de gemeni de date sintetice cu puțin sau deloc efort din partea dumneavoastră. Vei fi corect statistic, date sintetice de înaltă calitate pentru nevoile dvs., fără costuri generale de conformitate.

Date sintetice tabelare

Termenul date sintetice tabelare se referă la crearea de date artificiale subseturi care imită structura și proprietățile statistice ale lumii reale date tabulare, cum ar fi datele stocate în tabele sau foi de calcul. Acest date sintetice este creat folosind algoritmi sintetici de generare a datelor și tehnici concepute pentru a reproduce caracteristicile date sursă asigurând în același timp că confidențiale sau date sensibile nu este dezvăluită.

Tehnici de generare tabular date sintetice implică de obicei modelare statistică, modele de învățare automată, sau modele generative, cum ar fi rețele adverse generative (GAN) și autoencodere variaționale (VAE). Aceste instrumente sintetice de generare a datelor analizați modelele, distribuțiile și corelațiile prezente în set de date real și apoi generează noi puncte de date acea seamănă foarte mult cu datele reale dar nu conțin nicio informație reală.

Tabelul tipic cazuri de utilizare a datelor sintetice includ abordarea preocupărilor legate de confidențialitate, creșterea disponibilității datelor și facilitarea cercetării și inovației în aplicațiile bazate pe date. Cu toate acestea, este esențial să ne asigurăm că date sintetice surprinde cu acuratețe modelele și distribuțiile de bază ale datelor originale de menținut utilitar de date și valabilitate pentru sarcinile din aval.

grafic de date sintetice bazat pe reguli

Cele mai populare aplicații de date sintetice

Datele generate artificial deschid posibilități de inovare pentru asistența medicală, comerțul cu amănuntul, producția, finanțele și alte industrii. Primar cazuri de utilizare includ supraeșantionarea datelor, analiza, testarea și partajarea.

Supraeșantionare pentru a îmbunătăți seturile de date

Eșantionarea înseamnă generarea de seturi de date mai mari din altele mai mici pentru scalare și diversificare. Această metodă se aplică atunci când datele reale sunt rare, dezechilibrate sau incomplete.

Luați în considerare câteva exemple. Pentru instituțiile financiare, dezvoltatorii pot îmbunătăți acuratețea modelelor de detectare a fraudei prin supraeșantionarea observațiilor rare și a modelelor de activitate în date financiare. În mod similar, o agenție de marketing poate eșantiona pentru a spori datele referitoare la grupurile subreprezentate, îmbunătățind acuratețea segmentării.

Analiză avansată cu date generate de AI

Companiile pot folosi date sintetice de înaltă calitate generate de AI pentru modelarea datelor, analiza de afaceri și cercetarea clinică. Sintetizând date se dovedește a fi o alternativă viabilă atunci când achiziționarea de seturi de date reale este fie prea costisitoare, fie consumatoare de timp.

Date sintetice dă putere cercetătorilor să efectueze analize aprofundate fără a compromite confidențialitatea pacientului. Oamenii de știință ai datelor iar cercetătorii au acces la datele despre pacienți, informații despre condițiile clinice și detaliile tratamentului, obținând perspective care ar consuma mult mai mult timp cu date reale. În plus, producătorii pot partaja liber date cu furnizorii, încorporând GPS manipulat și date de locație pentru a crea algoritmi pentru testarea performanței sau pentru a îmbunătăți întreținerea predictivă.

"Dar daca evaluarea sintetică a datelor este critic. Ieșirea Syntho Engine este validată de o echipă internă de asigurare a calității și experți externi de la Institutul SAS. Într-un studiu de modelare predictivă, am antrenat patru modele de învățare automată pe date reale, anonimizate și sintetice. Rezultatele au arătat că modelele antrenate pe seturile noastre de date sintetice au avut același nivel de acuratețe ca cele antrenate pe seturi de date reale, în timp ce datele anonimizate au redus utilitatea modelelor.

Partajarea datelor externe și interne

Datele sintetice simplifică partajarea datelor în cadrul și între organizații. Puteți utilizați date sintetice la schimbă informații fără a risca încălcări ale confidențialității sau nerespectarea reglementărilor. Beneficiile datelor sintetice includ rezultate accelerate ale cercetării și o colaborare mai eficientă.

Companiile de vânzare cu amănuntul pot împărtăși informații cu furnizorii sau distribuitorii folosind date sintetice care reflectă comportamentul clienților, nivelurile de stoc sau alte valori cheie. Cu toate acestea, pentru a asigura cel mai înalt nivel de confidențialitatea datelor, datele sensibile ale clienților și secretele corporative sunt păstrate confidențiale.

Syntho a câștigat 2023 Global SAS Hackathon pentru capacitatea noastră de a genera și împărtăși adate sintetice exacte eficient și fără riscuri. Am sintetizat datele pacienților pentru mai multe spitale cu diferite populații de pacienți pentru a demonstra eficacitatea modelelor predictive. Utilizarea seturilor de date sintetice combinate sa dovedit a fi la fel de precisă ca și utilizarea datelor reale.

Date de testare sintetice

Datele de testare sintetice sunt date generate artificial concepute pentru a simula testarea datelor medii pentru dezvoltarea de software. Pe lângă reducerea riscurilor de confidențialitate, datele de testare sintetice le permit dezvoltatorilor să evalueze riguros performanța, securitatea și funcționalitatea aplicațiilor într-o serie de scenarii potențiale, fără a afecta sistemul real.

Colaborarea noastră cu una dintre cele mai mari bănci olandeze vitrine beneficiile datelor sintetice pentru testarea software-ului. Generarea datelor de testare cu Syntho Engine a rezultat în seturi de date asemănătoare producției, care au ajutat banca să accelereze dezvoltarea software-ului și detectarea erorilor, ducând la lansări de software mai rapide și mai sigure.

Tehnici de generare tabular date sintetice implică de obicei modelare statistică, modele de învățare automată, sau modele generative, cum ar fi rețele adverse generative (GAN) și autoencodere variaționale (VAE). Aceste instrumente sintetice de generare a datelor analizați modelele, distribuțiile și corelațiile prezente în set de date real și apoi generează noi puncte de date acea seamănă foarte mult cu datele reale dar nu conțin nicio informație reală.

Tabelul tipic cazuri de utilizare a datelor sintetice includ abordarea preocupărilor legate de confidențialitate, creșterea disponibilității datelor și facilitarea cercetării și inovației în aplicațiile bazate pe date. Cu toate acestea, este esențial să ne asigurăm că date sintetice surprinde cu acuratețe modelele și distribuțiile de bază ale datelor originale de menținut utilitar de date și valabilitate pentru sarcinile din aval.

Platforma sintetică de generare a datelor Syntho

Syntho oferă o platformă inteligentă de generare de date sintetice, dând putere organizațiilor să transforme în mod inteligent datele într-un avantaj competitiv. Prin furnizarea tuturor metodelor de generare a datelor sintetice într-o singură platformă, Syntho oferă o soluție cuprinzătoare pentru organizațiile care își propun să utilizeze date care acoperă:

  • Date sintetice generate de AI care imită tiparele statistice ale datelor originale în date sintetice cu puterea inteligenței artificiale.
  • De-identificare inteligentă pentru a proteja date sensibile prin eliminarea sau modificarea informațiilor de identificare personală (PII).
  • Test data management care permite crearea, întreținerea și controlul datelor de testare reprezentative pentru medii care nu sunt de producție.

Platformele noastre se integrează în orice mediu cloud sau local. În plus, ne ocupăm de planificare și implementare. Echipa noastră vă va instrui angajații pentru utilizare Motor Syntho eficient și vom oferi asistență continuă după implementare.

Puteți citi mai multe despre capacitățile Syntho date sintetice platformă de generare în Secțiunea de soluții a site-ului nostru.

Ce este în viitor pentru datele sintetice?

Generarea de date sintetice cu AI generativă ajută la crearea și distribuirea unor volume mari de date relevante, ocolind problemele de compatibilitate de format, constrângerile de reglementare și riscul de încălcare a datelor.

Spre deosebire de anonimizare, generarea de date sintetice permite păstrarea relațiilor structurale în date. Acest lucru face ca datele sintetice să fie adecvate pentru analize avansate, cercetare și dezvoltare, diversificare și testare.

Utilizarea seturilor de date sintetice se va extinde doar la nivelul industriilor. Companiile sunt pregătite creați date sintetice, extinzându-și domeniul de aplicare la imagini complexe, conținut audio și video. Companiile vor extinde utilizarea modele de învățare automată la simulări mai avansate şi aplicatii.

Doriți să aflați mai multe aplicații practice ale date sintetice? Simte-te liber sa programați o demonstrație site-ul nostru.

Despre Syntho

Syntho oferă un inteligent generarea de date sintetice platformă, pârghie multiple forme de date sintetice și metode de generare, dând putere organizațiilor să transforme în mod inteligent datele într-un avantaj competitiv. Datele noastre sintetice generate de AI imită tiparele statistice ale datelor originale, asigurând acuratețea, confidențialitatea și viteza, așa cum au fost evaluate de experți externi precum SAS. Cu funcții inteligente de de-identificare și cartografiere consecventă, informațiile sensibile sunt protejate, păstrând în același timp integritatea referențială. Platforma noastră permite crearea, gestionarea și controlul datelor de testare pentru medii care nu sunt de producție, utilizând reguli bazate pe metode sintetice de generare a datelor pentru scenarii vizate. În plus, utilizatorii pot generați date sintetice în mod programatic și obțineți date de testare realiste pentru a dezvolta cu ușurință scenarii cuprinzătoare de testare și dezvoltare.

Despre autor

Captură foto a CEO-ului și co-fondatorului Syntho, Wim Kees Jannsen

Wim Kees Janssen

CEO și Fondator

Syntho, extinderea care perturbă industria datelor cu date sintetice generate de AI. Wim Kees a dovedit cu Syntho că poate debloca date sensibile la confidențialitate pentru a face datele mai inteligente și mai rapide disponibile, astfel încât organizațiile să poată realiza inovații bazate pe date. Drept urmare, Wim Kees și Syntho au câștigat prestigiosul Philips Innovation Award, au câștigat hackatonul global SAS în domeniul sănătății și știința vieții și sunt selectați ca lider generativ AI Scale-Up de către NVIDIA.

Publicat
19 Februarie 2024