X'inhi dejta sintetika?

A crash course data sintetika

 

 

introduzzjoni

X'inhi dejta sintetika?

It-tweġiba hija relattivament sempliċi. Billi d-dejta oriġinali tinġabar fl-interazzjonijiet kollha tiegħek ma' persuni reali (eż. klijenti, pazjenti, impjegati eċċ.) u permezz tal-proċessi interni kollha tiegħek, id-dejta sintetika hija ġġenerata minn algoritmu tal-kompjuter. Dan l-algoritmu tal-kompjuter jiġġenera datapoints kompletament ġodda u artifiċjali.

Issolvi l-isfidi tal-privatezza tad-dejta

Id-dejta ġġenerata sintetikament tikkonsisti f'punti tad-dejta kompletament ġodda u artifiċjali bl-ebda relazzjoni waħda għal waħda mad-dejta oriġinali. Għalhekk, l-ebda wieħed mill-punti tad-dejta sintetiċi ma jista 'jiġi traċċat lura jew inġinerija inversa għad-dejta oriġinali. Bħala riżultat, id-dejta sintetika hija eżentata mir-regolamenti tal-privatezza, bħall-GDPR u sservi bħala soluzzjoni biex issolvi u tegħleb l-isfidi tal-privatezza tad-dejta.

Żieda u simulazzjoni

L-aspett ġenerattiv tal-ġenerazzjoni ta 'data sintetika jippermetti li tiżdied u tissimula data kompletament ġdida. Dan jiffunzjona bħala soluzzjoni meta ma jkollokx biżżejjed dejta (skarsezza ta' dejta), tixtieq tagħmel kampjun ta' edge-cases jew meta għad ma jkollokx dejta.

Hawnhekk, il-fokus ta 'Syntho huwa dejta strutturata (dejta fformattjata f'tabelli li fihom ringieli u kolonni, bħalma tara f'folji Excel), imma aħna dejjem inħobbu nuru l-kunċett ta' dejta sintetika permezz ta 'immaġini, għax hija iktar attraenti.

Tipi ta' data sintetika

Tliet tipi ta' data sintetika jeżistu fi ħdan l-umbrella tad-data sintetika. Dawk it-3 tipi ta' dejta sintetika huma: dejta finta, dejta sintetika ġġenerata bbażata fuq ir-regoli u dejta sintetika ġġenerata minn intelliġenza artifiċjali (AI). Aħna dalwaqt nispjegaw x'inhuma t-3 tipi differenti ta 'dejta sintetika.

Data finta / data finta

Id-dejta finta hija data ġġenerata b'mod każwali (eż. minn ġeneratur ta' data finta).

Konsegwentement, il-karatteristiċi, ir-relazzjonijiet u l-mudelli statistiċi li huma fid-dejta oriġinali mhumiex ippreservati, maqbuda u riprodotti fid-dejta finta ġġenerata. Għalhekk, ir-rappreżentattività tad-dejta finta/data finta hija minima meta mqabbla mad-dejta oriġinali.

  • Meta tużah: biex tissostitwixxi l-identifikaturi diretti (PII) jew meta ma jkollokx data (għadha) u ma tridx tonfoq ħin u enerġija biex tiddefinixxi r-regoli.

Dejta sintetika ġġenerata bbażata fuq ir-regoli

Id-dejta sintetika ġenerata bbażata fuq ir-regoli hija dejta sintetika ġġenerata minn sett ta’ regoli definiti minn qabel. Eżempji ta' dawk ir-regoli definiti minn qabel jistgħu jkunu li inti tixtieq li jkollok dejta sintetika b'ċertu valur minimu, valur massimu jew valur medju. Kwalunkwe karatteristiċi, relazzjonijiet u xejriet statistiċi, li tixtieq li tirriproduċi fid-dejta sintetika ġġenerata bbażata fuq ir-regoli, jeħtieġ li tkun definita minn qabel.

Konsegwentement, il-kwalità tad-dejta se tkun tajba daqs is-sett ta' regoli definiti minn qabel. Dan jirriżulta fi sfidi meta l-kwalità għolja tad-dejta hija essenzjali. L-ewwel, wieħed jista' jiddefinixxi biss sett limitat ta' regoli li għandhom jinqabdu fid-dejta sintetika. Barra minn hekk, it-twaqqif ta' regoli multipli tipikament jirriżulta f'regoli li jikkoinċidu u konfliġġenti. Barra minn hekk, qatt m'int se tkopri bis-sħiħ ir-regoli rilevanti kollha. Barra minn hekk, jista' jkun hemm regoli rilevanti li lanqas biss taf bihom. U finalment (u biex ma ninsewx), dan se jieħu ħafna ħin u enerġija li tirriżulta f'soluzzjoni mhux effiċjenti.

  • Meta tużah: meta ma jkollokx data (għadha)

Dejta sintetika ġġenerata minn intelliġenza artifiċjali (AI)

Kif tistenna mill-isem, data sintetika ġġenerata minn intelliġenza artifiċjali (AI) hija data sintetika ġġenerata minn algoritmu ta 'intelliġenza artifiċjali (AI). Il-mudell AI huwa mħarreġ fuq id-dejta oriġinali biex jitgħallmu l-karatteristiċi, ir-relazzjonijiet u l-mudelli statistiċi kollha. Minn hemm 'il quddiem, dan l-algoritmu AI huwa kapaċi jiġġenera punti tad-dejta kompletament ġodda u jimmudella dawk il-punti tad-dejta ġodda b'tali mod li jirriproduċi l-karatteristiċi, ir-relazzjonijiet u l-mudelli statistiċi mis-sett tad-dejta oriġinali. Dan huwa dak li nsejħu tewmin tad-dejta sintetiku.

Il-mudell AI jimita data oriġinali biex jiġġenera data tewmin sintetiċi li jistgħu jintużaw bħallikieku hija data oriġinali. Dan jiftaħ diversi każijiet ta' użu fejn id-dejta sintetika ġġenerata mill-AI tista' tintuża bħala alternattiva għall-użu ta' data oriġinali (sensittiva), bħall-użu ta' data sintetika ġġenerata mill-AI bħala data tat-test, data demo jew għal analitika.

Viżwalizzazzjoni kif tinħoloq data sintetika

Meta mqabbel ma' data sintetika ġġenerata bbażata fuq ir-regoli: minflok ma tistudja u tiddefinixxi r-regoli rilevanti, l-algoritmu AI jagħmel dan awtomatikament għalik. Hawnhekk, mhux biss il-karatteristiċi, ir-relazzjonijiet u l-mudelli statistiċi li inti taf bihom se jkunu koperti, ukoll se jkunu koperti karatteristiċi, relazzjonijiet u mudelli statistiċi li lanqas biss taf bihom.

  • Meta tużah: meta jkollok (xi) dejta bħala input biex timita jew tuża bħala punt tat-tluq għall-ġenerazzjoni tad-dejta intelliġenti u l-karatteristiċi tat-tkabbir

X'tip ta' data sintetika tuża?

Skont il-każ tal-użu tiegħek, hija rakkomandata kombinazzjoni ta' data finta / data finta, data sintetika ġenerata bbażata fuq ir-regoli jew data sintetika ġġenerata minn intelliġenza artifiċjali (AI). Din il-ħarsa ġenerali tagħtik l-ewwel indikazzjoni ta’ liema tip ta’ data sintetika tuża. Peress li Syntho jappoġġjahom kollha, tħossok liberu li tikkuntattja lill-esperti tagħna biex tgħaddi l-każ tal-użu tiegħek magħna.

Din it-tabella tippreżenta tipi differenti ta 'dejta sintetika

Qoxra tal-gwida syntho

Issejvja l-gwida tad-dejta sintetika tiegħek issa!