Zer dira datu sintetikoak?

Istripuaren datu sintetikoak

 

 

Sarrera

Zer dira datu sintetikoak?

Erantzuna nahiko sinplea da. Jatorrizko datuak benetako pertsonekin (adibidez, bezeroak, pazienteak, langileak, etab.) eta zure barneko prozesu guztietan biltzen diren bitartean, datu sintetikoak algoritmo informatiko batek sortzen ditu. Algoritmo informatiko honek datu-puntu guztiz berriak eta artifizialak sortzen ditu.

Ebatzi datuen pribatutasunaren erronkak

Sintetikoki sortutako datuak datu-puntu guztiz berri eta artifizialez osatuta daude, jatorrizko datuekin bat-bateko erlaziorik ez dutenak. Beraz, datu-puntu sintetiko bat ere ezin da jatorrizko datuetara itzuli edo alderantzizko ingeniaritza egin. Ondorioz, datu sintetikoak pribatutasun-arauetatik salbuetsita daude, hala nola GDPR, eta irtenbide gisa balio dute datuen pribatutasunaren erronkak konpontzeko eta gainditzeko.

Handitu eta simulatu

Datu sintetikoen sorkuntzaren alderdi sortzaileak datu guztiz berriak handitu eta simulatzeko aukera ematen du. Honek irtenbide gisa funtzionatzen du datu nahikorik ez duzunean (datu-eskasia), ertz-kasuak lagintzea nahi baduzu edo oraindik daturik ez duzunean.

Hemen, Synthoren ardatza datu egituratuak dira (errenkadak eta zutabeak dituzten tauletan formateatutako datuak, Excel orrietan ikusten den bezala), baina beti gustatzen zaigu datu sintetikoen kontzeptua irudien bidez ilustratzea, erakargarriagoa delako.

Datu sintetiko motak

Hiru datu sintetiko mota daude datu sintetikoen aterkiaren barruan. 3 datu sintetiko mota hauek hauek dira: datu finkoak, arauetan oinarritutako datu sintetikoak eta adimen artifizialak (AI) sortutako datu sintetikoak. Laster azalduko dugu zeintzuk diren 3 datu sintetikoak mota desberdinak.

Datu simulatuak / datu simulatuak

Datu finkoak ausaz sortutako datuak dira (adibidez, datu-sorgailu simulatu batek).

Ondorioz, jatorrizko datuetan dauden ezaugarriak, erlazioak eta eredu estatistikoak ez dira gorde, atzematen eta erreproduzitzen sortutako datu finkoetan. Hori dela eta, datu simulatuen / datu simulatuen adierazgarritasuna gutxienekoa da jatorrizko datuekin alderatuta.

  • Noiz erabili: zuzeneko identifikatzaileak (PII) ordezkatzeko edo daturik (oraindik) ez duzunean eta arauak definitzen denbora eta energiarik eman nahi ez duzunean.

Arauetan oinarritutako sortutako datu sintetikoak

Arauetan oinarritutako datu sintetikoak aurrez zehaztutako arau multzo batek sortutako datu sintetikoak dira. Aurrez zehaztutako arau horien adibideak izan daitezke datu sintetikoak gutxieneko, balio maximo edo batez besteko balio jakin batekin eduki nahi dituzula. Arauetan oinarritutako sortutako datu sintetikoetan erreproduzitu nahiko zenukeen ezaugarri, erlazio eta eredu estatistikoek aldez aurretik definitu behar dute.

Ondorioz, datuen kalitatea aurrez zehaztutako arau multzoa bezain ona izango da. Horrek erronkak sortzen ditu datuen kalitate handia funtsezkoa denean. Lehenik eta behin, datu sintetikoetan jaso beharreko arau-multzo mugatu bat soilik defini daiteke. Gainera, arau anitz konfiguratzeak arau gainjarri eta gatazkatsuak eragingo ditu normalean. Gainera, inoiz ez dituzu guztiz estaliko dagozkion arau guztiak. Gainera, baliteke ezagutzen ez dituzun arau garrantzitsuak egotea. Eta azkenik (eta ez ahazteko), honek denbora eta energia asko eramango zaitu irtenbide ez-eraginkorra lortuz.

  • Noiz erabili: daturik ez duzunean (oraindik)

Adimen artifizialak (AI) sortutako datu sintetikoak

Izenetik espero duzun bezala, adimen artifizialak (AI) sortutako datu sintetikoak adimen artifizialaren (AI) algoritmo batek sortutako datu sintetikoak dira. AI eredua jatorrizko datuetan trebatzen da ezaugarri, erlazio eta eredu estatistiko guztiak ikasteko. Hortik aurrera, AI algoritmo honek datu-puntu guztiz berriak sortzeko eta datu-puntu berri horiek modelatzeko gai da, jatorrizko datu-multzoaren ezaugarriak, erlazioak eta eredu estatistikoak erreproduzitzen dituen moduan. Hau da datu biki sintetiko deitzen dioguna.

AI ereduak jatorrizko datuak imitatzen ditu datu biki sintetikoak sortzeko, jatorrizko datuak balira bezala erabil daitezkeenak. Honek hainbat erabilera-kasu desblokeatzen ditu, non AI-ak sortutako datu sintetikoak alternatiba gisa erabil daitezkeen jatorrizko datuak (sentikorra) erabiltzeko, hala nola, AI-ak sortutako datu sintetikoak proba-datu gisa, demo-datu gisa edo analisietarako erabiltzea.

Datu sintetikoak nola sortzen diren bistaratzea

Arauetan oinarritutako datu sintetikoekin alderatuta: arau garrantzitsuak aztertu eta definitu beharrean, AI algoritmoak automatikoki egiten du hori. Hemen, ezagutzen dituzun ezaugarri, erlazio eta eredu estatistikoak ez ezik, ezagutzen ez dituzun ezaugarri, erlazio eta eredu estatistikoak ere landuko dira.

  • Noiz erabili: datu (batzuk) dituzunean imitatzeko edo datu adimentsuak sortzeko eta handitzeko eginbideetarako abiapuntu gisa erabiltzeko.

Zer motatako datu sintetikoak erabili?

Zure erabilera-kasuaren arabera, datu simulatuak / datu simulatuak, arauetan oinarritutako datu sintetikoak edo adimen artifizialak (AI) sortutako datu sintetikoak konbinatzea gomendatzen da. Ikuspegi orokor honek zer motatako datu sintetikoak erabili behar diren lehen adierazpide bat eskaintzen dizu. Synthok horiek guztiak onartzen dituenez, jar zaitez gure adituekin harremanetan zure erabilera kasua gurekin sakontzeko.

Taula honek datu sintetiko mota desberdinak aurkezten ditu

syntho gidaren estalkia

Gorde zure datu sintetikoen gida orain!