ohiko galderak

Datu sintetikoei buruzko maiz egiten diren galderak

Ulergarria! Zorionez, baditugu erantzunak eta hemen gaude laguntzeko. Begiratu gure maiz egiten diren galderak.

Mesedez, ireki galdera bat behean eta egin klik esteketan informazio gehiago aurkitzeko. Galdera konplikatuagorik al duzu hemen adierazi ez dena? Galdetu gure adituei zuzenean!

Gehien egiten diren galderak

Datu sintetikoak mundu errealeko iturrietatik bildu beharrean artifizialki sortzen diren datuak aipatzen dira. Oro har, jatorrizko datuak pertsonekin (bezeroak, pazienteak, etab.) elkarrekintza guztietan eta barne prozesu guztien bidez biltzen diren bitartean, datu sintetikoak algoritmo informatiko batek sortzen ditu.

Datu sintetikoak ingurune kontrolatu batean ereduak probatzeko eta ebaluatzeko ere erabil daitezke, edo informazio sentikorra babesteko, mundu errealeko datuen antzekoak diren baina informazio sentikorrik ez duten datuak sortuz. Datu sintetikoak sarritan erabiltzen dira pribatutasun-datu sentikorrak alternatiba gisa eta proba-datu gisa erabil daitezke, analitika egiteko edo ikaskuntza automatikoa trebatzeko.

Irakurri gehiago

Datu sintetikoek jatorrizko datuen kalitate bera dutela bermatzea zaila izan daiteke, eta askotan erabilera-kasu zehatzaren eta datu sintetikoak sortzeko erabiltzen diren metodoen araberakoa da. Datu sintetikoak sortzeko metodo batzuek, hala nola eredu sortzaileak, jatorrizko datuekin oso antzekoak diren datuak sor ditzakete. Galdera nagusia: nola frogatu hori?

Datu sintetikoen kalitatea ziurtatzeko modu batzuk daude:

  • Datuen kalitatearen neurketak gure datuen kalitatearen txostenaren bidez: datu sintetikoek jatorrizko datuen kalitate bera dutela ziurtatzeko modu bat datuen kalitatearen neurketak erabiltzea da datu sintetikoak jatorrizko datuekin alderatzeko. Neurri hauek datuen antzekotasuna, zehaztasuna eta osotasuna bezalako gauzak neurtzeko erabil daitezke. Syntho softwareak datuen kalitatearen txostena barne hartzen zuen datuen kalitatearen hainbat neurketarekin.
  • Kanpo ebaluazioa: datu sintetikoen datuen kalitatea jatorrizko datuekin alderatuta funtsezkoa denez, duela gutxi SASeko datu-adituekin (merkatuko liderra analitikan) ebaluazio bat egin dugu Syntho-k datu sintetikoen datuen kalitatea benetako datuekin alderatuta erakusteko. Edwin van Unen-ek, SASeko analitikan adituak, Syntho-tik sortutako datu-multzo sintetikoak ebaluatu zituen hainbat analitiko (AI) ebaluazioen bidez eta emaitzak partekatu zituen. Ikusi hemen bideo horren laburpen labur bat.
  • Proba eta ebaluazioa zuk zeuk: datu sintetikoak probatu eta ebalua daitezke mundu errealeko datuekin alderatuz edo ikaskuntza automatikoko ereduak trebatzeko erabiliz eta haien errendimendua mundu errealeko datuekin trebatutako ereduekin alderatuz. Zergatik ez probatu zuk zeuk datu sintetikoen datuen kalitatea? Galdetu gure adituei honen aukerak hemen

Garrantzitsua da kontutan izan datu sintetikoek ezin dutela inoiz bermatu jatorrizko datuen % 100eko antzekoa izatea, baina nahikoa hurbil egon daitekeela erabilera kasu zehatz baterako erabilgarria izateko. Erabilera espezifiko hau analitika aurreratuak edo prestakuntza-makinen ikaskuntza-ereduak ere izan daitezke.

"Anonimizazio" klasikoa ez da beti irtenbiderik onena, zeren eta:

  1. Pribatutasun arriskua – beti izango duzu
    pribatutasun arriskua. Horiek aplikatuz
    anonimizazio teknika klasikoak
    zailagoa baino ez du egiten, baina ez
    ezinezkoa da pertsonak identifikatzea.
  2. Datuak suntsitzea – Zenbat eta gehiago zu
    anonimatu, orduan eta hobeto babestu
    zure pribatutasuna, baina zenbat eta gehiago
    suntsitu zure datuak. Hau ez da zer
    analisirako nahi duzu, zeren
    suntsitutako datuak txarra eragingo du
    ikuspegiak.
  3. Denbora kontsumitzen - irtenbide bat da
    horrek denbora asko eskatzen du, zeren
    teknika horiek desberdin funtzionatzen dute
    datu multzo bakoitzeko eta datu mota bakoitzeko.

Datu sintetikoek gabezia horiek guztiak konpontzea dute helburu. Aldea hain da deigarria non horri buruzko bideo bat egin genuen. Ikusi ezazu hemen.

Galdera arruntak

Datu sintetikoak

Orokorrean, gure bezero gehienek datu sintetikoak erabiltzen dituzte:

  • Software probak eta garapena
  • Datu sintetikoak analisirako, ereduen garapenerako eta analisi aurreratuetarako (AI eta ML)
  • Produktuen demoak

Irakurri gehiago eta arakatu erabilera kasuak.

Datu biki sintetiko bat mundu errealeko datu-multzo eta/edo datu-base baten algoritmoak sortutako erreplika da. Synthetic Data Twin batekin, Syntho-k jatorrizko datu-multzo edo datu-base bat imitatu nahi du jatorrizko datuetatik ahalik eta hurbilen, jatorrizkoaren irudikapen errealista bat sortzeko. Datu sintetiko biki batekin, jatorrizko datuekin alderatuta datu sintetikoen kalitate handiagoa lortu nahi dugu. Hori egiten dugu puntako AI ereduak erabiltzen dituen datu sintetikoen softwarearekin. AI eredu horiek datu-puntu guztiz berriak sortzen dituzte eta horiek modelatzen dituzte jatorrizko datuen ezaugarriak, erlazioak eta eredu estatistikoak gordetzen ditugun neurrian, jatorrizko datuak balira bezala erabil ditzakezun.

Hau hainbat helburutarako erabil daiteke, hala nola, ikaskuntza automatikoko ereduak probatzeko eta entrenatzeko, ikerketarako eta garapenerako eszenatokiak simulatzeko eta prestakuntzarako eta hezkuntzarako ingurune birtualak sortzeko. Datu biki sintetikoak erabil daitezke datu errealistak eta adierazgarriak sortzeko, mundu errealeko datuen ordez erabil daitezkeen datuak eskuragarri ez daudenean edo mundu errealeko datuak erabiltzea ez litzateke praktikoa edo etikoa ez litzatekeen datuen pribatutasun-arau zorrotzak direla eta.

Irakurri gehiago.

Bai, egiten dugu. Datu sintetikoak optimizatzeko eta handitzeko balio erantsia duten hainbat funtzio eskaintzen ditugu, burlatzaileak barne, zure datuak hurrengo mailara eramateko.

Irakurri gehiago.

Mock data eta AI-k sortutako datu sintetikoak biak dira datu sintetikoak, baina modu ezberdinetan sortzen dira eta helburu desberdinak dituzte.

Mock data eskuz sortzen den datu sintetiko mota bat da eta askotan probak egiteko eta garapenerako erabiltzen da. Normalean ingurune kontrolatu batean mundu errealeko datuen portaera simulatzeko erabiltzen da eta sistema edo aplikazio baten funtzionaltasuna probatzeko erabiltzen da. Askotan sinplea da, sortzeko erraza eta ez du eredu edo algoritmo konplexurik behar. Sarritan, datuen trufa ere aipatzen da "datu faltsuak" edo "datu faltsuak" gisa.

AI-k sortutako datu sintetikoak, berriz, adimen artifizialaren tekniken bidez sortzen dira, hala nola ikaskuntza automatikoa edo eredu sortzaileak. Datu errealistak eta adierazgarriak sortzeko erabiltzen da, mundu errealeko datuen ordez erabil daitezkeenak, mundu errealeko datuak erabiltzea praktikoa edo etikoa ez litzatekeen pribatutasun-arau zorrotzak direla eta. Askotan konplexuagoa da eta eskuzko datu simulatuak baino baliabide konputazional gehiago behar ditu. Ondorioz, askoz errealistagoa da eta jatorrizko datuak ahalik eta hurbilen imitatzen ditu.

Laburbilduz, datu simulatuak eskuz sortzen dira eta normalean probak egiteko eta garapenerako erabiltzen dira, AI-k sortutako datu sintetikoak, berriz, adimen artifizialaren teknikak erabiliz eta datu adierazgarriak eta errealistak sortzeko erabiltzen dira.

Galdera gehiago? Galdetu gure adituei

Datuen kalitatea

Datu sintetikoek jatorrizko datuen kalitate bera dutela bermatzea zaila izan daiteke, eta askotan erabilera-kasu zehatzaren eta datu sintetikoak sortzeko erabiltzen diren metodoen araberakoa da. Datu sintetikoak sortzeko metodo batzuek, hala nola eredu sortzaileak, jatorrizko datuekin oso antzekoak diren datuak sor ditzakete. Galdera nagusia: nola frogatu hori?

Datu sintetikoen kalitatea ziurtatzeko modu batzuk daude:

  • Datuen kalitatearen neurketak gure datuen kalitatearen txostenaren bidez: datu sintetikoek jatorrizko datuen kalitate bera dutela ziurtatzeko modu bat datuen kalitatearen neurketak erabiltzea da datu sintetikoak jatorrizko datuekin alderatzeko. Neurri hauek datuen antzekotasuna, zehaztasuna eta osotasuna bezalako gauzak neurtzeko erabil daitezke. Syntho softwareak datuen kalitatearen txostena barne hartzen zuen datuen kalitatearen hainbat neurketarekin.
  • Kanpo ebaluazioa: datu sintetikoen datuen kalitatea jatorrizko datuekin alderatuta funtsezkoa denez, duela gutxi SASeko datu-adituekin (merkatuko liderra analitikan) ebaluazio bat egin dugu Syntho-k datu sintetikoen datuen kalitatea benetako datuekin alderatuta erakusteko. Edwin van Unen-ek, SASeko analitikan adituak, Syntho-tik sortutako datu-multzo sintetikoak ebaluatu zituen hainbat analitiko (AI) ebaluazioen bidez eta emaitzak partekatu zituen. Ikusi hemen bideo horren laburpen labur bat.
  • Proba eta ebaluazioa zuk zeuk: datu sintetikoak probatu eta ebalua daitezke mundu errealeko datuekin alderatuz edo ikaskuntza automatikoko ereduak trebatzeko erabiliz eta haien errendimendua mundu errealeko datuekin trebatutako ereduekin alderatuz. Zergatik ez probatu zuk zeuk datu sintetikoen datuen kalitatea? Galdetu gure adituei honen aukerak hemen

Garrantzitsua da kontutan izan datu sintetikoek ezin dutela inoiz bermatu jatorrizko datuen % 100eko antzekoa izatea, baina nahikoa hurbil egon daitekeela erabilera kasu zehatz baterako erabilgarria izateko. Erabilera espezifiko hau analitika aurreratuak edo prestakuntza-makinen ikaskuntza-ereduak ere izan daitezke.

Bai hori da. Datu sintetikoak jatorrizko datuetan zeudela ezagutzen ez zenituen ereduak ere gordetzen ditu.

Baina ez hartu gure hitza soilik. SAS-ko (analitikako merkatu globalaren liderra) analitika adituek gure datu sintetikoen ebaluazioa (AI) egin zuten eta jatorrizko datuekin alderatu zituzten. Bitxikeria? Ikusi ekitaldi osoa hemen edo ikusi buruzko bertsio laburra datuen kalitatea hemen.

Bai, egiten dugu. Gure plataforma datu-baseetarako optimizatuta dago eta, ondorioz, datu-baseko datu-multzoen arteko erreferentziazko osotasuna zaintzeko.

Honi buruz gehiago jakiteko jakin-mina duzu?

Galdetu zuzenean gure adituei.

Pribatutasuna

Ez, ez dugu. Syntho Engine erraz zabaldu dezakegu lokalean edo zure hodei pribatuan docker bidez.

Ez. Gure plataforma optimizatu dugu bezeroaren konfiantzazko ingurunean erraz zabaldu ahal izateko. Horrek bermatzen du datuak ez direla inoiz bezeroaren ingurune fidagarritik irtengo. Bezeroaren ingurune fidagarrirako hedapen-aukerak "on-premise" eta "bezeroaren hodei-ingurunean (hodei pribatua)" dira.

Aukerakoa: Synthok "Syntho hodeian" ostatatutako bertsio bat onartzen du.

Ez. Syntho Engine autozerbitzurako plataforma bat da. Ondorioz, Syntho Engine-rekin datu sintetikoak sortzea posible da end-to-end prozesua, Syntho-k ez du inoiz ikusi eta ez du inoiz behar datuak prozesatu.

Bai, gure QA txostenaren bidez egiten dugu.

 

Datu-multzo bat sintetizatzerakoan, ezinbestekoa da norbanakoak berriro identifikatzeko gai ez dela frogatzea. In Bideo honetan, Marijnek gure kalitate-txostenean dauden pribatutasun neurriak aurkezten ditu hori frogatzeko.

Syntho-ren QA txostenak hiru ditu industria estandarra datuen pribatutasuna ebaluatzeko neurketak. Neurri hauetako bakoitzaren atzean dagoen ideia hau da:

  • Datu sintetikoak (S) "ahalik eta hurbilen" egongo da, baina helburuko datuetatik "ez oso hurbil" (T).
  • Ausaz hautatutako atxikipen-datuak (H) "gertuegi"-ren erreferentzia zehazten du.
  • A irtenbide ezin hobea jatorrizko datuen antzeko portaera duten datu sintetiko berriak sortzen ditu, baina aurretik ikusi ez direnak (= H).

Holandako Datuak Babesteko Agintaritzak bereziki nabarmentzen duen erabilera kasuetako bat datu sintetikoak probako datu gisa erabiltzea da.

Artikulu honetan gehiago aurki daiteke.

Syntho Motorra

Syntho Engine-a Docker edukiontzi batean bidaltzen da eta erraz zabaldu eta zure aukerako ingurunean konektatu daiteke.

Inplementazio aukera posibleak honako hauek dira:

  • On-premisa
  • Edozein hodei (pribatu).
  • Beste edozein ingurune

Irakurri gehiago.

Synthok zure datu-baseekin, aplikazioekin, datu-hodiekin edo fitxategi-sistemekin erraz konektatzeko aukera ematen dizu. 

Hainbat konektore integratu onartzen ditugu iturburu-ingurunearekin (jatorrizko datuak gordetzen diren) eta helmuga-ingurunearekin (non zure datu sintetikoak idatzi nahi dituzun) konektatu zaitezke. end-to-end ikuspegi integratua.

Onartzen ditugun konexio-eginbideak:

  • Plug and play Docker-ekin
  • 20 datu-base konektore baino gehiago
  • 20 fitxategi-sistemaren konektore baino gehiago

Irakurri gehiago.

Jakina, sorrera denbora datu-basearen tamainaren araberakoa da. Batez beste, milioi bat erregistro baino gutxiago dituen taula bat 1 minutu baino gutxiagotan sintetizatzen da.

Syntho-ren ikasketa automatikoko algoritmoek hobeto orokortu ditzakete funtzioak entitate-erregistro gehiago eskuragarri, eta horrek pribatutasun-arriskua murrizten du. Gutxieneko zutabe eta errenkada erlazioa 1:500 gomendatzen da. Adibidez, zure iturburu-taulak 6 zutabe baditu, gutxienez 3000 errenkada izan behar ditu.

Inola ere ez. Datu sintetikoen abantailak, funtzionamenduak eta erabilera kasuak guztiz ulertzeko ahalegina behar bada ere, sintetizatzeko prozesua oso erraza da eta oinarrizko informatika ezagutzak dituen edonork egin dezake. Sintesi-prozesuari buruzko informazio gehiago lortzeko, begiratu orri honetan or eskatu demo bat.

Syntho Engine-k ondoen funtzionatzen du datu egituratu eta tabularretan (errenkada eta zutabeak dituen edozer). Egitura horien barruan, datu mota hauek onartzen ditugu:

  • Tauletan formateatutako datuak egituratzen ditu (kategorikoak, zenbakizkoak, etab.)
  • Identifikatzaile zuzenak eta PII
  • Datu-multzo eta datu-base handiak
  • Kokapen geografikoko datuak (GPS adibidez)
  • Denbora serieko datuak
  • Taula anitzeko datu-baseak (erreferentziazko osotasunarekin)
  • Ireki testu-datuak

 

Datuen laguntza konplexua
Taula-datu mota arrunt guztien ondoan, Syntho Engine-k datu-mota konplexuak eta datu-egitura konplexuak onartzen ditu.

  • Denbora serieak
  • Taula anitzeko datu-baseak
  • Testu irekia

Irakurri gehiago.

Ez, gure plataforma optimizatu dugu eskakizun konputazionalak gutxitzeko (adibidez, ez da GPUrik behar), datuen zehaztasuna arriskuan jarri gabe. Horrez gain, eskalatze automatikoa onartzen dugu, datu-base erraldoiak sintetizatu ahal izateko.

Bai. Syntho softwarea taula anitz dituzten datu-baseetarako optimizatuta dago.

Honi dagokionez, Synthok automatikoki detektatzen ditu datu motak, eskemak eta formatuak datuen zehaztasuna maximizatzeko. Taula anitzeko datu-baseetarako, taula-erlazioen inferentzia eta sintesia automatikoa onartzen dugu erreferentziazko osotasuna gordetzeko.

jende taldea irribarrez

Datuak sintetikoak dira, baina gure taldea benetakoa da!

Jarri harremanetan Synthorekin eta gure adituetako bat zurekin harremanetan jarriko da argiaren abiaduran datu sintetikoen balioa aztertzeko!