FAQ

Mga Madalas Itanong tungkol sa synthetic na data

Maiintindihan! Sa kabutihang palad, mayroon kaming mga sagot at narito kami upang tumulong. Suriin ang aming mga madalas itanong.

Mangyaring magbukas ng tanong sa ibaba at i-click ang mga link upang makahanap ng higit pang impormasyon. May mas kumplikadong tanong na hindi nakasaad dito? Magtanong nang direkta sa aming mga eksperto!

Ang pinakamaraming tanong

Ang sintetikong data ay tumutukoy sa data na artipisyal na nabuo sa halip na kinokolekta mula sa mga mapagkukunan sa totoong mundo. Sa pangkalahatan, samantalang ang orihinal na data ay kinokolekta sa lahat ng iyong pakikipag-ugnayan sa mga tao (kliyente, pasyente, atbp.) at sa pamamagitan ng lahat ng iyong panloob na proseso, ang synthetic na data ay nabuo ng isang computer algorithm.

Magagamit din ang sintetikong data upang subukan at suriin ang mga modelo sa isang kontroladong kapaligiran, o upang protektahan ang sensitibong impormasyon sa pamamagitan ng pagbuo ng data na katulad ng data sa totoong mundo ngunit hindi naglalaman ng anumang sensitibong impormasyon. Ang synthetic na data ay kadalasang ginagamit bilang alternatibo para sa data na sensitibo sa privacy at maaaring gamitin bilang testdata, para sa analytics o para sanayin ang machine learning.

Magbasa nang higit pa

Ang paggarantiya na ang synthetic na data ay nagtataglay ng parehong kalidad ng data gaya ng orihinal na data, at kadalasan ay nakadepende sa partikular na kaso ng paggamit at sa mga paraan na ginamit upang bumuo ng synthetic na data. Ang ilang mga pamamaraan para sa pagbuo ng synthetic na data, tulad ng mga generative na modelo, ay maaaring makagawa ng data na lubos na katulad ng orihinal na data. Pangunahing tanong: paano ito maipapakita?

Mayroong ilang mga paraan upang matiyak ang kalidad ng synthetic na data:

  • Mga sukatan ng kalidad ng data sa pamamagitan ng aming ulat sa kalidad ng data: Ang isang paraan upang matiyak na ang synthetic na data ay nagtataglay ng parehong kalidad ng data gaya ng orihinal na data ay ang paggamit ng mga sukatan ng kalidad ng data upang ihambing ang synthetic na data sa orihinal na data. Maaaring gamitin ang mga sukatang ito upang sukatin ang mga bagay tulad ng pagkakatulad, katumpakan, at pagkakumpleto ng data. Ang Syntho software ay may kasamang ulat sa kalidad ng data na may iba't ibang sukatan ng kalidad ng data.
  • Panlabas na pagsusuri: dahil mahalaga ang kalidad ng data ng synthetic data kumpara sa orihinal na data, kamakailan ay nagsagawa kami ng pagtatasa kasama ang mga data expert ng SAS (market leader sa analytics) upang ipakita ang kalidad ng data ng synthetic data ng Syntho kumpara sa totoong data. Sinuri ni Edwin van Unen, eksperto sa analytics mula sa SAS, ang mga nabuong synthetic na dataset mula sa Syntho sa pamamagitan ng iba't ibang pagsusuri sa analytics (AI) at ibinahagi ang mga resulta. Panoorin ang isang maikling recap ng video na iyon dito.
  • Pagsubok at pagsusuri sa iyong sarili: Ang synthetic na data ay maaaring masuri at masuri sa pamamagitan ng paghahambing nito sa real-world na data o sa pamamagitan ng paggamit nito upang sanayin ang mga modelo ng machine learning at paghahambing ng kanilang performance sa mga modelong sinanay sa real-world na data. Bakit hindi subukan ang kalidad ng data ng synthetic na data nang mag-isa? Tanungin ang aming mga eksperto para sa mga posibilidad nito dito

Mahalagang tandaan na hindi kailanman magagarantiya ng sintetikong data na maging 100% katulad ng orihinal na data, ngunit maaari itong maging sapat na malapit upang maging kapaki-pakinabang para sa isang partikular na kaso ng paggamit. Ang partikular na kaso ng paggamit na ito ay maaaring maging advanced na analytics o pagsasanay sa mga modelo ng machine learning.

Ang klasikong 'anonymization' ay hindi palaging ang pinakamahusay na solusyon, dahil:

  1. Panganib sa privacy - palagi kang magkakaroon
    isang panganib sa privacy. Paglalapat ng mga iyon
    mga diskarteng klasikong hindi nagpapakilala
    ginagawa lamang itong mas mahirap, ngunit hindi
    imposibleng makilala ang mga indibidwal.
  2. Pagsira ng data - mas ikaw
    anonymize, mas mahusay mong protektahan
    iyong privacy, ngunit mas ikaw
    sirain ang iyong data. Hindi ito ano
    gusto mo para sa analytics, dahil
    ang nawasak na data ay magreresulta sa masama
    mga insight.
  3. Nakakaubos ng oras – ito ay isang solusyon
    na tumatagal ng maraming oras, dahil
    magkaiba ang mga teknik na iyon
    bawat dataset at bawat uri ng data.

Nilalayon ng sintetikong data na lutasin ang lahat ng mga pagkukulang na ito. Kapansin-pansin ang pagkakaiba kaya gumawa kami ng video tungkol dito. Panoorin ito dito.

Mga Madalas Itanong

Sintetikong Data

Sa pangkalahatan, karamihan sa aming mga kliyente ay gumagamit ng sintetikong data para sa:

  • Pagsubok at pag-develop ng software
  • Sintetikong data para sa analytics, pagbuo ng modelo at advanced na analytics (AI at ML)
  • Mga demo ng produkto

Magbasa nang higit pa at galugarin ang mga kaso ng paggamit.

Ang synthetic data twin ay isang algorithm-generated replica ng isang real-world na dataset at/o database. Gamit ang Synthetic Data Twin, nilalayon ng Syntho na gayahin ang isang orihinal na dataset o database nang mas malapit hangga't maaari sa orihinal na data upang lumikha ng makatotohanang representasyon ng orihinal. Sa isang synthetic data twin, layunin namin ang higit na mataas na kalidad ng synthetic data kumpara sa orihinal na data. Ginagawa namin ito gamit ang aming synthetic data software na gumagamit ng mga makabagong modelo ng AI. Ang mga modelong AI na iyon ay bumubuo ng ganap na bagong mga datapoint at ipinomodelo ang mga ito sa paraang mapangalagaan namin ang mga katangian, ugnayan, at istatistikal na pattern ng orihinal na data sa isang lawak na magagamit mo ito na parang orihinal na data.

Magagamit ito para sa iba't ibang layunin, gaya ng pagsubok at pagsasanay sa mga modelo ng machine learning, pagtulad sa mga sitwasyon para sa pananaliksik at pagpapaunlad, at paglikha ng mga virtual na kapaligiran para sa pagsasanay at edukasyon. Maaaring gamitin ang synthetic data twins upang lumikha ng makatotohanan at kinatawan ng data na maaaring gamitin bilang kapalit ng real-world na data kapag hindi ito available o kapag ginagamit ang real-world na data ay magiging hindi praktikal o hindi etikal dahil sa mahigpit na mga regulasyon sa privacy ng data.

Magbasa nang higit pa.

Oo ginagawa namin. Nag-aalok kami ng iba't ibang value-adding na synthetic data optimization at augmentation feature, kabilang ang mga manunuya, upang dalhin ang iyong data sa susunod na antas.

Magbasa nang higit pa.

Ang mock data at AI-generated synthetic data ay parehong uri ng synthetic data, ngunit ang mga ito ay nabuo sa iba't ibang paraan at nagsisilbi sa iba't ibang layunin.

Ang mock data ay isang uri ng sintetikong data na manu-manong ginawa at kadalasang ginagamit para sa mga layunin ng pagsubok at pag-develop. Ito ay karaniwang ginagamit upang gayahin ang gawi ng real-world na data sa isang kinokontrol na kapaligiran at kadalasang ginagamit upang subukan ang functionality ng isang system o application. Madalas itong simple, madaling buuin, at hindi nangangailangan ng mga kumplikadong modelo o algorithm. Kadalasan, ang isang referrer ay kinukutya din ang data bilang "dummy data" o "pekeng data".

Ang AI-generated synthetic data, sa kabilang banda, ay nabuo gamit ang mga artificial intelligence technique, gaya ng machine learning o generative models. Ginagamit ito upang lumikha ng makatotohanan at kinatawan ng data na maaaring magamit bilang kapalit ng real-world na data kapag ang paggamit ng real-world na data ay magiging hindi praktikal o hindi etikal dahil sa mahigpit na mga regulasyon sa privacy. Ito ay kadalasang mas kumplikado at nangangailangan ng mas maraming computational resources kaysa manu-manong mock data. Bilang resulta, ito ay mas makatotohanan at ginagaya ang orihinal na data nang mas malapit hangga't maaari.

Sa buod, ang mock data ay manu-manong ginagawa at karaniwang ginagamit para sa pagsubok at pag-develop, habang ang AI-generated synthetic data ay ginagawa gamit ang mga artipisyal na diskarte sa katalinuhan at ginagamit upang lumikha ng kinatawan at makatotohanang data.

Marami pang tanong? Magtanong sa aming mga eksperto

Kalidad ng Data

Ang paggarantiya na ang synthetic na data ay nagtataglay ng parehong kalidad ng data gaya ng orihinal na data, at kadalasan ay nakadepende sa partikular na kaso ng paggamit at sa mga paraan na ginamit upang bumuo ng synthetic na data. Ang ilang mga pamamaraan para sa pagbuo ng synthetic na data, tulad ng mga generative na modelo, ay maaaring makagawa ng data na lubos na katulad ng orihinal na data. Pangunahing tanong: paano ito maipapakita?

Mayroong ilang mga paraan upang matiyak ang kalidad ng synthetic na data:

  • Mga sukatan ng kalidad ng data sa pamamagitan ng aming ulat sa kalidad ng data: Ang isang paraan upang matiyak na ang synthetic na data ay nagtataglay ng parehong kalidad ng data gaya ng orihinal na data ay ang paggamit ng mga sukatan ng kalidad ng data upang ihambing ang synthetic na data sa orihinal na data. Maaaring gamitin ang mga sukatang ito upang sukatin ang mga bagay tulad ng pagkakatulad, katumpakan, at pagkakumpleto ng data. Ang Syntho software ay may kasamang ulat sa kalidad ng data na may iba't ibang sukatan ng kalidad ng data.
  • Panlabas na pagsusuri: dahil mahalaga ang kalidad ng data ng synthetic data kumpara sa orihinal na data, kamakailan ay nagsagawa kami ng pagtatasa kasama ang mga data expert ng SAS (market leader sa analytics) upang ipakita ang kalidad ng data ng synthetic data ng Syntho kumpara sa totoong data. Sinuri ni Edwin van Unen, eksperto sa analytics mula sa SAS, ang mga nabuong synthetic na dataset mula sa Syntho sa pamamagitan ng iba't ibang pagsusuri sa analytics (AI) at ibinahagi ang mga resulta. Panoorin ang isang maikling recap ng video na iyon dito.
  • Pagsubok at pagsusuri sa iyong sarili: Ang synthetic na data ay maaaring masuri at masuri sa pamamagitan ng paghahambing nito sa real-world na data o sa pamamagitan ng paggamit nito upang sanayin ang mga modelo ng machine learning at paghahambing ng kanilang performance sa mga modelong sinanay sa real-world na data. Bakit hindi subukan ang kalidad ng data ng synthetic na data nang mag-isa? Tanungin ang aming mga eksperto para sa mga posibilidad nito dito

Mahalagang tandaan na hindi kailanman magagarantiya ng sintetikong data na maging 100% katulad ng orihinal na data, ngunit maaari itong maging sapat na malapit upang maging kapaki-pakinabang para sa isang partikular na kaso ng paggamit. Ang partikular na kaso ng paggamit na ito ay maaaring maging advanced na analytics o pagsasanay sa mga modelo ng machine learning.

Oo nga. Ang sintetikong data ay mayroong mga pattern na hindi mo alam na nasa orihinal na data.

Ngunit huwag lamang kunin ang aming salita para dito. Ang mga analytics expert ng SAS (global market leader in analytics) ay gumawa ng (AI) na pagtatasa ng aming synthetic data at inihambing ito sa orihinal na data. Mausisa? Panoorin ang buong kaganapan dito o panoorin ang maikling bersyon tungkol sa kalidad ng data dito.

Oo ginagawa namin. Ang aming platform ay na-optimize para sa mga database at dahil dito, ang pagpapanatili ng referential integridad sa pagitan ng mga dataset sa datgabase.

Gustong malaman ang higit pa tungkol dito?

Magtanong nang direkta sa aming mga eksperto.

Privacy

Hindi kami. Madali naming mai-deploy ang Syntho Engine on-premise o sa iyong pribadong cloud sa pamamagitan ng docker.

Hindi. Na-optimize namin ang aming platform sa paraang madali itong mai-deploy sa pinagkakatiwalaang kapaligiran ng customer. Tinitiyak nito na hindi kailanman aalis ang data sa pinagkakatiwalaang kapaligiran ng customer. Ang mga opsyon sa pag-deploy para sa pinagkakatiwalaang kapaligiran ng customer ay “on-premise” at nasa “cloud environment ng customer (pribadong cloud)”.

Opsyonal: Sinusuportahan ng Syntho ang isang bersyon na naka-host sa "Syntho cloud".

Hindi. Ang Syntho Engine ay isang self-service platform. Bilang resulta, ang pagbuo ng sintetikong data gamit ang Syntho Engine ay posible sa paraang sa end-to-end proseso, hindi kailanman makikita ni Syntho at hindi kinakailangan na magproseso ng data.

Oo ginagawa namin ito sa pamamagitan ng aming ulat sa QA.

 

Kapag nagsi-synthesize ng isang dataset, mahalagang ipakita na hindi nagagawa ng isa na muling tukuyin ang mga indibidwal. Sa ang video na ito, ipinakilala ng Marijn ang mga hakbang sa pagkapribado na nasa aming ulat sa kalidad upang ipakita ito.

Ang ulat ng QA ni Syntho ay naglalaman ng tatlo pamantayan sa industriya mga sukatan para sa pagsusuri ng privacy ng data. Ang ideya sa likod ng bawat isa sa mga sukatang ito ay ang mga sumusunod:

  • Sintetikong data (S) ay dapat "mas malapit hangga't maaari", ngunit "hindi masyadong malapit" sa target na data (T).
  • Random na piniling data ng holdout (H) tinutukoy ang benchmark para sa "masyadong malapit".
  • A perpektong solusyon bumubuo ng bagong sintetikong data na gumaganap nang eksakto tulad ng orihinal na data, ngunit hindi pa nakikita noon (= H).

Ang isa sa mga kaso ng paggamit na partikular na na-highlight ng Dutch Data Protection Authority ay ang paggamit ng synthetic na data bilang data ng pagsubok.

Marami pang makikita sa artikulong ito.

Syntho Engine

Ang Syntho Engine ay ipinadala sa isang lalagyan ng Docker at madaling i-deploy at maisaksak sa iyong napiling kapaligiran.

Kabilang sa mga posibleng opsyon sa pag-deploy ang:

  • Nasa premise
  • Anumang (pribadong) ulap
  • Anumang ibang kapaligiran

Magbasa nang higit pa.

Binibigyang-daan ka ng Syntho na madaling kumonekta sa iyong mga database, application, pipeline ng data o file system. 

Sinusuportahan namin ang iba't ibang pinagsama-samang connector para makakonekta ka sa source-environment (kung saan nakaimbak ang orihinal na data) at sa destination environment (kung saan mo gustong isulat ang iyong synthetic data) para sa isang end-to-end pinagsamang diskarte.

Mga tampok ng koneksyon na sinusuportahan namin:

  • Plug-and-play sa Docker
  • 20+ database connectors
  • 20+ filesystem connectors

Magbasa nang higit pa.

Naturally, ang oras ng henerasyon ay depende sa laki ng database. Sa karaniwan, ang isang talahanayan na may mas mababa sa 1 milyong mga tala ay na-synthesize nang wala pang 5 minuto.

Ang mga algorithm ng machine learning ng Syntho ay mas makakapag-generalize ng mga feature na may mas maraming record ng entity na available, na nagpapababa sa panganib sa privacy. Inirerekomenda ang minimum na column-to-row ratio na 1:500. Halimbawa, kung may 6 na column ang iyong source table, dapat itong maglaman ng minimum na 3000 row.

Hindi talaga. Bagama't maaaring kailanganin ng kaunting pagsisikap upang lubos na maunawaan ang mga pakinabang, gumagana at mga kaso ng paggamit ng sintetikong data, ang proseso ng pag-synthesize ay napaka-simple at magagawa ito ng sinumang may pangunahing kaalaman sa computer. Para sa higit pang impormasyon tungkol sa proseso ng synthesizing, tingnan ang pahinang ito or humiling ng demo.

Pinakamahusay na gumagana ang Syntho Engine sa structured, tabular na data (anumang naglalaman ng mga row at column). Sa loob ng mga istrukturang ito, sinusuportahan namin ang mga sumusunod na uri ng data:

  • Mga istrukturang data na naka-format sa mga talahanayan (pang-uri, numerical, atbp.)
  • Mga direktang identifier at PII
  • Malaking dataset at database
  • Data ng heyograpikong lokasyon (tulad ng GPS)
  • Data ng serye ng oras
  • Mga database ng maraming talahanayan (na may integridad ng referential)
  • Buksan ang data ng text

 

Pagsuporta sa kumplikadong data
Sa tabi ng lahat ng regular na uri ng tabular data, sinusuportahan ng Syntho Engine ang mga kumplikadong uri ng data at kumplikadong istruktura ng data.

  • Mga serye ng oras
  • Mga database ng multi-table
  • Buksan ang teksto

Magbasa nang higit pa.

Hindi, in-optimize namin ang aming platform para mabawasan ang mga kinakailangan sa pag-compute (hal. walang kinakailangang GPU), nang hindi nakompromiso ang katumpakan ng data. Bilang karagdagan, sinusuportahan namin ang auto scaling, upang ang isa ay makapag-synthesize ng malalaking database.

Oo. Ang Syntho software ay na-optimize para sa mga database na naglalaman ng maramihang mga talahanayan.

Tungkol dito, awtomatikong nakikita ng Syntho ang mga uri ng data, mga schema at mga format upang ma-maximize ang katumpakan ng data. Para sa multi-table database, sinusuportahan namin ang awtomatikong inference at synthesis ng relasyon sa talahanayan upang mapanatili ang integridad ng referential.

grupo ng mga taong nakangiti

Sintetiko ang data, ngunit totoo ang aming team!

Makipag-ugnay kay Syntho at isa sa aming mga eksperto ay makikipag-ugnayan sa iyo sa bilis ng liwanag upang tuklasin ang halaga ng synthetic na data!