FAQ

Pyetjet e bëra më shpesh në lidhje me të dhënat sintetike

E kuptueshme! Për fat të mirë, ne i kemi përgjigjet dhe jemi këtu për të ndihmuar. Kontrolloni pyetjet tona të bëra shpesh.

Ju lutemi hapni një pyetje më poshtë dhe klikoni lidhjet për të gjetur më shumë informacion. Keni një pyetje më të ndërlikuar që nuk është thënë këtu? Pyetni drejtpërdrejt ekspertët tanë!

Pyetjet më të bëra

Të dhënat sintetike i referohen të dhënave që gjenerohen artificialisht në vend që të mblidhen nga burime të botës reale. Në përgjithësi, ndërsa të dhënat origjinale mblidhen në të gjitha ndërveprimet tuaja me persona (klientë, pacientë, etj.) dhe nëpërmjet të gjitha proceseve tuaja të brendshme, të dhënat sintetike gjenerohen nga një algoritëm kompjuterik.

Të dhënat sintetike mund të përdoren gjithashtu për të testuar dhe vlerësuar modelet në një mjedis të kontrolluar, ose për të mbrojtur informacione të ndjeshme duke gjeneruar të dhëna që janë të ngjashme me të dhënat e botës reale, por që nuk përmbajnë asnjë informacion të ndjeshëm. Të dhënat sintetike përdoren shpesh si alternativë për të dhënat e ndjeshme ndaj privatësisë dhe mund të përdoren si të dhëna testimi, për analitikë ose për të trajnuar mësimin e makinerive.

Lexo më shumë

Garantimi që të dhënat sintetike kanë të njëjtën cilësi të të dhënave si të dhënat origjinale mund të jetë sfiduese dhe shpesh varet nga rasti specifik i përdorimit dhe metodat e përdorura për të gjeneruar të dhënat sintetike. Disa metoda për gjenerimin e të dhënave sintetike, të tilla si modelet gjeneruese, mund të prodhojnë të dhëna që janë shumë të ngjashme me të dhënat origjinale. Pyetja kryesore: si ta demonstrojmë këtë?

Ka disa mënyra për të siguruar cilësinë e të dhënave sintetike:

  • Matjet e cilësisë së të dhënave nëpërmjet raportit tonë të cilësisë së të dhënave: Një mënyrë për të siguruar që të dhënat sintetike të kenë të njëjtën cilësi të të dhënave si të dhënat origjinale është përdorimi i matjeve të cilësisë së të dhënave për të krahasuar të dhënat sintetike me të dhënat origjinale. Këto metrika mund të përdoren për të matur gjëra të tilla si ngjashmëria, saktësia dhe plotësia e të dhënave. Softueri Syntho përfshinte një raport të cilësisë së të dhënave me matje të ndryshme të cilësisë së të dhënave.
  • Vlerësimi i jashtëm: meqenëse cilësia e të dhënave të të dhënave sintetike në krahasim me të dhënat origjinale është thelbësore, së fundmi kemi bërë një vlerësim me ekspertët e të dhënave të SAS (lideri i tregut në analitikë) për të demonstruar cilësinë e të dhënave të të dhënave sintetike nga Syntho në krahasim me të dhënat reale. Edwin van Unen, ekspert i analitikës nga SAS, vlerësoi grupet e të dhënave sintetike të krijuara nga Syntho nëpërmjet vlerësimeve të ndryshme analitike (AI) dhe ndau rezultatet. Shikoni një përmbledhje të shkurtër të asaj video këtu.
  • Testimi dhe vlerësimi vetë: të dhënat sintetike mund të testohen dhe vlerësohen duke i krahasuar me të dhënat e botës reale ose duke i përdorur për të trajnuar modelet e mësimit të makinerive dhe duke krahasuar performancën e tyre me modelet e trajnuara në të dhëna të botës reale. Pse të mos testoni vetë cilësinë e të dhënave të të dhënave sintetike? Pyetni ekspertët tanë për mundësitë e kësaj këtu

Është e rëndësishme të theksohet se të dhënat sintetike nuk mund të garantojnë kurrë të jenë 100% të ngjashme me të dhënat origjinale, por mund të jenë mjaft afër për të qenë të dobishme për një rast specifik përdorimi. Ky rast specifik përdorimi mund të jetë edhe modele të avancuara analitike ose trajnimi të mësimit të makinerive.

'anonimizimi' klasik nuk është gjithmonë zgjidhja më e mirë, sepse:

  1. Rreziku i privatësisë – do të kesh gjithmonë
    një rrezik privatësie. Duke i aplikuar ato
    teknikat klasike të anonimizimit
    e bën vetëm më të vështirë, por jo
    e pamundur të identifikohen individët.
  2. Shkatërrimi i të dhënave - aq më shumë ju
    anonimizo, aq më mirë mbrohesh
    privatësinë tuaj, por aq më shumë ju
    shkatërroni të dhënat tuaja. Kjo nuk është ajo që
    ju doni për analitikë, sepse
    të dhënat e shkatërruara do të rezultojnë në keq
    njohuri.
  3. Që ha kohë – është një zgjidhje
    që kërkon shumë kohë, sepse
    ato teknika funksionojnë ndryshe
    për grup të dhënash dhe për lloj të dhënash.

Të dhënat sintetike synojnë të zgjidhin të gjitha këto mangësi. Dallimi është aq i habitshëm sa kemi bërë një video për të. Shikoni këtu.

Pyetjet e bëra më shpesh

Të dhëna sintetike

Në përgjithësi, shumica e klientëve tanë përdorin të dhëna sintetike për:

  • Testimi dhe zhvillimi i softuerit
  • Të dhëna sintetike për analitikën, zhvillimin e modeleve dhe analitikën e avancuar (AI & ML)
  • Demon produktet

Lexoni më shumë dhe eksploroni rastet e përdorimit.

Një binjak i të dhënave sintetike është një kopje e krijuar nga algoritmi i një grupi të dhënash dhe/ose bazë të dhënash të botës reale. Me një Binjak të të Dhënave Synthetic, Syntho synon të imitojë një grup të dhënash origjinale ose bazë të dhënash sa më afër të jetë e mundur me të dhënat origjinale për të krijuar një paraqitje realiste të origjinalit. Me një binjak të të dhënave sintetike, ne synojmë për cilësi superiore të të dhënave sintetike në krahasim me të dhënat origjinale. Ne e bëjmë këtë me softuerin tonë të të dhënave sintetike që përdor modele më të fundit të AI. Këto modele të AI gjenerojnë pika të dhënash krejtësisht të reja dhe i modelojnë ato në mënyrë të tillë që ne i ruajmë karakteristikat, marrëdhëniet dhe modelet statistikore të të dhënave origjinale në një masë të tillë që ju mund t'i përdorni ato sikur të ishin të dhëna origjinale.

Kjo mund të përdoret për një sërë qëllimesh, të tilla si testimi dhe trajnimi i modeleve të mësimit të makinerive, simulimi i skenarëve për kërkime dhe zhvillim, dhe krijimi i mjediseve virtuale për trajnim dhe edukim. Binjakët e të dhënave sintetike mund të përdoren për të krijuar të dhëna realiste dhe përfaqësuese që mund të përdoren në vend të të dhënave të botës reale kur ato nuk janë të disponueshme ose kur përdorimi i të dhënave të botës reale do të ishte jopraktike ose joetike për shkak të rregulloreve strikte të privatësisë së të dhënave.

Lexo më shumë.

Po ne po. Ne ofrojmë veçori të ndryshme të optimizimit dhe shtimit të të dhënave sintetike që shtojnë vlerë, duke përfshirë tallës, për t'i çuar të dhënat tuaja në nivelin tjetër.

Lexo më shumë.

Të dhënat tallëse dhe të dhënat sintetike të gjeneruara nga AI janë të dy lloje të të dhënave sintetike, por ato gjenerohen në mënyra të ndryshme dhe shërbejnë për qëllime të ndryshme.

Të dhënat sintetike janë një lloj i të dhënave sintetike që krijohen manualisht dhe shpesh përdoren për qëllime testimi dhe zhvillimi. Zakonisht përdoret për të simuluar sjelljen e të dhënave të botës reale në një mjedis të kontrolluar dhe shpesh përdoret për të testuar funksionalitetin e një sistemi ose aplikacioni. Shpesh është i thjeshtë, i lehtë për t'u gjeneruar dhe nuk kërkon modele ose algoritme komplekse. Shpesh, dikush i referohet edhe talljes së të dhënave si "të dhëna të rreme" ose "të dhëna të rreme".

Të dhënat sintetike të gjeneruara nga AI, nga ana tjetër, gjenerohen duke përdorur teknika të inteligjencës artificiale, të tilla si mësimi i makinerive ose modelet gjeneruese. Përdoret për të krijuar të dhëna realiste dhe përfaqësuese që mund të përdoren në vend të të dhënave të botës reale kur përdorimi i të dhënave të botës reale do të ishte jopraktike ose joetike për shkak të rregulloreve strikte të privatësisë. Shpesh është më i ndërlikuar dhe kërkon më shumë burime llogaritëse sesa të dhënat e modelit manual. Si rezultat, është shumë më realist dhe imiton të dhënat origjinale sa më afër që të jetë e mundur.

Si përmbledhje, të dhënat simuluese krijohen manualisht dhe zakonisht përdoren për testim dhe zhvillim, ndërsa të dhënat sintetike të gjeneruara nga AI krijohen duke përdorur teknika të inteligjencës artificiale dhe përdoren për të krijuar të dhëna përfaqësuese dhe realiste.

Më shumë pyetje? Pyetni ekspertët tanë

Cilësia e të dhënave

Garantimi që të dhënat sintetike kanë të njëjtën cilësi të të dhënave si të dhënat origjinale mund të jetë sfiduese dhe shpesh varet nga rasti specifik i përdorimit dhe metodat e përdorura për të gjeneruar të dhënat sintetike. Disa metoda për gjenerimin e të dhënave sintetike, të tilla si modelet gjeneruese, mund të prodhojnë të dhëna që janë shumë të ngjashme me të dhënat origjinale. Pyetja kryesore: si ta demonstrojmë këtë?

Ka disa mënyra për të siguruar cilësinë e të dhënave sintetike:

  • Matjet e cilësisë së të dhënave nëpërmjet raportit tonë të cilësisë së të dhënave: Një mënyrë për të siguruar që të dhënat sintetike të kenë të njëjtën cilësi të të dhënave si të dhënat origjinale është përdorimi i matjeve të cilësisë së të dhënave për të krahasuar të dhënat sintetike me të dhënat origjinale. Këto metrika mund të përdoren për të matur gjëra të tilla si ngjashmëria, saktësia dhe plotësia e të dhënave. Softueri Syntho përfshinte një raport të cilësisë së të dhënave me matje të ndryshme të cilësisë së të dhënave.
  • Vlerësimi i jashtëm: meqenëse cilësia e të dhënave të të dhënave sintetike në krahasim me të dhënat origjinale është thelbësore, së fundmi kemi bërë një vlerësim me ekspertët e të dhënave të SAS (lideri i tregut në analitikë) për të demonstruar cilësinë e të dhënave të të dhënave sintetike nga Syntho në krahasim me të dhënat reale. Edwin van Unen, ekspert i analitikës nga SAS, vlerësoi grupet e të dhënave sintetike të krijuara nga Syntho nëpërmjet vlerësimeve të ndryshme analitike (AI) dhe ndau rezultatet. Shikoni një përmbledhje të shkurtër të asaj video këtu.
  • Testimi dhe vlerësimi vetë: të dhënat sintetike mund të testohen dhe vlerësohen duke i krahasuar me të dhënat e botës reale ose duke i përdorur për të trajnuar modelet e mësimit të makinerive dhe duke krahasuar performancën e tyre me modelet e trajnuara në të dhëna të botës reale. Pse të mos testoni vetë cilësinë e të dhënave të të dhënave sintetike? Pyetni ekspertët tanë për mundësitë e kësaj këtu

Është e rëndësishme të theksohet se të dhënat sintetike nuk mund të garantojnë kurrë të jenë 100% të ngjashme me të dhënat origjinale, por mund të jenë mjaft afër për të qenë të dobishme për një rast specifik përdorimi. Ky rast specifik përdorimi mund të jetë edhe modele të avancuara analitike ose trajnimi të mësimit të makinerive.

Po kjo është. Të dhënat sintetike madje mbajnë modele për të cilat nuk e dinit se ishin të pranishme në të dhënat origjinale.

Por mos e pranoni fjalën tonë për të. Ekspertët analitikë të SAS (lideri i tregut global në analitikë) bënë një vlerësim (AI) të të dhënave tona sintetike dhe i krahasuan me të dhënat origjinale. Kuriozë? Shikoni e gjithë ngjarja këtu ose shikoni versionin e shkurtër rreth cilësinë e të dhënave këtu.

Po ne po. Platforma jonë është e optimizuar për bazat e të dhënave dhe rrjedhimisht, ruajtjen e integritetit të referencës midis grupeve të të dhënave në bazën e të dhënave.

Jeni kurioz të mësoni më shumë për këtë?

Pyetni drejtpërdrejt ekspertët tanë.

Politika

Jo ne nuk e bëjmë. Ne mund ta vendosim lehtësisht Syntho Engine në premisë ose në renë tuaj private nëpërmjet docker.

Jo. Ne e optimizuam platformën tonë në mënyrë të tillë që të mund të vendoset lehtësisht në mjedisin e besuar të klientit. Kjo siguron që të dhënat nuk do të largohen kurrë nga mjedisi i besuar i klientit. Opsionet e vendosjes për mjedisin e besuar të klientit janë "on-premise" dhe në "mjedisin cloud të klientit (re private)".

Opsionale: Syntho mbështet një version që është pritur në "renë Syntho".

Jo. Motori Syntho është një platformë vetëshërbimi. Si rezultat, gjenerimi i të dhënave sintetike me Syntho Engine është i mundur në një mënyrë që në end-to-end proces, Syntho nuk është kurrë në gjendje të shohë dhe nuk kërkohet kurrë të përpunojë të dhëna.

Po, ne e bëjmë këtë nëpërmjet raportit tonë të SC.

 

Kur sintetizon një grup të dhënash, është thelbësore të tregohet se nuk është në gjendje të riidentifikojë individët. Në kjo video, Marijn prezanton masat e privatësisë që janë në raportin tonë të cilësisë për të demonstruar këtë.

Raporti i SC i Syntho përmban tre standard i industrisë metrikë për vlerësimin e privatësisë së të dhënave. Ideja pas secilës prej këtyre metrikave është si më poshtë:

  • Të dhëna sintetike (S) duhet të jetë "sa më afër të jetë e mundur", por "jo shumë afër" me të dhënat e synuara (T).
  • Të dhëna mbajtëse të zgjedhura rastësisht (H) përcakton standardin për "shumë afër".
  • A zgjidhje perfekte gjeneron të dhëna të reja sintetike që sillen saktësisht si të dhënat origjinale, por nuk janë parë më parë (= H).

Një nga rastet e përdorimit që theksohet në mënyrë specifike nga Autoriteti Hollandez për Mbrojtjen e të Dhënave është përdorimi i të dhënave sintetike si të dhëna testimi.

Më shumë mund të gjenden në këtë artikull.

Motori Syntho

Motori Syntho dërgohet në një kontejner Docker dhe mund të vendoset lehtësisht dhe të futet në mjedisin tuaj të zgjedhur.

Opsionet e mundshme të vendosjes përfshijnë:

  • On-premisë
  • Çdo re (private).
  • Çdo ambient tjetër

Lexo më shumë.

Syntho ju mundëson të lidheni lehtësisht me bazat e të dhënave, aplikacionet, tubacionet e të dhënave ose sistemet e skedarëve. 

Ne mbështesim lidhje të ndryshme të integruara në mënyrë që të mund të lidheni me mjedisin burimor (ku ruhen të dhënat origjinale) dhe mjedisin e destinacionit (ku dëshironi të shkruani të dhënat tuaja sintetike) për një end-to-end qasje e integruar.

Karakteristikat e lidhjes që ne mbështesim:

  • Plug-dhe-play me Docker
  • Mbi 20 lidhës të bazës së të dhënave
  • Mbi 20 lidhës të sistemit të skedarëve

Lexo më shumë.

Natyrisht, koha e gjenerimit varet nga madhësia e bazës së të dhënave. Mesatarisht, një tabelë me më pak se 1 milion regjistrime sintetizohet në më pak se 5 minuta.

Algoritmet e mësimit të makinerive të Syntho mund të përgjithësojnë më mirë veçoritë me më shumë regjistrime të njësive të disponueshme, gjë që ul rrezikun e privatësisë. Rekomandohet një raport minimal kolonë-rresht prej 1:500. Për shembull, nëse tabela juaj burimore ka 6 kolona, ​​ajo duhet të përmbajë një minimum prej 3000 rreshtash.

Aspak. Megjithëse mund të duhen disa përpjekje për të kuptuar plotësisht avantazhet, funksionimin dhe përdorimin e të dhënave sintetike, procesi i sintetizimit është shumë i thjeshtë dhe kushdo me njohuri bazë kompjuterike mund ta bëjë këtë. Për më shumë informacion rreth procesit të sintetizimit, shikoni këtë faqe or kërkoni një demo.

Motori Syntho funksionon më mirë në të dhëna të strukturuara, tabelare (çdo gjë që përmban rreshta dhe kolona). Brenda këtyre strukturave, ne mbështesim llojet e mëposhtme të të dhënave:

  • Strukturon të dhënat e formatuara në tabela (kategorike, numerike, etj.)
  • Identifikuesit e drejtpërdrejtë dhe PII
  • Të dhëna të mëdha dhe baza të dhënash
  • Të dhënat e vendndodhjes gjeografike (si GPS)
  • Të dhënat e serive kohore
  • Baza e të dhënave me shumë tabela (me integritet referencial)
  • Hapni të dhënat e tekstit

 

Mbështetje komplekse e të dhënave
Pranë të gjitha llojeve të rregullta të të dhënave tabelare, Syntho Engine mbështet lloje komplekse të dhënash dhe struktura komplekse të dhënash.

  • Seritë kohore
  • Baza e të dhënave me shumë tabela
  • Teksti i hapur

Lexo më shumë.

Jo, ne optimizuam platformën tonë për të minimizuar kërkesat llogaritëse (p.sh. nuk kërkohet GPU), pa kompromentuar saktësinë e të dhënave. Përveç kësaj, ne mbështesim shkallëzimin automatik, në mënyrë që dikush të mund të sintetizojë baza të të dhënave të mëdha.

Po. Softueri Syntho është i optimizuar për bazat e të dhënave që përmbajnë tabela të shumta.

Për sa i përket kësaj, Syntho zbulon automatikisht llojet, skemat dhe formatet e të dhënave për të maksimizuar saktësinë e të dhënave. Për bazën e të dhënave me shumë tabela, ne mbështesim përfundimin dhe sintezën automatike të marrëdhënieve të tabelës për të ruajtur integritetin referencial.

grup njerëzish duke buzëqeshur

Të dhënat janë sintetike, por ekipi ynë është real!

Kontaktoni Syntho dhe një nga ekspertët tanë do të kontaktojë me ju me shpejtësinë e dritës për të eksploruar vlerën e të dhënave sintetike!