Çfarë janë të dhënat sintetike?

Të dhëna sintetike të një kursi përplasjeje

 

 

Prezantimi

Çfarë janë të dhënat sintetike?

Përgjigja është relativisht e thjeshtë. Ndërsa të dhënat origjinale mblidhen në të gjitha ndërveprimet tuaja me persona realë (p.sh. klientët, pacientët, punonjësit etj.) dhe nëpërmjet të gjitha proceseve tuaja të brendshme, të dhënat sintetike gjenerohen nga një algoritëm kompjuterik. Ky algoritëm kompjuterik gjeneron pika të dhënash krejtësisht të reja dhe artificiale.

Zgjidh sfidat e privatësisë së të dhënave

Të dhënat e krijuara në mënyrë sintetike përbëhen nga pika të dhënash krejtësisht të reja dhe artificiale, pa lidhje një-me-një me të dhënat origjinale. Prandaj, asnjë nga pikat e të dhënave sintetike nuk mund të gjurmohet ose të kthehet në të dhënat origjinale. Si rezultat, të dhënat sintetike janë të përjashtuara nga rregulloret e privatësisë, të tilla si GDPR dhe shërbejnë si zgjidhje për të zgjidhur dhe kapërcyer sfidat e privatësisë së të dhënave.

Shtoni dhe simuloni

Aspekti gjenerues i gjenerimit të të dhënave sintetike lejon shtimin dhe simulimin e të dhënave krejtësisht të reja. Kjo funksionon si zgjidhje kur nuk keni të dhëna të mjaftueshme (mungesë e të dhënave), dëshironi të bëni kampione të rasteve të skajshme ose kur nuk keni ende të dhëna.

Këtu, fokusi i Syntho janë të dhënat e strukturuara (të dhëna të formatuara në tabela që përmbajnë rreshta dhe kolona, ​​siç shihni në një fletë Excel), por ne gjithmonë na pëlqen të ilustrojmë konceptin e të dhënave sintetike përmes imazheve, sepse ato janë më tërheqëse.

Llojet e të dhënave sintetike

Tre lloje të të dhënave sintetike ekzistojnë brenda ombrellës së të dhënave sintetike. Këto 3 lloje të të dhënave sintetike janë: të dhënat dummy, të dhënat sintetike të krijuara bazuar në rregulla dhe të dhënat sintetike të gjeneruara nga inteligjenca artificiale (AI). Ne shpjegojmë shkurtimisht se cilat janë 3 llojet e ndryshme të të dhënave sintetike.

Të dhëna të rreme / të dhëna tallëse

Të dhënat dummy janë të dhëna të krijuara në mënyrë rastësore (p.sh. nga një gjenerues i tillë i të dhënave).

Rrjedhimisht, karakteristikat, marrëdhëniet dhe modelet statistikore që janë në të dhënat origjinale nuk ruhen, kapen dhe riprodhohen në të dhënat e krijuara. Prandaj, përfaqësimi i të dhënave të rreme / të dhënave model është minimale në krahasim me të dhënat origjinale.

  • Kur ta përdorni: për të zëvendësuar identifikuesit e drejtpërdrejtë (PII) ose kur nuk keni të dhëna (ende) dhe nuk dëshironi të shpenzoni kohë dhe energji për përcaktimin e rregullave.

Të dhëna sintetike të krijuara bazuar në rregulla

Të dhënat sintetike të krijuara bazuar në rregulla janë të dhëna sintetike të krijuara nga një grup rregullash të paracaktuara. Shembuj të atyre rregullave të paracaktuara mund të jenë që ju dëshironi të keni të dhëna sintetike me një vlerë minimale të caktuar, vlerë maksimale ose vlerë mesatare. Çdo nga karakteristikat, marrëdhëniet dhe modelet statistikore, që dëshironi të riprodhoni në të dhënat sintetike të krijuara bazuar në rregulla, duhet të paracaktohen.

Rrjedhimisht, cilësia e të dhënave do të jetë po aq e mirë sa grupi i rregullave të paracaktuara. Kjo rezulton në sfida kur cilësia e lartë e të dhënave është thelbësore. Së pari, mund të përcaktohen vetëm një grup i kufizuar rregullash që do të përfshihen në të dhënat sintetike. Për më tepër, vendosja e rregullave të shumta zakonisht do të rezultojë në rregulla të mbivendosura dhe konfliktuale. Për më tepër, ju kurrë nuk do t'i mbuloni plotësisht të gjitha rregullat përkatëse. Për më tepër, mund të ketë rregulla përkatëse për të cilat as nuk jeni në dijeni. Dhe së fundi (dhe për të mos harruar), kjo do t'ju marrë shumë kohë dhe energji duke rezultuar në një zgjidhje jo efikase.

  • Kur ta përdorni: kur nuk keni të dhëna (ende)

Të dhëna sintetike të krijuara nga inteligjenca artificiale (AI)

Siç prisni nga emri, të dhënat sintetike të gjeneruara nga inteligjenca artificiale (AI) janë të dhëna sintetike të krijuara nga një algoritëm i inteligjencës artificiale (AI). Modeli i AI është trajnuar mbi të dhënat origjinale për të mësuar të gjitha karakteristikat, marrëdhëniet dhe modelet statistikore. Më pas, ky algoritëm i AI është në gjendje të gjenerojë pika të dhënash krejtësisht të reja dhe të modelojë ato pika të reja të të dhënave në atë mënyrë që të riprodhojë karakteristikat, marrëdhëniet dhe modelet statistikore nga grupi i të dhënave origjinale. Kjo është ajo që ne e quajmë një binjak të dhënash sintetike.

Modeli i AI imiton të dhënat origjinale për të gjeneruar binjakë të të dhënave sintetike që mund të përdoren sikur të ishin të dhëna origjinale. Kjo zhbllokon raste të ndryshme përdorimi ku të dhënat sintetike të krijuara nga AI mund të përdoren si alternativë për përdorimin e të dhënave origjinale (të ndjeshme), të tilla si përdorimi i të dhënave sintetike të krijuara nga AI si të dhëna testimi, të dhëna demo ose për analitikë.

Një vizualizim se si krijohen të dhënat sintetike

Në krahasim me të dhënat sintetike të krijuara bazuar në rregulla: në vend që ju të studioni dhe përcaktoni rregullat përkatëse, algoritmi i AI e bën këtë automatikisht për ju. Këtu do të mbulohen jo vetëm karakteristikat, marrëdhëniet dhe modelet statistikore për të cilat jeni në dijeni, por edhe karakteristikat, marrëdhëniet dhe modelet statistikore për të cilat as nuk jeni në dijeni.

  • Kur ta përdorni: kur keni (disa) të dhëna si hyrje për të imituar ose për t'i përdorur si pikënisje për gjenerimin e të dhënave inteligjente dhe veçoritë e shtimit

Çfarë lloji të të dhënave sintetike duhet përdorur?

Në varësi të rastit tuaj të përdorimit, këshillohet një kombinim i të dhënave false/të dhënave sintetike të krijuara bazuar në rregulla ose të dhënave sintetike të krijuara nga inteligjenca artificiale (AI). Kjo përmbledhje ju ofron një tregues të parë se çfarë lloji të të dhënave sintetike duhet të përdorni. Duke qenë se Syntho i mbështet të gjitha, mos ngurroni të kontaktoni ekspertët tanë për të zhytur thellë rastin tuaj të përdorimit me ne.

Ky grafik paraqet lloje të ndryshme të të dhënave sintetike

mbulesë udhëzuese sinto

Ruani udhëzuesin tuaj të të dhënave sintetike tani!