Mi a szintetikus adat?

Gyorspálya szintetikus adatok

 

 

Bevezetés

Mi a szintetikus adat?

A válasz viszonylag egyszerű. Míg az eredeti adatokat a valós személyekkel (pl. ügyfelekkel, betegekkel, alkalmazottakkal stb.) folytatott összes interakció során, valamint az összes belső folyamaton keresztül gyűjtik, a szintetikus adatokat számítógépes algoritmus állítja elő. Ez a számítógépes algoritmus teljesen új és mesterséges adatpontokat generál.

Oldja meg az adatvédelmi kihívásokat

A szintetikusan előállított adatok teljesen új és mesterséges adatpontokból állnak, amelyeknek nincs egy-egy kapcsolata az eredeti adatokkal. Ezért a szintetikus adatpontok egyike sem vezethető vissza vagy visszafejthető az eredeti adatokra. Ennek eredményeként a szintetikus adatok mentesülnek az adatvédelmi előírások, például a GDPR alól, és megoldást jelentenek az adatvédelmi kihívások megoldására és leküzdésére.

Növelje és szimulálja

A szintetikus adatgenerálás generatív aspektusa lehetővé teszi teljesen új adatok kiegészítését és szimulálását. Ez megoldásként működik, ha nincs elég adat (adathiány), szeretne felmintázni az éles eseteket, vagy ha még nincsenek adatok.

Itt a Syntho középpontjában a strukturált adatok állnak (a sorokat és oszlopokat tartalmazó táblázatokban formázott adatok, mint az Excel -lapokban látható), de mindig szeretjük képekkel illusztrálni a szintetikus adatok fogalmát, mert ez vonzóbb.

A szintetikus adatok típusai

Háromféle szintetikus adat létezik a szintetikus adatok ernyőjén belül. Ez a 3 típusú szintetikus adat a következő: hamis adatok, szabályalapú generált szintetikus adatok és mesterséges intelligencia (AI) által generált szintetikus adatok. Röviden elmagyarázzuk, mi a 3 különböző típusú szintetikus adat.

Hamis adatok / hamis adatok

Az áladatok véletlenszerűen generált adatok (pl. egy hamis adatgenerátor által).

Következésképpen az eredeti adatokban szereplő jellemzőket, kapcsolatokat és statisztikai mintákat nem őrzik meg, rögzítik és nem reprodukálják a generált áladatokban. Emiatt a hamis adatok / hamis adatok reprezentativitása minimális az eredeti adatokhoz képest.

  • Mikor érdemes használni: a közvetlen azonosítók (PII) cseréjére, vagy ha nem rendelkezik adatokkal (még), és nem szeretne időt és energiát költeni szabályok meghatározására.

Szabályalapú generált szintetikus adatok

A szabályalapú generált szintetikus adatok olyan szintetikus adatok, amelyeket egy előre meghatározott szabálykészlet generál. Ilyen előre meghatározott szabályok például az, hogy szintetikus adatokat szeretne egy bizonyos minimális, maximális vagy átlagos értékkel. Bármelyik jellemzőt, összefüggést és statisztikai mintát, amelyet reprodukálni szeretne a szabályalapú generált szintetikus adatokban, előre definiálni kell.

Következésképpen az adatok minősége olyan jó lesz, mint az előre meghatározott szabályrendszer. Ez kihívásokhoz vezet, amikor a magas adatminőség a lényeg. Először is, csak korlátozott számú szabályt lehet meghatározni a szintetikus adatokban rögzítendő szabályoknak. Ezenkívül több szabály beállítása általában átfedő és ütköző szabályokat eredményez. Sőt, soha nem fogja teljes mértékben lefedni az összes vonatkozó szabályt. Ezenkívül lehetnek olyan releváns szabályok, amelyekről Ön nem is tud. És végül (és nem szabad elfelejteni), ez sok időt és energiát fog igénybe venni, ami nem hatékony megoldást eredményez.

  • Mikor érdemes használni: ha nem rendelkezik adatokkal (még)

Mesterséges intelligencia (AI) által generált szintetikus adatok

Ahogy az a névből várható, a mesterséges intelligencia (AI) által generált szintetikus adatok mesterséges intelligencia (AI) algoritmus által generált szintetikus adatok. Az AI-modellt az eredeti adatokra képezték ki, hogy megtanulják az összes jellemzőt, összefüggést és statisztikai mintát. Ezt követően ez az AI-algoritmus képes teljesen új adatpontokat generálni, és ezeket az új adatpontokat úgy modellezni, hogy az eredeti adatkészlet jellemzőit, összefüggéseit és statisztikai mintáit reprodukálja. Ezt nevezzük szintetikus adatikernek.

Az AI-modell az eredeti adatokat utánozza, hogy szintetikus adatikreket generáljon, amelyeket úgy lehet használni, mintha eredeti adatok lennének. Ez feloldja a különféle felhasználási eseteket, amikor a mesterséges intelligencia által generált szintetikus adatok alternatívaként használhatók az eredeti (érzékeny) adatok használatához, például az AI által generált szintetikus adatok tesztadatként, demóadatként vagy elemzési célra történő felhasználását.

A szintetikus adatok létrehozásának megjelenítése

A szabályalapú generált szintetikus adatokhoz képest: ahelyett, hogy tanulmányozná és meghatározná a releváns szabályokat, az AI algoritmus ezt automatikusan elvégzi Ön helyett. Itt nem csak az Ön által ismert jellemzők, összefüggések és statisztikai minták lesznek lefedve, hanem olyan jellemzők, kapcsolatok és statisztikai minták is, amelyekről nem is tud.

  • Mikor kell használni: ha van (néhány) adat bemenetként, hogy utánozza, vagy kiindulási pontként használja az intelligens adatgeneráláshoz és bővítési funkciókhoz

Milyen típusú szintetikus adatokat használjunk?

Az Ön felhasználási esetétől függően javasolt az áladatok / hamis adatok, a szabályalapú generált szintetikus adatok vagy a mesterséges intelligencia (AI) által generált szintetikus adatok kombinációja. Ez az áttekintés első jelzést ad arról, hogy milyen típusú szintetikus adatokat kell használni. Mivel a Syntho mindegyiket támogatja, bátran forduljon szakértőinkhoz, hogy elmélyüljön velünk a használati esete.

Ez a diagram különböző típusú szintetikus adatokat mutat be

szintetikus vezetőfedél

Mentse el a szintetikus adatok útmutatóját most!