Anonimizált adatok kontra szintetikus adatok

Ha anonimizálja adatait az adatelemzés adattesztelése előtt, több tényező is szerepet játszik:

  1. Az anonimizált adatok szinte minden esetben egyedi és egyedi sorok (pl. orvosi feljegyzések) miatt továbbra is visszavezethetők egyénekre.
  2. Minél többet anonimizál vagy általánosít, annál több adatot semmisít meg. Ez rontja az adatok minőségét és ezáltal a betekintést
  3. Az anonimizálás eltérő módon működik a különböző adatformátumok esetén. Ez azt jelenti, hogy nem méretezhető, és nagyon időigényes lehet

A szintetikus adatok megoldják ezeket a hiányosságokat és még sok mást. Tekintse meg az alábbi videót, ahol a SAS (az analitika globális piacvezetője) analitikai szakértője elmagyarázza az eredeti adatok, az anonimizált adatok és a Syntho által generált szintetikus adatok minőségbeli különbségére vonatkozó értékelését.

Ez a videó a Syntho x SAS D[N]A Caféból készült a mesterséges intelligencia által generált szintetikus adatokról. A teljes videót itt találja.

Edwin van Unen egy eredeti adatkészletet küldött a Synthónak, mi pedig szintetizáltuk az adatkészletet. De a kérdés az is volt: „Mi történik, ha a szintetikus adatokat anonim adatokkal hasonlítjuk össze?” Mivel sok információt veszít egy anonimizált adatban, ez adathalmaz szintetizálásakor is megtörténik? A telekommunikációs iparágból származó adatkészlettel kezdtük, amely 56.000 128 sort és XNUMX oszlopot tartalmaz a vállalati lemorzsolódási adatokról. Ezt az adatkészletet szintetizálták és anonimizálták, így Edwin össze tudta hasonlítani a szintetizálást az anonimizálással. Aztán Edwin elkezdett modellezni a SAS Viya segítségével. Felépített néhány lemorzsolódási modellt az eredeti adatkészletre, klasszikus regressziós technikákkal és döntési fákkal, de olyan kifinomultabb technikákkal is, mint a neurális hálózatok, a gradiens-növelés, a véletlenszerű erdő – ezek a technikák. A szabványos SAS Viya opciók használata a modellek építésekor.

Aztán ideje volt megnézni az eredményeket. Az eredmények nagyon ígéretesek a szintetikus adatok és nem az anonimizálás szempontjából. A nem gépi tanulással foglalkozó szakértők számára a ROC-görbe alatti területet nézzük, amely elárul valamit a modell pontosságáról. Összehasonlítva az eredeti adatokat az anonimizált adatokkal, azt látjuk, hogy az eredeti adatmodell ROC-görbe alatti területe 8, ami elég jó, azonban az anonimizált adatok ROC-görbe alatti területe 6. Ez azt jelenti, hogy az anonimizált modellel sok információt veszítünk, így sok előrejelző képességet veszít.

De akkor a kérdés az, hogy mi a helyzet a szintetikus adatokkal? Itt pontosan ugyanezt tettük, de az adatok anonimizálása helyett a Syntho szintetizálta az adatokat. Most azt látjuk, hogy az eredeti adatok és a szintetikus adatok is 8-as ROC-görbe alatti területtel rendelkeznek, ami nagyon hasonló. Nem teljesen ugyanaz a változatosság miatt, de nagyon hasonló. Ez azt jelenti, hogy a szintetikus adatokban rejlő lehetőségek nagyon ígéretesek – ennek Edwin nagyon örül.

mosolygó emberek csoportja

Az adatok szintetikusak, de a mi csapatunk valódi!

Lépjen kapcsolatba Syntho -val és egyik szakértőnk fénysebességgel felveszi Önnel a kapcsolatot, hogy feltárja a szintetikus adatok értékét!