Ha anonimizálja adatait az adatelemzés adattesztelése előtt, több tényező is szerepet játszik:
A szintetikus adatok megoldják ezeket a hiányosságokat és még sok mást. Tekintse meg az alábbi videót, ahol a SAS (az analitika globális piacvezetője) analitikai szakértője elmagyarázza az eredeti adatok, az anonimizált adatok és a Syntho által generált szintetikus adatok minőségbeli különbségére vonatkozó értékelését.
Ez a videó a Syntho x SAS D[N]A Caféból készült a mesterséges intelligencia által generált szintetikus adatokról. A teljes videót itt találja.
Edwin van Unen egy eredeti adatkészletet küldött a Synthónak, mi pedig szintetizáltuk az adatkészletet. De a kérdés az is volt: „Mi történik, ha a szintetikus adatokat anonim adatokkal hasonlítjuk össze?” Mivel sok információt veszít egy anonimizált adatban, ez adathalmaz szintetizálásakor is megtörténik? A telekommunikációs iparágból származó adatkészlettel kezdtük, amely 56.000 128 sort és XNUMX oszlopot tartalmaz a vállalati lemorzsolódási adatokról. Ezt az adatkészletet szintetizálták és anonimizálták, így Edwin össze tudta hasonlítani a szintetizálást az anonimizálással. Aztán Edwin elkezdett modellezni a SAS Viya segítségével. Felépített néhány lemorzsolódási modellt az eredeti adatkészletre, klasszikus regressziós technikákkal és döntési fákkal, de olyan kifinomultabb technikákkal is, mint a neurális hálózatok, a gradiens-növelés, a véletlenszerű erdő – ezek a technikák. A szabványos SAS Viya opciók használata a modellek építésekor.
Aztán ideje volt megnézni az eredményeket. Az eredmények nagyon ígéretesek a szintetikus adatok és nem az anonimizálás szempontjából. A nem gépi tanulással foglalkozó szakértők számára a ROC-görbe alatti területet nézzük, amely elárul valamit a modell pontosságáról. Összehasonlítva az eredeti adatokat az anonimizált adatokkal, azt látjuk, hogy az eredeti adatmodell ROC-görbe alatti területe 8, ami elég jó, azonban az anonimizált adatok ROC-görbe alatti területe 6. Ez azt jelenti, hogy az anonimizált modellel sok információt veszítünk, így sok előrejelző képességet veszít.
De akkor a kérdés az, hogy mi a helyzet a szintetikus adatokkal? Itt pontosan ugyanezt tettük, de az adatok anonimizálása helyett a Syntho szintetizálta az adatokat. Most azt látjuk, hogy az eredeti adatok és a szintetikus adatok is 8-as ROC-görbe alatti területtel rendelkeznek, ami nagyon hasonló. Nem teljesen ugyanaz a változatosság miatt, de nagyon hasonló. Ez azt jelenti, hogy a szintetikus adatokban rejlő lehetőségek nagyon ígéretesek – ennek Edwin nagyon örül.
Lépjen kapcsolatba Syntho -val és egyik szakértőnk fénysebességgel felveszi Önnel a kapcsolatot, hogy feltárja a szintetikus adatok értékét!