Szintetikus adataink külső értékelése a SAS adatszakértői által

Szintetikus adataink az értékelni és a jóváhagyott adatszakértői SAS

Szintetikus adataink külső értékelésének bemutatása a SAS adatszakértői által

Mit tettünk?

A Syntho által generált szintetikus adatokat a SAS adatszakértői külső és objektív szemszögből értékelik, validálják és jóváhagyják.

Miért értékelik szintetikus adatainkat külsőleg a SAS adatszakértői?

Bár a Syntho büszke arra, hogy fejlett minőségbiztosítási jelentést kínál felhasználóinak, megértjük annak fontosságát is, hogy az iparág vezetőitől külső és objektív értékelést készítsünk szintetikus adatainkról. Ezért dolgozunk együtt a SAS-szal, az analitika piacvezetőjével, hogy értékeljük szintetikus adatainkat.

A SAS különféle alapos értékeléseket végez a Syntho mesterséges intelligencia által generált szintetikus adatainak az adatok pontosságáról, a magánélet védelméről és használhatóságáról az eredeti adatokhoz képest. Következtetésként a SAS úgy értékelte és jóváhagyta a Syntho szintetikus adatait, hogy azok pontosak, biztonságosak és használhatóak az eredeti adatokhoz képest.

Mit tett a SAS az értékelés során?

Céladatként olyan távközlési adatokat használtunk, amelyeket a „lemorzsolódás” előrejelzésére használunk. Az értékelés célja az volt, hogy szintetikus adatok felhasználásával különböző lemorzsolódás-előrejelzési modelleket tanítsunk, és értékeljük az egyes modellek teljesítményét. Mivel a lemorzsolódás előrejelzése egy osztályozási feladat, a SAS népszerű osztályozási modelleket választott ki az előrejelzésekhez, többek között:

  1. Véletlen erdő
  2. Gradiens növelés
  3. Logisztikus regresszió
  4. Neurális hálózat

A szintetikus adatok generálása előtt a SAS véletlenszerűen felosztotta a távközlési adatkészletet egy vonatkészletre (a modellek betanítására) és egy holdout készletre (a modellek pontozására). A pontozáshoz külön megtartási készlet lehetővé teszi annak elfogulatlan értékelését, hogy az osztályozási modell milyen jól működik új adatokra alkalmazva.

A vonatkészletet bemenetként használva a Syntho a Syntho Engine-jét használta szintetikus adatkészlet létrehozására. A teljesítményértékeléshez a SAS létrehozta a vonatkészlet anonimizált változatát is, miután különféle anonimizálási technikákat alkalmazott egy bizonyos küszöb (a k-anonimitás) elérése érdekében. Az előbbi lépések négy adatkészletet eredményeztek:

  1. Vonatadatkészlet (azaz az eredeti adatkészlet mínusz a tartási adatkészlet)
  2. Tartós adatkészlet (azaz az eredeti adatkészlet egy részhalmaza)
  3. Anonimizált adatkészlet (a vonatadatkészlet anonimizált adatai, az eredeti adatkészlet mínusz a tartási adatkészlet)
  4. Szintetikus adatkészlet (a vonatadatkészlet szintetizált adatai, az eredeti adatkészlet mínusz a tartási adatkészlet)

Az 1., 3. és 4. adatkészletet használtuk az egyes osztályozási modellek betanításához, ami 12 (3 x 4) betanított modellt eredményezett. A SAS ezt követően a visszatartási adatkészletet használta az egyes modellek pontosságának mérésére az ügyfelek lemorzsolódásának előrejelzésében.

A SAS különféle alapos értékeléseket végez a Syntho mesterséges intelligencia által generált szintetikus adatainak az adatok pontosságáról, a magánélet védelméről és használhatóságáról az eredeti adatokhoz képest. Következtetésként a SAS úgy értékelte és jóváhagyta a Syntho szintetikus adatait, hogy azok pontosak, biztonságosak és használhatóak az eredeti adatokhoz képest.

Kérdése van?

Beszéljen egyik szakértőnkkel

A SAS által végzett adatértékelés kezdeti eredményei

A szintetikus adatokon betanított modellek nagyon hasonló eredményeket értek el az eredeti adatokon betanított modellekhez képest

A Syntho szintetikus adatai nem csak az alapvető mintákra vonatkoznak, hanem mély „rejtett” statisztikai mintákat is rögzítenek, amelyek a fejlett elemzési feladatokhoz szükségesek. Ez utóbbit az oszlopdiagram mutatja, jelezve, hogy a szintetikus adatokon betanított modellek és az eredeti adatokon betanított modellek pontossága hasonló. Így a szintetikus adatok felhasználhatók a modellek tényleges betanítására. A szintetikus adatokon az algoritmusok által kiválasztott bemenetek és változó fontosság az eredeti adatokhoz képest nagyon hasonló volt. Ebből az a következtetés vonható le, hogy a modellezési folyamat elvégezhető szintetikus adatokon, mint a valódi érzékeny adatok felhasználásának alternatívája.

Miért pontoznak rosszabbul az anonimizált adatokra képzett modellek?

A klasszikus anonimizálási technikák közös jellemzője, hogy az eredeti adatokat manipulálják, hogy megakadályozzák az egyének visszakövetését. Adatokat manipulálnak, és ezáltal az adatokat megsemmisítik a folyamat során. Minél többet anonimizál, annál jobban védik adatait, de annál jobban megsemmisülnek. Ez különösen pusztító a mesterséges intelligencia és a modellezési feladatok esetében, ahol a „jósló erő” elengedhetetlen, mivel a rossz minőségű adatok rossz betekintést eredményeznek az AI-modellből. A SAS ezt 0.5-höz közeli görbe alatti területtel (AUC*) mutatta be, ami azt mutatja, hogy az anonimizált adatokon betanított modellek teljesítenek messze a legrosszabbul.

A SAS szintetikus adatértékelésének további eredményei

A SAS szintetikus adatértékelésének további eredményei

A változók közötti összefüggéseket és kapcsolatokat a szintetikus adatok pontosan megőrizték.

A görbe alatti terület (AUC), a modell teljesítményének mérésére szolgáló mérőszám konzisztens maradt.

Ezenkívül a változó fontossága, amely a modell változóinak prediktív erejét jelezte, érintetlen maradt a szintetikus adatok és az eredeti adatkészlet összehasonlításakor.

A SAS ezen megfigyelései és a SAS Viya használatával magabiztosan megállapíthatjuk, hogy a Syntho Engine által generált szintetikus adatok minőségileg valóban egyenrangúak a valós adatokkal. Ez hitelesíti a szintetikus adatok használatát a modellfejlesztéshez, és megnyitja az utat a szintetikus adatokkal rendelkező fejlett elemzések előtt.

A SAS adatszakértőinek következtetései

Sas logó

Szintetikus adataink az jóváhagyott a SAS adatszakértői

Referencia cikkek

szintetikus vezetőfedél

Mentse el a szintetikus adatok útmutatóját most!