Szintetikus adataink külső értékelése a SAS adatszakértői által

Szintetikus adataink az értékelni és a jóváhagyott adatszakértői SAS

Szintetikus adataink külső értékelésének bemutatása a SAS adatszakértői által

Mit tettünk?

A Syntho által generált szintetikus adatokat a SAS adatszakértői külső és objektív szemszögből értékelik, validálják és jóváhagyják.

Miért értékelik szintetikus adatainkat külsőleg a SAS adatszakértői?

Bár a Syntho büszke arra, hogy fejlett minőségbiztosítási jelentést kínál felhasználóinak, megértjük annak fontosságát is, hogy az iparág vezetőitől külső és objektív értékelést készítsünk szintetikus adatainkról. Ezért dolgozunk együtt a SAS-szal, az analitika piacvezetőjével, hogy értékeljük szintetikus adatainkat.

A SAS különféle alapos értékeléseket végez a Syntho mesterséges intelligencia által generált szintetikus adatainak az adatok pontosságáról, a magánélet védelméről és használhatóságáról az eredeti adatokhoz képest. Következtetésként a SAS úgy értékelte és jóváhagyta a Syntho szintetikus adatait, hogy azok pontosak, biztonságosak és használhatóak az eredeti adatokhoz képest.

Mit tett a SAS az értékelés során?

Céladatként olyan távközlési adatokat használtunk, amelyeket a „lemorzsolódás” előrejelzésére használunk. Az értékelés célja az volt, hogy szintetikus adatok felhasználásával különböző lemorzsolódás-előrejelzési modelleket tanítsunk, és értékeljük az egyes modellek teljesítményét. Mivel a lemorzsolódás előrejelzése egy osztályozási feladat, a SAS népszerű osztályozási modelleket választott ki az előrejelzésekhez, többek között:

Véletlen erdő
Gradiens növelés
Logisztikus regresszió
Neurális hálózat

A szintetikus adatok generálása előtt a SAS véletlenszerűen felosztotta a távközlési adatkészletet egy vonatkészletre (a modellek betanítására) és egy holdout készletre (a modellek pontozására). A pontozáshoz külön megtartási készlet lehetővé teszi annak elfogulatlan értékelését, hogy az osztályozási modell milyen jól működik új adatokra alkalmazva.

A vonatkészletet bemenetként használva a Syntho a Syntho Engine-jét használta szintetikus adatkészlet létrehozására. A teljesítményértékeléshez a SAS létrehozta a vonatkészlet anonimizált változatát is, miután különféle anonimizálási technikákat alkalmazott egy bizonyos küszöb (a k-anonimitás) elérése érdekében. Az előbbi lépések négy adatkészletet eredményeztek:

Vonatadatkészlet (azaz az eredeti adatkészlet mínusz a tartási adatkészlet)
Tartós adatkészlet (azaz az eredeti adatkészlet egy részhalmaza)
Anonimizált adatkészlet (a vonatadatkészlet anonimizált adatai, az eredeti adatkészlet mínusz a tartási adatkészlet)
Szintetikus adatkészlet (a vonatadatkészlet szintetizált adatai, az eredeti adatkészlet mínusz a tartási adatkészlet)

Az 1., 3. és 4. adatkészletet használtuk az egyes osztályozási modellek betanításához, ami 12 (3 x 4) betanított modellt eredményezett. A SAS ezt követően a visszatartási adatkészletet használta az egyes modellek pontosságának mérésére az ügyfelek lemorzsolódásának előrejelzésében.

Kérdése van?

Beszéljen egyik szakértőnkkel

Kapcsolatfelvétel

A SAS által végzett adatértékelés kezdeti eredményei

A szintetikus adatokon betanított modellek nagyon hasonló eredményeket értek el az eredeti adatokon betanított modellekhez képest

A Syntho szintetikus adatai nem csak az alapvető mintákra vonatkoznak, hanem mély „rejtett” statisztikai mintákat is rögzítenek, amelyek a fejlett elemzési feladatokhoz szükségesek. Ez utóbbit az oszlopdiagram mutatja, jelezve, hogy a szintetikus adatokon betanított modellek és az eredeti adatokon betanított modellek pontossága hasonló. Így a szintetikus adatok felhasználhatók a modellek tényleges betanítására. A szintetikus adatokon az algoritmusok által kiválasztott bemenetek és változó fontosság az eredeti adatokhoz képest nagyon hasonló volt. Ebből az a következtetés vonható le, hogy a modellezési folyamat elvégezhető szintetikus adatokon, mint a valódi érzékeny adatok felhasználásának alternatívája.

Miért pontoznak rosszabbul az anonimizált adatokra képzett modellek?

A klasszikus anonimizálási technikák közös jellemzője, hogy az eredeti adatokat manipulálják, hogy megakadályozzák az egyének visszakövetését. Adatokat manipulálnak, és ezáltal az adatokat megsemmisítik a folyamat során. Minél többet anonimizál, annál jobban védik adatait, de annál jobban megsemmisülnek. Ez különösen pusztító a mesterséges intelligencia és a modellezési feladatok esetében, ahol a „jósló erő” elengedhetetlen, mivel a rossz minőségű adatok rossz betekintést eredményeznek az AI-modellből. A SAS ezt 0.5-höz közeli görbe alatti területtel (AUC*) mutatta be, ami azt mutatja, hogy az anonimizált adatokon betanított modellek teljesítenek messze a legrosszabbul.

A SAS szintetikus adatértékelésének további eredményei

A változók közötti összefüggéseket és kapcsolatokat a szintetikus adatok pontosan megőrizték.

A görbe alatti terület (AUC), a modell teljesítményének mérésére szolgáló mérőszám konzisztens maradt.

Ezenkívül a változó fontossága, amely a modell változóinak prediktív erejét jelezte, érintetlen maradt a szintetikus adatok és az eredeti adatkészlet összehasonlításakor.

A SAS ezen megfigyelései és a SAS Viya használatával magabiztosan megállapíthatjuk, hogy a Syntho Engine által generált szintetikus adatok minőségileg valóban egyenrangúak a valós adatokkal. Ez hitelesíti a szintetikus adatok használatát a modellfejlesztéshez, és megnyitja az utat a szintetikus adatokkal rendelkező fejlett elemzések előtt.

A SAS adatszakértőinek következtetései

A szintetikus adatokon betanított modellek az eredeti adatokon betanított modellekhez képest nagyon hasonló teljesítményt mutatnak
A „klasszikus anonimizálási technikákkal” anonimizált adatokon betanított modellek gyengébb teljesítményt mutatnak, mint az eredeti adatokon vagy szintetikus adatokon betanított modellek
A szintetikus adatgenerálás egyszerű és gyors, mert a technika adatkészletenként és adattípusonként pontosan ugyanúgy működik

Szintetikus adataink az jóváhagyott a SAS adatszakértői

Olvassa el a cikket

Referencia cikkek

A SAS adatszakértőinek értékelése: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

A SAS globális hackathon Syntho győztese: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Egészségügyi esettanulmány eredményei: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Mi a szintetikus adat?

Minőségbiztosítási jelentés

A SAS külső értékelése

Idősoros szintetikus adatok

PII szkenner

Szintetikus áladatok

Következetes feltérképezés

Az azonosítás és a szintetizálás

Szabályalapú szintetikus adatok

Részhalmaz

Telepítés és integráció

Csatlakozók

Bővített funkciók

Támogatott adatok

Felhasználói dokumentáció

Ütemezzen egy demót

Árazás

Teszt adat

Elemzések

Adatmegosztás

Termék bemutatók

Az adatok bevételszerzése

Egészségügy

Finanszíroz

Közszervezetek

Felhasználói dokumentáció

Fehér könyvek és útmutatók

Blog

Webinárium

Esettanulmányok

Árazás

Rólunk

Karrier

Szintetikus adataink külső értékelése a SAS adatszakértői által

Szintetikus adataink az értékelni és a jóváhagyott adatszakértői SAS

Szintetikus adataink külső értékelésének bemutatása a SAS adatszakértői által

Mit tettünk?

Miért értékelik szintetikus adatainkat külsőleg a SAS adatszakértői?

Mit tett a SAS az értékelés során?

Kérdése van?

Beszéljen egyik szakértőnkkel

A SAS által végzett adatértékelés kezdeti eredményei

A szintetikus adatokon betanított modellek nagyon hasonló eredményeket értek el az eredeti adatokon betanított modellekhez képest

Miért pontoznak rosszabbul az anonimizált adatokra képzett modellek?

A SAS szintetikus adatértékelésének további eredményei

A SAS szintetikus adatértékelésének további eredményei

A SAS adatszakértőinek következtetései

Szintetikus adataink az jóváhagyott a SAS adatszakértői

Referencia cikkek

Mentse el a szintetikus adatok útmutatóját most!

Főmenü

Mentse el a szintetikus adatok útmutatóját most!