Útmutató a szintetikus adatgeneráláshoz: meghatározások, típusok és alkalmazások

Nem titok, hogy a vállalkozások kihívásokkal néznek szembe a jó minőségű adatok megszerzése és megosztása során. Szintetikus adatgenerálás egy praktikus megoldás, amely nagyméretű mesterséges adatkészletek és kiváló minőségű tesztadatok előállítását segíti elő adatvédelmi kockázatok és bürokrácia nélkül.

Szintetikus adatkészletek sokféle módszerrel hozhatók létre, amelyek változatos alkalmazásokat kínálnak. Megfelelő kiértékelés esetén a fejlett algoritmusokkal előállított szintetikus adatkészletek segítenek a szervezeteknek felgyorsítani elemzéseiket, kutatásaikat és teszteléseiket. Tehát nézzük meg közelebbről.

Ez a cikk bemutatja a szintetikus adatokat, beleértve a fő típusokat, az anonimizált adatkészletektől való eltéréseket és a szabályozási árnyalatokat. Megtudhatja, hogy a mesterségesen előállított adatok hogyan oldják meg a kritikus adatproblémákat és minimalizálják bizonyos kockázatokat. Az esettanulmányainkból származó példák kíséretében megvitatjuk az ágazatok közötti alkalmazásait is.

Tartalomjegyzék

Szintetikus adatok: meghatározás és piaci statisztika

Szintetikus adatok mesterségesen előállított információ, amely nem tartalmaz bizalmas tartalmat, és a valódi adatkészletek alternatívájaként szolgál. Az adattudósok gyakran hívják AI által generált szintetikus adatok szintetikus adatiker, mivel nagy statisztikai pontossággal utánozza a valós adatokat.

A mesterséges adatkészleteket mesterséges intelligencia (AI) algoritmusok és szimulációk segítségével hozzák létre, amelyek fenntartják az eredeti adatok mintáit és korrelációit. Ezek az adatok szöveget, táblázatokat és képeket tartalmazhatnak. Az algoritmusok a személyazonosításra alkalmas információkat (PII) helyettesítik hamis adatok.

Szintetikus Data Platform Syntho az összes megoldás grafikonjával

Grand View Kutatási előrejelzések hogy a piac számára szintetikus adatgenerálás a Generative AI segítségével a 1.63-es 2022 milliárd dollárról 13.5-ra körülbelül 2030 milliárd dollárra nő, 35%-os CAGR mellett. A Gartner szerint 60-ben az MI-hez felhasznált adatok 2024%-a szintetikus lesz – ez 60-szor több, mint 2021-ben.

A szintetikus adatplatformok is egyre terjednek. Market Statesville arra számít A szintetikus adatplatformok globális piaca a 218-es 2022 millió dollárról 3.7-ra 2033 milliárd dollárra nő.

Miért nőnek a mesterséges adatok? Az egyik hajtóerő a szabályozási felügyelet alóli mentesség.

Az adatvédelmi törvények szabályozzák az AI által generált szintetikus adatokat?

Sok USA és EU adatbiztonság és adatvédelem szabályok vonatkoznak az azonosítható személyes adatokra. 

De ezek a szabályok nem vonatkoznak rá szintetikus adatok — a szintetikus adatokat hasonlóan kezelik anonimizált adatok. Más jogi szabályok úgynevezett „magját” alkotják.

Például, a GDPR (26) preambulumbekezdése kimondja, hogy az adatvédelmi szabályok csak az azonosítható személyre vonatkozó adatokra vonatkoznak. Ha az Ön szintetikus adatait úgy állítják elő, hogy azok nem vezethetők vissza azonosítható személyekre, akkor mentesülnek a hatósági felügyelet alól. A szabályozási felügyelettől eltekintve a valódi adatok felhasználásának más akadályai is vannak, amelyek szintetikus adatok előállítására késztetik a vállalkozásokat.

A valós adatok használatának fő kihívásai

Sok vállalat nehezen találja meg és használja fel a releváns, jó minőségű adatokat, különösen az AI algoritmusok képzéséhez elegendő mennyiségben. Még ha megtalálják is, az adatkészletek megosztása vagy felhasználása kihívást jelenthet az adatvédelmi kockázatok és a kompatibilitási problémák miatt. Ez a rész felvázolja a kulcsot megkérdőjelezi a szintetikus adatokat meg tudja oldani.

Az adatvédelmi kockázatok akadályozzák az adathasználatot és -megosztást

Az adatbiztonsági és adatvédelmi szabályozások, mint például a GDPR és a HIPAA, bürokratikus akadályokat állítanak fel az adatok megosztása és felhasználása elé. Az olyan iparágakban, mint az egészségügy, még a személyazonosításra alkalmas adatok megosztása ugyanazon szervezet részlegei között is időigényes lehet az irányítási ellenőrzések miatt. Az adatok külső entitásokkal való megosztása még nagyobb kihívást jelent, és több biztonsági kockázattal is jár.

Kutatás Fortune Business Insights a növekvő adatvédelmi kockázatokat a szintetikus adatkezelési gyakorlatok alkalmazásának elsődleges katalizátoraként azonosítja. Minél több adatot tárol, annál nagyobb a kockázata a magánélet veszélyeztetésének. Alapján az adatsértési jelentés 2023. évi IBM biztonsági költsége, az Egyesült Államokban az adatszivárgás átlagos költsége 9.48 millió dollár volt. Világszerte az átlagos költség 4.45 millió dollár volt; az 500-nál kevesebb munkavállalót foglalkoztató cégek 3.31 millió dollárt veszítenek jogsértésenként. És ez nem számít a jó hírnévnek.

Nehézségek a jó minőségű adatok megtalálásában

Egy 2022-os felmérés 500 adatszakértőből kiderült, hogy a mérnökök, elemzők és adatkutatók 77%-a szembesült adatminőségi problémákkal. A jelentés szerint az adatminőség hátráltatja a vállalat pénzügyi teljesítményét és termelékenységét, és aligha teszi elérhetővé a szolgáltatások holisztikus szemléletének kialakítását.

Előfordulhat, hogy a vállalatok nem rendelkeznek elegendő adattal az adott demográfiai adatokból ahhoz, hogy megfelelően képezzék gépi tanulási (ML) modelleiket. Az adatkészletek pedig gyakran tartalmaznak következetlenségeket, pontatlanságokat és hiányzó értékeket. Ha oktatja az AI platformjait gépi tanulási modellek gyenge minőségű, demográfiai sokszínűséget nélkülöző adatokon pontatlan, elfogult előrejelzéseket ad. Hasonlóképpen, mint az anonimizált adatgenerálás, a finomítatlan algoritmusok is megbízhatatlan mesterséges adatkészleteket hozhatnak létre, amelyek befolyásolják az adatelemzés eredményét.

A szintetikus adatokkal végzett mintavételezés javíthatja az adatminőséget az adatkészletek egyensúlyhiányának megszüntetésével. Ez biztosítja, hogy az alulreprezentált osztályok arányosabb reprezentációt kapjanak, és csökkenti a torzítást. A robusztusabb és reprezentatívabb adatkészlet jobb elemzési eredményeket és modellképzést eredményez.

Adatkészlet inkompatibilitás

A különböző forrásokból vagy többtáblás adatbázisokból származó adatkészletek összeférhetetlenségeket okozhatnak, bonyolulttá tehetik az adatfeldolgozást és -elemzést, és akadályozzák az innovációt.

Például az egészségügyben az adatok összesítése magában foglalja az elektronikus egészségügyi nyilvántartásokat (EHR), a hordható eszközöket, a védett szoftvereket és a harmadik féltől származó eszközöket. Minden forrás eltérő adatformátumokat és információs rendszereket használhat, ami az adatformátumok, -struktúrák vagy -egységek közötti eltérésekhez vezethet az integráció során. A szintetikus adatok használatával meg lehet oldani ezt a kihívást, biztosítva a kompatibilitást és lehetővé téve azt adatokat generálni a kívánt formátumban.

Az anonimizálás nem elegendő

Az anonimizálási technikák nem elegendőek az adatvédelmi kockázatok és az adatminőségi problémák leküzdéséhez. Ráadásul, Az azonosítók maszkolása vagy eltávolítása eltávolíthatja a mélyreható elemzéshez szükséges részleteket nagy adathalmazokban.

Emellett az anonimizált adatok újra azonosíthatók és visszavezethetők egyénekre. A rosszindulatú szereplők fejlett analitika segítségével olyan időalapú mintákat tárhatnak fel, amelyek veszélyeztetik a látszólag azonosítatlan adatok anonimitását. A szintetikus adatok ebben a tekintetben jobbak, mint az anonimizált adatok.

Eltérően anonimizálás, szintetikus adatok nem módosítja a meglévő adatkészleteket, hanem új adatokat generál, amelyek hasonlítanak a jellemzőire és szerkezetére nyers adatok, megőrizve hasznosságát. Ez egy teljesen új adatkészlet, amely nem tartalmaz személyazonosításra alkalmas információkat.

De ennél árnyaltabb. Több fajtája létezik szintetikus adatgenerálási módszerek.

A szintetikus adatgenerálás típusai

Szintetikus adatkészítés a folyamatok a szükséges adatok típusától függően változnak. A szintetikus adattípusok közé tartoznak a teljesen mesterséges intelligencia által generált, szabályalapú és áladatok – mindegyik más igényt kielégít.

Teljesen mesterséges intelligencia által generált szintetikus adatok

Ez a fajta szintetikus adatok a semmiből épül fel ML algoritmusok segítségével. A gépi tanulási modell vonatok indulnak tényleges adatok hogy megismerje az adatok szerkezetét, mintáit és kapcsolatait. A generatív mesterséges intelligencia ezt a tudást használja fel új adatok létrehozására, amelyek nagyon hasonlítanak az eredeti statisztikai tulajdonságaira (ismét, miközben azonosíthatatlanná teszik).

Ez a fajta teljesen szintetikus adatok hasznos az AI modellképzéshez, és elég jó ahhoz, hogy valós adatokként használhassuk. Ez különösen akkor hasznos, ha a szerződéses adatvédelmi megállapodások miatt nem tudja megosztani adatkészleteit. A szintetikus adatok generálásához azonban jelentős mennyiségű eredeti adatra van szükség kiindulási pontként gépi tanulási modell képzés.

Szintetikus hamis adatok

Ezt szintetikus adatok A típus olyan mesterségesen létrehozott adatokra utal, amelyek utánozzák a valós adatok szerkezetét és formátumát, de nem feltétlenül tükrözik a tényleges információkat. Segít a fejlesztőknek abban, hogy alkalmazásaik képesek legyenek kezelni a különféle bemeneteket és forgatókönyveket anélkül, hogy valódi, privát vagy érzékeny adatok és ami a legfontosabb, anélkül, hogy valós adatokra támaszkodnánk. Ez a gyakorlat elengedhetetlen a funkcionalitás teszteléséhez és a szoftveralkalmazások ellenőrzött és biztonságos módon történő finomításához.

Mikor érdemes használni: Közvetlen azonosítók (PII) cseréje, vagy ha jelenleg hiányoznak az adatok, és nem szeretne időt és energiát fektetni a szabályok meghatározásába. A fejlesztők általában hamis adatokat használnak az alkalmazások funkcionalitásának és megjelenésének értékelésére a fejlesztés korai szakaszában, lehetővé téve számukra a lehetséges problémák vagy tervezési hibák azonosítását. 

Bár a hamis adatokból hiányzik a valós információk hitelessége, továbbra is értékes eszközt jelentenek a rendszerek megfelelő működésének és vizuális megjelenítésének biztosítására a tényleges adatintegráció előtt. 

Megjegyzés: A szintetikus gúnyolt adatokra gyakran úgy hivatkoznak:hamis adatok,', bár nem javasoljuk, hogy ezeket a kifejezéseket egymással felcserélve használjuk, mivel jelentésükben eltérőek lehetnek. 

Szintetikus áladatok

Szabályalapú szintetikus adatok

Szabályalapú szintetikus adatok hasznos eszköz testreszabott adatkészletek generálására előre meghatározott szabályok, megszorítások és logika alapján. Ez a módszer rugalmasságot biztosít azáltal, hogy lehetővé teszi a felhasználók számára, hogy az adatkimenetet az üzleti igényeknek megfelelően konfigurálják, és módosítsák a paramétereket, például a minimális, maximum és átlagos értékeket. A teljesen mesterséges intelligencia által generált adatokkal ellentétben, amelyek nem testreszabhatók, a szabályalapú szintetikus adatok testreszabott megoldást kínálnak az eltérő működési követelmények teljesítésére. Ez szintetikus adatgenerálási folyamat különösen hasznosnak bizonyul a tesztelésben, fejlesztésben és elemzésben, ahol elengedhetetlen a pontos és ellenőrzött adatgenerálás.

Minden szintetikus adatgenerálási módszernek különböző alkalmazásai vannak. A Syntho platformja azáltal tűnik ki, hogy szintetikus adatikreket hoz létre kis erőfeszítéssel vagy erőfeszítés nélkül. Statisztikailag pontos lesz, kiváló minőségű szintetikus adatok az Ön igényeihez, amely mentes a megfelelési költségektől.

Szintetikus táblázatos adatok

A kifejezés táblázatos szintetikus adatok utal rá mesterséges adatok létrehozása részhalmazok, amelyek utánozzák a valós világ szerkezetét és statisztikai tulajdonságait táblázatos adatok, például táblázatokban vagy táblázatokban tárolt adatok. Ez szintetikus adatok segítségével jön létre szintetikus adatgeneráló algoritmusok és technikák, amelyek célja a jellemzők megismétlése forrásadatok miközben biztosítja, hogy bizalmas ill érzékeny adatok nem hozzák nyilvánosságra.

A generálás technikái táblázatos szintetikus adatok jellemzően statisztikai modellezést foglal magában, gépi tanulási modellek, vagy olyan generatív modellek, mint például a generatív ellenséges hálózatok (GAN) és a variational autoencoderek (VAE). Ezek szintetikus adatgeneráló eszközök elemezze a mintázatokat, eloszlásokat és összefüggéseket valódi adatkészlet majd generáljon újat adat pontok hogy nagyon hasonlítanak a valós adatokra de nem tartalmaznak valódi információkat.

Tipikus táblázatos szintetikus adathasználati esetek ide tartozik az adatvédelmi aggályok kezelése, az adatok elérhetőségének növelése, valamint az adatvezérelt alkalmazások kutatásának és innovációjának elősegítése. Azonban elengedhetetlen annak biztosítása, hogy a szintetikus adatok pontosan rögzíti az eredeti adatok mögöttes mintáit és eloszlását a karbantartandó adatsegédprogram és érvényessége a downstream feladatokra.

szabály alapú szintetikus adatgrafikon

A legnépszerűbb szintetikus adatátviteli alkalmazások

A mesterségesen előállított adatok innovációs lehetőségeket nyitnak meg az egészségügy, a kiskereskedelem, a gyártás, a pénzügy és más iparágak számára. Az elsődleges használati esetek magában foglalja az adatmintavételezést, az elemzést, a tesztelést és a megosztást.

Felmintavételezés az adatkészletek javítása érdekében

A felmintavételezés azt jelenti, hogy nagyobb adatkészleteket állítanak elő kisebbekből a skálázás és a diverzifikáció érdekében. Ezt a módszert akkor alkalmazzák, ha a valós adatok szűkösek, kiegyensúlyozatlanok vagy hiányosak.

Vegyünk néhány példát. A pénzintézetek esetében a fejlesztők javíthatják a csalásészlelési modellek pontosságát a ritka megfigyelések és tevékenységi minták mintavételezésével a pénzügyi adat. Hasonlóképpen, egy marketingügynökség mintavételezéssel bővítheti az alulreprezentált csoportokkal kapcsolatos adatokat, javítva a szegmentálás pontosságát.

Fejlett analitika mesterséges intelligencia által generált adatokkal

A vállalatok a mesterséges intelligencia által generált kiváló minőségű szintetikus adatokat adatmodellezéshez, üzleti elemzésekhez és klinikai kutatásokhoz használhatják fel. Adatok szintetizálása életképes alternatívának bizonyul, ha a valós adatkészletek beszerzése túl drága vagy időigényes.

Szintetikus adatok felhatalmazza a kutatókat arra, hogy mélyreható elemzéseket végezzenek a betegek bizalmas kezelésének veszélyeztetése nélkül. Adattudósok a kutatók hozzáférhetnek a betegek adataihoz, a klinikai állapotokkal kapcsolatos információkhoz és a kezelés részleteihez, így olyan betekintést nyerhetnek, amely valós adatokkal lényegesen időigényesebb lenne. Ezen túlmenően a gyártók szabadon megoszthatnak adatokat a beszállítókkal, manipulált GPS- és helyadatokat is beépítve teljesítménytesztelési algoritmusok létrehozásához vagy a prediktív karbantartás javításához.

Azonban, szintetikus adatértékelés kritikus. A Syntho Engine teljesítményét egy belső minőségbiztosítási csapat ellenőrzi és külső szakértők a SAS Intézettől. A prediktív modellezés tanulmányozása során négyet képeztünk ki gépi tanulási modellek valós, anonimizált és szintetikus adatokon. Az eredmények azt mutatták, hogy a szintetikus adatkészleteinken betanított modellek ugyanolyan pontosságúak voltak, mint a valódi adatkészleteken betanított modellek, míg az anonimizált adatok csökkentették a modellek használhatóságát.

Külső és belső adatmegosztás

A szintetikus adatok leegyszerűsítik az adatmegosztást a szervezeteken belül és azok között. tudsz szintetikus adatokat használjon nak nek információcsere anélkül, hogy kockáztatná a magánélet megsértését vagy a szabályozási be nem tartást. A szintetikus adatok előnyei közé tartozik a felgyorsult kutatási eredmények és a hatékonyabb együttműködés.

A kiskereskedelmi vállalatok belátásaikat megoszthatják beszállítókkal vagy forgalmazókkal olyan szintetikus adatok segítségével, amelyek tükrözik az ügyfelek viselkedését, készletszintjét vagy más kulcsfontosságú mérőszámokat. Ahhoz azonban, hogy a legmagasabb szintű Adatvédelem, a bizalmas ügyféladatokat és a vállalati titkokat bizalmasan kezeljük.

A Syntho megnyerte a 2023-as Global SAS Hackathont generálási és megosztási képességünkért apontos szintetikus adatok hatékonyan és kockázatmentesen. A prediktív modellek hatékonyságának bizonyítása érdekében több, különböző betegpopulációval rendelkező kórház betegadatait szintetizáltuk. A kombinált szintetikus adatkészletek használata ugyanolyan pontosnak bizonyult, mint a valós adatok használata.

Szintetikus vizsgálati adatok

A szintetikus tesztadatok mesterségesen előállított adatok, amelyeket szimulációra terveztek adattesztelés szoftverfejlesztési környezetek. Amellett, hogy csökkentik az adatvédelmi kockázatokat, a szintetikus tesztadatok lehetővé teszik a fejlesztők számára, hogy szigorúan felmérjék az alkalmazások teljesítményét, biztonságát és funkcionalitását számos lehetséges forgatókönyv esetén anélkül, hogy a valós rendszert befolyásolnák.

Együttműködésünk az egyik legnagyobb holland bankkal vitrinek szintetikus adatok előnyei szoftver teszteléshez. Tesztadatok generálása A Syntho Engine termeléshez hasonló adatkészleteket eredményezett, amelyek segítettek a banknak felgyorsítani a szoftverfejlesztést és a hibaészlelést, ami gyorsabb és biztonságosabb szoftverkiadásokhoz vezetett.

A generálás technikái táblázatos szintetikus adatok jellemzően statisztikai modellezést foglal magában, gépi tanulási modellek, vagy olyan generatív modellek, mint például a generatív ellenséges hálózatok (GAN) és a variational autoencoderek (VAE). Ezek szintetikus adatgeneráló eszközök elemezze a mintázatokat, eloszlásokat és összefüggéseket valódi adatkészlet majd generáljon újat adat pontok hogy nagyon hasonlítanak a valós adatokra de nem tartalmaznak valódi információkat.

Tipikus táblázatos szintetikus adathasználati esetek ide tartozik az adatvédelmi aggályok kezelése, az adatok elérhetőségének növelése, valamint az adatvezérelt alkalmazások kutatásának és innovációjának elősegítése. Azonban elengedhetetlen annak biztosítása, hogy a szintetikus adatok pontosan rögzíti az eredeti adatok mögöttes mintáit és eloszlását a karbantartandó adatsegédprogram és érvényessége a downstream feladatokra.

A Syntho szintetikus adatgeneráló platformja

A Syntho intelligens szintetikus adatgeneráló platformot biztosít, amely képessé teszi a szervezeteket arra, hogy az adatokat intelligensen versenyelőnyké alakítsák. Azáltal, hogy az összes szintetikus adatgenerálási módszert egyetlen platformon biztosítja, a Syntho átfogó megoldást kínál az adatok felhasználására törekvő szervezetek számára, amely lefedi:

Platformjaink bármely felhőbe vagy helyszíni környezetbe integrálhatók. Sőt, mi gondoskodunk a tervezésről és a telepítésről is. Csapatunk megtanítja alkalmazottait a használathoz Syntho motor hatékonyan, és folyamatos támogatást nyújtunk a telepítés után.

A Syntho's képességeiről bővebben olvashat szintetikus adatok generációs platform a Weboldalunk Megoldások rovata.

Mi a jövő a szintetikus adatok számára?

Szintetikus adatgenerálás generatív mesterséges intelligencia segítségével segít nagy mennyiségben létrehozni és megosztani vonatkozó adatok, megkerülve a formátumkompatibilitási problémákat, a szabályozási korlátokat és az adatszivárgás kockázatát.

Az anonimizálással ellentétben szintetikus adatok generálása lehetővé teszi a strukturális kapcsolatok megőrzését az adatokban. Ez teszi a szintetikus adatokat alkalmassá fejlett elemzésre, kutatásra és fejlesztésre, diverzifikációra és tesztelésre.

A szintetikus adatkészletek használata csak az egyes iparágakban fog terjedni. A cégek készen állnak szintetikus adatok létrehozása, kiterjeszti hatókörét az összetett képekre, hang- és videótartalomra. A cégek bővíteni fogják a használatát gépi tanulási modellek fejlettebb szimulációkhoz és alkalmazások.

További gyakorlati alkalmazásokat szeretne megtudni szintetikus adatok? Bátran ütemezze be a bemutatót honlapunkon.

Syntho -ról

Syntho okosat biztosít szintetikus adatgenerálás platform, tőkeáttétel több szintetikus adatforma és generálási módszerek, amelyek felhatalmazzák a szervezeteket arra, hogy intelligensen átalakítsák az adatokat versenyelőnyké. A mesterséges intelligencia által generált szintetikus adataink az eredeti adatok statisztikai mintáit utánozzák, biztosítva a pontosságot, az adatvédelmet és a sebességet, ahogy azt külső szakértők, például a SAS is értékelték. Az intelligens azonosítás-eltávolító funkcióknak és a következetes leképezésnek köszönhetően az érzékeny információk védve vannak, miközben megőrzik a hivatkozások integritását. Platformunk lehetővé teszi tesztadatok létrehozását, kezelését és ellenőrzését nem termelési környezetekhez, szabályalapú felhasználással szintetikus adatgenerálási módszerek célzott forgatókönyvekhez. Ezenkívül a felhasználók megtehetik szintetikus adatokat generál programozottan és szerezzen be reális vizsgálati adatok átfogó tesztelési és fejlesztési forgatókönyvek egyszerű kidolgozása.

A szerzőről

Fénykép a Syntho vezérigazgatójáról és társalapítójáról, Wim Kees Jannsenről

Wim Kees Janssen

Vezérigazgató és Alapító

A Syntho, az AI által generált szintetikus adatokkal megzavaró adatipar megzavarása. Wim Kees a Syntho-val bebizonyította, hogy képes feloldani az adatvédelmi szempontból érzékeny adatokat, így az adatok intelligensebbé és gyorsabban elérhetővé válnak, így a szervezetek adatvezérelt innovációt valósíthatnak meg. Ennek eredményeként Wim Kees és Syntho elnyerte a tekintélyes Philips Innovation Awardot, megnyerte a SAS globális hackathonját az egészségügyben és az élettudományban, és az NVIDIA vezető generatív mesterségesintelligencia-növelő programnak választotta.

Közzététel:
Február 19, 2024