Data Sintetika ġġenerata mill-AI, aċċess faċli u veloċi għal data ta' kwalità għolja?
L-AI ġġenerat data sintetika fil-prattika
Syntho, espert fid-dejta sintetika ġġenerata mill-AI, għandu l-għan li jdur privacy by design f’vantaġġ kompetittiv b’dejta sintetika ġġenerata mill-AI. Jgħinu lill-organizzazzjonijiet biex jibnu pedament ta' dejta b'saħħtu b'aċċess faċli u veloċi għal dejta ta' kwalità għolja u reċentement rebħu l-Philips Innovation Award.
Madankollu, il-ġenerazzjoni ta 'dejta sintetika bl-AI hija soluzzjoni relattivament ġdida li tipikament tintroduċi mistoqsijiet ta' spiss. Biex twieġeb dawn, Syntho beda studju ta’ każ flimkien ma’ SAS, mexxej tas-suq fl-Analitika Avvanzata u s-softwer tal-AI.
B'kollaborazzjoni mal-Koalizzjoni Olandiża tal-AI (NL AIC), investigaw il-valur tad-dejta sintetika billi qabblu d-dejta sintetika ġġenerata mill-AI ġġenerata mis-Syntho Engine ma 'dejta oriġinali permezz ta' valutazzjonijiet varji dwar il-kwalità tad-dejta, il-validità legali u l-użabilità.
L-anonimizzazzjoni tad-dejta mhix soluzzjoni?
It-tekniki klassiċi tal-anonimizzazzjoni għandhom komuni li jimmanipulaw id-dejta oriġinali sabiex ifixklu l-intraċċar lura tal-individwi. Eżempji huma ġeneralizzazzjoni, soppressjoni, timsaħ, psewdonimizzazzjoni, masking tad-dejta, u tqaxxir ta’ ringieli u kolonni. Tista' ssib eżempji fit-tabella hawn taħt.
Dawk it-tekniki jintroduċu 3 sfidi ewlenin:
- Jaħdmu b'mod differenti għal kull tip ta' dejta u għal kull sett ta' dejta, u jagħmluhom diffiċli biex jiġu skalati. Barra minn hekk, peress li jaħdmu b'mod differenti, dejjem se jkun hemm dibattitu dwar liema metodi għandhom japplikaw u liema kombinazzjoni ta 'tekniki huma meħtieġa.
- Dejjem hemm relazzjoni waħda għal waħda mad-dejta oriġinali. Dan ifisser li dejjem se jkun hemm riskju għall-privatezza, speċjalment minħabba s-settijiet tad-dejta miftuħa kollha u t-tekniki disponibbli biex jgħaqqdu dawk is-settijiet tad-dejta.
- Huma jimmanipulaw id-dejta u b'hekk jeqirdu d-dejta fil-proċess. Dan huwa speċjalment devastanti għall-kompiti AI fejn "qawwa ta 'tbassir" hija essenzjali, minħabba li data ta' kwalità ħażina tirriżulta f'għarfien ħażin mill-mudell AI (Iż-żibel se jirriżulta f'ħruġ ta 'żibel).
Dawn il-punti huma vvalutati wkoll permezz ta' dan l-istudju ta' każ.
Introduzzjoni għall-istudju tal-każ
Għall-istudju tal-każ, is-sett ta' dejta fil-mira kien sett ta' dejta tat-telekomunikazzjoni pprovdut minn SAS li fih id-dejta ta' 56.600 klijent. Is-sett tad-dejta fih 128 kolonna, inkluża kolonna waħda li tindika jekk klijent telaqx mill-kumpanija (jiġifieri 'churnered') jew le. L-għan tal-istudju tal-każ kien li juża d-dejta sintetika biex iħarreġ xi mudelli biex ibassar it-tfixkil tal-klijenti u biex jevalwa l-prestazzjoni ta 'dawk il-mudelli mħarrġa. Billi t-tbassir tat-tbassir huwa kompitu ta’ klassifikazzjoni, SAS għażlet erba’ mudelli ta’ klassifikazzjoni popolari biex tagħmel it-tbassir, inklużi:
- Foresta każwali
- Spinta tal-gradjent
- Rigressjoni loġistika
- Netwerk newrali
Qabel ma tiġġenera d-dejta sintetika, SAS qasmet b'mod każwali s-sett tad-dejta tat-telekomunikazzjoni f'sett tal-ferrovija (għall-taħriġ tal-mudelli) u sett ta 'holdout (għall-punteġġ tal-mudelli). Li jkun hemm sett ta' holdout separat għall-punteġġ jippermetti valutazzjoni imparzjali ta' kemm jista' jwettaq il-mudell ta' klassifikazzjoni meta jiġi applikat għal data ġdida.
Bl-użu tas-sett tal-ferrovija bħala input, Syntho uża l-Magna Syntho tiegħu biex jiġġenera dataset sintetiku. Għall-benchmarking, SAS ħolqot ukoll verżjoni manipulata tas-sett tal-ferrovija wara li applikat diversi tekniki ta 'anonimizzazzjoni biex jilħaq ċertu limitu (ta' k-anonimità). Il-passi ta' qabel irriżultaw f'erba' settijiet ta' dejta:
- Sett tad-dejta tal-ferrovija (jiġifieri s-sett tad-dejta oriġinali nieqes is-sett tad-dejta tal-holdout)
- Sett ta' dejta holdout (jiġifieri subsett tas-sett ta' dejta oriġinali)
- Sett tad-dejta anonimizzat (ibbażat fuq is-sett tad-dejta tal-ferrovija)
- Sett ta' dejta sintetiku (ibbażat fuq is-sett tad-dejta tal-ferrovija)
Is-settijiet tad-dejta 1, 3 u 4 intużaw biex iħarrġu kull mudell ta 'klassifikazzjoni, li rriżultaw fi 12 (3 x 4) mudell imħarreġ. SAS sussegwentement użat is-sett tad-dejta tal-holdout biex ikejjel l-eżattezza li biha kull mudell ibassar it-tfixkil tal-klijenti. Ir-riżultati huma ppreżentati hawn taħt, u jibdew b'xi statistika bażika.
Figura: Pipeline tat-Tagħlim Magni ġġenerat f'SAS Visual Data Mining u Tagħlim bil-Magni
Statistika bażika meta tqabbel id-dejta anonimizzata mad-dejta oriġinali
Tekniki ta 'anonimizzazzjoni jeqirdu anki mudelli bażiċi, loġika tan-negozju, relazzjonijiet u statistika (bħal fl-eżempju hawn taħt). L-użu ta' data anonimizzata għal analitika bażika għalhekk jipproduċi riżultati mhux affidabbli. Fil-fatt, il-kwalità fqira tad-dejta anonimizzata għamlitha kważi impossibbli li tintuża għal kompiti analitiċi avvanzati (eż. immudellar u dashboarding AI/ML).
Statistika bażika meta titqabbel data sintetika ma data oriġinali
Il-ġenerazzjoni ta 'dejta sintetika bl-AI tippreserva l-mudelli bażiċi, il-loġika tan-negozju, ir-relazzjonijiet u l-istatistika (bħal fl-eżempju hawn taħt). L-użu ta' data sintetika għall-analiżi bażika għalhekk jipproduċi riżultati affidabbli. Mistoqsija ewlenija, id-dejta sintetika żżomm għal kompiti analitiċi avvanzati (eż. immudellar AI/ML u dashboarding)?
Dejta sintetika ġġenerata mill-AI u analitika avvanzata
Id-dejta sintetika tgħodd mhux biss għall-mudelli bażiċi (kif muri fil-plots preċedenti), hija wkoll taqbad mudelli statistiċi profondi "moħbija" meħtieġa għal kompiti analitiċi avvanzati. Dan tal-aħħar jintwera fil-bar chart hawn taħt, li jindika li l-eżattezza tal-mudelli mħarrġa fuq data sintetika versus mudelli mħarrġa fuq data oriġinali huma simili. Barra minn hekk, b'erja taħt il-kurva (AUC*) qrib 0.5, il-mudelli mħarrġa fuq dejta anonimizzata jaħdmu bil-bosta l-agħar. Ir-rapport sħiħ bil-valutazzjonijiet analitiċi avvanzati kollha dwar id-dejta sintetika meta mqabbel mad-dejta oriġinali huwa disponibbli fuq talba.
*AUC: iż-żona taħt il-kurva hija miżura għall-eżattezza ta 'mudelli analitiċi avvanzati, filwaqt li jitqiesu pożittivi veri, pożittivi foloz, negattivi foloz u negattivi veri. 0,5 tfisser li mudell ibassar b'mod każwali u m'għandux setgħa ta' tbassir u 1 ifisser li l-mudell huwa dejjem korrett u għandu setgħa ta' tbassir sħiħa.
Barra minn hekk, din id-dejta sintetika tista’ tintuża biex tifhem il-karatteristiċi tad-dejta u l-varjabbli ewlenin meħtieġa għat-taħriġ attwali tal-mudelli. L-inputs magħżula mill-algoritmi fuq data sintetika meta mqabbla ma 'data oriġinali kienu simili ħafna. Għalhekk, il-proċess ta 'mudellar jista' jsir fuq din il-verżjoni sintetika, li tnaqqas ir-riskju ta 'ksur tad-data. Madankollu, meta jiġu deduttivi rekords individwali (eż. klijent tat-telco) taħriġ mill-ġdid fuq data oriġinali huwa rakkomandat għal spjegazzjoni, aċċettazzjoni akbar jew sempliċement minħabba regolament.
AUC mill-Algoritmu raggruppat skond il-Metodu
Konklużjonijiet:
- Mudelli mħarrġa fuq dejta sintetika meta mqabbla mal-mudelli mħarrġa fuq dejta oriġinali juru prestazzjoni simili ħafna
- Mudelli mħarrġa fuq dejta anonimizzata b''tekniki klassiċi ta' anonimizzazzjoni' juru prestazzjoni inferjuri meta mqabbla ma' mudelli mħarrġa fuq id-dejta oriġinali jew dejta sintetika
- Il-ġenerazzjoni ta 'dejta sintetika hija faċli u veloċi minħabba li t-teknika taħdem eżattament l-istess għal kull sett ta' dejta u għal kull tip ta 'dejta.
Każijiet ta' użu ta' data sintetika li jżidu valur
Każ ta' użu 1: Data sintetika għall-iżvilupp tal-mudell u analitika avvanzata
Li jkollok bażi ta' dejta b'saħħitha b'aċċess faċli u veloċi għal dejta użabbli u ta' kwalità għolja huwa essenzjali biex jiġu żviluppati mudelli (eż. dashboards [BI] u analitika avvanzata [AI & ML]). Madankollu, ħafna organizzazzjonijiet ibatu minn bażi tad-dejta subottimali li tirriżulta fi 3 sfidi ewlenin:
- L-aċċess għad-dejta jieħu età minħabba regolamenti (privatezza), proċessi interni jew silos tad-dejta
- Tekniki klassiċi ta' anonimizzazzjoni jeqirdu d-dejta, u b'hekk id-dejta ma tibqax adattata għall-analiżi u l-analiżi avvanzata (żibel in = żibel barra)
- Is-soluzzjonijiet eżistenti mhumiex skalabbli għaliex jaħdmu b'mod differenti għal kull sett ta' dejta u għal kull tip ta' dejta u ma jistgħux jimmaniġġjaw databases kbar b'ħafna mejda
Approċċ ta' dejta sintetika: tiżviluppa mudelli b'dejta sintetika tajba daqs kemm reali biex:
- Imminimizza l-użu tad-dejta oriġinali, mingħajr ma tfixkel lill-iżviluppaturi tiegħek
- Nisfruttaw dejta personali u jkollok aċċess għal aktar dejta li qabel kienet ristretta (eż. Minħabba privatezza)
- Aċċess tad-dejta faċli u veloċi għal dejta rilevanti
- Soluzzjoni skalabbli li taħdem l-istess għal kull sett ta 'dejta, tip ta' dejta u għal bażijiet ta 'dejta massivi
Dan jippermetti lill-organizzazzjoni tibni pedament ta' dejta b'saħħtu b'aċċess faċli u veloċi għal dejta użabbli u ta' kwalità għolja biex tiftaħ dejta u biex tisfrutta opportunitajiet ta' dejta.
Każ ta 'użu 2: data tat-test sintetiku intelliġenti għall-ittestjar, l-iżvilupp u l-kunsinna tas-softwer
L-ittestjar u l-iżvilupp b'dejta tat-test ta 'kwalità għolja huma essenzjali biex iwasslu soluzzjonijiet ta' softwer tal-aktar avvanzati. L-użu tad-dejta tal-produzzjoni oriġinali jidher ovvju, iżda mhux permess minħabba regolamenti (tal-privatezza). Alternattiva Test Data Management (TDM) jintroduċu “legacy-by-design” biex tikseb id-dejta tat-test it-tajjeb:
- Ma jirriflettux id-dejta tal-produzzjoni u l-loġika tan-negozju u l-integrità referenzjali mhumiex ippreservati
- Ix-xogħol bil-mod u jieħu ħafna ħin
- Xogħol manwali huwa meħtieġ
Approċċ ta' dejta sintetika: Ittestja u tiżviluppa b'dejta ta' test sintetika ġġenerata mill-AI biex twassal soluzzjonijiet ta' softwer tal-aktar avvanzati intelliġenti bi:
- Dejta li tixbah il-produzzjoni b'loġika tan-negozju u integrità referenzjali ppreservata
- Ġenerazzjoni ta 'dejta faċli u veloċi bl-AI l-aktar avvanzata
- Privatezza skond id-disinn
- Faċli, veloċi u agile
Dan jippermetti lill-organizzazzjoni tittestja u tiżviluppa b'dejta tat-test tal-livell li jmiss biex tagħti soluzzjonijiet ta' softwer tal-aktar avvanzata!
Aktar informazzjoni
Interessat? Għal aktar informazzjoni dwar data sintetika, żur il-websajt ta' Syntho jew ikkuntattja lil Wim Kees Janssen. Għal aktar informazzjoni dwar SAS, żur www.sas.com jew ikkuntattja lil kees@syntho.ai.
F'dan il-każ ta' użu, Syntho, SAS u l-NL AIC jaħdmu flimkien biex jiksbu r-riżultati maħsuba. Syntho huwa espert fid-dejta sintetika ġġenerata mill-AI u SAS hija mexxejja tas-suq fl-analitika u toffri softwer għall-esplorazzjoni, l-analiżi u l-viżwalizzazzjoni tad-dejta.
* Tbassar 2021 - Strateġiji tad-Data u Analitiċi biex Tiggverna, Skala u Titrasforma n-Negozju Diġitali, Gartner, 2020.
Issejvja l-gwida tad-dejta sintetika tiegħek issa!
- X'inhi dejta sintetika?
- Għaliex l-organizzazzjonijiet jużawha?
- Valur miżjud każijiet sintetiċi klijent data
- Kif tibda