Data Sintetika ġġenerata mill-AI, aċċess faċli u veloċi għal data ta' kwalità għolja?

L-AI ġġenerat data sintetika fil-prattika

Syntho, espert fid-dejta sintetika ġġenerata mill-AI, għandu l-għan li jdur privacy by design f’vantaġġ kompetittiv b’dejta sintetika ġġenerata mill-AI. Jgħinu lill-organizzazzjonijiet biex jibnu pedament ta' dejta b'saħħtu b'aċċess faċli u veloċi għal dejta ta' kwalità għolja u reċentement rebħu l-Philips Innovation Award.

Madankollu, il-ġenerazzjoni ta 'dejta sintetika bl-AI hija soluzzjoni relattivament ġdida li tipikament tintroduċi mistoqsijiet ta' spiss. Biex twieġeb dawn, Syntho beda studju ta’ każ flimkien ma’ SAS, mexxej tas-suq fl-Analitika Avvanzata u s-softwer tal-AI.

B'kollaborazzjoni mal-Koalizzjoni Olandiża tal-AI (NL AIC), investigaw il-valur tad-dejta sintetika billi qabblu d-dejta sintetika ġġenerata mill-AI ġġenerata mis-Syntho Engine ma 'dejta oriġinali permezz ta' valutazzjonijiet varji dwar il-kwalità tad-dejta, il-validità legali u l-użabilità.

L-anonimizzazzjoni tad-dejta mhix soluzzjoni?

It-tekniki klassiċi tal-anonimizzazzjoni għandhom komuni li jimmanipulaw id-dejta oriġinali sabiex ifixklu l-intraċċar lura tal-individwi. Eżempji huma ġeneralizzazzjoni, soppressjoni, timsaħ, psewdonimizzazzjoni, masking tad-dejta, u tqaxxir ta’ ringieli u kolonni. Tista' ssib eżempji fit-tabella hawn taħt.

anonimizzazzjoni tad-data

Dawk it-tekniki jintroduċu 3 sfidi ewlenin:

  1. Jaħdmu b'mod differenti għal kull tip ta' dejta u għal kull sett ta' dejta, u jagħmluhom diffiċli biex jiġu skalati. Barra minn hekk, peress li jaħdmu b'mod differenti, dejjem se jkun hemm dibattitu dwar liema metodi għandhom japplikaw u liema kombinazzjoni ta 'tekniki huma meħtieġa.
  2. Dejjem hemm relazzjoni waħda għal waħda mad-dejta oriġinali. Dan ifisser li dejjem se jkun hemm riskju għall-privatezza, speċjalment minħabba s-settijiet tad-dejta miftuħa kollha u t-tekniki disponibbli biex jgħaqqdu dawk is-settijiet tad-dejta.
  3. Huma jimmanipulaw id-dejta u b'hekk jeqirdu d-dejta fil-proċess. Dan huwa speċjalment devastanti għall-kompiti AI fejn "qawwa ta 'tbassir" hija essenzjali, minħabba li data ta' kwalità ħażina tirriżulta f'għarfien ħażin mill-mudell AI (Iż-żibel se jirriżulta f'ħruġ ta 'żibel).

Dawn il-punti huma vvalutati wkoll permezz ta' dan l-istudju ta' każ.

Introduzzjoni għall-istudju tal-każ

Għall-istudju tal-każ, is-sett ta' dejta fil-mira kien sett ta' dejta tat-telekomunikazzjoni pprovdut minn SAS li fih id-dejta ta' 56.600 klijent. Is-sett tad-dejta fih 128 kolonna, inkluża kolonna waħda li tindika jekk klijent telaqx mill-kumpanija (jiġifieri 'churnered') jew le. L-għan tal-istudju tal-każ kien li juża d-dejta sintetika biex iħarreġ xi mudelli biex ibassar it-tfixkil tal-klijenti u biex jevalwa l-prestazzjoni ta 'dawk il-mudelli mħarrġa. Billi t-tbassir tat-tbassir huwa kompitu ta’ klassifikazzjoni, SAS għażlet erba’ mudelli ta’ klassifikazzjoni popolari biex tagħmel it-tbassir, inklużi:

  1. Foresta każwali
  2. Spinta tal-gradjent
  3. Rigressjoni loġistika
  4. Netwerk newrali

Qabel ma tiġġenera d-dejta sintetika, SAS qasmet b'mod każwali s-sett tad-dejta tat-telekomunikazzjoni f'sett tal-ferrovija (għall-taħriġ tal-mudelli) u sett ta 'holdout (għall-punteġġ tal-mudelli). Li jkun hemm sett ta' holdout separat għall-punteġġ jippermetti valutazzjoni imparzjali ta' kemm jista' jwettaq il-mudell ta' klassifikazzjoni meta jiġi applikat għal data ġdida.

Bl-użu tas-sett tal-ferrovija bħala input, Syntho uża l-Magna Syntho tiegħu biex jiġġenera dataset sintetiku. Għall-benchmarking, SAS ħolqot ukoll verżjoni manipulata tas-sett tal-ferrovija wara li applikat diversi tekniki ta 'anonimizzazzjoni biex jilħaq ċertu limitu (ta' k-anonimità). Il-passi ta' qabel irriżultaw f'erba' settijiet ta' dejta:

  1. Sett tad-dejta tal-ferrovija (jiġifieri s-sett tad-dejta oriġinali nieqes is-sett tad-dejta tal-holdout)
  2. Sett ta' dejta holdout (jiġifieri subsett tas-sett ta' dejta oriġinali)
  3. Sett tad-dejta anonimizzat (ibbażat fuq is-sett tad-dejta tal-ferrovija)
  4. Sett ta' dejta sintetiku (ibbażat fuq is-sett tad-dejta tal-ferrovija)

Is-settijiet tad-dejta 1, 3 u 4 intużaw biex iħarrġu kull mudell ta 'klassifikazzjoni, li rriżultaw fi 12 (3 x 4) mudell imħarreġ. SAS sussegwentement użat is-sett tad-dejta tal-holdout biex ikejjel l-eżattezza li biha kull mudell ibassar it-tfixkil tal-klijenti. Ir-riżultati huma ppreżentati hawn taħt, u jibdew b'xi statistika bażika.

Pipeline ta' Tagħlim Magni ġġenerat f'SAS

Figura: Pipeline tat-Tagħlim Magni ġġenerat f'SAS Visual Data Mining u Tagħlim bil-Magni

Statistika bażika meta tqabbel id-dejta anonimizzata mad-dejta oriġinali

Tekniki ta 'anonimizzazzjoni jeqirdu anki mudelli bażiċi, loġika tan-negozju, relazzjonijiet u statistika (bħal fl-eżempju hawn taħt). L-użu ta' data anonimizzata għal analitika bażika għalhekk jipproduċi riżultati mhux affidabbli. Fil-fatt, il-kwalità fqira tad-dejta anonimizzata għamlitha kważi impossibbli li tintuża għal kompiti analitiċi avvanzati (eż. immudellar u dashboarding AI/ML).

it-tqabbil ta' data anonimizzata ma' data oriġinali

Statistika bażika meta titqabbel data sintetika ma data oriġinali

Il-ġenerazzjoni ta 'dejta sintetika bl-AI tippreserva l-mudelli bażiċi, il-loġika tan-negozju, ir-relazzjonijiet u l-istatistika (bħal fl-eżempju hawn taħt). L-użu ta' data sintetika għall-analiżi bażika għalhekk jipproduċi riżultati affidabbli. Mistoqsija ewlenija, id-dejta sintetika żżomm għal kompiti analitiċi avvanzati (eż. immudellar AI/ML u dashboarding)?

tqabbel id-dejta sintetika mad-dejta oriġinali

Dejta sintetika ġġenerata mill-AI u analitika avvanzata

Id-dejta sintetika tgħodd mhux biss għall-mudelli bażiċi (kif muri fil-plots preċedenti), hija wkoll taqbad mudelli statistiċi profondi "moħbija" meħtieġa għal kompiti analitiċi avvanzati. Dan tal-aħħar jintwera fil-bar chart hawn taħt, li jindika li l-eżattezza tal-mudelli mħarrġa fuq data sintetika versus mudelli mħarrġa fuq data oriġinali huma simili. Barra minn hekk, b'erja taħt il-kurva (AUC*) qrib 0.5, il-mudelli mħarrġa fuq dejta anonimizzata jaħdmu bil-bosta l-agħar. Ir-rapport sħiħ bil-valutazzjonijiet analitiċi avvanzati kollha dwar id-dejta sintetika meta mqabbel mad-dejta oriġinali huwa disponibbli fuq talba.

*AUC: iż-żona taħt il-kurva hija miżura għall-eżattezza ta 'mudelli analitiċi avvanzati, filwaqt li jitqiesu pożittivi veri, pożittivi foloz, negattivi foloz u negattivi veri. 0,5 tfisser li mudell ibassar b'mod każwali u m'għandux setgħa ta' tbassir u 1 ifisser li l-mudell huwa dejjem korrett u għandu setgħa ta' tbassir sħiħa.

Barra minn hekk, din id-dejta sintetika tista’ tintuża biex tifhem il-karatteristiċi tad-dejta u l-varjabbli ewlenin meħtieġa għat-taħriġ attwali tal-mudelli. L-inputs magħżula mill-algoritmi fuq data sintetika meta mqabbla ma 'data oriġinali kienu simili ħafna. Għalhekk, il-proċess ta 'mudellar jista' jsir fuq din il-verżjoni sintetika, li tnaqqas ir-riskju ta 'ksur tad-data. Madankollu, meta jiġu deduttivi rekords individwali (eż. klijent tat-telco) taħriġ mill-ġdid fuq data oriġinali huwa rakkomandat għal spjegazzjoni, aċċettazzjoni akbar jew sempliċement minħabba regolament.                              

AUC mill-Algoritmu raggruppat skond il-Metodu

AUC

Konklużjonijiet:

  • Mudelli mħarrġa fuq dejta sintetika meta mqabbla mal-mudelli mħarrġa fuq dejta oriġinali juru prestazzjoni simili ħafna
  • Mudelli mħarrġa fuq dejta anonimizzata b''tekniki klassiċi ta' anonimizzazzjoni' juru prestazzjoni inferjuri meta mqabbla ma' mudelli mħarrġa fuq id-dejta oriġinali jew dejta sintetika
  • Il-ġenerazzjoni ta 'dejta sintetika hija faċli u veloċi minħabba li t-teknika taħdem eżattament l-istess għal kull sett ta' dejta u għal kull tip ta 'dejta.

Każijiet ta' użu ta' data sintetika li jżidu valur

Każ ta' użu 1: Data sintetika għall-iżvilupp tal-mudell u analitika avvanzata

Li jkollok bażi ta' dejta b'saħħitha b'aċċess faċli u veloċi għal dejta użabbli u ta' kwalità għolja huwa essenzjali biex jiġu żviluppati mudelli (eż. dashboards [BI] u analitika avvanzata [AI & ML]). Madankollu, ħafna organizzazzjonijiet ibatu minn bażi tad-dejta subottimali li tirriżulta fi 3 sfidi ewlenin:

  • L-aċċess għad-dejta jieħu età minħabba regolamenti (privatezza), proċessi interni jew silos tad-dejta
  • Tekniki klassiċi ta' anonimizzazzjoni jeqirdu d-dejta, u b'hekk id-dejta ma tibqax adattata għall-analiżi u l-analiżi avvanzata (żibel in = żibel barra)
  • Is-soluzzjonijiet eżistenti mhumiex skalabbli għaliex jaħdmu b'mod differenti għal kull sett ta' dejta u għal kull tip ta' dejta u ma jistgħux jimmaniġġjaw databases kbar b'ħafna mejda

Approċċ ta' dejta sintetika: tiżviluppa mudelli b'dejta sintetika tajba daqs kemm reali biex:

  • Imminimizza l-użu tad-dejta oriġinali, mingħajr ma tfixkel lill-iżviluppaturi tiegħek
  • Nisfruttaw dejta personali u jkollok aċċess għal aktar dejta li qabel kienet ristretta (eż. Minħabba privatezza)
  • Aċċess tad-dejta faċli u veloċi għal dejta rilevanti
  • Soluzzjoni skalabbli li taħdem l-istess għal kull sett ta 'dejta, tip ta' dejta u għal bażijiet ta 'dejta massivi

Dan jippermetti lill-organizzazzjoni tibni pedament ta' dejta b'saħħtu b'aċċess faċli u veloċi għal dejta użabbli u ta' kwalità għolja biex tiftaħ dejta u biex tisfrutta opportunitajiet ta' dejta.

 

Każ ta 'użu 2: data tat-test sintetiku intelliġenti għall-ittestjar, l-iżvilupp u l-kunsinna tas-softwer

L-ittestjar u l-iżvilupp b'dejta tat-test ta 'kwalità għolja huma essenzjali biex iwasslu soluzzjonijiet ta' softwer tal-aktar avvanzati. L-użu tad-dejta tal-produzzjoni oriġinali jidher ovvju, iżda mhux permess minħabba regolamenti (tal-privatezza). Alternattiva Test Data Management (TDM) jintroduċu “legacy-by-design” biex tikseb id-dejta tat-test it-tajjeb:

  • Ma jirriflettux id-dejta tal-produzzjoni u l-loġika tan-negozju u l-integrità referenzjali mhumiex ippreservati
  • Ix-xogħol bil-mod u jieħu ħafna ħin
  • Xogħol manwali huwa meħtieġ

Approċċ ta' dejta sintetika: Ittestja u tiżviluppa b'dejta ta' test sintetika ġġenerata mill-AI biex twassal soluzzjonijiet ta' softwer tal-aktar avvanzati intelliġenti bi:

  • Dejta li tixbah il-produzzjoni b'loġika tan-negozju u integrità referenzjali ppreservata
  • Ġenerazzjoni ta 'dejta faċli u veloċi bl-AI l-aktar avvanzata
  • Privatezza skond id-disinn
  • Faċli, veloċi u agile

Dan jippermetti lill-organizzazzjoni tittestja u tiżviluppa b'dejta tat-test tal-livell li jmiss biex tagħti soluzzjonijiet ta' softwer tal-aktar avvanzata!

Aktar informazzjoni

Interessat? Għal aktar informazzjoni dwar data sintetika, żur il-websajt ta' Syntho jew ikkuntattja lil Wim Kees Janssen. Għal aktar informazzjoni dwar SAS, żur www.sas.com jew ikkuntattja lil kees@syntho.ai.

F'dan il-każ ta' użu, Syntho, SAS u l-NL AIC jaħdmu flimkien biex jiksbu r-riżultati maħsuba. Syntho huwa espert fid-dejta sintetika ġġenerata mill-AI u SAS hija mexxejja tas-suq fl-analitika u toffri softwer għall-esplorazzjoni, l-analiżi u l-viżwalizzazzjoni tad-dejta.

* Tbassar 2021 - Strateġiji tad-Data u Analitiċi biex Tiggverna, Skala u Titrasforma n-Negozju Diġitali, Gartner, 2020.

Qoxra tal-gwida syntho

Issejvja l-gwida tad-dejta sintetika tiegħek issa!