અનામી ડેટા વિ સિન્થેટિક ડેટા

જો તમે ડેટા એનાલિટિક્સનું ડેટા પરીક્ષણ કરતા પહેલા તમારા ડેટાને અનામી કરો છો, તો ત્યાં ઘણા પરિબળો છે:

  1. લગભગ તમામ કિસ્સાઓમાં, ચોક્કસ અને અનન્ય પંક્તિઓ (દા.ત. તબીબી રેકોર્ડ્સ)ને કારણે અનામી ડેટા હજુ પણ વ્યક્તિઓને શોધી શકાય છે.
  2. તમે જેટલા વધુ અનામી અથવા સામાન્યીકરણ કરશો, તેટલો વધુ ડેટા તમે નાશ કરશો. આ તમારા ડેટાની ગુણવત્તા અને આમ તમારી આંતરદૃષ્ટિને ઘટાડે છે
  3. અનામીકરણ વિવિધ ડેટા ફોર્મેટ માટે અલગ રીતે કાર્ય કરે છે. આનો અર્થ એ છે કે તે માપી શકાય તેવું નથી અને તે ખૂબ સમય માંગી શકે છે

સિન્થેટિક ડેટા આ બધી ખામીઓ અને વધુને ઉકેલે છે. અસલ ડેટા, અનામી ડેટા અને સિન્થો દ્વારા જનરેટ કરેલ સિન્થેટિક ડેટા વચ્ચેની ગુણવત્તામાં તફાવત અંગેના તેમના મૂલ્યાંકન વિશે SAS (વિશ્લેષણમાં વૈશ્વિક બજારના અગ્રણી) વિશ્લેષણ નિષ્ણાતને જોવા માટે નીચેનો વિડિયો જુઓ.

આ વિડિયો AI જનરેટેડ સિન્થેટિક ડેટા વિશે સિન્થો x SAS D[N]A Café પરથી લેવામાં આવ્યો છે. સંપૂર્ણ વિડિઓ અહીં શોધો.

એડવિન વાન યુનેને સિન્થોને મૂળ ડેટાસેટ મોકલ્યો અને અમે ડેટાસેટનું સંશ્લેષણ કર્યું. પરંતુ પ્રશ્ન એ પણ હતો: "જો આપણે સિન્થેટિક ડેટાની અનામી ડેટા સાથે સરખામણી કરીએ તો શું થશે?" કારણ કે તમે અનામી ડેટામાં ઘણી બધી માહિતી ગુમાવો છો, શું ડેટાસેટનું સંશ્લેષણ કરતી વખતે પણ આવું થશે? અમે 56.000 પંક્તિઓ અને કંપની મંથન-માહિતીના 128 કૉલમ સાથે ટેલિકોમ્યુનિકેશન ઉદ્યોગના ડેટાસેટ સાથે શરૂઆત કરી. આ ડેટાસેટ સંશ્લેષિત અને અનામી બંને હતા જેથી એડવિન સિન્થેટાઇઝેશનને અનામીકરણ સાથે સરખાવી શકે. પછી, એડવિને SAS Viya નો ઉપયોગ કરીને મોડેલિંગ કરવાનું શરૂ કર્યું. તેણે મૂળ ડેટાસેટ પર ક્લાસિકલ રીગ્રેસન તકનીકો અને નિર્ણયના વૃક્ષોનો ઉપયોગ કરીને મંથન મોડલના એક દંપતિ બનાવ્યા, પરંતુ ન્યુરલ નેટવર્ક્સ, ગ્રેડિયન્ટ બૂસ્ટિંગ, રેન્ડમ ફોરેસ્ટ - આ પ્રકારની તકનીકો જેવી વધુ અત્યાધુનિક તકનીકો પણ બનાવી. મોડેલો બનાવતી વખતે પ્રમાણભૂત SAS Viya વિકલ્પોનો ઉપયોગ કરવો.

પછી, પરિણામો જોવાનો સમય હતો. પરિણામો સિન્થેટીક ડેટા માટે ખૂબ જ આશાસ્પદ હતા અને અનામીકરણ માટે નહીં. પ્રેક્ષકોમાં બિન-મશીન-લર્નિંગ નિષ્ણાતો માટે, અમે ROC-કર્વ હેઠળના વિસ્તારને જોઈએ છીએ જે મોડેલની ચોકસાઈ વિશે કંઈક કહે છે. અનામી ડેટા સાથે અસલ ડેટાની સરખામણી કરતા, અમે જોઈએ છીએ કે મૂળ ડેટા મોડલ .8 ના ROC-વક્ર હેઠળનો વિસ્તાર ધરાવે છે, જે ખૂબ સારું છે, જો કે, અનામી ડેટા .6 ના ROC-વક્ર હેઠળનો વિસ્તાર ધરાવે છે. આનો અર્થ એ છે કે અમે અનામી મોડેલ સાથે ઘણી બધી માહિતી ગુમાવીએ છીએ જેથી તમે ઘણી આગાહી શક્તિ ગુમાવી દો.

પરંતુ પછી, પ્રશ્ન એ છે કે સિન્થેટીક્સ ડેટા વિશે શું? અહીં, અમે બરાબર એ જ કર્યું પરંતુ ડેટાને અનામી રાખવાને બદલે, સિન્થોએ ડેટાનું સંશ્લેષણ કર્યું. હવે, આપણે જોઈએ છીએ કે મૂળ ડેટા અને સિન્થેટીક ડેટા બંનેમાં .8 ના ROC-વક્ર હેઠળનો વિસ્તાર છે, જે ખૂબ સમાન છે. પરિવર્તનશીલતાને કારણે બરાબર એકસરખું નથી, પરંતુ ખૂબ સમાન છે. આનો અર્થ એ છે કે, કૃત્રિમ ડેટાની સંભાવના ખૂબ જ આશાસ્પદ છે - એડવિન આ વિશે ખૂબ જ ખુશ છે.

હસતા લોકોનું જૂથ

ડેટા કૃત્રિમ છે, પરંતુ અમારી ટીમ વાસ્તવિક છે!

સિન્થોનો સંપર્ક કરો અને અમારા એક નિષ્ણાત કૃત્રિમ ડેટાના મૂલ્યનું અન્વેષણ કરવા માટે પ્રકાશની ઝડપે તમારી સાથે સંપર્ક કરશે!