बेनामी डाटा बनाम सिंथेटिक डाटा

यदि तपाइँ डाटा एनालिटिक्सको डेटा परीक्षण प्रदर्शन गर्नु अघि आफ्नो डेटा गुमनाम गर्नुहुन्छ भने, त्यहाँ खेलमा धेरै कारकहरू छन्:

  1. लगभग सबै अवस्थामा, अज्ञात डेटा अझै पनि विशिष्ट र अद्वितीय पङ्क्तिहरू (जस्तै मेडिकल रेकर्डहरू) को कारणले व्यक्तिहरूलाई फिर्ता पत्ता लगाउन सकिन्छ।
  2. तपाईंले जति धेरै अज्ञात वा सामान्यीकरण गर्नुहुन्छ, त्यति नै धेरै डाटा नष्ट गर्नुहुन्छ। यसले तपाईंको डाटाको गुणस्तर कम गर्छ र यसरी तपाईंको अन्तर्दृष्टिहरू
  3. विभिन्न डेटा ढाँचाहरूको लागि बेनामीकरण फरक तरिकाले काम गर्दछ। यसको मतलब यो मापनयोग्य छैन र धेरै समय खपत हुन सक्छ

सिंथेटिक डेटाले यी सबै कमजोरीहरू र थप समाधान गर्दछ। SAS (विश्लेषणमा विश्वव्यापी बजार नेता) का एक विश्लेषक विशेषज्ञ हेर्नको लागि तलको भिडियो हेर्नुहोस् मूल डाटा, अज्ञात डाटा र सिन्थो द्वारा उत्पन्न सिंथेटिक डाटा बीचको गुणस्तरमा भिन्नताको बारेमा उनको मूल्याङ्कनको बारेमा व्याख्या गर्नुहोस्।

यो भिडियो AI उत्पन्न सिन्थेटिक डेटा को बारे मा Syntho x SAS D[N]A Café बाट खिचिएको हो। पूरा भिडियो यहाँ फेला पार्नुहोस्।

एडविन भ्यान उनेनले सिन्थोमा एउटा मौलिक डेटासेट पठाए र हामीले डेटासेटलाई संश्लेषित गर्यौं। तर प्रश्न यो पनि थियो: "यदि हामीले सिंथेटिक डाटालाई बेनामी डाटासँग तुलना गर्ने हो भने के हुन्छ?" तपाईंले गुमनाम डेटामा धेरै जानकारी गुमाउनु भएको हुनाले, के यो डेटासेट संश्लेषण गर्दा पनि हुन्छ? हामीले 56.000 पङ्क्तिहरू र कम्पनी मंथन-सूचनाको 128 स्तम्भहरूको साथ दूरसंचार उद्योगबाट डाटासेटको साथ सुरु गर्यौं। यो डेटासेट संश्लेषित र अज्ञात दुवै थियो त्यसैले एडविनले बेनामीकरणसँग सिंथेटाइजेसन तुलना गर्न सक्छ। त्यसपछि, एडविनले SAS Viya प्रयोग गरेर मोडलिङ गर्न थाले। उनले क्लासिकल रिग्रेसन प्रविधि र निर्णय रूखहरू प्रयोग गरेर मूल डेटासेटमा केही मन्थन मोडेलहरू निर्माण गरे, तर थप परिष्कृत प्रविधिहरू जस्तै न्यूरल नेटवर्कहरू, ग्रेडियन्ट बूस्टिङ, अनियमित वन - यी प्रकारका प्रविधिहरू। मोडेलहरू निर्माण गर्दा मानक SAS Viya विकल्पहरू प्रयोग गर्दै।

त्यसपछि, नतिजा हेर्ने समय भयो। नतिजाहरू सिंथेटिक डेटाको लागि धेरै आशाजनक थिए र गुमनामकरणको लागि होइन। श्रोताहरूमा कुनै पनि मेसिन-लर्निंग विशेषज्ञहरूका लागि, हामी ROC-वक्र अन्तर्गत क्षेत्र हेर्छौं जसले मोडेलको शुद्धताको बारेमा केही बताउँछ। मौलिक डेटालाई बेनामी डेटासँग तुलना गर्दा, हामी देख्छौं कि मौलिक डेटा मोडेलमा .8 को ROC-वक्र अन्तर्गत क्षेत्र छ, जुन धेरै राम्रो छ, यद्यपि, बेनामी डेटाको ROC-वक्र .6 अन्तर्गत क्षेत्र छ। यसको मतलब हामीले गुमनाम मोडेलको साथ धेरै जानकारी गुमाउँछौं त्यसैले तपाईंले धेरै भविष्यवाणी गर्ने शक्ति गुमाउनुहुन्छ।

तर, प्रश्न सिंथेटिक्स डाटाको बारेमा के हो? यहाँ, हामीले ठ्याक्कै त्यस्तै गर्यौं तर डाटा गुमाउनुको सट्टा, सिन्थोले डाटा संश्लेषण गर्‍यो। अब, हामी दुबै मौलिक डेटा र सिंथेटिक डेटाको .8 को ROC-वक्र अन्तर्गत क्षेत्र रहेको देख्छौं, जुन धेरै समान छ। परिवर्तनशीलताको कारण ठ्याक्कै समान छैन, तर धेरै समान। यसको मतलब, सिंथेटिक डाटाको सम्भावना धेरै आशाजनक छ - एडविन यस बारे धेरै खुसी छ।

मुस्कुराउँदै मानिसहरूको समूह

डाटा सिंथेटिक छ, तर हाम्रो टोली वास्तविक छ!

Syntho लाई सम्पर्क गर्नुहोस् र हाम्रा विशेषज्ञहरू मध्ये एकले सिंथेटिक डाटाको मूल्य अन्वेषण गर्न प्रकाशको गतिमा तपाईंसँग सम्पर्कमा आउनेछन्!