एसएएस के डेटा विशेषज्ञों द्वारा हमारे सिंथेटिक डेटा का बाहरी मूल्यांकन

हमारा सिंथेटिक डेटा है आकलन किया और अनुमोदित के डेटा विशेषज्ञों द्वारा एसएएस

एसएएस के डेटा विशेषज्ञों द्वारा हमारे सिंथेटिक डेटा के बाहरी मूल्यांकन का परिचय

हमने क्या किया?

सिंथो द्वारा उत्पन्न सिंथेटिक डेटा का एसएएस के डेटा विशेषज्ञों द्वारा बाहरी और वस्तुनिष्ठ दृष्टिकोण से मूल्यांकन, सत्यापन और अनुमोदन किया जाता है।

एसएएस के डेटा विशेषज्ञों द्वारा हमारे सिंथेटिक डेटा का बाहरी मूल्यांकन क्यों किया जाता है?

हालाँकि सिंथो अपने उपयोगकर्ताओं को उन्नत गुणवत्ता आश्वासन रिपोर्ट पेश करने में गर्व महसूस करता है, हम उद्योग के नेताओं से हमारे सिंथेटिक डेटा के बाहरी और वस्तुनिष्ठ मूल्यांकन के महत्व को भी समझते हैं। यही कारण है कि हम अपने सिंथेटिक डेटा का आकलन करने के लिए एनालिटिक्स में अग्रणी एसएएस के साथ सहयोग करते हैं।

एसएएस मूल डेटा की तुलना में सिंथो के एआई-जनरेटेड सिंथेटिक डेटा की डेटा-सटीकता, गोपनीयता सुरक्षा और उपयोगिता पर विभिन्न गहन मूल्यांकन करता है। निष्कर्ष के रूप में, एसएएस ने मूल डेटा की तुलना में सिंथो के सिंथेटिक डेटा को सटीक, सुरक्षित और प्रयोग करने योग्य माना और अनुमोदित किया।

इस मूल्यांकन के दौरान एसएएस ने क्या किया?

हमने लक्ष्य डेटा के रूप में दूरसंचार डेटा का उपयोग किया जिसका उपयोग "मंथन" भविष्यवाणी के लिए किया जाता है। मूल्यांकन का लक्ष्य विभिन्न मंथन पूर्वानुमान मॉडल को प्रशिक्षित करने और प्रत्येक मॉडल के प्रदर्शन का आकलन करने के लिए सिंथेटिक डेटा का उपयोग करना था। चूंकि मंथन भविष्यवाणी एक वर्गीकरण कार्य है, एसएएस ने भविष्यवाणियां करने के लिए लोकप्रिय वर्गीकरण मॉडल का चयन किया, जिनमें शामिल हैं:

  1. बेतरतीब जंगल
  2. ग्रेडिएंट बूस्टिंग
  3. रसद प्रतिगमन
  4. तंत्रिका नेटवर्क

सिंथेटिक डेटा जनरेट करने से पहले, SAS ने टेलीकॉम डेटासेट को ट्रेन सेट (मॉडल के प्रशिक्षण के लिए) और होल्डआउट सेट (मॉडल स्कोर करने के लिए) में बेतरतीब ढंग से विभाजित किया। स्कोरिंग के लिए एक अलग होल्डआउट सेट होने से निष्पक्ष मूल्यांकन की अनुमति मिलती है कि नए डेटा पर लागू होने पर वर्गीकरण मॉडल कितना अच्छा कर सकता है।

इनपुट के रूप में ट्रेन सेट का उपयोग करते हुए, सिंथो ने सिंथेटिक डेटासेट उत्पन्न करने के लिए अपने सिंथो इंजन का उपयोग किया। बेंचमार्किंग के लिए, एसएएस ने एक निश्चित सीमा (के-गुमनामता) तक पहुंचने के लिए विभिन्न अज्ञातीकरण तकनीकों को लागू करने के बाद ट्रेन सेट का एक अज्ञात संस्करण भी बनाया। पिछले चरणों के परिणामस्वरूप चार डेटासेट बने:

  1. एक ट्रेन डेटासेट (यानी मूल डेटासेट होल्डआउट डेटासेट घटाता है)
  2. एक होल्डआउट डेटासेट (यानी मूल डेटासेट का सबसेट)
  3. एक अज्ञात डेटासेट (ट्रेन डेटासेट का अज्ञात डेटा, मूल डेटासेट घटाकर होल्डआउट डेटासेट)
  4. एक सिंथेटिक डेटासेट (ट्रेन डेटासेट का संश्लेषित डेटा, मूल डेटासेट माइनस होल्डआउट डेटासेट)

प्रत्येक वर्गीकरण मॉडल को प्रशिक्षित करने के लिए डेटासेट 1, 3 और 4 का उपयोग किया गया, जिसके परिणामस्वरूप 12 (3 x 4) प्रशिक्षित मॉडल प्राप्त हुए। एसएएस ने बाद में ग्राहक मंथन की भविष्यवाणी में प्रत्येक मॉडल की सटीकता को मापने के लिए होल्डआउट डेटासेट का उपयोग किया।

एसएएस मूल डेटा की तुलना में सिंथो के एआई-जनरेटेड सिंथेटिक डेटा की डेटा-सटीकता, गोपनीयता सुरक्षा और उपयोगिता पर विभिन्न गहन मूल्यांकन करता है। निष्कर्ष के रूप में, एसएएस ने मूल डेटा की तुलना में सिंथो के सिंथेटिक डेटा को सटीक, सुरक्षित और प्रयोग करने योग्य माना और अनुमोदित किया।

क्या आपका कोई सवाल है?

हमारे किसी विशेषज्ञ से बात करें

एसएएस द्वारा डेटा मूल्यांकन के प्रारंभिक परिणाम

सिंथेटिक डेटा पर प्रशिक्षित मॉडल का स्कोर मूल डेटा पर प्रशिक्षित मॉडल की तुलना में काफी समान होता है

सिंथो का सिंथेटिक डेटा न केवल बुनियादी पैटर्न के लिए है, बल्कि यह उन्नत विश्लेषण कार्यों के लिए आवश्यक गहरे 'छिपे हुए' सांख्यिकीय पैटर्न को भी पकड़ता है। उत्तरार्द्ध को बार चार्ट में प्रदर्शित किया गया है, जो दर्शाता है कि सिंथेटिक डेटा पर प्रशिक्षित मॉडल बनाम मूल डेटा पर प्रशिक्षित मॉडल की सटीकता समान है। इसलिए, मॉडलों के वास्तविक प्रशिक्षण के लिए सिंथेटिक डेटा का उपयोग किया जा सकता है। मूल डेटा की तुलना में सिंथेटिक डेटा पर एल्गोरिदम द्वारा चयनित इनपुट और परिवर्तनीय महत्व बहुत समान थे। इसलिए, यह निष्कर्ष निकाला गया है कि वास्तविक संवेदनशील डेटा का उपयोग करने के विकल्प के रूप में, मॉडलिंग प्रक्रिया सिंथेटिक डेटा पर की जा सकती है।

अज्ञात डेटा पर प्रशिक्षित मॉडल का स्कोर ख़राब क्यों होता है?

क्लासिक गुमनामीकरण तकनीकों में आम बात यह है कि वे व्यक्तियों का पता लगाने में बाधा डालने के लिए मूल डेटा में हेरफेर करते हैं। वे डेटा में हेरफेर करते हैं और इस तरह प्रक्रिया में डेटा को नष्ट कर देते हैं। जितना अधिक आप अज्ञात रहेंगे, आपका डेटा उतना ही बेहतर सुरक्षित रहेगा, लेकिन उतना ही अधिक आपका डेटा नष्ट भी होगा। यह एआई और मॉडलिंग कार्यों के लिए विशेष रूप से विनाशकारी है जहां "भविष्य कहनेवाला शक्ति" आवश्यक है, क्योंकि खराब गुणवत्ता वाले डेटा के परिणामस्वरूप एआई मॉडल से खराब अंतर्दृष्टि प्राप्त होगी। एसएएस ने 0.5 के करीब वक्र (एयूसी*) के नीचे के क्षेत्र के साथ इसका प्रदर्शन किया, यह दर्शाता है कि अज्ञात डेटा पर प्रशिक्षित मॉडल अब तक का सबसे खराब प्रदर्शन करते हैं।

एसएएस द्वारा सिंथेटिक डेटा आकलन के अतिरिक्त परिणाम

एसएएस द्वारा सिंथेटिक डेटा आकलन के अतिरिक्त परिणाम

चरों के बीच सहसंबंधों और संबंधों को सिंथेटिक डेटा में सटीक रूप से संरक्षित किया गया था।

मॉडल प्रदर्शन को मापने के लिए एक मीट्रिक, एरिया अंडर द कर्व (एयूसी) सुसंगत रहा।

इसके अलावा, परिवर्तनीय महत्व, जो एक मॉडल में चर की पूर्वानुमानित शक्ति को इंगित करता है, मूल डेटासेट के साथ सिंथेटिक डेटा की तुलना करते समय बरकरार रहता है।

एसएएस की इन टिप्पणियों के आधार पर और एसएएस विया का उपयोग करके, हम विश्वास के साथ यह निष्कर्ष निकाल सकते हैं कि सिंथो इंजन द्वारा उत्पन्न सिंथेटिक डेटा वास्तव में गुणवत्ता के मामले में वास्तविक डेटा के बराबर है। यह मॉडल विकास के लिए सिंथेटिक डेटा के उपयोग को मान्य करता है, जिससे सिंथेटिक डेटा के साथ उन्नत विश्लेषण का मार्ग प्रशस्त होता है।

एसएएस के डेटा विशेषज्ञों द्वारा निष्कर्ष

सास लोगो

हमारा सिंथेटिक डेटा है अनुमोदित एसएएस . के डेटा विशेषज्ञों द्वारा

संदर्भ लेख

सिंथो गाइड कवर

अपनी सिंथेटिक डेटा गाइड अभी सेव करें!