अनाम डेटा बनाम सिंथेटिक डेटा

यदि आप डेटा एनालिटिक्स का डेटा परीक्षण करने से पहले अपने डेटा को गुमनाम कर देते हैं, तो इसके कई कारक हैं:

  1. लगभग सभी मामलों में, विशिष्ट और अनूठी पंक्तियों (जैसे मेडिकल रिकॉर्ड) के कारण अज्ञात डेटा अभी भी व्यक्तियों को वापस खोजा जा सकता है।
  2. जितना अधिक आप अज्ञात या सामान्यीकरण करेंगे, उतना ही अधिक डेटा आप नष्ट करेंगे। यह आपके डेटा की गुणवत्ता को कम करता है और इस प्रकार आपकी अंतर्दृष्टि
  3. गुमनामी अलग-अलग डेटा प्रारूपों के लिए अलग तरह से काम करता है। इसका मतलब है कि यह स्केलेबल नहीं है और इसमें बहुत समय लग सकता है

सिंथेटिक डेटा इन सभी कमियों और बहुत कुछ को हल करता है। एसएएस (एनालिटिक्स में ग्लोबल मार्केट लीडर) के एक एनालिटिक्स विशेषज्ञ को देखने के लिए नीचे दिया गया वीडियो देखें, मूल डेटा, अनाम डेटा और सिंथो द्वारा उत्पन्न सिंथेटिक डेटा के बीच गुणवत्ता में अंतर के बारे में उनके आकलन के बारे में बताएं।

यह वीडियो एआई जेनरेटेड सिंथेटिक डेटा के बारे में सिंथो एक्स एसएएस डी [एन] ए कैफे से लिया गया है। पूरा वीडियो यहां पाएं।

एडविन वैन उनेन ने सिंथो को एक मूल डेटासेट भेजा और हमने डेटासेट को संश्लेषित किया। लेकिन सवाल यह भी था: "अगर हम सिंथेटिक डेटा की तुलना अनाम डेटा से करें तो क्या होगा?" क्योंकि आप किसी अज्ञात डेटा में बहुत सारी जानकारी खो देते हैं, क्या डेटासेट को संश्लेषित करते समय भी ऐसा होगा? हमने दूरसंचार उद्योग से 56.000 पंक्तियों और कंपनी मंथन-सूचना के 128 स्तंभों के साथ एक डेटासेट के साथ शुरुआत की। इस डेटासेट को संश्लेषित और गुमनाम दोनों तरह से बनाया गया था ताकि एडविन सिंथेटाइजेशन की तुलना गुमनामी से कर सके। फिर, एडविन ने एसएएस विया का उपयोग करके मॉडलिंग शुरू की। उन्होंने शास्त्रीय प्रतिगमन तकनीकों और निर्णय पेड़ों का उपयोग करते हुए मूल डेटासेट पर कुछ मंथन मॉडल बनाए, लेकिन साथ ही अधिक परिष्कृत तकनीकों जैसे कि तंत्रिका नेटवर्क, ग्रेडिएंट बूस्टिंग, यादृच्छिक वन - इस प्रकार की तकनीकें। मॉडल बनाते समय मानक एसएएस विया विकल्पों का उपयोग करना।

फिर, परिणामों को देखने का समय था। परिणाम सिंथेटिक डेटा के लिए बहुत आशाजनक थे न कि गुमनामी के लिए। दर्शकों में गैर-मशीन-लर्निंग विशेषज्ञों के लिए, हम आरओसी-वक्र के तहत क्षेत्र को देखते हैं जो मॉडल की सटीकता के बारे में कुछ बताता है। अनाम डेटा से मूल डेटा की तुलना करते हुए, हम देखते हैं कि मूल डेटा मॉडल में .8 के ROC-वक्र के तहत एक क्षेत्र है, जो बहुत अच्छा है, हालांकि, अनाम डेटा में .6 के ROC-वक्र के तहत एक क्षेत्र है। इसका मतलब है कि हम अज्ञात मॉडल के साथ बहुत सारी जानकारी खो देते हैं जिससे आप बहुत अधिक भविष्यवाणी करने की शक्ति खो देते हैं।

लेकिन फिर, सवाल यह है कि सिंथेटिक्स डेटा का क्या? यहां, हमने बिल्कुल वैसा ही किया लेकिन डेटा को गुमनाम करने के बजाय, सिंथो ने डेटा को संश्लेषित किया। अब, हम देखते हैं कि मूल डेटा और सिंथेटिक डेटा दोनों में .8 के आरओसी-वक्र के तहत एक क्षेत्र है, जो बहुत समान है। परिवर्तनशीलता के कारण बिल्कुल समान नहीं है, लेकिन बहुत समान है। इसका मतलब है, सिंथेटिक डेटा की संभावना बहुत आशाजनक है - एडविन इस बारे में बहुत खुश हैं।

मुस्कुराते हुए लोगों का समूह

डेटा कृत्रिम है, लेकिन हमारी टीम वास्तविक है!

संपर्क सिंथो और हमारे विशेषज्ञों में से एक सिंथेटिक डेटा के मूल्य का पता लगाने के लिए प्रकाश की गति से आपसे संपर्क करेगा!