यदि आप डेटा एनालिटिक्स का डेटा परीक्षण करने से पहले अपने डेटा को गुमनाम कर देते हैं, तो इसके कई कारक हैं:
सिंथेटिक डेटा इन सभी कमियों और बहुत कुछ को हल करता है। एसएएस (एनालिटिक्स में ग्लोबल मार्केट लीडर) के एक एनालिटिक्स विशेषज्ञ को देखने के लिए नीचे दिया गया वीडियो देखें, मूल डेटा, अनाम डेटा और सिंथो द्वारा उत्पन्न सिंथेटिक डेटा के बीच गुणवत्ता में अंतर के बारे में उनके आकलन के बारे में बताएं।
यह वीडियो एआई जेनरेटेड सिंथेटिक डेटा के बारे में सिंथो एक्स एसएएस डी [एन] ए कैफे से लिया गया है। पूरा वीडियो यहां पाएं।
एडविन वैन उनेन ने सिंथो को एक मूल डेटासेट भेजा और हमने डेटासेट को संश्लेषित किया। लेकिन सवाल यह भी था: "अगर हम सिंथेटिक डेटा की तुलना अनाम डेटा से करें तो क्या होगा?" क्योंकि आप किसी अज्ञात डेटा में बहुत सारी जानकारी खो देते हैं, क्या डेटासेट को संश्लेषित करते समय भी ऐसा होगा? हमने दूरसंचार उद्योग से 56.000 पंक्तियों और कंपनी मंथन-सूचना के 128 स्तंभों के साथ एक डेटासेट के साथ शुरुआत की। इस डेटासेट को संश्लेषित और गुमनाम दोनों तरह से बनाया गया था ताकि एडविन सिंथेटाइजेशन की तुलना गुमनामी से कर सके। फिर, एडविन ने एसएएस विया का उपयोग करके मॉडलिंग शुरू की। उन्होंने शास्त्रीय प्रतिगमन तकनीकों और निर्णय पेड़ों का उपयोग करते हुए मूल डेटासेट पर कुछ मंथन मॉडल बनाए, लेकिन साथ ही अधिक परिष्कृत तकनीकों जैसे कि तंत्रिका नेटवर्क, ग्रेडिएंट बूस्टिंग, यादृच्छिक वन - इस प्रकार की तकनीकें। मॉडल बनाते समय मानक एसएएस विया विकल्पों का उपयोग करना।
फिर, परिणामों को देखने का समय था। परिणाम सिंथेटिक डेटा के लिए बहुत आशाजनक थे न कि गुमनामी के लिए। दर्शकों में गैर-मशीन-लर्निंग विशेषज्ञों के लिए, हम आरओसी-वक्र के तहत क्षेत्र को देखते हैं जो मॉडल की सटीकता के बारे में कुछ बताता है। अनाम डेटा से मूल डेटा की तुलना करते हुए, हम देखते हैं कि मूल डेटा मॉडल में .8 के ROC-वक्र के तहत एक क्षेत्र है, जो बहुत अच्छा है, हालांकि, अनाम डेटा में .6 के ROC-वक्र के तहत एक क्षेत्र है। इसका मतलब है कि हम अज्ञात मॉडल के साथ बहुत सारी जानकारी खो देते हैं जिससे आप बहुत अधिक भविष्यवाणी करने की शक्ति खो देते हैं।
लेकिन फिर, सवाल यह है कि सिंथेटिक्स डेटा का क्या? यहां, हमने बिल्कुल वैसा ही किया लेकिन डेटा को गुमनाम करने के बजाय, सिंथो ने डेटा को संश्लेषित किया। अब, हम देखते हैं कि मूल डेटा और सिंथेटिक डेटा दोनों में .8 के आरओसी-वक्र के तहत एक क्षेत्र है, जो बहुत समान है। परिवर्तनशीलता के कारण बिल्कुल समान नहीं है, लेकिन बहुत समान है। इसका मतलब है, सिंथेटिक डेटा की संभावना बहुत आशाजनक है - एडविन इस बारे में बहुत खुश हैं।
संपर्क सिंथो और हमारे विशेषज्ञों में से एक सिंथेटिक डेटा के मूल्य का पता लगाने के लिए प्रकाश की गति से आपसे संपर्क करेगा!