डेटा अॅनालिटिक्सची डेटा चाचणी करण्यापूर्वी तुम्ही तुमचा डेटा अनामित केल्यास, यात अनेक घटक आहेत:
सिंथेटिक डेटा या सर्व कमतरता आणि बरेच काही सोडवतो. SAS (विश्लेषणातील ग्लोबल मार्केट लीडर) मधील विश्लेषक तज्ञ मूळ डेटा, अनामित डेटा आणि सिंथो व्युत्पन्न केलेल्या सिंथेटिक डेटामधील गुणवत्तेतील फरकाबद्दल त्यांचे मूल्यांकन स्पष्ट करण्यासाठी खालील व्हिडिओ पहा.
हा व्हिडिओ AI व्युत्पन्न केलेल्या सिंथेटिक डेटाबद्दल Syntho x SAS D[N]A Café मधून कॅप्चर केला आहे. येथे पूर्ण व्हिडिओ शोधा.
एडविन व्हॅन उनेन यांनी सिंथोला मूळ डेटासेट पाठवला आणि आम्ही डेटासेट संश्लेषित केला. परंतु प्रश्न हा देखील होता: "आम्ही सिंथेटिक डेटाची निनावी डेटाशी तुलना केल्यास काय होईल?" तुम्ही अनामित डेटामध्ये बरीच माहिती गमावल्यामुळे, डेटासेटचे संश्लेषण करतानाही हे घडेल का? आम्ही कंपनी मंथन-माहितीच्या 56.000 पंक्ती आणि 128 स्तंभांसह दूरसंचार उद्योगातील डेटासेटसह सुरुवात केली. हा डेटासेट संश्लेषित आणि निनावी दोन्ही होता त्यामुळे एडविन सिंथेटायझेशनची निनावीपणाशी तुलना करू शकतो. त्यानंतर, एडविनने एसएएस विया वापरून मॉडेलिंग सुरू केले. त्याने मूळ डेटासेटवर शास्त्रीय प्रतिगमन तंत्र आणि निर्णय वृक्ष वापरून काही मंथन मॉडेल तयार केले, परंतु न्यूरल नेटवर्क्स, ग्रेडियंट बूस्टिंग, यादृच्छिक वन – या प्रकारची तंत्रे यांसारखी अधिक अत्याधुनिक तंत्रे देखील तयार केली. मॉडेल्स तयार करताना मानक SAS Viya पर्याय वापरणे.
मग, निकाल पाहण्याची वेळ आली. सिंथेटिक डेटासाठी परिणाम खूप आशादायक होते आणि अनामिकरणासाठी नाही. श्रोत्यांमध्ये मशीन-लर्निंग नसलेल्या तज्ञांसाठी, आम्ही ROC-वक्र अंतर्गत क्षेत्र पाहतो जे मॉडेलच्या अचूकतेबद्दल काहीतरी सांगते. मूळ डेटाची अनामित डेटाशी तुलना करताना, आम्ही पाहतो की मूळ डेटा मॉडेलमध्ये .8 च्या ROC-वक्र अंतर्गत क्षेत्र आहे, जे खूप चांगले आहे, तथापि, अनामित डेटाचे क्षेत्र .6 च्या ROC-वक्र अंतर्गत आहे. याचा अर्थ आम्ही निनावी मॉडेलसह बरीच माहिती गमावतो त्यामुळे तुमची भविष्यवाणी करण्याची क्षमता कमी होते.
पण मग, प्रश्न असा आहे की सिंथेटिक्स डेटाचे काय? येथे, आम्ही अगदी तेच केले परंतु डेटा अनामित करण्याऐवजी, सिंथोने डेटा संश्लेषित केला. आता, आम्ही पाहतो की मूळ डेटा आणि सिंथेटिक डेटा दोन्हीमध्ये .8 च्या ROC-वक्र अंतर्गत क्षेत्र आहे, जे खूप समान आहे. परिवर्तनशीलतेमुळे अगदी एकसारखे नाही, परंतु खूप समान आहे. याचा अर्थ, सिंथेटिक डेटाची क्षमता खूप आशादायक आहे - एडविन याबद्दल खूप आनंदी आहे.
सिंथोशी संपर्क साधा आणि सिंथेटिक डेटाचे मूल्य एक्सप्लोर करण्यासाठी आमचा एक विशेषज्ञ प्रकाशाच्या वेगाने तुमच्याशी संपर्क साधेल!