अनामित डेटा वि सिंथेटिक डेटा

डेटा अॅनालिटिक्सची डेटा चाचणी करण्यापूर्वी तुम्ही तुमचा डेटा अनामित केल्यास, यात अनेक घटक आहेत:

जवळजवळ सर्व प्रकरणांमध्ये, अज्ञात डेटा अद्याप विशिष्ट आणि अद्वितीय पंक्तींमुळे (उदा. वैद्यकीय नोंदी) व्यक्तींकडे शोधला जाऊ शकतो.
तुम्ही जितके जास्त अनामिक कराल किंवा सामान्यीकरण कराल, तितका अधिक डेटा तुम्ही नष्ट कराल. हे तुमच्या डेटाची गुणवत्ता कमी करते आणि त्यामुळे तुमची अंतर्दृष्टी कमी होते
वेगवेगळ्या डेटा फॉरमॅटसाठी अनामिकरण वेगळ्या पद्धतीने काम करते. याचा अर्थ ते स्केलेबल नाही आणि खूप वेळ घेणारे असू शकते

सिंथेटिक डेटा या सर्व कमतरता आणि बरेच काही सोडवतो. SAS (विश्लेषणातील ग्लोबल मार्केट लीडर) मधील विश्लेषक तज्ञ मूळ डेटा, अनामित डेटा आणि सिंथो व्युत्पन्न केलेल्या सिंथेटिक डेटामधील गुणवत्तेतील फरकाबद्दल त्यांचे मूल्यांकन स्पष्ट करण्यासाठी खालील व्हिडिओ पहा.

हा व्हिडिओ AI व्युत्पन्न केलेल्या सिंथेटिक डेटाबद्दल Syntho x SAS D[N]A Café मधून कॅप्चर केला आहे. येथे पूर्ण व्हिडिओ शोधा.

एडविन व्हॅन उनेन यांनी सिंथोला मूळ डेटासेट पाठवला आणि आम्ही डेटासेट संश्लेषित केला. परंतु प्रश्न हा देखील होता: "आम्ही सिंथेटिक डेटाची निनावी डेटाशी तुलना केल्यास काय होईल?" तुम्‍ही अनामित डेटामध्‍ये बरीच माहिती गमावल्‍यामुळे, डेटासेटचे संश्‍लेषण करतानाही हे घडेल का? आम्ही कंपनी मंथन-माहितीच्या 56.000 पंक्ती आणि 128 स्तंभांसह दूरसंचार उद्योगातील डेटासेटसह सुरुवात केली. हा डेटासेट संश्लेषित आणि निनावी दोन्ही होता त्यामुळे एडविन सिंथेटायझेशनची निनावीपणाशी तुलना करू शकतो. त्यानंतर, एडविनने एसएएस विया वापरून मॉडेलिंग सुरू केले. त्याने मूळ डेटासेटवर शास्त्रीय प्रतिगमन तंत्र आणि निर्णय वृक्ष वापरून काही मंथन मॉडेल तयार केले, परंतु न्यूरल नेटवर्क्स, ग्रेडियंट बूस्टिंग, यादृच्छिक वन – या प्रकारची तंत्रे यांसारखी अधिक अत्याधुनिक तंत्रे देखील तयार केली. मॉडेल्स तयार करताना मानक SAS Viya पर्याय वापरणे.

मग, निकाल पाहण्याची वेळ आली. सिंथेटिक डेटासाठी परिणाम खूप आशादायक होते आणि अनामिकरणासाठी नाही. श्रोत्यांमध्ये मशीन-लर्निंग नसलेल्या तज्ञांसाठी, आम्ही ROC-वक्र अंतर्गत क्षेत्र पाहतो जे मॉडेलच्या अचूकतेबद्दल काहीतरी सांगते. मूळ डेटाची अनामित डेटाशी तुलना करताना, आम्ही पाहतो की मूळ डेटा मॉडेलमध्ये .8 च्या ROC-वक्र अंतर्गत क्षेत्र आहे, जे खूप चांगले आहे, तथापि, अनामित डेटाचे क्षेत्र .6 च्या ROC-वक्र अंतर्गत आहे. याचा अर्थ आम्ही निनावी मॉडेलसह बरीच माहिती गमावतो त्यामुळे तुमची भविष्यवाणी करण्याची क्षमता कमी होते.

पण मग, प्रश्न असा आहे की सिंथेटिक्स डेटाचे काय? येथे, आम्ही अगदी तेच केले परंतु डेटा अनामित करण्याऐवजी, सिंथोने डेटा संश्लेषित केला. आता, आम्ही पाहतो की मूळ डेटा आणि सिंथेटिक डेटा दोन्हीमध्ये .8 च्या ROC-वक्र अंतर्गत क्षेत्र आहे, जे खूप समान आहे. परिवर्तनशीलतेमुळे अगदी एकसारखे नाही, परंतु खूप समान आहे. याचा अर्थ, सिंथेटिक डेटाची क्षमता खूप आशादायक आहे - एडविन याबद्दल खूप आनंदी आहे.

डेटा सिंथेटिक आहे, परंतु आमचा कार्यसंघ वास्तविक आहे!

सिंथोशी संपर्क साधा आणि सिंथेटिक डेटाचे मूल्य एक्सप्लोर करण्यासाठी आमचा एक विशेषज्ञ प्रकाशाच्या वेगाने तुमच्याशी संपर्क साधेल!

कृत्रिम डेटा म्हणजे काय?

गुणवत्ता हमी अहवाल

SAS द्वारे बाह्य मूल्यमापन

वेळ मालिका सिंथेटिक डेटा

PII स्कॅनर

सिंथेटिक मॉक डेटा

सातत्यपूर्ण मॅपिंग

डी-ओळख आणि संश्लेषण

नियम-आधारित सिंथेटिक डेटा

उपसेटिंग

उपयोजन आणि एकत्रीकरण

कने

विस्तारित वैशिष्ट्ये

समर्थित डेटा

वापरकर्ता दस्तऐवज

डेमोचे वेळापत्रक तयार करा

किंमत

चाचणी डेटा म्हणून कृत्रिम डेटा

विश्लेषणासाठी सिंथेटिक डेटा

डेटा शेअरिंगसाठी सिंथेटिक डेटा

उत्पादन डेमोसाठी सिंथेटिक डेटा

आरोग्य सेवा

अर्थ

सार्वजनिक संस्था

वापरकर्ता दस्तऐवज

श्वेतपत्रिका आणि मार्गदर्शक

ब्लॉग

वेबिनार

घटनेचा अभ्यास

किंमत

आमच्या बद्दल

करीयर

अनामित डेटा वि सिंथेटिक डेटा

डेटा सिंथेटिक आहे, परंतु आमचा कार्यसंघ वास्तविक आहे!

आपण काय करतो

कंपनी

साधनसंपत्ती

सिंथो वृत्तपत्र

मुख्य मेनू