अनामित डेटा वि सिंथेटिक डेटा

डेटा अॅनालिटिक्सची डेटा चाचणी करण्यापूर्वी तुम्ही तुमचा डेटा अनामित केल्यास, यात अनेक घटक आहेत:

  1. जवळजवळ सर्व प्रकरणांमध्ये, अज्ञात डेटा अद्याप विशिष्ट आणि अद्वितीय पंक्तींमुळे (उदा. वैद्यकीय नोंदी) व्यक्तींकडे शोधला जाऊ शकतो.
  2. तुम्ही जितके जास्त अनामिक कराल किंवा सामान्यीकरण कराल, तितका अधिक डेटा तुम्ही नष्ट कराल. हे तुमच्या डेटाची गुणवत्ता कमी करते आणि त्यामुळे तुमची अंतर्दृष्टी कमी होते
  3. वेगवेगळ्या डेटा फॉरमॅटसाठी अनामिकरण वेगळ्या पद्धतीने काम करते. याचा अर्थ ते स्केलेबल नाही आणि खूप वेळ घेणारे असू शकते

सिंथेटिक डेटा या सर्व कमतरता आणि बरेच काही सोडवतो. SAS (विश्लेषणातील ग्लोबल मार्केट लीडर) मधील विश्लेषक तज्ञ मूळ डेटा, अनामित डेटा आणि सिंथो व्युत्पन्न केलेल्या सिंथेटिक डेटामधील गुणवत्तेतील फरकाबद्दल त्यांचे मूल्यांकन स्पष्ट करण्यासाठी खालील व्हिडिओ पहा.

हा व्हिडिओ AI व्युत्पन्न केलेल्या सिंथेटिक डेटाबद्दल Syntho x SAS D[N]A Café मधून कॅप्चर केला आहे. येथे पूर्ण व्हिडिओ शोधा.

एडविन व्हॅन उनेन यांनी सिंथोला मूळ डेटासेट पाठवला आणि आम्ही डेटासेट संश्लेषित केला. परंतु प्रश्न हा देखील होता: "आम्ही सिंथेटिक डेटाची निनावी डेटाशी तुलना केल्यास काय होईल?" तुम्‍ही अनामित डेटामध्‍ये बरीच माहिती गमावल्‍यामुळे, डेटासेटचे संश्‍लेषण करतानाही हे घडेल का? आम्ही कंपनी मंथन-माहितीच्या 56.000 पंक्ती आणि 128 स्तंभांसह दूरसंचार उद्योगातील डेटासेटसह सुरुवात केली. हा डेटासेट संश्लेषित आणि निनावी दोन्ही होता त्यामुळे एडविन सिंथेटायझेशनची निनावीपणाशी तुलना करू शकतो. त्यानंतर, एडविनने एसएएस विया वापरून मॉडेलिंग सुरू केले. त्याने मूळ डेटासेटवर शास्त्रीय प्रतिगमन तंत्र आणि निर्णय वृक्ष वापरून काही मंथन मॉडेल तयार केले, परंतु न्यूरल नेटवर्क्स, ग्रेडियंट बूस्टिंग, यादृच्छिक वन – या प्रकारची तंत्रे यांसारखी अधिक अत्याधुनिक तंत्रे देखील तयार केली. मॉडेल्स तयार करताना मानक SAS Viya पर्याय वापरणे.

मग, निकाल पाहण्याची वेळ आली. सिंथेटिक डेटासाठी परिणाम खूप आशादायक होते आणि अनामिकरणासाठी नाही. श्रोत्यांमध्ये मशीन-लर्निंग नसलेल्या तज्ञांसाठी, आम्ही ROC-वक्र अंतर्गत क्षेत्र पाहतो जे मॉडेलच्या अचूकतेबद्दल काहीतरी सांगते. मूळ डेटाची अनामित डेटाशी तुलना करताना, आम्ही पाहतो की मूळ डेटा मॉडेलमध्ये .8 च्या ROC-वक्र अंतर्गत क्षेत्र आहे, जे खूप चांगले आहे, तथापि, अनामित डेटाचे क्षेत्र .6 च्या ROC-वक्र अंतर्गत आहे. याचा अर्थ आम्ही निनावी मॉडेलसह बरीच माहिती गमावतो त्यामुळे तुमची भविष्यवाणी करण्याची क्षमता कमी होते.

पण मग, प्रश्न असा आहे की सिंथेटिक्स डेटाचे काय? येथे, आम्ही अगदी तेच केले परंतु डेटा अनामित करण्याऐवजी, सिंथोने डेटा संश्लेषित केला. आता, आम्ही पाहतो की मूळ डेटा आणि सिंथेटिक डेटा दोन्हीमध्ये .8 च्या ROC-वक्र अंतर्गत क्षेत्र आहे, जे खूप समान आहे. परिवर्तनशीलतेमुळे अगदी एकसारखे नाही, परंतु खूप समान आहे. याचा अर्थ, सिंथेटिक डेटाची क्षमता खूप आशादायक आहे - एडविन याबद्दल खूप आनंदी आहे.

हसणारा लोकांचा समूह

डेटा सिंथेटिक आहे, परंतु आमचा कार्यसंघ वास्तविक आहे!

सिंथोशी संपर्क साधा आणि सिंथेटिक डेटाचे मूल्य एक्सप्लोर करण्यासाठी आमचा एक विशेषज्ञ प्रकाशाच्या वेगाने तुमच्याशी संपर्क साधेल!