सिंथेटिक डेटा जेनरेटर में उपयोगिता और समानता का मूल्यांकन: एक तकनीकी गहन जानकारी और तुलनात्मक विश्लेषण

प्रकाशित:
फ़रवरी 27, 2024

परिचय

आज के डिजिटल युग में डेटा प्राइवेसी के प्रति जागरूकता काफी बढ़ गई है। उपयोगकर्ता तेजी से अपने डेटा को एक अद्वितीय डिजिटल फिंगरप्रिंट के रूप में पहचान रहे हैं, जिससे डेटा उल्लंघन की स्थिति में उनकी गोपनीयता को खतरा पैदा हो रहा है। यह चिंता जीडीपीआर जैसे नियमों द्वारा और भी बढ़ जाती है, जो उपयोगकर्ताओं को अपने डेटा को हटाने का अनुरोध करने का अधिकार देती है। हालाँकि इसकी बहुत आवश्यकता है, यह कानून कंपनियों के लिए बहुत महंगा हो सकता है क्योंकि डेटा तक पहुँच न्यूनतम हो गई है; प्रतिबंध जिन पर काबू पाने में अक्सर समय और संसाधन लगता है। 

विषय - सूची

सिंथेटिक डेटा जेनरेटर क्या हैं?

सिंथेटिक डेटा दर्ज करें, इस पहेली का समाधान। सिंथेटिक डेटा जनरेटर ऐसे डेटासेट बनाते हैं जो गुमनामी और गोपनीयता को बनाए रखते हुए वास्तविक उपयोगकर्ता डेटा की नकल करते हैं। यह दृष्टिकोण स्वास्थ्य सेवा से लेकर वित्त तक, सभी उद्योगों में लोकप्रियता हासिल कर रहा है, जहां गोपनीयता सर्वोपरि है।  

यह पोस्ट सिंथेटिक डेटा जनरेटर के मूल्यांकन पर ध्यान केंद्रित करते हुए डेटा पेशेवरों और उत्साही लोगों के लिए तैयार की गई है। हम प्रमुख मेट्रिक्स में गहराई से जाएंगे और सिंथो के इंजन और इसके ओपन-सोर्स विकल्पों के बीच तुलनात्मक विश्लेषण करेंगे, जो सिंथेटिक डेटा पीढ़ी की समाधान गुणवत्ता का प्रभावी ढंग से आकलन करने के तरीके पर अंतर्दृष्टि प्रदान करेंगे। इसके अलावा, हम मॉडलों के कामकाज के बारे में अधिक जानकारी प्रदान करने के लिए इनमें से प्रत्येक मॉडल की समय लागत का भी मूल्यांकन करेंगे। 

सही सिंथेटिक डेटा जनरेशन विधि कैसे चुनें?

सिंथेटिक डेटा उत्पादन के विविध परिदृश्य में, प्रचुर मात्रा में तरीके उपलब्ध हैं, जिनमें से प्रत्येक अपनी अनूठी क्षमताओं के साथ ध्यान आकर्षित करने के लिए प्रतिस्पर्धा कर रहा है। किसी विशेष एप्लिकेशन के लिए सबसे उपयुक्त विधि चुनने के लिए प्रत्येक विकल्प की प्रदर्शन विशेषताओं की गहन समझ की आवश्यकता होती है। इसके लिए एक सूचित निर्णय लेने के लिए अच्छी तरह से परिभाषित मैट्रिक्स के एक सेट के आधार पर विभिन्न सिंथेटिक डेटा जनरेटर के व्यापक मूल्यांकन की आवश्यकता होती है। 

एक प्रसिद्ध ओपन-सोर्स फ्रेमवर्क, सिंथेटिक डेटा वॉल्ट (एसडीवी) के साथ-साथ सिंथो इंजन का एक कठोर तुलनात्मक विश्लेषण इस प्रकार है। इस विश्लेषण में, हमने सांख्यिकीय निष्ठा, पूर्वानुमान सटीकता और अंतर-परिवर्तनीय संबंध जैसे कई सामान्य रूप से उपयोग किए जाने वाले मेट्रिक्स का उपयोग किया। 

सिंथेटिक डेटा मूल्यांकन मेट्रिक्स

किसी भी विशिष्ट मीट्रिक को प्रस्तुत करने से पहले, हमें यह स्वीकार करना चाहिए कि सिंथेटिक डेटा के मूल्यांकन के बारे में कई विचारधाराएं हैं, जिनमें से प्रत्येक डेटा के एक निश्चित पहलू में अंतर्दृष्टि प्रदान करती है। इसे ध्यान में रखते हुए, निम्नलिखित तीन श्रेणियां महत्वपूर्ण और व्यापक हैं। ये मेट्रिक्स डेटा गुणवत्ता के विभिन्न पहलुओं में अंतर्दृष्टि प्रदान करते हैं। ये श्रेणियां हैं: 

      1. सांख्यिकीय निष्ठा मेट्रिक्स: यह सुनिश्चित करने के लिए कि सिंथेटिक डेटा मूल डेटासेट के सांख्यिकीय प्रोफ़ाइल के साथ संरेखित है, डेटा की बुनियादी सांख्यिकीय विशेषताओं, जैसे साधन और भिन्नता की जांच करना। 

        1. पूर्वानुमानित सटीकता: सिंथेटिक डेटा जेनरेशन मॉडल के प्रदर्शन की जांच करना, मूल डेटा के साथ प्रशिक्षित करना, और सिंथेटिक डेटा (ट्रेन रियल - टेस्ट सिंथेटिक, टीआरटीएस) और इसके विपरीत (ट्रेन सिंथेटिक - टेस्ट रियल, टीएसटीआर) पर मूल्यांकन करना। 

          1. अंतर-परिवर्तनीय संबंध: इस संयुक्त श्रेणी में शामिल हैं: 

            • फ़ीचर सहसंबंध: हम मूल्यांकन करते हैं कि सिंथेटिक डेटा सहसंबंध गुणांक का उपयोग करके चर के बीच संबंधों को कितनी अच्छी तरह बनाए रखता है। प्रोपेंसिटी मीन स्क्वेयर्ड एरर (पीएमएसई) जैसी एक प्रसिद्ध मीट्रिक इस प्रकार की होगी। 

            • आपसी जानकारी: हम सहसंबंधों से परे इन संबंधों की गहराई को समझने के लिए चरों के बीच पारस्परिक निर्भरता को मापते हैं। 

          तुलनात्मक विश्लेषण: सिंथो इंजन बनाम ओपन-सोर्स विकल्प

          तुलनात्मक विश्लेषण सिंथो इंजन और एसडीवी मॉडल सहित सभी मॉडलों में एक मानकीकृत मूल्यांकन ढांचे और समान परीक्षण तकनीकों का उपयोग करके आयोजित किया गया था। समान स्रोतों से डेटासेट को संश्लेषित करके और उन्हें समान सांख्यिकीय परीक्षणों और मशीन लर्निंग मॉडल आकलन के अधीन करके, हम एक निष्पक्ष और निष्पक्ष तुलना सुनिश्चित करते हैं। इसके बाद वाला अनुभाग ऊपर प्रस्तुत मेट्रिक्स की श्रृंखला में प्रत्येक सिंथेटिक डेटा जेनरेटर के प्रदर्शन का विवरण देता है।  

           

          जहां तक ​​मूल्यांकन के लिए उपयोग किए गए डेटासेट का सवाल है, हमने इसका उपयोग किया यूसीआई वयस्कों की जनगणना डेटासेट जो मशीन लर्निंग समुदाय में एक प्रसिद्ध डेटासेट है। हमने सभी प्रशिक्षण से पहले डेटा को साफ किया और फिर डेटासेट को दो सेटों (एक प्रशिक्षण और परीक्षण के लिए एक होल्डआउट सेट) में विभाजित किया। हमने प्रत्येक मॉडल के साथ 1 मिलियन नए डेटापॉइंट उत्पन्न करने के लिए प्रशिक्षण सेट का उपयोग किया और इन जेनरेट किए गए डेटासेट पर विभिन्न मैट्रिक्स का मूल्यांकन किया। आगे की मशीन लर्निंग मूल्यांकन के लिए, हमने टीएसटीआर और टीआरटीएस से संबंधित मेट्रिक्स का मूल्यांकन करने के लिए होल्डआउट सेट का उपयोग किया।  

           

          प्रत्येक जनरेटर को डिफ़ॉल्ट मापदंडों के साथ चलाया गया था। चूंकि कुछ मॉडल, जैसे सिंथो, किसी भी सारणीबद्ध डेटा पर आउट-ऑफ-द-बॉक्स काम कर सकते हैं, कोई बढ़िया ट्यूनिंग नहीं की गई थी। प्रत्येक मॉडल के लिए सही हाइपरपैरामीटर खोजने में काफी समय लगेगा, और तालिका 2 पहले से ही सिंथो के मॉडल और परीक्षण किए गए मॉडल के बीच एक बड़ा समय अंतर दिखाती है। 

           

          उल्लेखनीय है कि एसडीवी के बाकी मॉडलों के विपरीत, गॉसियन कोपुला सिंथेसाइज़र सांख्यिकीय तरीकों पर आधारित है। इसके विपरीत, बाकी तंत्रिका नेटवर्क जैसे कि जेनेरेटिव एडवरसैरियल नेटवर्क (जीएएन) मॉडल और वेरिएबल ऑटो-एनकोडर पर आधारित हैं। यही कारण है कि गॉसियन कोपुला को चर्चा किए गए सभी मॉडलों के लिए आधार रेखा के रूप में देखा जा सकता है। 

          परिणाम

          डेटा की गुणवत्ता

          चित्र 1. सभी मॉडलों के लिए बुनियादी गुणवत्ता परिणामों का विज़ुअलाइज़ेशन

          डेटा में रुझानों और अभ्यावेदन के पहले चर्चा किए गए अनुपालन चित्र 1 और तालिका 1 में पाए जा सकते हैं। यहां, उपयोग में आने वाले प्रत्येक मीट्रिक की व्याख्या इस प्रकार की जा सकती है:

          • समग्र गुणवत्ता स्कोर: सांख्यिकीय समानता और डेटा विशेषताओं जैसे विभिन्न पहलुओं को मिलाकर सिंथेटिक डेटा की गुणवत्ता का समग्र मूल्यांकन। 
          • कॉलम आकार: यह आकलन करता है कि सिंथेटिक डेटा प्रत्येक कॉलम के लिए वास्तविक डेटा के समान वितरण आकार बनाए रखता है या नहीं। 
          • कॉलम जोड़ी रुझान: वास्तविक डेटा की तुलना में सिंथेटिक डेटा में कॉलम के जोड़े के बीच संबंध या सहसंबंध का मूल्यांकन करता है। 
          •  

          कुल मिलाकर, यह देखा जा सकता है कि सिंथो बोर्ड भर में बहुत उच्च अंक प्राप्त करता है। आरंभ करने के लिए, जब समग्र डेटा गुणवत्ता (एसडीवी मेट्रिक्स लाइब्रेरी के साथ मूल्यांकन) को देखते हैं तो सिंथो 99% से ऊपर का परिणाम प्राप्त कर सकता है (99.92% के स्तंभ आकार पालन और 99.31% के स्तंभ जोड़ी आकार पालन के साथ)। ऐसा तब है जब SDV को अधिकतम 90.84% ​​का परिणाम मिलता है (गॉसियन कोपुला के साथ, स्तंभ आकार का पालन 93.82% और स्तंभ जोड़ी आकार का पालन 87.86%) होता है। 

          प्रति मॉडल प्रत्येक जेनरेट किए गए डेटासेट के गुणवत्ता स्कोर का सारणीबद्ध प्रतिनिधित्व

          तालिका 1. प्रति मॉडल प्रत्येक जेनरेट किए गए डेटासेट के गुणवत्ता स्कोर का सारणीबद्ध प्रतिनिधित्व 

          डेटा कवरेज

          एसडीवी का डायग्नोसिस रिपोर्ट मॉड्यूल हमारे ध्यान में लाता है कि एसडीवी-जनरेटेड डेटा (सभी मामलों में) 10% से अधिक संख्यात्मक रेंज गायब है; ट्रिपलेट-आधारित वेरिएशनल ऑटोएनकोडर (टीवीएई) के मामले में, मूल डेटासेट की तुलना में समान मात्रा में श्रेणीबद्ध डेटा भी गायब है। सिंथो का उपयोग करके प्राप्त परिणामों के साथ ऐसी कोई चेतावनी उत्पन्न नहीं हुई थी।  

          सभी मॉडलों के लिए औसत कॉलम-वार प्रदर्शन मेट्रिक्स का विज़ुअलाइज़ेशन
           
           

          चित्र 2. सभी मॉडलों के लिए औसत कॉलम-वार प्रदर्शन मेट्रिक्स का विज़ुअलाइज़ेशन 

          तुलनात्मक विश्लेषण में, चित्र 2 का कथानक दर्शाता है कि एसडीवी संग्रह अपने कुछ मॉडलों (अर्थात् गॉसियनकोपुला, कोपुलाजीएएन और कंडीशनल टेबुलर जीएएन - सीटीजीएएन के साथ) श्रेणी कवरेज में मामूली रूप से बेहतर परिणाम देता है। फिर भी, यह उजागर करना महत्वपूर्ण है कि सिंथो के डेटा की विश्वसनीयता एसडीवी मॉडल से अधिक है, क्योंकि श्रेणियों और श्रेणियों में कवरेज में विसंगति न्यूनतम है, जो केवल 1.1% भिन्नता प्रदर्शित करती है। इसके विपरीत, एसडीवी मॉडल 14.6% से 29.2% तक की काफी भिन्नता प्रदर्शित करते हैं। 

           

          यहां दर्शाए गए मेट्रिक्स की व्याख्या इस प्रकार की जा सकती है: 

          • श्रेणी कवरेज: वास्तविक डेटा की तुलना में सिंथेटिक डेटा में सभी श्रेणियों की उपस्थिति को मापता है।
          • रेंज कवरेज: यह मूल्यांकन करता है कि सिंथेटिक डेटा में मूल्यों की सीमा वास्तविक डेटा से कितनी अच्छी तरह मेल खाती है। 
          प्रति मॉडल किसी दिए गए विशेषता प्रकार के औसत कवरेज का सारणीबद्ध प्रतिनिधित्व

          तालिका 2. प्रति मॉडल किसी दिए गए विशेषता प्रकार के औसत कवरेज का सारणीबद्ध प्रतिनिधित्व 

          उपयोगिता

          सिंथेटिक डेटा की उपयोगिता के विषय पर आगे बढ़ते हुए, डेटा पर प्रशिक्षण मॉडल का मामला प्रासंगिक हो जाता है। सभी फ्रेमवर्क के बीच एक संतुलित और निष्पक्ष तुलना करने के लिए हमने SciKit लर्न लाइब्रेरी से डिफ़ॉल्ट ग्रेडिएंट बूस्टिंग क्लासिफायर को चुना है, यह देखते हुए कि इसे आउट-ऑफ-द-बॉक्स सेटिंग्स के साथ एक अच्छा प्रदर्शन करने वाले मॉडल के रूप में काफी स्वीकार किया जाता है।  

           

          दो अलग-अलग मॉडलों को प्रशिक्षित किया जाता है, एक सिंथेटिक डेटा पर (टीएसटीआर के लिए) और एक मूल डेटा पर (टीआरटीएस के लिए)। सिंथेटिक डेटा पर प्रशिक्षित मॉडल का मूल्यांकन होल्डआउट परीक्षण सेट (जिसका उपयोग सिंथेटिक डेटा पीढ़ी के दौरान नहीं किया गया था) का उपयोग करके किया जाता है और मूल डेटा पर प्रशिक्षित मॉडल का सिंथेटिक डेटासेट पर परीक्षण किया जाता है।  

          प्रति मॉडल प्रति विधि एरिया अंडर द कर्व (एयूसी) स्कोर का दृश्य

          चित्र 3. प्रति मॉडल प्रति विधि वक्र के अंतर्गत क्षेत्र (एयूसी) स्कोर का विज़ुअलाइज़ेशन 

           ऊपर देखे गए परिणाम अन्य तरीकों की तुलना में सिंथो इंजन द्वारा सिंथेटिक डेटा उत्पादन की श्रेष्ठता को प्रदर्शित करते हैं, यह देखते हुए कि विभिन्न तरीकों से प्राप्त परिणामों के बीच कोई अंतर नहीं है (सिंथेटिक और वास्तविक डेटा के बीच उच्च समानता की ओर इशारा करते हुए)। साथ ही, प्लॉट में मौजूद लाल बिंदीदार रेखा प्रेक्षित मेट्रिक्स के लिए आधार रेखा प्रदान करने के लिए ट्रेन रियल, टेस्ट रियल (टीआरटीआर) परीक्षण के आधार प्रदर्शन का मूल्यांकन करके प्राप्त परिणाम है। यह रेखा मान 0.92 का प्रतिनिधित्व करती है, जो वास्तविक डेटा पर प्रशिक्षित और वास्तविक डेटा पर परीक्षण किए गए मॉडल द्वारा प्राप्त वक्र स्कोर (एयूसी स्कोर) के तहत क्षेत्र है। 

          प्रति मॉडल क्रमशः टीआरटीएस और टीएसटीआर द्वारा प्राप्त एयूसी स्कोर का सारणीबद्ध प्रतिनिधित्व।

          तालिका 3. प्रति मॉडल क्रमशः टीआरटीएस और टीएसटीआर द्वारा प्राप्त एयूसी स्कोर का सारणीबद्ध प्रतिनिधित्व। 

          समयानुसार तुलना

          स्वाभाविक रूप से, इन परिणामों को उत्पन्न करने में लगाए गए समय पर विचार करना महत्वपूर्ण है। नीचे दिया गया विज़ुअलाइज़ेशन बस यही दर्शाता है।

          जीपीयू के साथ और उसके बिना एक मॉडल के साथ दस लाख डेटापॉइंट के सिंथेटिक डेटा उत्पादन को प्रशिक्षित करने और निष्पादित करने में लगने वाले समय का दृश्य।

          चित्र 5. प्रशिक्षण और प्रदर्शन में लगने वाले समय का दृश्य सिंथेटिक डेटा पीढ़ी जीपीयू के साथ और बिना जीपीयू वाले मॉडल के साथ दस लाख डेटाप्वाइंट। 

          चित्र 5 दो अलग-अलग सेटिंग्स में सिंथेटिक डेटा उत्पन्न करने में लगने वाले समय को दर्शाता है। इनमें से पहला (यहां बिना जीपीयू के रूप में संदर्भित), 16 गीगाहर्ट्ज़ पर चलने वाले 2.20 कोर वाले इंटेल ज़ीऑन सीपीयू के साथ सिस्टम पर परीक्षण रन थे। "GPU के साथ चलाया गया" के रूप में चिह्नित परीक्षण एक AMD Ryzen 9 7945HX CPU के साथ 16GHz पर चलने वाले 2.5 कोर और एक NVIDIA GeForce RTX 4070 लैपटॉप GPU वाले सिस्टम पर थे। जैसा कि चित्र 2 और नीचे तालिका 2 में ध्यान देने योग्य है, यह देखा जा सकता है कि सिंथो सिंथेटिक डेटा (दोनों परिदृश्यों में) उत्पन्न करने में काफी तेज है जो गतिशील वर्कफ़्लो में महत्वपूर्ण है। 

          जीपीयू के साथ और उसके बिना प्रत्येक मॉडल के साथ 1 मिलियन डेटापॉइंट के सिंथेटिक डेटा जेनरेशन में लगने वाले समय को दर्शाने वाली एक तालिका

          तालिका 5. इसमें लगे समय का सारणीबद्ध प्रतिनिधित्व सिंथेटिक डेटा पीढ़ी जीपीयू के साथ और उसके बिना प्रत्येक मॉडल के साथ दस लाख डेटाप्वाइंट 

          समापन टिप्पणियाँ और भविष्य की दिशाएँ 

          निष्कर्ष सही सिंथेटिक डेटा उत्पादन विधि चुनने में संपूर्ण गुणवत्ता मूल्यांकन के महत्व को रेखांकित करते हैं। सिंथो का इंजन, अपने एआई-संचालित दृष्टिकोण के साथ, कुछ मेट्रिक्स में उल्लेखनीय ताकत प्रदर्शित करता है, जबकि एसडीवी जैसे ओपन-सोर्स टूल अपनी बहुमुखी प्रतिभा और समुदाय-संचालित सुधारों में चमकते हैं। 

          जैसे-जैसे सिंथेटिक डेटा का क्षेत्र विकसित हो रहा है, हम आपको इन मेट्रिक्स को अपनी परियोजनाओं में लागू करने, उनकी जटिलताओं का पता लगाने और अपने अनुभव साझा करने के लिए प्रोत्साहित करते हैं। भविष्य की पोस्टों के लिए बने रहें जहां हम अन्य मेट्रिक्स में गहराई से उतरेंगे और उनके अनुप्रयोग के वास्तविक दुनिया के उदाहरणों पर प्रकाश डालेंगे। 

          दिन के अंत में, जो लोग सिंथेटिक डेटा पर पानी का परीक्षण करना चाहते हैं, उनके लिए प्रस्तुत ओपन-सोर्स विकल्प पहुंच को देखते हुए एक उचित विकल्प हो सकता है; हालाँकि, इस आधुनिक तकनीक को अपनी विकास प्रक्रिया में शामिल करने वाले पेशेवरों के लिए, सुधार के किसी भी अवसर का लाभ उठाया जाना चाहिए और सभी बाधाओं से बचा जाना चाहिए। इसलिए उपलब्ध सर्वोत्तम विकल्प चुनना महत्वपूर्ण है। ऊपर दिए गए विश्लेषणों से यह स्पष्ट हो जाता है कि सिंथो और उसके साथ सिंथो इंजन अभ्यासकर्ताओं के लिए एक बहुत ही सक्षम उपकरण है। 

          Syntho . के बारे में

          सिंथो एक स्मार्ट सिंथेटिक डेटा जेनरेशन प्लेटफ़ॉर्म प्रदान करता है, जो कई सिंथेटिक डेटा फॉर्म और जेनरेशन विधियों का लाभ उठाता है, संगठनों को डेटा को प्रतिस्पर्धी बढ़त में बुद्धिमानी से बदलने के लिए सशक्त बनाता है। हमारा एआई-जनरेटेड सिंथेटिक डेटा मूल डेटा के सांख्यिकीय पैटर्न की नकल करता है, सटीकता, गोपनीयता और गति सुनिश्चित करता है, जैसा कि एसएएस जैसे बाहरी विशेषज्ञों द्वारा मूल्यांकन किया गया है। स्मार्ट डी-आइडेंटिफिकेशन फीचर्स और लगातार मैपिंग के साथ, संदर्भात्मक अखंडता को संरक्षित करते हुए संवेदनशील जानकारी सुरक्षित की जाती है। हमारा प्लेटफ़ॉर्म लक्षित परिदृश्यों के लिए नियम-आधारित सिंथेटिक डेटा उत्पादन विधियों का उपयोग करके, गैर-उत्पादन वातावरणों के लिए परीक्षण डेटा के निर्माण, प्रबंधन और नियंत्रण को सक्षम बनाता है। इसके अतिरिक्त, उपयोगकर्ता प्रोग्रामेटिक रूप से सिंथेटिक डेटा उत्पन्न कर सकते हैं और आसानी से व्यापक परीक्षण और विकास परिदृश्य विकसित करने के लिए यथार्थवादी परीक्षण डेटा प्राप्त कर सकते हैं।  

          क्या आप सिंथेटिक डेटा के अधिक व्यावहारिक अनुप्रयोग सीखना चाहते हैं? करने के लिए स्वतंत्र महसूस शेड्यूल डेमो!

          लेखक के बारे में

          सॉफ्टवेयर इंजीनियरिंग इंटर्न

          रोहam डेल्फ़्ट यूनिवर्सिटी ऑफ़ टेक्नोलॉजी में स्नातक छात्र है और सॉफ्टवेयर इंजीनियरिंग इंटर्न है सिंथो 

          मशीन सीखना अभियंता

          मिहाई ने अपनी पीएचडी हासिल की रोबोटिक्स पर लागू पदानुक्रमित सुदृढीकरण सीखने के विषय पर ब्रिस्टल विश्वविद्यालय और एक है मशीन लर्निंग इंजीनियर एt सिंथो. 

          सिंथो गाइड कवर

          अपनी सिंथेटिक डेटा गाइड अभी सेव करें!