क्लासिक गुमनामी (और छद्म नाम) का परिणाम अनाम डेटा में क्यों नहीं होता है

क्लासिक गुमनामी क्या है?

क्लासिक गुमनामी के साथ, हम उन सभी पद्धतियों को लागू करते हैं जहां कोई व्यक्ति वापस व्यक्तियों का पता लगाने में बाधा डालने के लिए मूल डेटासेट में हेरफेर या विकृत करता है।

क्लासिक गुमनामी के विशिष्ट उदाहरण जो हम व्यवहार में देखते हैं, वे हैं सामान्यीकरण, दमन / पोंछना, छद्म नाम और पंक्ति और स्तंभ फेरबदल।

इसके द्वारा उन तकनीकों को इसी उदाहरण के साथ।

तकनीक मूल डेटा हेरफेर किया गया डेटा
सामान्यीकरण 27 साल पुराना है 25 से 30 साल के बीच
दमन / पोंछना जानकारी@सिंथो.एआई xxxx@xxxxxx.xx
छद्मनामीकरण एम्स्टर्डम hVFD6td3jdHHj78ghdgrewui6
पंक्ति और स्तंभ फेरबदल निरपेक्ष फेरबदल

क्लासिक गुमनामी के नुकसान क्या हैं?

क्लासिक अनामीकरण तकनीकों के साथ डेटासेट में हेरफेर करने से 2 प्रमुख नुकसान होते हैं:

  1. डेटासेट को विकृत करने से डेटा गुणवत्ता (यानी डेटा उपयोगिता) में कमी आती है। यह क्लासिक कचरा-कचरा-बाहर सिद्धांत का परिचय देता है।
  2. गोपनीयता जोखिम कम हो जाएगा, लेकिन हमेशा उपस्थित रहेंगे. यह 1-1 संबंधों के साथ मूल डेटासेट के संस्करण में रहता है और हेरफेर करता है।

हम उन 2 प्रमुख नुकसानों, डेटा उपयोगिता और गोपनीयता सुरक्षा को प्रदर्शित करते हैं। हम इसे निम्नलिखित उदाहरण के साथ लागू दमन और सामान्यीकरण के साथ करते हैं।

नोट: हम चित्र का उपयोग दृष्टांत उद्देश्यों के लिए करते हैं। संरचित डेटासेट के लिए भी यही सिद्धांत लागू होता है।

क्लासिक अनामीकरण विफल रहता है
  • बाएं: एक प्रतिनिधि चित्रण में क्लासिक गुमनामी के परिणाम का थोड़ा सा आवेदन। हालांकि, व्यक्ति को आसानी से पहचाना जा सकता है और गोपनीयता जोखिम महत्वपूर्ण है।

 

  • सही: क्लासिक गुमनामी के गंभीर अनुप्रयोग के परिणामस्वरूप मजबूत गोपनीयता सुरक्षा प्राप्त होती है। हालाँकि, चित्रण बेकार हो जाता है।

क्लासिक गुमनामी तकनीक डेटा-उपयोगिता और गोपनीयता सुरक्षा के बीच एक उप-इष्टतम संयोजन प्रदान करती है।

यह डेटा उपयोगिता और गोपनीयता सुरक्षा के बीच व्यापार-बंद का परिचय देता है, जहां क्लासिक अनामीकरण तकनीक हमेशा दोनों का एक उप-संयोजन प्रदान करती है। 

क्लासिक अनामीकरण उपयोगिता वक्र

क्या डेटासेट से सभी प्रत्यक्ष पहचानकर्ताओं (जैसे नाम) को हटाना एक समाधान है?

नहीं, यह एक बड़ी ग़लतफ़हमी है और इसका परिणाम अनाम डेटा में नहीं होता है। क्या आप अभी भी इसे अपने डेटासेट को गुमनाम करने के तरीके के रूप में लागू करते हैं? तो यह ब्लॉग आपके लिए अवश्य पढ़ें।

सिंथेटिक डेटा कैसे अलग है?

सिंथो ताजा डेटा रिकॉर्ड का एक पूरी तरह से नया डेटासेट बनाने के लिए सॉफ्टवेयर विकसित करता है। वास्तविक व्यक्तियों की पहचान करने की जानकारी सिंथेटिक डेटासेट में मौजूद नहीं है। चूंकि सिंथेटिक डेटा में सॉफ़्टवेयर द्वारा उत्पन्न कृत्रिम डेटा रिकॉर्ड होते हैं, व्यक्तिगत डेटा बस मौजूद नहीं होता है जिसके परिणामस्वरूप ऐसी स्थिति होती है जिसमें कोई गोपनीयता जोखिम नहीं होता है।

सिंथो में मुख्य अंतर: हम मशीन लर्निंग को लागू करते हैं। नतीजतन, हमारा समाधान सिंथेटिक डेटासेट में मूल डेटासेट की संरचना और गुणों को पुन: पेश करता है जिसके परिणामस्वरूप अधिकतम डेटा-उपयोगिता होती है। तदनुसार, आप मूल डेटा के उपयोग की तुलना में सिंथेटिक डेटा का विश्लेषण करते समय समान परिणाम प्राप्त करने में सक्षम होंगे।

यह केस स्टडी मूल डेटा की तुलना में हमारे सिंथो इंजन के माध्यम से उत्पन्न सिंथेटिक डेटा से विभिन्न आंकड़ों वाली हमारी गुणवत्ता रिपोर्ट से हाइलाइट प्रदर्शित करता है।

अंत में, सिंथेटिक डेटा डेटा-उपयोगिता और गोपनीयता-सुरक्षा के बीच विशिष्ट उप-इष्टतम व्यापार-बंद को दूर करने के लिए पसंदीदा समाधान है, जो कि सभी क्लासिक गुमनामी तकनीकें आपको प्रदान करती हैं।

क्लासिक अनामीकरण उपयोगिता वक्र

तो, जब आप सिंथेटिक डेटा का उपयोग कर सकते हैं तो वास्तविक (संवेदनशील) डेटा का उपयोग क्यों करें?

अंत में, डेटा-उपयोगिता और गोपनीयता सुरक्षा के दृष्टिकोण से, जब आपका उपयोग-मामला ऐसा करने की अनुमति देता है, तो किसी को हमेशा सिंथेटिक डेटा का विकल्प चुनना चाहिए।

 विश्लेषण के लिए मूल्यगोपनीयता जोखिम
सिंथेटिक डेटाहाईकोई नहीं
वास्तविक (व्यक्तिगत) डेटाहाईहाई
हेरफेर किया गया डेटा (क्लासिक 'गुमनामीकरण' के माध्यम से)न्यून मध्यमउच्च माध्यम
विचार

सिंथो द्वारा सिंथेटिक डेटा उन अंतरालों को भरता है जहां क्लासिक अनामीकरण तकनीक दोनों को अधिकतम करके कम हो जाती है डेटा-उपयोगिता और एकान्तता सुरक्षा.

रुचि रखते हैं?

हमारे साथ सिंथेटिक डेटा के अतिरिक्त मूल्य का अन्वेषण करें