क्लासिक गुमनामी के साथ, हम उन सभी पद्धतियों को लागू करते हैं जहां कोई व्यक्ति वापस व्यक्तियों का पता लगाने में बाधा डालने के लिए मूल डेटासेट में हेरफेर या विकृत करता है।
क्लासिक गुमनामी के विशिष्ट उदाहरण जो हम व्यवहार में देखते हैं, वे हैं सामान्यीकरण, दमन / पोंछना, छद्म नाम और पंक्ति और स्तंभ फेरबदल।
इसके द्वारा उन तकनीकों को इसी उदाहरण के साथ।
तकनीक | मूल डेटा | हेरफेर किया गया डेटा |
सामान्यीकरण | 27 साल पुराना है | 25 से 30 साल के बीच |
दमन / पोंछना | जानकारी@सिंथो.एआई | xxxx@xxxxxx.xx |
छद्मनामीकरण | एम्स्टर्डम | hVFD6td3jdHHj78ghdgrewui6 |
पंक्ति और स्तंभ फेरबदल | निरपेक्ष | फेरबदल |
क्लासिक अनामीकरण तकनीकों के साथ डेटासेट में हेरफेर करने से 2 प्रमुख नुकसान होते हैं:
हम उन 2 प्रमुख नुकसानों, डेटा उपयोगिता और गोपनीयता सुरक्षा को प्रदर्शित करते हैं। हम इसे निम्नलिखित उदाहरण के साथ लागू दमन और सामान्यीकरण के साथ करते हैं।
नोट: हम चित्र का उपयोग दृष्टांत उद्देश्यों के लिए करते हैं। संरचित डेटासेट के लिए भी यही सिद्धांत लागू होता है।
यह डेटा उपयोगिता और गोपनीयता सुरक्षा के बीच व्यापार-बंद का परिचय देता है, जहां क्लासिक अनामीकरण तकनीक हमेशा दोनों का एक उप-संयोजन प्रदान करती है।
नहीं, यह एक बड़ी ग़लतफ़हमी है और इसका परिणाम अनाम डेटा में नहीं होता है। क्या आप अभी भी इसे अपने डेटासेट को गुमनाम करने के तरीके के रूप में लागू करते हैं? तो यह ब्लॉग आपके लिए अवश्य पढ़ें।
सिंथो ताजा डेटा रिकॉर्ड का एक पूरी तरह से नया डेटासेट बनाने के लिए सॉफ्टवेयर विकसित करता है। वास्तविक व्यक्तियों की पहचान करने की जानकारी सिंथेटिक डेटासेट में मौजूद नहीं है। चूंकि सिंथेटिक डेटा में सॉफ़्टवेयर द्वारा उत्पन्न कृत्रिम डेटा रिकॉर्ड होते हैं, व्यक्तिगत डेटा बस मौजूद नहीं होता है जिसके परिणामस्वरूप ऐसी स्थिति होती है जिसमें कोई गोपनीयता जोखिम नहीं होता है।
सिंथो में मुख्य अंतर: हम मशीन लर्निंग को लागू करते हैं। नतीजतन, हमारा समाधान सिंथेटिक डेटासेट में मूल डेटासेट की संरचना और गुणों को पुन: पेश करता है जिसके परिणामस्वरूप अधिकतम डेटा-उपयोगिता होती है। तदनुसार, आप मूल डेटा के उपयोग की तुलना में सिंथेटिक डेटा का विश्लेषण करते समय समान परिणाम प्राप्त करने में सक्षम होंगे।
यह केस स्टडी मूल डेटा की तुलना में हमारे सिंथो इंजन के माध्यम से उत्पन्न सिंथेटिक डेटा से विभिन्न आंकड़ों वाली हमारी गुणवत्ता रिपोर्ट से हाइलाइट प्रदर्शित करता है।
अंत में, सिंथेटिक डेटा डेटा-उपयोगिता और गोपनीयता-सुरक्षा के बीच विशिष्ट उप-इष्टतम व्यापार-बंद को दूर करने के लिए पसंदीदा समाधान है, जो कि सभी क्लासिक गुमनामी तकनीकें आपको प्रदान करती हैं।
अंत में, डेटा-उपयोगिता और गोपनीयता सुरक्षा के दृष्टिकोण से, जब आपका उपयोग-मामला ऐसा करने की अनुमति देता है, तो किसी को हमेशा सिंथेटिक डेटा का विकल्प चुनना चाहिए।
विश्लेषण के लिए मूल्य | गोपनीयता जोखिम | |
सिंथेटिक डेटा | हाई | कोई नहीं |
वास्तविक (व्यक्तिगत) डेटा | हाई | हाई |
हेरफेर किया गया डेटा (क्लासिक 'गुमनामीकरण' के माध्यम से) | न्यून मध्यम | उच्च माध्यम |
सिंथो द्वारा सिंथेटिक डेटा उन अंतरालों को भरता है जहां क्लासिक अनामीकरण तकनीक दोनों को अधिकतम करके कम हो जाती है डेटा-उपयोगिता और एकान्तता सुरक्षा.