सामान्य प्रश्न

सिंथेटिक डेटा के बारे में अक्सर पूछे जाने वाले प्रश्न

समझ में आता है! सौभाग्य से, हमारे पास उत्तर हैं और हम यहां मदद करने के लिए हैं। हमारे अक्सर पूछे जाने वाले प्रश्नों की जाँच करें।

कृपया नीचे एक प्रश्न खोलें और अधिक जानकारी प्राप्त करने के लिए लिंक पर क्लिक करें। एक अधिक जटिल प्रश्न है जो यहां नहीं बताया गया है? सीधे हमारे विशेषज्ञों से पूछें!

सबसे ज्यादा पूछे जाने वाले प्रश्न

सिंथेटिक डेटा उस डेटा को संदर्भित करता है जो वास्तविक दुनिया के स्रोतों से एकत्र किए जाने के बजाय कृत्रिम रूप से उत्पन्न होता है। सामान्य तौर पर, जबकि मूल डेटा व्यक्तियों (ग्राहकों, रोगियों, आदि) के साथ आपकी सभी बातचीत में एकत्र किया जाता है और आपकी सभी आंतरिक प्रक्रियाओं के माध्यम से, सिंथेटिक डेटा एक कंप्यूटर एल्गोरिथम द्वारा उत्पन्न होता है।

सिंथेटिक डेटा का उपयोग नियंत्रित वातावरण में मॉडल का परीक्षण और मूल्यांकन करने के लिए भी किया जा सकता है, या वास्तविक दुनिया के डेटा के समान डेटा उत्पन्न करके संवेदनशील जानकारी की रक्षा के लिए किया जा सकता है, लेकिन इसमें कोई संवेदनशील जानकारी नहीं है। सिंथेटिक डेटा का उपयोग अक्सर गोपनीयता संवेदनशील डेटा के विकल्प के रूप में किया जाता है और इसका उपयोग एनालिटिक्स के लिए या मशीन लर्निंग को प्रशिक्षित करने के लिए टेस्टडेटा के रूप में किया जा सकता है।

अधिक पढ़ें

यह गारंटी देना कि सिंथेटिक डेटा में वही डेटा गुणवत्ता होती है जो मूल डेटा चुनौतीपूर्ण हो सकता है, और अक्सर विशिष्ट उपयोग के मामले और सिंथेटिक डेटा उत्पन्न करने के लिए उपयोग की जाने वाली विधियों पर निर्भर करता है। सिंथेटिक डेटा उत्पन्न करने के कुछ तरीके, जैसे कि जनरेटिव मॉडल, डेटा का उत्पादन कर सकते हैं जो मूल डेटा के समान है। मुख्य प्रश्न: इसे कैसे प्रदर्शित करें?

सिंथेटिक डेटा की गुणवत्ता सुनिश्चित करने के कुछ तरीके हैं:

  • हमारी डेटा गुणवत्ता रिपोर्ट के माध्यम से डेटा गुणवत्ता मेट्रिक्स: यह सुनिश्चित करने का एक तरीका है कि सिंथेटिक डेटा में मूल डेटा के समान डेटा गुणवत्ता हो, सिंथेटिक डेटा की मूल डेटा से तुलना करने के लिए डेटा गुणवत्ता मेट्रिक्स का उपयोग करना है। इन मेट्रिक्स का उपयोग डेटा की समानता, सटीकता और पूर्णता जैसी चीजों को मापने के लिए किया जा सकता है। सिंथो सॉफ्टवेयर में विभिन्न डेटा गुणवत्ता मेट्रिक्स के साथ एक डेटा गुणवत्ता रिपोर्ट शामिल थी.
  • बाहरी मूल्यांकन: चूंकि मूल डेटा की तुलना में सिंथेटिक डेटा की डेटा गुणवत्ता महत्वपूर्ण है, इसलिए हमने हाल ही में वास्तविक डेटा की तुलना में सिंथो द्वारा सिंथेटिक डेटा की डेटा गुणवत्ता प्रदर्शित करने के लिए एसएएस (एनालिटिक्स में मार्केट लीडर) के डेटा विशेषज्ञों के साथ एक आकलन किया। एसएएस के एनालिटिक्स विशेषज्ञ एडविन वैन उनेन ने विभिन्न एनालिटिक्स (एआई) आकलन के माध्यम से सिंथो से उत्पन्न सिंथेटिक डेटासेट का मूल्यांकन किया और परिणामों को साझा किया। यहां देखें उस वीडियो का एक छोटा सा रिकैप.
  • परीक्षण और मूल्यांकन अपने आप से: वास्तविक दुनिया के डेटा से तुलना करके या मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए इसका उपयोग करके और वास्तविक दुनिया के डेटा पर प्रशिक्षित मॉडल के प्रदर्शन की तुलना करके सिंथेटिक डेटा का परीक्षण और मूल्यांकन किया जा सकता है। सिंथेटिक डेटा की डेटा गुणवत्ता का परीक्षण स्वयं क्यों नहीं करते? इसकी संभावनाओं के बारे में हमारे विशेषज्ञों से यहां पूछें

यह ध्यान रखना महत्वपूर्ण है कि सिंथेटिक डेटा कभी भी मूल डेटा के 100% समान होने की गारंटी नहीं दे सकता है, लेकिन यह एक विशिष्ट उपयोग के मामले में उपयोगी होने के लिए काफी करीब हो सकता है। यह विशिष्ट उपयोग मामला उन्नत विश्लेषिकी या प्रशिक्षण मशीन लर्निंग मॉडल भी हो सकता है।

क्लासिक 'गुमनामी' हमेशा सबसे अच्छा समाधान नहीं होता है, क्योंकि:

  1. गोपनीयता जोखिम - आपके पास हमेशा रहेगा
    एक गोपनीयता जोखिम। उनको लागू करना
    क्लासिक गुमनामीकरण तकनीक
    इसे केवल कठिन बनाता है, लेकिन नहीं
    व्यक्तियों की पहचान करना असंभव है।
  2. डेटा नष्ट करना - जितना अधिक आप
    गुमनाम, बेहतर आप रक्षा करते हैं
    आपकी गोपनीयता, लेकिन जितना अधिक आप
    अपना डेटा नष्ट करें। यह क्या नहीं है
    आप एनालिटिक्स के लिए चाहते हैं, क्योंकि
    नष्ट किए गए डेटा का परिणाम खराब होगा
    अंतर्दृष्टि।
  3. बहुत अधिक समय लेने वाला - यह एक उपाय है
    इसमें बहुत समय लगता है, क्योंकि
    वे तकनीकें अलग काम करती हैं
    प्रति डेटासेट और प्रति डेटाटाइप।

सिंथेटिक डेटा का उद्देश्य इन सभी कमियों को दूर करना है। अंतर इतना स्पष्ट है कि हमने इसके बारे में एक वीडियो बनाया है। इसे यहाँ देखें.

आम सवाल-जवाब

सिंथेटिक डेटा

आम तौर पर, हमारे अधिकांश ग्राहक निम्नलिखित के लिए सिंथेटिक डेटा का उपयोग करते हैं:

  • सॉफ्टवेयर परीक्षण और विकास
  • एनालिटिक्स, मॉडल डेवलपमेंट और एडवांस्ड एनालिटिक्स (एआई और एमएल) के लिए सिंथेटिक डेटा
  • उत्पाद डेमो

अधिक पढ़ें और उपयोग के मामलों का अन्वेषण करें.

एक सिंथेटिक डेटा ट्विन एक वास्तविक दुनिया डेटासेट और / या डेटाबेस की एल्गोरिथम-जनित प्रतिकृति है। सिंथेटिक डेटा ट्विन के साथ, सिंथो का उद्देश्य मूल डेटासेट या डेटाबेस की नकल करना है, जो मूल डेटा के जितना संभव हो उतना करीब है ताकि मूल का यथार्थवादी प्रतिनिधित्व तैयार किया जा सके। सिंथेटिक डेटा ट्विन के साथ, हम मूल डेटा की तुलना में बेहतर सिंथेटिक डेटा गुणवत्ता का लक्ष्य रखते हैं। हम ऐसा अपने सिंथेटिक डेटा सॉफ़्टवेयर के साथ करते हैं जो अत्याधुनिक AI मॉडल का उपयोग करता है। वे एआई मॉडल पूरी तरह से नए डेटा बिंदु उत्पन्न करते हैं और उन्हें इस तरह से मॉडल करते हैं कि हम मूल डेटा की विशेषताओं, संबंधों और सांख्यिकीय पैटर्न को इस हद तक संरक्षित करते हैं कि आप इसका उपयोग कर सकते हैं जैसे कि यह मूल डेटा है।

इसका उपयोग विभिन्न उद्देश्यों के लिए किया जा सकता है, जैसे मशीन लर्निंग मॉडल का परीक्षण और प्रशिक्षण, अनुसंधान और विकास के लिए परिदृश्यों का अनुकरण करना और प्रशिक्षण और शिक्षा के लिए आभासी वातावरण बनाना। सिंथेटिक डेटा जुड़वाँ का उपयोग यथार्थवादी और प्रतिनिधि डेटा बनाने के लिए किया जा सकता है जो वास्तविक दुनिया डेटा के स्थान पर उपयोग किया जा सकता है जब यह उपलब्ध नहीं है या वास्तविक दुनिया डेटा का उपयोग करते समय सख्त डेटा गोपनीयता नियमों के कारण अव्यावहारिक या अनैतिक होगा।

अधिक पढ़ें।

हाँ हम करते हैं। हम आपके डेटा को अगले स्तर पर ले जाने के लिए मॉकर्स सहित विभिन्न मूल्य-वर्धित सिंथेटिक डेटा अनुकूलन और वृद्धि सुविधाएँ प्रदान करते हैं।

अधिक पढ़ें।

नकली डेटा और एआई-जनित सिंथेटिक डेटा दोनों प्रकार के सिंथेटिक डेटा हैं, लेकिन वे अलग-अलग तरीकों से उत्पन्न होते हैं और विभिन्न उद्देश्यों की पूर्ति करते हैं।

नकली डेटा एक प्रकार का सिंथेटिक डेटा है जो मैन्युअल रूप से बनाया जाता है और अक्सर परीक्षण और विकास उद्देश्यों के लिए उपयोग किया जाता है। यह आमतौर पर एक नियंत्रित वातावरण में वास्तविक दुनिया के डेटा के व्यवहार का अनुकरण करने के लिए उपयोग किया जाता है और अक्सर सिस्टम या एप्लिकेशन की कार्यक्षमता का परीक्षण करने के लिए उपयोग किया जाता है। यह अक्सर सरल, उत्पन्न करने में आसान होता है और इसके लिए जटिल मॉडल या एल्गोरिदम की आवश्यकता नहीं होती है। अक्सर, एक रेफरर डेटा को "डमी डेटा" या "फर्जी डेटा" के रूप में मॉक करता है।

दूसरी ओर, एआई-जनित सिंथेटिक डेटा, मशीन लर्निंग या जनरेटिव मॉडल जैसी कृत्रिम बुद्धिमत्ता तकनीकों का उपयोग करके उत्पन्न होता है। इसका उपयोग यथार्थवादी और प्रतिनिधि डेटा बनाने के लिए किया जाता है जिसका उपयोग वास्तविक दुनिया डेटा के स्थान पर किया जा सकता है जब वास्तविक दुनिया डेटा का उपयोग सख्त गोपनीयता नियमों के कारण अव्यावहारिक या अनैतिक होगा। यह अक्सर अधिक जटिल होता है और मैन्युअल मॉक डेटा की तुलना में अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। नतीजतन, यह अधिक यथार्थवादी है और जितना संभव हो उतना करीब मूल डेटा की नकल करता है।

संक्षेप में, मॉक डेटा मैन्युअल रूप से बनाया जाता है और आमतौर पर परीक्षण और विकास के लिए उपयोग किया जाता है, जबकि एआई-जनित सिंथेटिक डेटा कृत्रिम बुद्धिमत्ता तकनीकों का उपयोग करके बनाया जाता है और इसका उपयोग प्रतिनिधि और यथार्थवादी डेटा बनाने के लिए किया जाता है।

अधिक प्रश्न? हमारे विशेषज्ञों से पूछें

डेटा की गुणवत्ता

यह गारंटी देना कि सिंथेटिक डेटा में वही डेटा गुणवत्ता होती है जो मूल डेटा चुनौतीपूर्ण हो सकता है, और अक्सर विशिष्ट उपयोग के मामले और सिंथेटिक डेटा उत्पन्न करने के लिए उपयोग की जाने वाली विधियों पर निर्भर करता है। सिंथेटिक डेटा उत्पन्न करने के कुछ तरीके, जैसे कि जनरेटिव मॉडल, डेटा का उत्पादन कर सकते हैं जो मूल डेटा के समान है। मुख्य प्रश्न: इसे कैसे प्रदर्शित करें?

सिंथेटिक डेटा की गुणवत्ता सुनिश्चित करने के कुछ तरीके हैं:

  • हमारी डेटा गुणवत्ता रिपोर्ट के माध्यम से डेटा गुणवत्ता मेट्रिक्स: यह सुनिश्चित करने का एक तरीका है कि सिंथेटिक डेटा में मूल डेटा के समान डेटा गुणवत्ता हो, सिंथेटिक डेटा की मूल डेटा से तुलना करने के लिए डेटा गुणवत्ता मेट्रिक्स का उपयोग करना है। इन मेट्रिक्स का उपयोग डेटा की समानता, सटीकता और पूर्णता जैसी चीजों को मापने के लिए किया जा सकता है। सिंथो सॉफ्टवेयर में विभिन्न डेटा गुणवत्ता मेट्रिक्स के साथ एक डेटा गुणवत्ता रिपोर्ट शामिल थी.
  • बाहरी मूल्यांकन: चूंकि मूल डेटा की तुलना में सिंथेटिक डेटा की डेटा गुणवत्ता महत्वपूर्ण है, इसलिए हमने हाल ही में वास्तविक डेटा की तुलना में सिंथो द्वारा सिंथेटिक डेटा की डेटा गुणवत्ता प्रदर्शित करने के लिए एसएएस (एनालिटिक्स में मार्केट लीडर) के डेटा विशेषज्ञों के साथ एक आकलन किया। एसएएस के एनालिटिक्स विशेषज्ञ एडविन वैन उनेन ने विभिन्न एनालिटिक्स (एआई) आकलन के माध्यम से सिंथो से उत्पन्न सिंथेटिक डेटासेट का मूल्यांकन किया और परिणामों को साझा किया। यहां देखें उस वीडियो का एक छोटा सा रिकैप.
  • परीक्षण और मूल्यांकन अपने आप से: वास्तविक दुनिया के डेटा से तुलना करके या मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए इसका उपयोग करके और वास्तविक दुनिया के डेटा पर प्रशिक्षित मॉडल के प्रदर्शन की तुलना करके सिंथेटिक डेटा का परीक्षण और मूल्यांकन किया जा सकता है। सिंथेटिक डेटा की डेटा गुणवत्ता का परीक्षण स्वयं क्यों नहीं करते? इसकी संभावनाओं के बारे में हमारे विशेषज्ञों से यहां पूछें

यह ध्यान रखना महत्वपूर्ण है कि सिंथेटिक डेटा कभी भी मूल डेटा के 100% समान होने की गारंटी नहीं दे सकता है, लेकिन यह एक विशिष्ट उपयोग के मामले में उपयोगी होने के लिए काफी करीब हो सकता है। यह विशिष्ट उपयोग मामला उन्नत विश्लेषिकी या प्रशिक्षण मशीन लर्निंग मॉडल भी हो सकता है।

हाँ यही है। सिंथेटिक डेटा में ऐसे पैटर्न भी होते हैं जिनके बारे में आपको पता नहीं था कि वे मूल डेटा में मौजूद थे।

लेकिन इसके लिए सिर्फ हमारी बात न लें। एसएएस (एनालिटिक्स में ग्लोबल मार्केट लीडर) के एनालिटिक्स विशेषज्ञों ने हमारे सिंथेटिक डेटा का (एआई) आकलन किया और इसकी तुलना मूल डेटा से की। जिज्ञासु? देखें यहां पूरी घटना या इसके बारे में संक्षिप्त संस्करण देखें यहाँ डेटा गुणवत्ता.

हाँ हम करते हैं। हमारा प्लेटफ़ॉर्म डेटाबेस के लिए अनुकूलित है और इसके परिणामस्वरूप, डेटासेट में डेटासेट के बीच संदर्भित अखंडता का संरक्षण।

इसके बारे में और जानने के लिए उत्सुक हैं?

सीधे हमारे विशेषज्ञों से पूछें.

निजता

नहीं हम नहीं करते। हम सिंथो इंजन को ऑन-प्रिमाइसेस या डॉकर के माध्यम से आपके निजी क्लाउड में आसानी से परिनियोजित कर सकते हैं।

नहीं। हमने अपने प्लेटफॉर्म को इस तरह से अनुकूलित किया है कि इसे ग्राहक के विश्वसनीय वातावरण में आसानी से तैनात किया जा सके। यह सुनिश्चित करता है कि डेटा ग्राहक के विश्वसनीय वातावरण को कभी नहीं छोड़ेगा। ग्राहक के विश्वसनीय वातावरण के लिए परिनियोजन विकल्प "ऑन-प्रिमाइसेस" और "ग्राहक के क्लाउड वातावरण (निजी क्लाउड)" में हैं।

वैकल्पिक: सिंथो "सिंथो क्लाउड" में होस्ट किए गए संस्करण का समर्थन करता है।

नहीं। सिंथो इंजन एक सेल्फ-सर्विस प्लेटफॉर्म है। नतीजतन, सिंथो इंजन के साथ सिंथेटिक डेटा उत्पन्न करना एक तरह से संभव है end-to-end प्रक्रिया, सिंथो कभी भी देखने में सक्षम नहीं है और न ही डेटा को संसाधित करने की आवश्यकता है।

हाँ, हम ऐसा अपनी क्यूए रिपोर्ट के माध्यम से करते हैं।

 

डेटासेट का संश्लेषण करते समय, यह प्रदर्शित करना आवश्यक है कि कोई व्यक्तियों की फिर से पहचान करने में सक्षम नहीं है। में इस वीडियो, मैरिजन गोपनीयता उपायों का परिचय देता है जो इसे प्रदर्शित करने के लिए हमारी गुणवत्ता रिपोर्ट में हैं।

सिंथो की क्यूए रिपोर्ट में तीन शामिल हैं उद्योग संबंधी मानक डेटा गोपनीयता के मूल्यांकन के लिए मेट्रिक्स। इनमें से प्रत्येक मेट्रिक्स के पीछे विचार इस प्रकार है:

  • सिंथेटिक डेटा (S) "जितना संभव हो उतना करीब" होगा, लेकिन लक्ष्य डेटा के "बहुत करीब नहीं" होगा (T).
  • यादृच्छिक रूप से चयनित होल्डआउट डेटा (H) "बहुत करीब" के लिए बेंचमार्क निर्धारित करता है।
  • A सही समाधान नया सिंथेटिक डेटा उत्पन्न करता है जो बिल्कुल मूल डेटा की तरह व्यवहार करता है, लेकिन पहले नहीं देखा गया है (= H).

डच डेटा प्रोटेक्शन अथॉरिटी द्वारा विशेष रूप से हाइलाइट किए गए उपयोग मामलों में से एक परीक्षण डेटा के रूप में सिंथेटिक डेटा का उपयोग कर रहा है।

अधिक इस लेख में पाया जा सकता है।

सिंथो इंजन

सिंथो इंजन को डॉकर कंटेनर में भेज दिया जाता है और इसे आसानी से तैनात किया जा सकता है और आपकी पसंद के वातावरण में प्लग किया जा सकता है।

संभावित परिनियोजन विकल्पों में शामिल हैं:

  • ऑन-प्रिमाइसेस
  • कोई भी (निजी) बादल
  • कोई अन्य वातावरण

अधिक पढ़ें.

सिंथो आपको अपने डेटाबेस, एप्लिकेशन, डेटा पाइपलाइन या फ़ाइल सिस्टम से आसानी से जुड़ने में सक्षम बनाता है। 

हम विभिन्न एकीकृत कनेक्टर्स का समर्थन करते हैं ताकि आप एक के लिए स्रोत-पर्यावरण (जहां मूल डेटा संग्रहीत किया जाता है) और गंतव्य वातावरण (जहां आप अपना सिंथेटिक डेटा लिखना चाहते हैं) से जुड़ सकें। end-to-end एकीकृत दृष्टिकोण।

कनेक्शन सुविधाएँ जिनका हम समर्थन करते हैं:

  • डॉकर के साथ प्लग-एंड-प्ले
  • 20+ डेटाबेस कनेक्टर
  • 20+ फाइल सिस्टम कनेक्टर

अधिक पढ़ें.

स्वाभाविक रूप से, पीढ़ी का समय डेटाबेस के आकार पर निर्भर करता है। औसतन, 1 मिलियन से कम रिकॉर्ड वाली तालिका को 5 मिनट से भी कम समय में संश्लेषित किया जाता है।

सिंथो के मशीन लर्निंग एल्गोरिदम अधिक इकाई रिकॉर्ड उपलब्ध होने के साथ सुविधाओं को बेहतर ढंग से सामान्यीकृत कर सकते हैं, जिससे गोपनीयता जोखिम कम हो जाता है। 1:500 के न्यूनतम स्तंभ-से-पंक्ति अनुपात की अनुशंसा की जाती है। उदाहरण के लिए, यदि आपकी स्रोत तालिका में 6 स्तंभ हैं, तो इसमें कम से कम 3000 पंक्तियाँ होनी चाहिए।

बिल्कुल नहीं। हालांकि सिंथेटिक डेटा के फायदे, कार्यप्रणाली और उपयोग के मामलों को पूरी तरह से समझने के लिए कुछ प्रयास करना पड़ सकता है, संश्लेषण की प्रक्रिया बहुत सरल है और बुनियादी कंप्यूटर ज्ञान वाला कोई भी व्यक्ति इसे कर सकता है। संश्लेषण प्रक्रिया के बारे में अधिक जानकारी के लिए देखें इस पृष्ठ or डेमो का अनुरोध करें.

सिंथो इंजन संरचित, सारणीबद्ध डेटा (कुछ भी जिसमें पंक्तियाँ और स्तंभ शामिल हैं) पर सबसे अच्छा काम करता है। इन संरचनाओं के भीतर, हम निम्नलिखित डेटा प्रकारों का समर्थन करते हैं:

  • तालिकाओं में स्वरूपित संरचना डेटा (श्रेणीबद्ध, संख्यात्मक, आदि)
  • प्रत्यक्ष पहचानकर्ता और PII
  • बड़े डेटासेट और डेटाबेस
  • भौगोलिक स्थान डेटा (जैसे GPS)
  • समय श्रृंखला डेटा
  • मल्टी-टेबल डेटाबेस (संदर्भात्मक अखंडता के साथ)
  • टेक्स्ट डेटा खोलें

 

जटिल डेटा समर्थन
सभी नियमित प्रकार के सारणीबद्ध डेटा के आगे, सिंथो इंजन जटिल डेटा प्रकारों और जटिल डेटा संरचनाओं का समर्थन करता है।

  • समय श्रृंखला
  • मल्टी-टेबल डेटाबेस
  • पाठ खोलें

अधिक पढ़ें.

नहीं, हमने डेटा सटीकता से समझौता किए बिना कम्प्यूटेशनल आवश्यकताओं (जैसे जीपीयू की आवश्यकता नहीं) को कम करने के लिए अपने प्लेटफॉर्म को अनुकूलित किया। इसके अलावा, हम ऑटो स्केलिंग का समर्थन करते हैं, ताकि कोई विशाल डेटाबेस को संश्लेषित कर सके।

हाँ। सिंथो सॉफ्टवेयर कई तालिकाओं वाले डेटाबेस के लिए अनुकूलित है।

इसके लिए, डेटा सटीकता को अधिकतम करने के लिए सिंथो स्वचालित रूप से डेटा प्रकार, स्कीमा और प्रारूपों का पता लगाता है। मल्टी-टेबल डेटाबेस के लिए, हम संदर्भित अखंडता को बनाए रखने के लिए स्वचालित तालिका संबंध अनुमान और संश्लेषण का समर्थन करते हैं।

मुस्कुराते हुए लोगों का समूह

डेटा कृत्रिम है, लेकिन हमारी टीम वास्तविक है!

संपर्क सिंथो और हमारे विशेषज्ञों में से एक सिंथेटिक डेटा के मूल्य का पता लगाने के लिए प्रकाश की गति से आपसे संपर्क करेगा!