सिंथेटिक डेटा जनरेटरमधील उपयुक्तता आणि साम्य मूल्यमापन: एक तांत्रिक खोल डुबकी आणि तुलनात्मक विश्लेषण

प्रकाशित:
27 फेब्रुवारी 2024

परिचय

आजच्या डिजिटल युगात, डेटा गोपनीयतेची जाणीव लक्षणीयरीत्या वाढली आहे. वापरकर्ते त्यांचा डेटा एक अद्वितीय डिजिटल फिंगरप्रिंट म्हणून ओळखतात, ज्यामुळे डेटाचे उल्लंघन झाल्यास त्यांच्या गोपनीयतेला धोका निर्माण होतो. GDPR सारख्या नियमांद्वारे ही चिंता आणखी वाढवली जाते, जे वापरकर्त्यांना त्यांचा डेटा हटवण्याची विनंती करण्यास सक्षम करते. अत्यंत आवश्यक असताना, हा कायदा कंपन्यांसाठी खूप महाग असू शकतो कारण डेटाचा प्रवेश कमी केला जातो; निर्बंध ज्यांवर मात करण्यासाठी अनेकदा वेळ आणि संसाधने खर्ची पडतात. 

अनुक्रमणिका

सिंथेटिक डेटा जनरेटर काय आहेत?

सिंथेटिक डेटा एंटर करा, या प्रश्नावर उपाय. सिंथेटिक डेटा जनरेटर डेटासेट तयार करतात जे निनावीपणा आणि गोपनीयतेचे रक्षण करताना वास्तविक वापरकर्ता डेटाची नक्कल करतात. हा दृष्टिकोन सर्व उद्योगांमध्ये, आरोग्यसेवेपासून वित्तापर्यंत, जेथे गोपनीयता सर्वोपरि आहे.  

सिंथेटिक डेटा जनरेटरच्या मूल्यमापनावर लक्ष केंद्रित करून हे पोस्ट डेटा व्यावसायिक आणि उत्साही लोकांसाठी तयार केले आहे. आम्ही मुख्य मेट्रिक्सचा अभ्यास करू आणि सिंथोचे इंजिन आणि त्याचे ओपन-सोर्स पर्याय यांच्यातील तुलनात्मक विश्लेषण करू, सिंथेटिक डेटा निर्मितीच्या सोल्यूशनच्या गुणवत्तेचे प्रभावीपणे मूल्यांकन कसे करावे याबद्दल अंतर्दृष्टी देऊ. शिवाय, मॉडेल्सच्या कामकाजाविषयी अधिक अंतर्दृष्टी देण्यासाठी आम्ही या प्रत्येक मॉडेलच्या वेळेच्या खर्चाचे देखील मूल्यांकन करू. 

योग्य सिंथेटिक डेटा जनरेशन पद्धत कशी निवडावी?

सिंथेटिक डेटा निर्मितीच्या वैविध्यपूर्ण लँडस्केपमध्ये, अनेक पद्धती उपलब्ध आहेत, प्रत्येकजण त्याच्या अद्वितीय क्षमतेसह लक्ष वेधून घेतो. विशिष्ट अनुप्रयोगासाठी सर्वात योग्य पद्धत निवडण्यासाठी प्रत्येक पर्यायाच्या कार्यप्रदर्शन वैशिष्ट्यांची संपूर्ण माहिती असणे आवश्यक आहे. माहितीपूर्ण निर्णय घेण्यासाठी सु-परिभाषित मेट्रिक्सच्या सेटवर आधारित विविध सिंथेटिक डेटा जनरेटरचे सर्वसमावेशक मूल्यमापन आवश्यक आहे. 

सुप्रसिद्ध ओपन-सोर्स फ्रेमवर्क, सिंथेटिक डेटा व्हॉल्ट (SDV) सोबत सिंथो इंजिनचे कठोर तुलनात्मक विश्लेषण खालीलप्रमाणे आहे. या विश्लेषणामध्ये, आम्ही सांख्यिकीय निष्ठा, अंदाज अचूकता आणि इंटर-व्हेरिएबल रिलेशनशिप यासारख्या सामान्यतः वापरल्या जाणाऱ्या अनेक मेट्रिक्स वापरल्या. 

सिंथेटिक डेटा मूल्यांकन मेट्रिक्स

कोणत्याही विशिष्ट मेट्रिकची ओळख करून देण्यापूर्वी, आम्ही हे मान्य केले पाहिजे की सिंथेटिक डेटाचे मूल्यमापन करण्याबद्दल अनेक विचारधारा आहेत, ज्यापैकी प्रत्येक डेटाच्या विशिष्ट पैलूबद्दल अंतर्दृष्टी देते. हे लक्षात घेऊन, खालील तीन श्रेणी महत्त्वाच्या आणि सर्वसमावेशक आहेत. हे मेट्रिक्स डेटा गुणवत्तेच्या विविध पैलूंमध्ये अंतर्दृष्टी प्रदान करतात. या श्रेणी आहेत: 

      1. सांख्यिकीय निष्ठा मेट्रिक्स: सिंथेटिक डेटा मूळ डेटासेटच्या सांख्यिकीय प्रोफाइलशी संरेखित असल्याची खात्री करण्यासाठी डेटाच्या मूलभूत सांख्यिकीय वैशिष्ट्यांचे परीक्षण करणे, जसे की साधन आणि भिन्नता. 

        1. अंदाज अचूकता: सिंथेटिक डेटा जनरेशन मॉडेल कार्यप्रदर्शन, मूळ डेटासह प्रशिक्षित आणि सिंथेटिक डेटा (ट्रेन रिअल - टेस्ट सिंथेटिक, टीआरटीएस) आणि त्याउलट (ट्रेन सिंथेटिक - टेस्ट रिअल, टीएसटीआर) वर मूल्यांकन करणे. 

          1. आंतर-परिवर्तनीय संबंध: या एकत्रित श्रेणीमध्ये हे समाविष्ट आहे: 

            • वैशिष्ट्य सहसंबंध: सहसंबंध गुणांक वापरून सिंथेटिक डेटा व्हेरिएबल्समधील संबंध किती चांगले राखतो याचे आम्ही मूल्यांकन करतो. Propensity Mean Squared Error (PMSE) सारखे सुप्रसिद्ध मेट्रिक या प्रकारचे असेल. 

            • परस्पर माहिती: केवळ सहसंबंधांच्या पलीकडे असलेल्या या संबंधांची खोली समजून घेण्यासाठी आम्ही चलांमधील परस्पर अवलंबित्व मोजतो. 

          तुलनात्मक विश्लेषण: सिंथो इंजिन विरुद्ध मुक्त-स्रोत पर्याय

          सिंथो इंजिन आणि SDV मॉडेल्ससह सर्व मॉडेल्समध्ये प्रमाणित मूल्यमापन फ्रेमवर्क आणि समान चाचणी तंत्र वापरून तुलनात्मक विश्लेषण केले गेले. समान स्त्रोतांकडून डेटासेटचे संश्लेषण करून आणि त्यांना समान सांख्यिकीय चाचण्या आणि मशीन लर्निंग मॉडेल मूल्यांकनांच्या अधीन करून, आम्ही एक निष्पक्ष आणि निःपक्षपाती तुलना सुनिश्चित करतो. खालील विभाग प्रत्येक सिंथेटिक डेटा जनरेटरच्या कार्यप्रदर्शनाचा तपशील वर सादर केलेल्या मेट्रिक्सच्या श्रेणीमध्ये देतो.  

           

          मूल्यमापनासाठी वापरलेल्या डेटासेटसाठी, आम्ही वापरले UCI प्रौढ जनगणना डेटासेट जे मशीन लर्निंग समुदायातील एक सुप्रसिद्ध डेटासेट आहे. आम्ही सर्व प्रशिक्षणापूर्वी डेटा साफ केला आणि नंतर डेटासेट दोन सेटमध्ये विभाजित केला (एक प्रशिक्षण आणि चाचणीसाठी एक होल्डआउट सेट). आम्ही प्रत्येक मॉडेलसह 1 दशलक्ष नवीन डेटापॉइंट्स व्युत्पन्न करण्यासाठी प्रशिक्षण संच वापरला आणि या व्युत्पन्न केलेल्या डेटासेटवरील विविध मेट्रिक्सचे मूल्यमापन केले. पुढील मशीन लर्निंग मूल्यमापनासाठी, आम्ही TSTR आणि TRTS शी संबंधित मेट्रिक्सचे मूल्यांकन करण्यासाठी होल्डआउट सेटचा वापर केला.  

           

          प्रत्येक जनरेटर डीफॉल्ट पॅरामीटर्ससह चालविला गेला. सिंथो सारखी काही मॉडेल्स कोणत्याही टॅब्युलर डेटावर आउट-ऑफ-द-बॉक्स कार्य करू शकतात, कोणतेही उत्कृष्ट ट्यूनिंग केले गेले नाही. प्रत्येक मॉडेलसाठी योग्य हायपरपॅरामीटर्स शोधण्यासाठी बराच वेळ लागेल, आणि तक्ता 2 आधीच सिंथोच्या मॉडेल आणि विरुद्ध चाचणी केलेल्यांमध्ये बराच वेळ फरक दर्शवते. 

           

          हे लक्षात घेण्याजोगे आहे की SDV मधील उर्वरित मॉडेल्सच्या विरूद्ध, गॉसियन कोपुला सिंथेसायझर सांख्यिकीय पद्धतींवर आधारित आहे. याउलट, उर्वरित न्यूरल नेटवर्कवर आधारित आहेत जसे की जनरेटिव्ह ॲडव्हर्सरियल नेटवर्क (GAN) मॉडेल्स आणि व्हेरिएशनल ऑटो-एनकोडर. म्हणूनच गॉसियन कॉपुला चर्चा केलेल्या सर्व मॉडेल्ससाठी आधाररेखा म्हणून पाहिले जाऊ शकते. 

          परिणाम

          डेटा गुणवत्ता

          आकृती 1. सर्व मॉडेल्ससाठी मूलभूत गुणवत्ता परिणामांचे व्हिज्युअलायझेशन

          डेटामधील ट्रेंड आणि प्रतिनिधित्वांचे पूर्वी चर्चा केलेले पालन आकृती 1 आणि तक्ता 1 मध्ये आढळू शकते. येथे, वापरात असलेल्या प्रत्येक मेट्रिक्सचा खालीलप्रमाणे अर्थ लावला जाऊ शकतो:

          • एकूण गुणवत्ता स्कोअर: सांख्यिकीय समानता आणि डेटा वैशिष्ट्ये यासारख्या विविध पैलूंचे संयोजन करून कृत्रिम डेटाच्या गुणवत्तेचे एकूण मूल्यांकन. 
          • स्तंभ आकार: सिंथेटिक डेटा प्रत्येक स्तंभासाठी वास्तविक डेटा सारखाच वितरण आकार राखतो की नाही याचे मूल्यांकन करते. 
          • स्तंभ जोडी ट्रेंड: वास्तविक डेटाच्या तुलनेत सिंथेटिक डेटामधील स्तंभांच्या जोड्यांमधील संबंध किंवा सहसंबंधांचे मूल्यांकन करते. 
          •  

          एकंदरीत, हे लक्षात येते की सिंथोने संपूर्ण बोर्डात खूप उच्च गुण मिळवले आहेत. सुरुवातीला, एकूण डेटा गुणवत्तेकडे पाहताना (SDV मेट्रिक्स लायब्ररीद्वारे मूल्यमापन केलेले) Syntho 99% च्या वर परिणाम मिळवू शकते (स्तंभ आकार पालन 99.92% आणि स्तंभ जोडी आकार पालन 99.31%). असे असताना SDV ला जास्तीत जास्त 90.84% ​​परिणाम मिळतो (गॉसियन कोपुलासह, स्तंभ आकाराचे पालन 93.82% आणि स्तंभ जोडी आकाराचे पालन 87.86% आहे). 

          प्रति मॉडेल प्रत्येक जनरेट केलेल्या डेटासेटच्या गुणवत्तेच्या स्कोअरचे सारणीबद्ध प्रतिनिधित्व

          तक्ता 1. प्रति मॉडेल प्रत्येक व्युत्पन्न केलेल्या डेटासेटच्या गुणवत्तेच्या स्कोअरचे सारणीबद्ध प्रतिनिधित्व 

          डेटा कव्हरेज

          SDV चे निदान अहवाल मॉड्यूल आमच्या लक्षात आणून देतो की SDV-व्युत्पन्न डेटा (सर्व प्रकरणांमध्ये) अंकीय श्रेणींपैकी 10% पेक्षा जास्त गहाळ आहे; ट्रिपलेट-बेस्ड व्हेरिएशनल ऑटोएनकोडर (TVAE) च्या बाबतीत, मूळ डेटासेटच्या तुलनेत समान प्रमाणात स्पष्ट डेटा देखील गहाळ आहे. Syntho वापरून मिळवलेल्या परिणामांसह अशा कोणत्याही चेतावणी व्युत्पन्न झाल्या नाहीत.  

          सर्व मॉडेल्ससाठी सरासरी स्तंभानुसार कामगिरी मेट्रिक्सचे व्हिज्युअलायझेशन
           
           

          आकृती 2. सर्व मॉडेल्ससाठी सरासरी स्तंभानुसार कामगिरी मेट्रिक्सचे व्हिज्युअलायझेशन 

          तुलनात्मक विश्लेषणामध्ये, आकृती 2 चे कथानक स्पष्ट करते की SDV संग्रहण त्यांच्या काही मॉडेल्ससह (म्हणजे GaussianCopula, CopulaGAN, आणि Conditional Tabular GAN – CTGAN सह) श्रेणी कव्हरेजमध्ये किरकोळ चांगले परिणाम देतात. तरीसुद्धा, हे हायलाइट करणे महत्त्वाचे आहे की सिंथोच्या डेटाची विश्वासार्हता SDV मॉडेल्सपेक्षा जास्त आहे, कारण श्रेणी आणि श्रेणींमध्ये कव्हरेजमधील तफावत कमी आहे, केवळ 1.1% भिन्नता प्रदर्शित करते. याउलट, SDV मॉडेल 14.6% ते 29.2% पर्यंत लक्षणीय भिन्नता दर्शवतात. 

           

          येथे प्रस्तुत मेट्रिक्सचा खालीलप्रमाणे अर्थ लावला जाऊ शकतो: 

          • श्रेणी कव्हरेज: वास्तविक डेटाच्या तुलनेत सिंथेटिक डेटामधील सर्व श्रेणींची उपस्थिती मोजते.
          • श्रेणी कव्हरेज: सिंथेटिक डेटामधील मूल्यांची श्रेणी वास्तविक डेटाशी किती जुळते याचे मूल्यांकन करते. 
          प्रति मॉडेल दिलेल्या विशेषता प्रकाराच्या सरासरी कव्हरेजचे सारणीबद्ध प्रतिनिधित्व

          तक्ता 2. प्रति मॉडेल दिलेल्या विशेषता प्रकाराच्या सरासरी कव्हरेजचे सारणीबद्ध प्रतिनिधित्व 

          उपयुक्तता

          सिंथेटिक डेटाच्या उपयुक्ततेच्या विषयाकडे जाताना, डेटावरील प्रशिक्षण मॉडेलची बाब प्रासंगिक बनते. सर्व फ्रेमवर्कमध्ये संतुलित आणि निष्पक्ष तुलना करण्यासाठी आम्ही SciKit Learn लायब्ररीमधून डीफॉल्ट ग्रेडियंट बूस्टिंग क्लासिफायर निवडले आहे, कारण ते बॉक्सच्या बाहेर सेटिंग्जसह एक चांगली कामगिरी करणारे मॉडेल म्हणून स्वीकारले जाते.  

           

          दोन भिन्न मॉडेल्स प्रशिक्षित आहेत, एक सिंथेटिक डेटावर (TSTR साठी) आणि एक मूळ डेटावर (TRTS साठी). सिंथेटिक डेटावर प्रशिक्षित मॉडेलचे मूल्यमापन होल्डआउट चाचणी सेट वापरून केले जाते (जे सिंथेटिक डेटा निर्मिती दरम्यान वापरले जात नव्हते) आणि मूळ डेटावर प्रशिक्षित मॉडेलची सिंथेटिक डेटासेटवर चाचणी केली जाते.  

          प्रति मॉडेल प्रति पद्धत वक्र (AUC) स्कोअर अंतर्गत क्षेत्राचे व्हिज्युअलायझेशन

          आकृती 3. वक्र अंतर्गत क्षेत्राचे व्हिज्युअलायझेशन (AUC) प्रति मॉडेल प्रति पद्धती 

           वर पाहिलेले परिणाम इतर पद्धतींच्या तुलनेत सिंथो इंजिनद्वारे सिंथेटिक डेटा निर्मितीची श्रेष्ठता दर्शवतात, भिन्न पद्धतींद्वारे प्राप्त झालेल्या परिणामांमध्ये कोणताही फरक नसल्यामुळे (सिंथेटिक आणि वास्तविक डेटामधील उच्च समानतेकडे निर्देश करणे). तसेच, प्लॉटमध्ये उपस्थित असलेली लाल ठिपके असलेली रेषा ही निरीक्षण केलेल्या मेट्रिक्ससाठी आधाररेखा प्रदान करण्यासाठी ट्रेन रियल, टेस्ट रिअल (TRTR) चाचणीच्या आधारभूत कामगिरीचे मूल्यमापन करून मिळालेला परिणाम आहे. ही रेषा 0.92 मूल्य दर्शवते, जे वास्तविक डेटावर प्रशिक्षित केलेल्या आणि वास्तविक डेटावर चाचणी केलेल्या मॉडेलद्वारे प्राप्त केलेले वक्र स्कोअर (AUC स्कोअर) अंतर्गत क्षेत्र आहे. 

          प्रति मॉडेल अनुक्रमे TRTS आणि TSTR द्वारे प्राप्त केलेल्या AUC स्कोअरचे सारणीबद्ध प्रतिनिधित्व.

          तक्ता 3. प्रति मॉडेल अनुक्रमे TRTS आणि TSTR द्वारे प्राप्त केलेल्या AUC स्कोअरचे सारणीबद्ध प्रतिनिधित्व. 

          वेळेनुसार तुलना

          साहजिकच, हे परिणाम निर्माण करण्यात गुंतवलेल्या वेळेचा विचार करणे महत्त्वाचे आहे. खालील व्हिज्युअलायझेशन फक्त हेच स्पष्ट करते.

          GPU सह आणि त्याशिवाय मॉडेलसह एक दशलक्ष डेटापॉइंटचे सिंथेटिक डेटा तयार करण्यासाठी आणि प्रशिक्षित करण्यासाठी लागणाऱ्या वेळेचे व्हिज्युअलायझेशन.

          आकृती 5. प्रशिक्षण आणि कार्यप्रदर्शनासाठी लागणाऱ्या वेळेचे व्हिज्युअलायझेशन कृत्रिम डेटा निर्मिती GPU सह आणि त्याशिवाय मॉडेलसह एक दशलक्ष डेटापॉइंट्स. 

          आकृती 5 दोन भिन्न सेटिंग्जमध्ये सिंथेटिक डेटा व्युत्पन्न करण्यासाठी लागणारा वेळ दर्शवते. त्यापैकी पहिले (येथे GPU शिवाय संदर्भित), 16 GHz वर 2.20 कोर असलेल्या Intel Xeon CPU सह सिस्टीमवर चालवल्या जाणाऱ्या चाचणी धावा होत्या. AMD Ryzen 9 7945HX CPU असलेल्या सिस्टीमवर “GPU सह रन” म्हणून चिन्हांकित केलेल्या चाचण्या 16GHz वर 2.5 कोर आणि NVIDIA GeForce RTX 4070 लॅपटॉप GPU असलेल्या सिस्टीमवर होत्या. आकृती 2 आणि खालील तक्ता 2 मध्ये लक्षात येण्यासारखे, हे लक्षात येते की सिंथेटिक डेटा (दोन्ही परिस्थितींमध्ये) तयार करण्यात सिंथो लक्षणीयरीत्या वेगवान आहे जे डायनॅमिक वर्कफ्लोमध्ये महत्त्वपूर्ण आहे. 

          GPU सह आणि त्याशिवाय प्रत्येक मॉडेलसह 1 दशलक्ष डेटापॉईंटच्या सिंथेटिक डेटा निर्मितीसाठी लागणारा वेळ दर्शविणारी सारणी

          तक्ता 5. घेतलेल्या वेळेचे सारणीबद्ध प्रतिनिधित्व कृत्रिम डेटा निर्मिती GPU सह आणि त्याशिवाय प्रत्येक मॉडेलसह एक दशलक्ष डेटापॉइंट्स 

          समारोपाचे भाषण आणि भविष्यातील दिशा 

          निष्कर्ष योग्य सिंथेटिक डेटा जनरेशन पद्धत निवडण्यासाठी संपूर्ण गुणवत्ता मूल्यांकनाचे महत्त्व अधोरेखित करतात. Syntho's Engine, त्याच्या AI-चालित दृष्टिकोनासह, विशिष्ट मेट्रिक्समध्ये लक्षणीय सामर्थ्य दाखवते, तर SDV सारखी मुक्त-स्रोत साधने त्यांच्या अष्टपैलुत्वात आणि समुदाय-चालित सुधारणांमध्ये चमकतात. 

          सिंथेटिक डेटाचे क्षेत्र विकसित होत असताना, आम्ही तुम्हाला हे मेट्रिक्स तुमच्या प्रकल्पांमध्ये लागू करण्यासाठी, त्यांची गुंतागुंत एक्सप्लोर करण्यासाठी आणि तुमचे अनुभव शेअर करण्यासाठी प्रोत्साहित करतो. भविष्यातील पोस्टसाठी संपर्कात रहा जिथे आम्ही इतर मेट्रिक्समध्ये खोलवर जाऊ आणि त्यांच्या अर्जाची वास्तविक-जगातील उदाहरणे हायलाइट करू. 

          दिवसाच्या शेवटी, सिंथेटिक डेटावर पाण्याची चाचणी करू पाहणाऱ्यांसाठी, सादर केलेला मुक्त-स्रोत पर्याय प्रवेशयोग्यता दिल्यास एक न्याय्य पर्याय असू शकतो; तथापि, या आधुनिक तंत्रज्ञानाचा त्यांच्या विकास प्रक्रियेत समावेश करणाऱ्या व्यावसायिकांसाठी, सुधारणेची कोणतीही संधी घेतली पाहिजे आणि सर्व अडथळे टाळले पाहिजेत. त्यामुळे उपलब्ध सर्वोत्तम पर्याय निवडणे महत्त्वाचे आहे. वर दिलेल्या विश्लेषणामुळे हे स्पष्ट होते की सिंथो आणि त्यासोबत सिंथो इंजिन हे प्रॅक्टिशनर्ससाठी अतिशय सक्षम साधन आहे. 

          सिंथो बद्दल

          सिंथो एक स्मार्ट सिंथेटिक डेटा जनरेशन प्लॅटफॉर्म प्रदान करते, एकाधिक सिंथेटिक डेटा फॉर्म आणि जनरेशन पद्धतींचा लाभ घेते, संस्थांना बुद्धिमानपणे डेटाला स्पर्धात्मक धारेत रूपांतरित करण्यासाठी सक्षम करते. आमचा AI-व्युत्पन्न सिंथेटिक डेटा मूळ डेटाच्या सांख्यिकीय नमुन्यांची नक्कल करतो, अचूकता, गोपनीयता आणि वेग सुनिश्चित करतो, जसे की SAS सारख्या बाह्य तज्ञांनी मूल्यांकन केले आहे. स्मार्ट डी-आयडेंटिफिकेशन वैशिष्ट्यांसह आणि सातत्यपूर्ण मॅपिंगसह, संदर्भाची अखंडता जतन करताना संवेदनशील माहिती संरक्षित केली जाते. आमचे प्लॅटफॉर्म लक्ष्यित परिस्थितींसाठी नियम-आधारित सिंथेटिक डेटा निर्मिती पद्धती वापरून, उत्पादन नसलेल्या वातावरणासाठी चाचणी डेटाची निर्मिती, व्यवस्थापन आणि नियंत्रण सक्षम करते. याव्यतिरिक्त, वापरकर्ते सिंथेटिक डेटा प्रोग्रॅमॅटिकरित्या व्युत्पन्न करू शकतात आणि सर्वसमावेशक चाचणी आणि विकास परिस्थिती सहजतेने विकसित करण्यासाठी वास्तववादी चाचणी डेटा मिळवू शकतात.  

          तुम्हाला सिंथेटिक डेटाचे अधिक व्यावहारिक अनुप्रयोग शिकायचे आहेत का? मोकळ्या मनाने शेड्यूल डेमो!

          लेखकांबद्दल

          सॉफ्टवेअर अभियांत्रिकी इंटर्न

          रोहam डेल्फ्ट युनिव्हर्सिटी ऑफ टेक्नॉलॉजीमध्ये बॅचलर विद्यार्थी आहे आणि येथे सॉफ्टवेअर अभियांत्रिकी इंटर्न आहे सिंथो 

          मशीन शिक्षण अभियंता

          मिहाईने मधून पीएचडी मिळवली ब्रिस्टल विद्यापीठ रोबोटिक्सवर लागू केलेल्या श्रेणीबद्ध मजबुतीकरण शिक्षण विषयावर आणि आहे मशीन लर्निंग इंजिनीअर एt सिंथो. 

          सिंथो मार्गदर्शक कव्हर

          तुमचा सिंथेटिक डेटा मार्गदर्शक आता जतन करा!