அநாமதேய தரவு மற்றும் செயற்கை தரவு

தரவு பகுப்பாய்வின் தரவு சோதனையை மேற்கொள்வதற்கு முன் உங்கள் தரவை அநாமதேயமாக்கினால், பல காரணிகள் விளையாடுகின்றன:

  1. ஏறக்குறைய எல்லா நிகழ்வுகளிலும், குறிப்பிட்ட மற்றும் தனித்துவமான வரிசைகள் (எ.கா. மருத்துவப் பதிவுகள்) காரணமாக அநாமதேயத் தரவுகள் தனிநபர்களிடம் இருந்து கண்டறியப்படலாம்.
  2. நீங்கள் எவ்வளவு அதிகமாக அநாமதேயமாக்குகிறீர்களோ அல்லது பொதுமைப்படுத்துகிறீர்களோ, அவ்வளவு தரவை அழிக்கிறீர்கள். இது உங்கள் தரவின் தரத்தையும் அதன் மூலம் உங்கள் நுண்ணறிவையும் குறைக்கிறது
  3. வெவ்வேறு தரவு வடிவங்களுக்கு அநாமதேயமாக்கல் வித்தியாசமாக வேலை செய்கிறது. இதன் பொருள் இது அளவிட முடியாதது மற்றும் அதிக நேரத்தை எடுத்துக்கொள்ளும்

செயற்கை தரவு இந்த குறைபாடுகள் மற்றும் பலவற்றை தீர்க்கிறது. அசல் தரவு, அநாமதேயத் தரவு மற்றும் சின்தோ உருவாக்கிய செயற்கைத் தரவு ஆகியவற்றுக்கு இடையேயான தரத்தில் உள்ள வேறுபாட்டைப் பற்றி SAS (பகுப்பாய்வு துறையில் உலகளாவிய சந்தைத் தலைவர்) இன் ஒரு பகுப்பாய்வு நிபுணர் விளக்குவதைப் பார்க்க கீழே உள்ள வீடியோவைப் பார்க்கவும்.

AI உருவாக்கப்பட்ட செயற்கைத் தரவு பற்றிய Syntho x SAS D[N]A Café இலிருந்து இந்த வீடியோ எடுக்கப்பட்டது. முழு வீடியோவை இங்கே காணலாம்.

எட்வின் வான் யுனென் அசல் தரவுத்தொகுப்பை சின்தோவிற்கு அனுப்பினார், நாங்கள் தரவுத்தொகுப்பை ஒருங்கிணைத்தோம். ஆனால் கேள்வி: "செயற்கை தரவுகளை அநாமதேய தரவுகளுடன் ஒப்பிட்டுப் பார்த்தால் என்ன நடக்கும்?" அநாமதேய தரவுகளில் நீங்கள் நிறைய தகவல்களை இழப்பதால், தரவுத்தொகுப்பை ஒருங்கிணைக்கும் போது இதுவும் நடக்குமா? 56.000 வரிசைகள் மற்றும் 128 நெடுவரிசைகள் கொண்ட தொலைத்தொடர்பு துறையில் இருந்து ஒரு தரவுத்தொகுப்புடன் தொடங்கினோம். இந்த தரவுத்தொகுப்பு ஒருங்கிணைக்கப்பட்டது மற்றும் அநாமதேயமாக்கப்பட்டது, எனவே எட்வின் ஒருங்கிணைக்கப்படுவதை அநாமதேயத்துடன் ஒப்பிடலாம். பின்னர், எட்வின் எஸ்ஏஎஸ் வியாவைப் பயன்படுத்தி மாடலிங் செய்யத் தொடங்கினார். அசல் தரவுத்தொகுப்பில், கிளாசிக்கல் ரிக்ரஷன் நுட்பங்கள் மற்றும் முடிவு மரங்களைப் பயன்படுத்தி, மேலும் நரம்பியல் நெட்வொர்க்குகள், கிரேடியன்ட் பூஸ்டிங், ரேண்டம் ஃபாரஸ்ட் போன்ற அதிநவீன நுட்பங்களைப் பயன்படுத்தி அவர் இரண்டு கர்ன் மாடல்களை உருவாக்கினார் - இந்த வகையான நுட்பங்கள். மாதிரிகளை உருவாக்கும்போது நிலையான SAS Viya விருப்பங்களைப் பயன்படுத்துதல்.

பின்னர், முடிவுகளை பார்க்க நேரம் வந்தது. முடிவுகள் செயற்கைத் தரவுகளுக்கு மிகவும் நம்பிக்கைக்குரியதாக இருந்தன, அநாமதேயத்திற்கு அல்ல. பார்வையாளர்களில் உள்ள இயந்திரம்-கற்றல் அல்லாத நிபுணர்களுக்கு, ROC-வளைவின் கீழ் உள்ள பகுதியைப் பார்க்கிறோம், இது மாதிரியின் துல்லியத்தைப் பற்றிச் சொல்கிறது. அசல் தரவை அநாமதேய தரவுகளுடன் ஒப்பிடுகையில், அசல் தரவு மாதிரியானது .8 இன் ROC-வளைவின் கீழ் ஒரு பகுதியைக் கொண்டிருப்பதைக் காண்கிறோம், இது மிகவும் நல்லது, இருப்பினும், அநாமதேய தரவு ROC-வளைவின் கீழ் .6 என்ற பகுதியைக் கொண்டுள்ளது. இதன் பொருள், அநாமதேய மாதிரி மூலம் நாங்கள் நிறைய தகவல்களை இழக்கிறோம், எனவே நீங்கள் நிறைய முன்கணிப்பு சக்தியை இழக்கிறீர்கள்.

ஆனால், கேள்வி என்ன என்பது செயற்கை தரவு பற்றி? இங்கே, நாங்கள் அதையே செய்தோம், ஆனால் தரவை அநாமதேயமாக்குவதற்குப் பதிலாக, சின்தோ தரவை ஒருங்கிணைத்தது. இப்போது, ​​அசல் தரவு மற்றும் செயற்கைத் தரவு இரண்டும் ROC-வளைவு .8 இன் கீழ் ஒரு பகுதியைக் கொண்டிருப்பதைக் காண்கிறோம், இது மிகவும் ஒத்ததாக இருக்கிறது. மாறுபாடு காரணமாக சரியாக இல்லை, ஆனால் மிகவும் ஒத்திருக்கிறது. இதன் பொருள், செயற்கை தரவுகளின் திறன் மிகவும் நம்பிக்கைக்குரியது - எட்வின் இதைப் பற்றி மிகவும் மகிழ்ச்சியாக இருக்கிறார்.

சிரிக்கும் மக்கள் கூட்டம்

தரவு செயற்கையானது, ஆனால் எங்கள் குழு உண்மையானது!

சிந்தோவை தொடர்பு கொள்ளவும் செயற்கை தரவின் மதிப்பை ஆராய எங்கள் வல்லுநர்களில் ஒருவர் ஒளியின் வேகத்தில் உங்களுடன் தொடர்பு கொள்வார்!