නිර්නාමික දත්ත එදිරිව සින්තටික් දත්ත

දත්ත විශ්ලේෂණවල දත්ත පරීක්ෂා කිරීමට පෙර ඔබ ඔබේ දත්ත නිර්නාමික කරන්නේ නම්, ක්‍රියාත්මක වන සාධක කිහිපයක් තිබේ:

  1. සෑම අවස්ථාවකම පාහේ, නිශ්චිත සහ අනන්‍ය පේළි (උදා: වෛද්‍ය වාර්තා) හේතුවෙන් නිර්නාමික දත්ත තවමත් පුද්ගලයන් වෙත සොයා ගත හැක.
  2. ඔබ නිර්නාමික හෝ සාමාන්‍යකරණය කරන තරමට, ඔබ වැඩි වැඩියෙන් දත්ත විනාශ කරයි. මෙය ඔබගේ දත්තවල ගුණාත්මක භාවය අඩු කරන අතර එමඟින් ඔබේ තීක්ෂ්ණ බුද්ධිය අඩු කරයි
  3. විවිධ දත්ත ආකෘති සඳහා නිර්නාමිකකරණය වෙනස් ලෙස ක්‍රියා කරයි. මෙයින් අදහස් කරන්නේ එය පරිමාණය කළ නොහැකි අතර ඉතා කාලය ගත විය හැකි බවයි

සින්තටික් දත්ත මෙම සියලු අඩුපාඩු සහ තවත් බොහෝ දේ විසඳයි. SAS හි විශ්ලේෂණ විශේෂඥයෙකු (විශ්ලේෂණවල ගෝලීය වෙළඳපල ප්‍රමුඛයා) මුල් දත්ත, නිර්නාමික දත්ත සහ සින්තෝ විසින් ජනනය කරන ලද කෘත්‍රිම දත්ත අතර ගුණාත්මක වෙනස පිළිබඳ ඔහුගේ තක්සේරුව පැහැදිලි කිරීමට පහත වීඩියෝව නරඹන්න.

මෙම වීඩියෝව AI ජනනය කරන ලද කෘතිම දත්ත පිළිබඳ සින්තෝ x SAS D[N]A Café වෙතින් ග්‍රහණය කර ඇත. සම්පූර්ණ වීඩියෝව මෙතැනින් සොයා ගන්න.

Edwin van Unen විසින් Syntho වෙත මුල් දත්ත කට්ටලයක් යවන ලද අතර අපි දත්ත කට්ටලය සංස්ලේෂණය කළෙමු. නමුත් ප්‍රශ්නය වූයේ: "අපි කෘතිම දත්ත නිර්නාමික දත්ත සමඟ සංසන්දනය කළහොත් කුමක් සිදුවේද?" නිර්නාමික දත්තයක් තුළ ඔබට බොහෝ තොරතුරු අහිමි වන නිසා, දත්ත කට්ටලයක් සංස්ලේෂණය කිරීමේදීද මෙය සිදුවේද? අපි ආරම්භ කළේ පේළි 56.000ක් සහ තීරු 128කින් යුත් සමාගම් චර්න්-තොරතුරු සමඟ විදුලි සංදේශ කර්මාන්තයේ දත්ත කට්ටලයක් සමඟිනි. මෙම දත්ත කට්ටලය සංස්ලේෂණය කරන ලද සහ නිර්නාමික කරන ලද බැවින් එඩ්වින්ට සංස්ලේෂණය නිර්නාමිකකරණය සමඟ සංසන්දනය කළ හැකිය. ඉන්පසු එඩ්වින් SAS Viya භාවිතයෙන් නිරූපිකාවක් ලෙස කටයුතු කිරීමට පටන් ගත්තේය. ඔහු සම්භාව්‍ය ප්‍රතිගමන ශිල්පීය ක්‍රම සහ තීරණ ගස් භාවිතා කරමින් මුල් දත්ත කට්ටලය මත චූන් මාදිලි කිහිපයක් ගොඩනගා ඇත, නමුත් ස්නායු ජාල, ශ්‍රේණිය වැඩි කිරීම, සසම්භාවී වනාන්තර වැනි වඩාත් සංකීර්ණ ශිල්පීය ක්‍රම ද භාවිතා කළේය - මේ ආකාරයේ ශිල්පීය ක්‍රම. ආකෘති තැනීමේදී සම්මත SAS Viya විකල්ප භාවිතා කිරීම.

ඉන්පසුව, ප්රතිඵල දෙස බැලීමට කාලයයි. කෘත්‍රිම දත්ත සඳහා ප්‍රතිඵල ඉතා යහපත් වූ අතර නිර්නාමිකකරණය සඳහා නොවේ. ප්‍රේක්ෂකාගාරයේ සිටින යන්ත්‍ර-නොවන ප්‍රවීණයන් සඳහා, අපි ආකෘතියේ නිරවද්‍යතාවය ගැන යමක් පවසන ROC-වක්‍රය යටතේ ඇති ප්‍රදේශය දෙස බලමු. මුල් දත්ත නිර්නාමික දත්ත සමඟ සසඳන විට, මුල් දත්ත ආකෘතියට .8 හි ROC-වක්‍රය යටතේ ප්‍රදේශයක් ඇති බව අපට පෙනේ, එය ඉතා හොඳයි, කෙසේ වෙතත්, නිර්නාමික දත්ත .6 හි ROC-වක්‍රය යටතේ ප්‍රදේශයක් ඇත. මෙයින් අදහස් කරන්නේ නිර්නාමික ආකෘතිය සමඟ අපට බොහෝ තොරතුරු අහිමි වන අතර එමඟින් ඔබට පුරෝකථන බලය විශාල ප්‍රමාණයක් අහිමි වේ.

නමුත් ප්‍රශ්නය නම් කෘතිම දත්ත ගැන කුමක් කිව හැකිද? මෙන්න, අපි හරියටම එයම කළ නමුත් දත්ත නිර්නාමික කිරීම වෙනුවට සින්තෝ දත්ත සංස්ලේෂණය කළේය. දැන්, මුල් දත්ත සහ කෘත්‍රිම දත්ත යන දෙකටම ROC-වක්‍රය .8 යටතේ ප්‍රදේශයක් ඇති බව අපට පෙනේ, එය ඉතා සමාන වේ. විචල්‍යතාවය නිසා හරියටම සමාන නොවේ, නමුත් ඉතා සමාන ය. මෙයින් අදහස් කරන්නේ, කෘතිම දත්තවල විභවය ඉතා පොරොන්දු වන බවයි - එඩ්වින් මේ ගැන ඉතා සතුටුයි.

සිනාසෙන පිරිසක්

දත්ත සින්තටික්, නමුත් අපගේ කණ්ඩායම සැබෑ ය!

සින්තෝ අමතන්න කෘතිම දත්තවල වටිනාකම ගවේෂණය කිරීම සඳහා අපගේ විශේෂඥයෙකු ආලෝකයේ වේගයෙන් ඔබ හා සම්බන්ධ වනු ඇත!