በ AI የመነጨ ሰው ሠራሽ ዳታ፣ ከፍተኛ ጥራት ያለው መረጃ ለማግኘት ቀላል እና ፈጣን መዳረሻ?

AI በተግባር የተፈጠረ ሰው ሠራሽ መረጃ ነው።

በ AI የመነጨ የሰው ሰራሽ ዳታ ኤክስፐርት የሆነው ሲንትሆ ለመዞር አላማ አለው። privacy by design በ AI የመነጨ ሰው ሰራሽ ውሂብ ወደ ተወዳዳሪ ጥቅም። ድርጅቶቹ በቀላሉ እና በፍጥነት ከፍተኛ ጥራት ያለው መረጃ ማግኘት የሚያስችል ጠንካራ የመረጃ መሰረት እንዲገነቡ ያግዛሉ እና በቅርቡ የፊሊፕስ ፈጠራ ሽልማት አሸንፈዋል።

ነገር ግን፣ ከ AI ጋር ሰው ሠራሽ መረጃን ማመንጨት በተለምዶ በተደጋጋሚ የሚጠየቁ ጥያቄዎችን የሚያስተዋውቅ አዲስ መፍትሄ ነው። እነዚህን ለመመለስ ሲንቶ የላቁ ትንታኔዎች እና AI ሶፍትዌር የገበያ መሪ ከሆነው SAS ጋር የጉዳይ ጥናት ጀምሯል።

ከደች AI ጥምረት (NL AIC) ጋር በመተባበር በሲንቶ ኤንጂን የሚመነጨውን የሰው ሰራሽ መረጃን በተለያዩ የመረጃ ጥራት፣ ህጋዊ ትክክለኛነት እና አጠቃቀም ላይ በተደረጉ ግምገማዎች ከኦሪጅናል ዳታ ጋር በማነፃፀር የሰው ሰራሽ መረጃን ዋጋ መርምረዋል።

የዳታ ስም ማጥፋት መፍትሔ አይደለም?

ክላሲክ ማንነትን የማሳየት ቴክኒኮች ግለሰቦችን መልሶ መፈለግን ለማደናቀፍ ኦሪጅናል ዳታዎችን መጠቀማቸው የተለመደ ነው። ምሳሌዎች ማጠቃለያ፣ ማፈን፣ መጥረግ፣ ስም ማጥፋት፣ የውሂብ መሸፈኛ እና የረድፎች እና ዓምዶች መቀላቀል ናቸው። ከታች ባለው ሠንጠረዥ ውስጥ ምሳሌዎችን ማግኘት ይችላሉ.

እነዚህ ቴክኒኮች 3 ቁልፍ ፈተናዎችን ያስተዋውቃሉ፡-

በመረጃ አይነት እና በእያንዳንዱ የውሂብ ስብስብ በተለየ መንገድ ይሰራሉ, ይህም ለመመዘን አስቸጋሪ ያደርጋቸዋል. በተጨማሪም, በተለየ መንገድ ስለሚሠሩ, የትኞቹ ዘዴዎች እንደሚተገበሩ እና ምን ዓይነት ቴክኒኮች ጥምረት እንደሚያስፈልግ ሁልጊዜ ክርክር ይኖራል.
ከዋናው መረጃ ጋር ሁል ጊዜ የአንድ ለአንድ ግንኙነት አለ። ይህ ማለት ሁልጊዜም የግላዊነት ስጋት ይኖራል፣ በተለይም በሁሉም ክፍት የውሂብ ስብስቦች እና እነዚያን የውሂብ ስብስቦች ለማገናኘት ባሉ ቴክኒኮች ምክንያት።
መረጃን ይቆጣጠራሉ እና በሂደቱ ውስጥ መረጃን ያጠፋሉ. ይህ በተለይ "የመተንበይ ኃይል" አስፈላጊ በሆነበት ለ AI ተግባራት በጣም አስከፊ ነው, ምክንያቱም መጥፎ ጥራት ያለው መረጃ ከ AI ሞዴል መጥፎ ግንዛቤን ያስከትላል (ቆሻሻ መጣያ ቆሻሻን ያስከትላል).

እነዚህ ነጥቦችም በዚህ የጥናት ጥናት ይገመገማሉ።

ለጉዳዩ ጥናት መግቢያ

ለጉዳይ ጥናቱ፣ የታለመው የመረጃ ስብስብ የ56.600 ደንበኞችን መረጃ የያዘ በኤስኤኤስ የቀረበ የቴሌኮም መረጃ ስብስብ ነበር። የመረጃው ስብስብ 128 አምዶችን ይዟል፣ አንድ ደንበኛ ኩባንያውን ለቆ እንደወጣ ወይም እንዳልተወ የሚያሳይ አንድ አምድ ጨምሮ። የጥናቱ ዓላማ የደንበኞችን መጨናነቅ ለመተንበይ አንዳንድ ሞዴሎችን ለማሰልጠን እና የሰለጠኑ ሞዴሎችን አፈጻጸም ለመገምገም የተቀነባበረ መረጃን መጠቀም ነበር። ቸርን ትንበያ የመመደብ ተግባር እንደመሆኑ SAS ትንበያውን ለመስራት አራት ታዋቂ የምደባ ሞዴሎችን መርጧል፣ የሚከተሉትንም ጨምሮ፡-

የዘፈቀደ ደን
ቀስ በቀስ መጨመር
የሎጂስቲክ ሪግሬሽን
የአውታረመረብ ኔትወርክ

SAS ሰው ሰራሽ ውሂቡን ከማፍለቁ በፊት በዘፈቀደ የቴሌኮም ዳታ ስብስብን ወደ ባቡር ስብስብ (ሞዴሎቹን ለማሰልጠን) እና መያዣ (ሞዴሎቹን ለማስቆጠር) ከፍሏል። ለውጤት የሚሆን የተለየ መያዣ ማግኘቱ የምደባ ሞዴሉ በአዲስ መረጃ ላይ ሲተገበር ምን ያህል ጥሩ አፈጻጸም እንዳለው ለመገምገም ያስችላል።

የባቡር ስብስቡን እንደ ግብአት በመጠቀም ሲንቶ ሰው ሰራሽ ዳታ ስብስብ ለመፍጠር የሲንቶ ሞተርን ተጠቅሟል። ለቤንችማርኪንግ፣ SAS የተወሰነ ገደብ ላይ ለመድረስ (የ k-anonimity) ላይ ለመድረስ የተለያዩ ስም የማውጣት ቴክኒኮችን ከተጠቀመ በኋላ የተቀናጀ የባቡሩን ስብስብ ፈጠረ። የቀደሙት እርምጃዎች አራት የውሂብ ስብስቦችን አስከትለዋል፡

የባቡር መረጃ ስብስብ (የመጀመሪያው የውሂብ ስብስብ ከተቀነሰ የውሂብ ስብስብ በስተቀር)
የተያዘ የውሂብ ስብስብ (ማለትም የዋናው የውሂብ ስብስብ ንዑስ ስብስብ)
ስም-አልባ የመረጃ ስብስብ (በባቡር መረጃ ስብስብ ላይ የተመሰረተ)
ሰው ሰራሽ የውሂብ ስብስብ (በባቡር መረጃ ስብስብ ላይ የተመሰረተ)

የውሂብ ስብስቦች 1, 3 እና 4 እያንዳንዱን የምደባ ሞዴል ለማሰልጠን ጥቅም ላይ ውለው ነበር, በዚህም ምክንያት 12 (3 x 4) የሰለጠኑ ሞዴሎች. SAS በኋላ እያንዳንዱ ሞዴል የደንበኞችን መጨናነቅ የሚተነብይበትን ትክክለኛነት ለመለካት የያዙትን መረጃ ስብስብ ተጠቅሟል። ከአንዳንድ መሰረታዊ ስታቲስቲክስ ጀምሮ ውጤቶቹ ከዚህ በታች ቀርበዋል።

ምስል፡ በኤስኤኤስ ቪዥዋል ዳታ ማዕድን እና በማሽን መማር የተፈጠረ የማሽን መማሪያ ቧንቧ መስመር

ስም-አልባ ውሂብ ከዋናው ውሂብ ጋር ሲያወዳድሩ መሰረታዊ ስታቲስቲክስ

ማንነትን የማሳየት ቴክኒኮች መሰረታዊ ንድፎችን ፣ የንግድ ሎጂክን ፣ ግንኙነቶችን እና ስታቲስቲክስን ያጠፋሉ (ከዚህ በታች ባለው ምሳሌ)። ስም-አልባ መረጃዎችን ለመሠረታዊ ትንታኔዎች መጠቀም አስተማማኝ ያልሆነ ውጤት ያስገኛል። በእርግጥ፣ ስም-አልባ የመረጃ ጥራት ዝቅተኛነት ለላቀ የትንታኔ ተግባራት (ለምሳሌ AI/ML ሞዴሊንግ እና ዳሽቦርዲንግ) መጠቀም የማይቻል አድርጎታል።

ሰው ሠራሽ መረጃዎችን ከዋናው ውሂብ ጋር ሲያወዳድሩ መሠረታዊ ስታቲስቲክስ

ሰው ሰራሽ ውሂብን ከ AI ጋር ማመንጨት መሰረታዊ ቅጦችን ፣ የንግድ አመክንዮዎችን ፣ ግንኙነቶችን እና ስታቲስቲክስን ይጠብቃል (ከዚህ በታች ባለው ምሳሌ)። ሰው ሰራሽ መረጃዎችን ለመሠረታዊ ትንታኔዎች መጠቀም አስተማማኝ ውጤት ያስገኛል። ቁልፍ ጥያቄ፣ ሰው ሠራሽ መረጃ ለላቁ የትንታኔ ተግባራት (ለምሳሌ AI/ML ሞዴሊንግ እና ዳሽቦርዲንግ) ይይዛል?

በ AI የመነጨ ሰው ሰራሽ ውሂብ እና የላቀ ትንታኔ

ሰው ሰራሽ መረጃ የሚይዘው ለመሠረታዊ ቅጦች ብቻ ሳይሆን (በቀድሞዎቹ ቦታዎች ላይ እንደሚታየው)፣ እንዲሁም ለላቁ የትንታኔ ተግባራት የሚያስፈልጉትን ጥልቅ 'ስውር' ስታቲስቲካዊ ንድፎችን ይይዛል። የኋለኛው ደግሞ ከዚህ በታች ባለው የአሞሌ ገበታ ላይ ታይቷል፣ ይህም በሰንቴቲክ ዳታ ላይ የሰለጠኑ ሞዴሎች እና ኦሪጅናል ዳታ ላይ የሰለጠኑ ሞዴሎች ትክክለኛነት ተመሳሳይ መሆኑን ያሳያል። በተጨማሪም፣ ከከርቭ (AUC*) በታች ያለው ቦታ ወደ 0.5 የሚጠጋ፣ ስም-አልባ በሆነ መረጃ የሰለጠኑት ሞዴሎች እጅግ የከፋውን ተግባር ይፈጽማሉ። ከዋናው መረጃ ጋር በማነፃፀር በሁሉም የላቁ የትንታኔ ግምገማዎች ሙሉ ዘገባው በጥያቄ ይገኛል።

* AUC: ከጠመዝማዛው በታች ያለው ቦታ እውነተኛ አወንታዊ ፣ የውሸት አወንታዊ ፣ የውሸት አሉታዊ እና እውነተኛ አሉታዊ ነገሮችን ከግምት ውስጥ በማስገባት የላቀ የትንታኔ ሞዴሎች ትክክለኛነት መለኪያ ነው። 0,5 ማለት አንድ ሞዴሎች በዘፈቀደ ይተነብያሉ እና ምንም የመተንበይ ኃይል የላቸውም እና 1 ማለት ሞዴሉ ሁልጊዜ ትክክል እና ሙሉ የመተንበይ ኃይል አለው ማለት ነው.

በተጨማሪም፣ ይህ ሰው ሰራሽ መረጃ ለሞዴሎቹ ትክክለኛ ስልጠና የሚያስፈልጉትን የመረጃ ባህሪያትን እና ዋና ተለዋዋጮችን ለመረዳት ሊያገለግል ይችላል። ከዋናው መረጃ ጋር ሲወዳደር በአልጎሪዝም የተመረጡት ግብዓቶች በሰው ሠራሽ መረጃ ላይ በጣም ተመሳሳይ ናቸው። ስለዚህ የሞዴሊንግ ሂደቱ በዚህ ሰው ሠራሽ ስሪት ላይ ሊከናወን ይችላል, ይህም የውሂብ ጥሰትን አደጋ ይቀንሳል. ነገር ግን፣ የግለሰብ መዝገቦችን (ለምሳሌ የቴሌኮ ደንበኛ) ሲመረምር በኦሪጅናል ዳታ ላይ እንደገና ማሰልጠን ለማብራራት፣ ተቀባይነትን ለመጨመር ወይም በደንቡ ምክንያት ብቻ ይመከራል።

AUC በአልጎሪዝም በዘዴ ተመድቦ

መደምደሚያ-

በኦሪጅናል መረጃ ላይ ከሰለጠኑት ሞዴሎች ጋር ሲነፃፀሩ በሰው ሰራሽ መረጃ ላይ የሰለጠኑ ሞዴሎች በጣም ተመሳሳይ አፈፃፀም ያሳያሉ
ማንነታቸው በሌለው መረጃ ላይ የሰለጠኑ ሞዴሎች በዋናው መረጃ ወይም ሰው ሰራሽ ውሂብ ላይ ከሰለጠኑ ሞዴሎች ጋር ሲነፃፀሩ ዝቅተኛ አፈፃፀም ያሳያሉ።
ሰው ሰራሽ ዳታ ማመንጨት ቀላል እና ፈጣን ነው ምክንያቱም ቴክኒኩ የሚሰራው በአንድ የውሂብ ስብስብ እና በመረጃ አይነት ተመሳሳይ ነው።

እሴት መጨመር ሰው ሰራሽ ውሂብ አጠቃቀም ጉዳዮች

ጉዳይ 1፡ ሰው ሠራሽ መረጃን ለሞዴል ልማት እና የላቀ ትንታኔ ተጠቀም

ለአጠቃቀም ቀላል እና ፈጣን ተደራሽነት ያለው ጠንካራ የዳታ ፋውንዴሽን ማግኘት ከፍተኛ ጥራት ያለው መረጃ ሞዴሎችን ለማዘጋጀት አስፈላጊ ነው (ለምሳሌ ዳሽቦርድ [BI] እና የላቀ ትንታኔ [AI & ML])። ነገር ግን፣ ብዙ ድርጅቶች 3 ቁልፍ ተግዳሮቶችን በሚያስከትል ንዑስ የውሂብ መሰረት ይሰቃያሉ፡

የውሂብ መዳረሻ ማግኘት (በግላዊነት) ደንቦች ፣ የውስጥ ሂደቶች ወይም የውሂብ መከለያዎች ምክንያት ዕድሜዎችን ይወስዳል
ክላሲክ ማንነትን የማሳየት ቴክኒኮች መረጃን ያጠፋሉ፣ ይህም መረጃው ከአሁን በኋላ ለመተንተን እና ለላቁ ትንታኔዎች ተስማሚ እንዳይሆን ያደርገዋል (ቆሻሻ ውስጥ = ቆሻሻ መጣያ)
ነባር መፍትሄዎች ሊሰፉ የማይችሉ አይደሉም ምክንያቱም በመረጃ ስብስብ እና በመረጃ አይነት በተለየ መልኩ ስለሚሰሩ እና ትላልቅ ባለብዙ ሠንጠረዥ የውሂብ ጎታዎችን ማስተናገድ አይችሉም

ሰው ሰራሽ የዳታ አቀራረብ፡ ጥሩ-እንደ-እውነተኛ ሰው ሰራሽ ውሂብ ያላቸውን ሞዴሎችን ማዘጋጀት፡-

ገንቢዎችዎን ሳይከለክሉ የመጀመሪያውን ውሂብ አጠቃቀም ይቀንሱ
የግል ውሂብን ይክፈቱ እና ከዚህ በፊት የተገደበ ተጨማሪ ውሂብ መዳረሻ (ለምሳሌ በግላዊነት ምክንያት)
ለሚመለከተው ውሂብ ቀላል እና ፈጣን የውሂብ መዳረሻ
ለእያንዳንዱ የውሂብ ስብስብ ፣ የውሂብ ዓይነት እና ለትላልቅ የውሂብ ጎታዎች ተመሳሳይ የሚሰራ የመጠን መፍትሄ

ይህ ድርጅት መረጃን ለመክፈት እና የመረጃ እድሎችን ለመጠቀም ቀላል እና ፈጣን ተደራሽነት ያለው፣ ከፍተኛ ጥራት ያለው መረጃ ያለው ጠንካራ የመረጃ መሰረት እንዲገነባ ያስችለዋል።

ጉዳይ 2ን ተጠቀም፡ ለሶፍትዌር ሙከራ ፣ለማዳበር እና ለማድረስ ስማርት ሰው ሠራሽ ሙከራ

ዘመናዊ የሶፍትዌር መፍትሄዎችን ለማቅረብ ከፍተኛ ጥራት ባለው የሙከራ ውሂብ መሞከር እና ማዳበር አስፈላጊ ነው። ዋናውን የምርት መረጃ መጠቀም ግልጽ ይመስላል፣ ነገር ግን በ(ግላዊነት) ደንቦች ምክንያት አይፈቀድም። አማራጭ Test Data Management (TDM) መሳሪያዎች ያስተዋውቃሉ "legacy-by-designየፈተናውን መረጃ በትክክል ለማግኘት

የምርት መረጃን አታንጸባርቁ እና የንግድ ሎጂክ እና የማጣቀሻ ታማኝነት አልተጠበቁም።
ስራ ቀርፋፋ እና ጊዜ የሚወስድ
በእጅ የሚሰራ ስራ ያስፈልጋል

ሰው ሰራሽ የዳታ አቀራረብ፡- ዘመናዊ የሶፍትዌር መፍትሄዎችን በጥበብ ለማቅረብ በ AI የመነጨ ሰው ሰራሽ የፍተሻ ውሂብ ይሞክሩ እና ያዳብሩ፡-

ከተጠበቀ የንግድ አመክንዮ እና ከማጣቀሻ ታማኝነት ጋር የምርት መሰል መረጃ
ከዘመናዊው AI ጋር ቀላል እና ፈጣን የውሂብ ማመንጨት
ግላዊነት-በንድፍ
ቀላል ፣ ፈጣን እና agile

ይህ ድርጅት ዘመናዊ የሶፍትዌር መፍትሄዎችን ለማቅረብ በሚቀጥለው ደረጃ የሙከራ መረጃ እንዲሞክር እና እንዲያዳብር ያስችለዋል!

ተጨማሪ መረጃ

ፍላጎት አለዎት? ስለ ሰው ሠራሽ መረጃ የበለጠ መረጃ ለማግኘት የሲንቶ ድር ጣቢያን ይጎብኙ ወይም Wim Kees Janssenን ያግኙ። ስለ SAS ተጨማሪ መረጃ ለማግኘት ይጎብኙ www.sas.com ወይም kees@syntho.ai ያነጋግሩ።

በዚህ የአጠቃቀም ሁኔታ, Syntho, SAS እና NL AIC የታለመውን ውጤት ለማግኘት አብረው ይሰራሉ. ሲንቶ በ AI የመነጨ የሰው ሰራሽ ዳታ ኤክስፐርት ሲሆን SAS የትንታኔ ገበያ መሪ ሲሆን መረጃን ለመመርመር፣ ለመተንተን እና ለማየት ሶፍትዌር ያቀርባል።

* 2021ን ይተነብያል - የውሂብ እና የትንታኔ ስልቶችን ለማስተዳደር፣ ዲጂታል ንግድን ለመለካት እና ለመለወጥ፣ ጋርትነር፣ 2020።

ሰው ሠራሽ መረጃ ምንድነው?

የጥራት ማረጋገጫ ሪፖርት

የውጭ ግምገማ በ SAS

የጊዜ ተከታታይ ሰው ሰራሽ ውሂብ

PII ስካነር

ሰው ሰራሽ ሞክ ዳታ

ወጥነት ያለው የካርታ ስራ

መለየት እና ማቀናበር

ደንብ ላይ የተመሠረተ ሰው ሠራሽ ውሂብ

ንዑስ ቅንብር

ማሰማራት እና ውህደት

አያያዦች

የተራዘሙ ባህሪዎች

የሚደገፍ ውሂብ

የተጠቃሚ ሰነድ

አንድ ማሳያ ፕሮግራም ያውጡ

ክፍያ

ሰው ሰራሽ ውሂብ እንደ የሙከራ ውሂብ

ለትንታኔ ሰው ሠራሽ ውሂብ

ለውሂብ መጋራት ሰው ሠራሽ ውሂብ

ለምርት ማሳያዎች ሠራሽ ውሂብ

የጤና ጥበቃ

የመንግሥት ገንዘብ አስተዳደር

የህዝብ ድርጅቶች

የተጠቃሚ ሰነድ

ነጭ ወረቀቶች እና መመሪያዎች

ጦማር

ዌብኔሰር

የጉዳይ ጥናቶች

ክፍያ

ስለ እኛ

የሙያ