అనామక డేటా vs సింథటిక్ డేటా

మీరు డేటా అనలిటిక్స్ యొక్క డేటా టెస్టింగ్ చేసే ముందు మీ డేటాను అజ్ఞాతంగా మార్చినట్లయితే, ప్లేలో అనేక అంశాలు ఉన్నాయి:

  1. దాదాపు అన్ని సందర్భాల్లో, నిర్దిష్టమైన మరియు ప్రత్యేకమైన అడ్డు వరుసల (ఉదా. వైద్య రికార్డులు) కారణంగా అనామక డేటా ఇప్పటికీ వ్యక్తులను గుర్తించవచ్చు.
  2. మీరు ఎంత ఎక్కువ అనామకంగా లేదా సాధారణీకరించారో, మీరు అంత ఎక్కువ డేటాను నాశనం చేస్తారు. ఇది మీ డేటా నాణ్యతను తగ్గిస్తుంది మరియు మీ అంతర్దృష్టులను తగ్గిస్తుంది
  3. విభిన్న డేటా ఫార్మాట్‌ల కోసం అనామకీకరణ విభిన్నంగా పనిచేస్తుంది. దీని అర్థం ఇది కొలవలేనిది మరియు చాలా సమయం తీసుకుంటుంది

సింథటిక్ డేటా ఈ లోపాలను మరియు మరిన్నింటిని పరిష్కరిస్తుంది. SAS (అనలిటిక్స్‌లో గ్లోబల్ మార్కెట్ లీడర్) నుండి వచ్చిన ఒక అనలిటిక్స్ నిపుణుడు ఒరిజినల్ డేటా, అనామక డేటా మరియు సింథో జెనరేట్ చేసిన సింథటిక్ డేటా మధ్య నాణ్యతలో తేడాపై తన అంచనా గురించి వివరించడానికి క్రింది వీడియోని చూడండి.

AI జనరేటెడ్ సింథటిక్ డేటా గురించి సింథో x SAS D[N]A Café నుండి ఈ వీడియో క్యాప్చర్ చేయబడింది. పూర్తి వీడియోను ఇక్కడ కనుగొనండి.

ఎడ్విన్ వాన్ ఉనెన్ సింథోకు అసలైన డేటాసెట్‌ను పంపారు మరియు మేము డేటాసెట్‌ను సింథసైజ్ చేసాము. కానీ ప్రశ్న కూడా ఉంది: “మేము సింథటిక్ డేటాను అనామక డేటాతో పోల్చినట్లయితే ఏమి జరుగుతుంది?” మీరు అనామక డేటాలో చాలా సమాచారాన్ని కోల్పోతారు కాబట్టి, డేటాసెట్‌ను సింథసైజ్ చేస్తున్నప్పుడు కూడా ఇలా జరుగుతుందా? మేము టెలికమ్యూనికేషన్స్ పరిశ్రమ నుండి 56.000 అడ్డు వరుసలు మరియు 128 కాలమ్‌ల కంపెనీ చర్న్-ఇన్ఫర్మేషన్‌తో డేటాసెట్‌తో ప్రారంభించాము. ఈ డేటాసెట్ సంశ్లేషణ చేయబడింది మరియు అనామకమైంది కాబట్టి ఎడ్విన్ సంశ్లేషణను అనామకీకరణతో పోల్చవచ్చు. తర్వాత, ఎడ్విన్ SAS వియాను ఉపయోగించి మోడలింగ్ చేయడం ప్రారంభించాడు. అతను ఒరిజినల్ డేటాసెట్‌లో క్లాసికల్ రిగ్రెషన్ టెక్నిక్‌లు మరియు డెసిషన్ ట్రీలను ఉపయోగించి రెండు చర్న్ మోడల్‌లను రూపొందించాడు, అయితే న్యూరల్ నెట్‌వర్క్‌లు, గ్రేడియంట్ బూస్టింగ్, యాదృచ్ఛిక అటవీ వంటి మరింత అధునాతన సాంకేతికతలను కూడా ఉపయోగించాడు - ఈ రకమైన పద్ధతులు. మోడల్‌లను నిర్మించేటప్పుడు ప్రామాణిక SAS Viya ఎంపికలను ఉపయోగించడం.

అప్పుడు, ఫలితాలను చూసే సమయం వచ్చింది. ఫలితాలు సింథటిక్ డేటా కోసం చాలా ఆశాజనకంగా ఉన్నాయి మరియు అనామకీకరణ కోసం కాదు. ప్రేక్షకులలో మెషీన్-నేర్చుకోని నిపుణుల కోసం, మేము మోడల్ యొక్క ఖచ్చితత్వం గురించి చెప్పే ROC-కర్వ్ కింద ఉన్న ప్రాంతాన్ని చూస్తాము. అసలైన డేటాను అనామక డేటాతో పోల్చడం ద్వారా, అసలు డేటా మోడల్ .8 యొక్క ROC-కర్వ్‌లో ఒక ప్రాంతాన్ని కలిగి ఉన్నట్లు మేము చూస్తాము, ఇది చాలా బాగుంది, అయినప్పటికీ, అనామక డేటా ROC-వక్రరేఖ .6 కింద ప్రాంతం కలిగి ఉంది. దీని అర్థం అనామక మోడల్‌తో మేము చాలా సమాచారాన్ని కోల్పోతాము కాబట్టి మీరు చాలా అంచనా శక్తిని కోల్పోతారు.

అయితే, ప్రశ్న ఏమిటంటే సింథటిక్స్ డేటా గురించి ఏమిటి? ఇక్కడ, మేము సరిగ్గా అదే చేసాము కానీ డేటాను అనామకంగా మార్చడానికి బదులుగా, సింథో డేటాను సంశ్లేషణ చేసింది. ఇప్పుడు, ఒరిజినల్ డేటా మరియు సింథటిక్ డేటా రెండూ ROC-వక్రరేఖ .8 కింద ఒక ప్రాంతాన్ని కలిగి ఉన్నాయని మేము చూస్తాము, ఇది చాలా పోలి ఉంటుంది. వైవిధ్యం కారణంగా సరిగ్గా అదే కాదు, కానీ చాలా పోలి ఉంటుంది. దీని అర్థం, సింథటిక్ డేటా యొక్క సంభావ్యత చాలా ఆశాజనకంగా ఉంది - ఎడ్విన్ దీని గురించి చాలా సంతోషంగా ఉన్నాడు.

నవ్వుతున్న వ్యక్తుల సమూహం

డేటా సింథటిక్, కానీ మా బృందం నిజమైనది!

సింథోని సంప్రదించండి మరియు సింథటిక్ డేటా విలువను అన్వేషించడానికి మా నిపుణులలో ఒకరు కాంతి వేగంతో మిమ్మల్ని సంప్రదిస్తారు!