మీరు డేటా అనలిటిక్స్ యొక్క డేటా టెస్టింగ్ చేసే ముందు మీ డేటాను అజ్ఞాతంగా మార్చినట్లయితే, ప్లేలో అనేక అంశాలు ఉన్నాయి:
సింథటిక్ డేటా ఈ లోపాలను మరియు మరిన్నింటిని పరిష్కరిస్తుంది. SAS (అనలిటిక్స్లో గ్లోబల్ మార్కెట్ లీడర్) నుండి వచ్చిన ఒక అనలిటిక్స్ నిపుణుడు ఒరిజినల్ డేటా, అనామక డేటా మరియు సింథో జెనరేట్ చేసిన సింథటిక్ డేటా మధ్య నాణ్యతలో తేడాపై తన అంచనా గురించి వివరించడానికి క్రింది వీడియోని చూడండి.
AI జనరేటెడ్ సింథటిక్ డేటా గురించి సింథో x SAS D[N]A Café నుండి ఈ వీడియో క్యాప్చర్ చేయబడింది. పూర్తి వీడియోను ఇక్కడ కనుగొనండి.
ఎడ్విన్ వాన్ ఉనెన్ సింథోకు అసలైన డేటాసెట్ను పంపారు మరియు మేము డేటాసెట్ను సింథసైజ్ చేసాము. కానీ ప్రశ్న కూడా ఉంది: “మేము సింథటిక్ డేటాను అనామక డేటాతో పోల్చినట్లయితే ఏమి జరుగుతుంది?” మీరు అనామక డేటాలో చాలా సమాచారాన్ని కోల్పోతారు కాబట్టి, డేటాసెట్ను సింథసైజ్ చేస్తున్నప్పుడు కూడా ఇలా జరుగుతుందా? మేము టెలికమ్యూనికేషన్స్ పరిశ్రమ నుండి 56.000 అడ్డు వరుసలు మరియు 128 కాలమ్ల కంపెనీ చర్న్-ఇన్ఫర్మేషన్తో డేటాసెట్తో ప్రారంభించాము. ఈ డేటాసెట్ సంశ్లేషణ చేయబడింది మరియు అనామకమైంది కాబట్టి ఎడ్విన్ సంశ్లేషణను అనామకీకరణతో పోల్చవచ్చు. తర్వాత, ఎడ్విన్ SAS వియాను ఉపయోగించి మోడలింగ్ చేయడం ప్రారంభించాడు. అతను ఒరిజినల్ డేటాసెట్లో క్లాసికల్ రిగ్రెషన్ టెక్నిక్లు మరియు డెసిషన్ ట్రీలను ఉపయోగించి రెండు చర్న్ మోడల్లను రూపొందించాడు, అయితే న్యూరల్ నెట్వర్క్లు, గ్రేడియంట్ బూస్టింగ్, యాదృచ్ఛిక అటవీ వంటి మరింత అధునాతన సాంకేతికతలను కూడా ఉపయోగించాడు - ఈ రకమైన పద్ధతులు. మోడల్లను నిర్మించేటప్పుడు ప్రామాణిక SAS Viya ఎంపికలను ఉపయోగించడం.
అప్పుడు, ఫలితాలను చూసే సమయం వచ్చింది. ఫలితాలు సింథటిక్ డేటా కోసం చాలా ఆశాజనకంగా ఉన్నాయి మరియు అనామకీకరణ కోసం కాదు. ప్రేక్షకులలో మెషీన్-నేర్చుకోని నిపుణుల కోసం, మేము మోడల్ యొక్క ఖచ్చితత్వం గురించి చెప్పే ROC-కర్వ్ కింద ఉన్న ప్రాంతాన్ని చూస్తాము. అసలైన డేటాను అనామక డేటాతో పోల్చడం ద్వారా, అసలు డేటా మోడల్ .8 యొక్క ROC-కర్వ్లో ఒక ప్రాంతాన్ని కలిగి ఉన్నట్లు మేము చూస్తాము, ఇది చాలా బాగుంది, అయినప్పటికీ, అనామక డేటా ROC-వక్రరేఖ .6 కింద ప్రాంతం కలిగి ఉంది. దీని అర్థం అనామక మోడల్తో మేము చాలా సమాచారాన్ని కోల్పోతాము కాబట్టి మీరు చాలా అంచనా శక్తిని కోల్పోతారు.
అయితే, ప్రశ్న ఏమిటంటే సింథటిక్స్ డేటా గురించి ఏమిటి? ఇక్కడ, మేము సరిగ్గా అదే చేసాము కానీ డేటాను అనామకంగా మార్చడానికి బదులుగా, సింథో డేటాను సంశ్లేషణ చేసింది. ఇప్పుడు, ఒరిజినల్ డేటా మరియు సింథటిక్ డేటా రెండూ ROC-వక్రరేఖ .8 కింద ఒక ప్రాంతాన్ని కలిగి ఉన్నాయని మేము చూస్తాము, ఇది చాలా పోలి ఉంటుంది. వైవిధ్యం కారణంగా సరిగ్గా అదే కాదు, కానీ చాలా పోలి ఉంటుంది. దీని అర్థం, సింథటిక్ డేటా యొక్క సంభావ్యత చాలా ఆశాజనకంగా ఉంది - ఎడ్విన్ దీని గురించి చాలా సంతోషంగా ఉన్నాడు.
సింథోని సంప్రదించండి మరియు సింథటిక్ డేటా విలువను అన్వేషించడానికి మా నిపుణులలో ఒకరు కాంతి వేగంతో మిమ్మల్ని సంప్రదిస్తారు!