సింథో ద్వారా రూపొందించబడిన సింథటిక్ డేటా SAS యొక్క డేటా నిపుణులచే బాహ్య మరియు ఆబ్జెక్టివ్ దృక్కోణం నుండి అంచనా వేయబడుతుంది, ధృవీకరించబడుతుంది మరియు ఆమోదించబడుతుంది.
సింథో తన వినియోగదారులకు అధునాతన నాణ్యత హామీ నివేదికను అందించడానికి గర్విస్తున్నప్పటికీ, పరిశ్రమ నాయకుల నుండి మా సింథటిక్ డేటా యొక్క బాహ్య మరియు ఆబ్జెక్టివ్ మూల్యాంకనం యొక్క ప్రాముఖ్యతను కూడా మేము అర్థం చేసుకున్నాము. అందుకే మేము మా సింథటిక్ డేటాను అంచనా వేయడానికి విశ్లేషణలలో అగ్రగామి SASతో సహకరిస్తాము.
SAS డేటా-ఖచ్చితత్వం, గోప్యతా రక్షణ మరియు సింథో యొక్క AI- రూపొందించిన సింథటిక్ డేటా యొక్క వినియోగంపై అసలైన డేటాతో పోల్చితే వివిధ సమగ్ర మూల్యాంకనాలను నిర్వహిస్తుంది. ముగింపుగా, SAS సింథో యొక్క సింథటిక్ డేటాను అసలు డేటాతో పోల్చితే ఖచ్చితమైనది, సురక్షితమైనది మరియు ఉపయోగించదగినదిగా అంచనా వేసింది మరియు ఆమోదించింది.
మేము "చర్న్" ప్రిడిక్షన్ కోసం ఉపయోగించే టెలికాం డేటాను టార్గెట్ డేటాగా ఉపయోగించాము. వివిధ చర్న్ ప్రిడిక్షన్ మోడల్లకు శిక్షణ ఇవ్వడానికి మరియు ప్రతి మోడల్ పనితీరును అంచనా వేయడానికి సింథటిక్ డేటాను ఉపయోగించడం మూల్యాంకనం యొక్క లక్ష్యం. చర్న్ ప్రిడిక్షన్ అనేది వర్గీకరణ విధి కాబట్టి, అంచనాలను రూపొందించడానికి SAS ప్రముఖ వర్గీకరణ నమూనాలను ఎంచుకుంది, వీటితో సహా:
సింథటిక్ డేటాను రూపొందించే ముందు, SAS యాదృచ్ఛికంగా టెలికాం డేటాసెట్ను రైలు సెట్గా (మోడళ్లకు శిక్షణ కోసం) మరియు హోల్డ్అవుట్ సెట్గా (మోడళ్లను స్కోర్ చేయడానికి) విభజించింది. స్కోరింగ్ కోసం ప్రత్యేక హోల్డ్అవుట్ సెట్ను కలిగి ఉండటం వలన కొత్త డేటాకు వర్తింపజేసినప్పుడు వర్గీకరణ మోడల్ ఎంత బాగా పని చేస్తుందో నిష్పాక్షికంగా అంచనా వేయడానికి అనుమతిస్తుంది.
రైలు సెట్ను ఇన్పుట్గా ఉపయోగించి, సింథో దాని సింథో ఇంజిన్ని సింథటిక్ డేటాసెట్ను రూపొందించడానికి ఉపయోగించింది. బెంచ్మార్కింగ్ కోసం, SAS ఒక నిర్దిష్ట థ్రెషోల్డ్ను (k-అజ్ఞాతత్వం) చేరుకోవడానికి వివిధ అనామకీకరణ పద్ధతులను వర్తింపజేసిన తర్వాత రైలు సెట్ యొక్క అనామక సంస్కరణను కూడా సృష్టించింది. మునుపటి దశలు నాలుగు డేటాసెట్లుగా మారాయి:
ప్రతి వర్గీకరణ నమూనాకు శిక్షణ ఇవ్వడానికి డేటాసెట్లు 1, 3 మరియు 4 ఉపయోగించబడ్డాయి, ఫలితంగా 12 (3 x 4) శిక్షణ పొందిన నమూనాలు వచ్చాయి. SAS తదనంతరం కస్టమర్ చర్న్ యొక్క అంచనాలో ప్రతి మోడల్ యొక్క ఖచ్చితత్వాన్ని కొలవడానికి హోల్డౌట్ డేటాసెట్ను ఉపయోగించింది.
SAS డేటా-ఖచ్చితత్వం, గోప్యతా రక్షణ మరియు సింథో యొక్క AI- రూపొందించిన సింథటిక్ డేటా యొక్క వినియోగంపై అసలైన డేటాతో పోల్చితే వివిధ సమగ్ర మూల్యాంకనాలను నిర్వహిస్తుంది. ముగింపుగా, SAS సింథో యొక్క సింథటిక్ డేటాను అసలు డేటాతో పోల్చితే ఖచ్చితమైనది, సురక్షితమైనది మరియు ఉపయోగించదగినదిగా అంచనా వేసింది మరియు ఆమోదించింది.
సింథో నుండి సింథటిక్ డేటా ప్రాథమిక నమూనాల కోసం మాత్రమే కాకుండా, అధునాతన విశ్లేషణ పనులకు అవసరమైన లోతైన 'దాచిన' గణాంక నమూనాలను కూడా సంగ్రహిస్తుంది. రెండోది బార్ చార్ట్లో ప్రదర్శించబడింది, సింథటిక్ డేటాపై శిక్షణ పొందిన మోడల్ల ఖచ్చితత్వం మరియు అసలు డేటాపై శిక్షణ పొందిన మోడల్లు ఒకే విధంగా ఉన్నాయని సూచిస్తున్నాయి. అందువల్ల, నమూనాల వాస్తవ శిక్షణ కోసం సింథటిక్ డేటాను ఉపయోగించవచ్చు. ఒరిజినల్ డేటాతో పోల్చితే సింథటిక్ డేటాపై అల్గారిథమ్ల ద్వారా ఎంపిక చేయబడిన ఇన్పుట్లు మరియు వేరియబుల్ ప్రాముఖ్యత చాలా పోలి ఉంటాయి. అందువల్ల, నిజమైన సున్నితమైన డేటాను ఉపయోగించేందుకు ప్రత్యామ్నాయంగా సింథటిక్ డేటాపై మోడలింగ్ ప్రక్రియ చేయవచ్చని నిర్ధారించబడింది.
క్లాసిక్ అనామైజేషన్ టెక్నిక్లు సాధారణంగా వ్యక్తులను గుర్తించడంలో ఆటంకం కలిగించడానికి అసలైన డేటాను తారుమారు చేస్తాయి. వారు డేటాను తారుమారు చేస్తారు మరియు ప్రక్రియలో డేటాను నాశనం చేస్తారు. మీరు ఎంత ఎక్కువ అజ్ఞాతంగా ఉంటే, మీ డేటా అంత మెరుగ్గా రక్షించబడుతుంది, కానీ మీ డేటా అంత ఎక్కువగా నాశనం అవుతుంది. "ప్రిడిక్టివ్ పవర్" అవసరమైన AI మరియు మోడలింగ్ పనులకు ఇది ముఖ్యంగా వినాశకరమైనది, ఎందుకంటే చెడు నాణ్యత డేటా AI మోడల్ నుండి చెడు అంతర్దృష్టులకు దారి తీస్తుంది. SAS దీనిని ప్రదర్శించింది, వక్రరేఖ (AUC*) కింద ఉన్న ప్రాంతం 0.5కి దగ్గరగా ఉంటుంది, అనామక డేటాపై శిక్షణ పొందిన మోడల్లు చాలా చెత్తగా పనిచేస్తాయని నిరూపిస్తుంది.
వేరియబుల్స్ మధ్య సహసంబంధాలు మరియు సంబంధాలు సింథటిక్ డేటాలో ఖచ్చితంగా భద్రపరచబడ్డాయి.
మోడల్ పనితీరును కొలిచే మెట్రిక్ అయిన ఏరియా అండర్ ది కర్వ్ (AUC) స్థిరంగా ఉంది.
ఇంకా, మోడల్లోని వేరియబుల్స్ యొక్క ప్రిడిక్టివ్ పవర్ను సూచించే వేరియబుల్ ప్రాముఖ్యత, సింథటిక్ డేటాను అసలు డేటాసెట్తో పోల్చినప్పుడు చెక్కుచెదరకుండా ఉంటుంది.
SAS ద్వారా మరియు SAS Viyaని ఉపయోగించడం ద్వారా ఈ పరిశీలనల ఆధారంగా, సింథో ఇంజిన్ ద్వారా రూపొందించబడిన సింథటిక్ డేటా నాణ్యత పరంగా నిజమైన డేటాతో సమానంగా ఉంటుందని మేము నమ్మకంగా నిర్ధారించగలము. ఇది మోడల్ డెవలప్మెంట్ కోసం సింథటిక్ డేటా వినియోగాన్ని ధృవీకరిస్తుంది, సింథటిక్ డేటాతో అధునాతన విశ్లేషణలకు మార్గం సుగమం చేస్తుంది.