SAS деректер сарапшылары біздің синтетикалық деректерімізді сыртқы бағалау

Біздің синтетикалық деректер бағаланды және бекітілген деректер сарапшылары SAS

SAS деректер сарапшылары біздің синтетикалық деректерімізді сыртқы бағалауға кіріспе

Біз не істедік?

Syntho жасаған синтетикалық деректерді SAS деректер сарапшылары сыртқы және объективті тұрғыдан бағалайды, тексереді және бекітеді.

Неліктен біздің синтетикалық деректерімізді SAS деректер сарапшылары сырттай бағалайды?

Syntho өз пайдаланушыларына сапаны қамтамасыз етудің жетілдірілген есебін мақтанышпен ұсынса да, біз синтетикалық деректерімізді сала жетекшілерінің сыртқы және объективті бағалауының маңыздылығын түсінеміз. Сондықтан синтетикалық деректерімізді бағалау үшін аналитика саласындағы көшбасшы SAS компаниясымен ынтымақтасамыз.

SAS бастапқы деректермен салыстырғанда деректердің дәлдігі, құпиялылықты қорғау және Syntho компаниясының AI жасаған синтетикалық деректерінің қолайлылығы бойынша әртүрлі мұқият бағалаулар жүргізеді. Қорытынды ретінде SAS Syntho синтетикалық деректерін бастапқы деректермен салыстырғанда дәл, қауіпсіз және пайдалануға жарамды деп бағалады және мақұлдады.

Осы бағалау кезінде SAS не істеді?

Біз мақсатты деректер ретінде «шайқау» болжамы үшін пайдаланылатын телекоммуникациялық деректерді пайдаландық. Бағалаудың мақсаты әртүрлі болжау модельдерін үйрету және әрбір модельдің өнімділігін бағалау үшін синтетикалық деректерді пайдалану болды. Шығаруды болжау жіктеу тапсырмасы болғандықтан, SAS болжамдар жасау үшін танымал жіктеу үлгілерін таңдады, соның ішінде:

Кездейсоқ орман
Градиентті күшейту
Логистикалық регрессия
Нейрондық желі

Синтетикалық деректерді жасамас бұрын, SAS телекоммуникациялық деректер жинағын пойыз жинағына (модельдерді үйрету үшін) және ұстау жинағына (модельдерді бағалау үшін) кездейсоқ түрде бөледі. Балл қою үшін бөлек күту жиынының болуы жіктеу үлгісі жаңа деректерге қолданғанда қаншалықты жақсы жұмыс істей алатынын объективті бағалауға мүмкіндік береді.

Пойыз жинағын кіріс ретінде пайдаланып, Syntho синтетикалық деректер жинағын жасау үшін Syntho қозғалтқышын пайдаланды. Бенчмаркинг үшін SAS белгілі бір шекке (k-анонимділік) жету үшін әртүрлі анонимдеу әдістерін қолданғаннан кейін пойыз жиынтығының анонимді нұсқасын жасады. Бұрынғы қадамдар төрт деректер жиынтығына әкелді:

Пойыз деректер жинағы (яғни бастапқы деректер жинағы минус күту деректер жинағы)
Ұстау деректер жинағы (яғни бастапқы деректер жиынының ішкі жиыны)
Анонимді деректер жинағы (поезд деректер жинағының анонимді деректері, бастапқы деректер жиыны минус ұстау деректер жинағы)
Синтетикалық деректер жинағы (поезд деректер жинағының синтезделген деректері, бастапқы деректер жиыны минус ұстау деректер жинағы)

1, 3 және 4 деректер жиыны әрбір жіктеу үлгісін үйрету үшін пайдаланылды, нәтижесінде 12 (3 x 4) оқытылған үлгі алынды. Кейіннен SAS тұтынушы шығынын болжаудағы әрбір үлгінің дәлдігін өлшеу үшін күту деректер жинағын пайдаланды.

Сізде қандай да бір сұрақ бар ма?

Біздің мамандардың бірімен сөйлесіңіз

Бізбен хабарласыңы

SAS деректерін бағалаудың бастапқы нәтижелері

Синтетикалық деректер бойынша дайындалған үлгілер бастапқы деректер бойынша дайындалған үлгілермен салыстырғанда өте ұқсас ұпайға ие

Syntho синтетикалық деректері тек негізгі үлгілерге ғана емес, сонымен қатар кеңейтілген аналитика тапсырмалары үшін қажетті терең «жасырын» статистикалық үлгілерді түсіреді. Соңғысы бағаналы диаграммада көрсетілген, бұл синтетикалық деректерде үйретілген үлгілердің түпнұсқа деректерде үйретілген үлгілермен салыстырғанда дәлдігі ұқсас екенін көрсетеді. Демек, синтетикалық деректерді модельдерді нақты оқыту үшін пайдалануға болады. Синтетикалық деректерде алгоритмдер таңдаған кірістер мен айнымалы маңыздылық бастапқы деректермен салыстырғанда өте ұқсас болды. Демек, модельдеу процесін нақты сезімтал деректерді пайдаланудың баламасы ретінде синтетикалық деректерде жасауға болады деген қорытынды жасалды.

Неліктен анонимді деректер бойынша дайындалған модельдер нашар нәтиже береді?

Классикалық анонимизация әдістерінің ортақ қасиеті бар, олар жеке тұлғаларды іздеуге кедергі жасау үшін бастапқы деректерді өңдейді. Олар деректерді манипуляциялайды және осылайша процесте деректерді жояды. Анонимділік неғұрлым көп болса, деректеріңіз соғұрлым жақсы қорғалады, сонымен қатар деректеріңіз жойылады. Бұл әсіресе AI және модельдеу тапсырмалары үшін «болжау күші» маңызды, өйткені сапасыз деректер AI моделінен нашар түсініктерге әкеледі. SAS мұны қисық астындағы аудан (AUC*) 0.5-ке жақын етіп көрсетті, бұл анонимді деректер бойынша дайындалған үлгілердің ең нашар жұмыс істейтінін көрсетті.

SAS арқылы синтетикалық деректерді бағалаудың қосымша нәтижелері

Айнымалылар арасындағы корреляциялар мен қатынастар синтетикалық деректерде дәл сақталған.

Үлгі өнімділігін өлшеуге арналған метрика қисық астындағы аумақ (AUC) тұрақты болып қалды.

Сонымен қатар, модельдегі айнымалылардың болжамдық күшін көрсететін айнымалы мән синтетикалық деректерді бастапқы деректер жиынымен салыстыру кезінде өзгеріссіз қалды.

SAS және SAS Viya пайдалану арқылы осы бақылауларға сүйене отырып, Syntho қозғалтқышы жасаған синтетикалық деректер сапа жағынан нақты деректермен шынымен тең деп сенімді түрде қорытынды жасауға болады. Бұл синтетикалық деректермен кеңейтілген аналитикаға жол ашып, модельді әзірлеу үшін синтетикалық деректерді пайдалануды растайды.

SAS деректер сарапшыларының қорытындылары

Түпнұсқа деректерде үйретілген үлгілермен салыстырғанда синтетикалық деректер бойынша дайындалған үлгілер өте ұқсас өнімділікті көрсетеді
«Классикалық анонимдеу әдістері» бар анонимді деректер бойынша үйретілген үлгілер бастапқы деректер немесе синтетикалық деректер бойынша оқытылған үлгілермен салыстырғанда төмен өнімділікті көрсетеді.
Синтетикалық деректерді жасау оңай және жылдам, себебі техника деректер жиыны мен деректер түріне сәйкес жұмыс істейді

Біздің синтетикалық деректер бекітілген SAS деректер сарапшылары

Мақаланы оқыңыз

Анықтамалық мақалалар

SAS деректер сарапшыларының бағалауы: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

SAS жаһандық хакатонының синто жеңімпазы: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Денсаулық жағдайын зерттеу нәтижелері: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Синтетикалық деректер нұсқаулығын қазір сақтаңыз!

Синтетикалық мәліметтер дегеніміз не?
Неліктен ұйымдар оны пайдаланады?
Синтетикалық деректер клиентінің жағдайларын қосу мәні
Қалай бастау керек

Синтетикалық мәліметтер дегеніміз не?

Сапаны қамтамасыз ету туралы есеп

SAS арқылы сыртқы бағалау

Уақыт қатарларының синтетикалық деректері

PII сканері

Синтетикалық жалған деректер

Тұрақты карталау

Деидентификация және синтездеу

Ережеге негізделген синтетикалық деректер

Ішкі орнату

Орналастыру және біріктіру

Қосқыштар

Кеңейтілген мүмкіндіктер

Қолдау көрсетілетін деректер

Пайдаланушы құжаттамасы

Демонстрацияны жоспарлаңыз

Баға

Деректерді тексеру

Талдау

Деректерді ортақ пайдалану

Өнімнің демонстрациясы

Деректерді монетизациялау

Денсаулық сақтау

қаржы

Қоғамдық ұйымдар

Пайдаланушы құжаттамасы

Ақ парақтар мен нұсқаулықтар

Blog

Вебинарлар

Case Studies

Баға

Біз туралы

Мансап

SAS деректер сарапшылары біздің синтетикалық деректерімізді сыртқы бағалау

Біздің синтетикалық деректер бағаланды және бекітілген деректер сарапшылары SAS