Надворешна евалуација на нашите синтетички податоци од страна на експертите за податоци на САС

Нашите синтетички податоци се оценето одобрени од страна на експертите за податоци на САС

Вовед во екстерното оценување на нашите синтетички податоци од страна на експертите за податоци на САС

Што направивме?

Синтетичките податоци генерирани од Syntho се проценети, потврдени и одобрени од надворешна и објективна гледна точка од страна на експертите за податоци на SAS.

Зошто нашите синтетички податоци надворешно се оценуваат од експертите за податоци на САС?

Иако Syntho е горд што им нуди на своите корисници напреден извештај за обезбедување квалитет, ние исто така ја разбираме важноста да се има надворешна и објективна евалуација на нашите синтетички податоци од лидерите во индустријата. Затоа соработуваме со SAS, лидер во аналитиката, за да ги процениме нашите синтетички податоци.

SAS спроведува различни темелни проценки за точноста на податоците, заштитата на приватноста и употребливоста на синтетичките податоци генерирани од Syntho со вештачка интелигенција во споредба со оригиналните податоци. Како заклучок, SAS ги оцени и одобри синтетичките податоци на Syntho како точни, сигурни и употребливи во споредба со оригиналните податоци.

Што направи САС при оваа проценка?

Како целни податоци ги користевме телекомуникациските податоци што се користат за предвидување на „превртување“. Целта на евалуацијата беше да се искористат синтетички податоци за да се обучат различни модели за предвидување на пречки и да се проценат перформансите на секој модел. Со оглед на тоа што предвидувањето на пречки е задача за класификација, SAS избра популарни модели за класификација за да ги направи предвидувањата, вклучувајќи:

  1. Случајна шума
  2. Зголемување на градиентот
  3. Логистичка регресија
  4. Нервна мрежа

Пред да ги генерира синтетичките податоци, SAS по случаен избор го дели телекомуникацискиот сет на воз (за обука на моделите) и сет за задржување (за бодување на моделите). Посебниот сет за бодување овозможува непристрасна проценка за тоа колку добро би можел да работи моделот на класификација кога се применува на нови податоци.

Користејќи го комплетот воз како влез, Syntho го користеше својот Syntho Engine за да генерира синтетичка база на податоци. За бенчмаркинг, SAS, исто така, создаде анонимизирана верзија на комплетот воз по примена на различни техники за анонимизација за да достигне одреден праг (на k-анонимност). Поранешните чекори резултираа во четири сетови на податоци:

  1. Дата на податоци за воз (т.е. оригиналната база на податоци минус резервната база на податоци)
  2. Задржана база на податоци (т.е. подмножество од оригиналната база на податоци)
  3. Анонимизирана база на податоци (анонимизирани податоци за збирката на возови, оригинална база на податоци минус резервната база на податоци)
  4. Синтетичка база на податоци (синтетизирани податоци од збирката на податоци за воз, оригинална база на податоци минус резервната база на податоци)

Збирките на податоци 1, 3 и 4 беа користени за обука на секој модел на класификација, што резултираше со 12 (3 x 4) обучени модели. SAS последователно ја користеше базата на податоци за задржување за да ја измери точноста на секој модел во предвидувањето на раздвојувањето на клиентите.

SAS спроведува различни темелни проценки за точноста на податоците, заштитата на приватноста и употребливоста на синтетичките податоци генерирани од Syntho со вештачка интелигенција во споредба со оригиналните податоци. Како заклучок, SAS ги оцени и одобри синтетичките податоци на Syntho како точни, сигурни и употребливи во споредба со оригиналните податоци.

Дали имате било какви прашања?

Разговарајте со еден од нашите експерти

Првичните резултати од проценката на податоците од страна на САС

Моделите обучени на синтетички податоци имаат многу слични резултати во споредба со моделите обучени на оригинални податоци

Синтетичките податоци од Syntho чуваат не само за основните обрасци, туку исто така доловуваат длабоки „скриени“ статистички обрасци потребни за напредни аналитички задачи. Последново е прикажано на столбестиот графикон, што покажува дека точноста на моделите обучени на синтетички податоци наспроти моделите обучени на оригинални податоци се слични. Оттука, синтетичките податоци може да се користат за вистинска обука на моделите. Влезовите и променливата важност избрани од алгоритмите за синтетички податоци во споредба со оригиналните податоци беа многу слични. Оттука, се заклучува дека процесот на моделирање може да се направи на синтетички податоци, како алтернатива за користење на вистински чувствителни податоци.

Зошто моделите обучени на анонимизирани податоци добиваат полоши резултати?

Класичните техники за анонимизација имаат заедничко тоа што манипулираат со оригинални податоци со цел да го спречат пронаоѓањето на поединци. Тие манипулираат со податоци и со тоа ги уништуваат податоците во процесот. Колку повеќе анонимизирате, толку подобро вашите податоци се заштитени, но и колку повеќе вашите податоци се уништуваат. Ова е особено погубно за задачите за вештачка интелигенција и моделирање каде што „моќта за предвидување“ е од суштинско значење, бидејќи податоците со лош квалитет ќе резултираат со лоши сознанија од моделот на вештачка интелигенција. SAS го покажа ова, со површина под кривата (AUC*) блиску до 0.5, покажувајќи дека моделите обучени на анонимизирани податоци имаат далеку најлошо.

Дополнителни резултати од проценки на синтетички податоци од САС

Дополнителни резултати од проценки на синтетички податоци од САС

Корелациите и односите помеѓу променливите беа точно зачувани во синтетички податоци.

Површината под кривата (AUC), метрика за мерење на перформансите на моделот, остана конзистентна.

Понатаму, важноста на променливата, која укажува на моќта на предвидување на променливите во моделот, остана недопрена кога се споредуваат синтетичките податоци со оригиналната база на податоци.

Врз основа на овие набљудувања на SAS и со користење на SAS Viya, можеме со сигурност да заклучиме дека синтетичките податоци генерирани од Syntho Engine се навистина на исто ниво со реалните податоци во однос на квалитетот. Ова ја потврдува употребата на синтетички податоци за развој на модел, отворајќи го патот за напредна аналитика со синтетички податоци.

Заклучоци од експертите за податоци на САС

Лого на Sas

Нашите синтетички податоци се одобрени од страна на експертите за податоци на САС

Референтни статии

синто водич капак

Зачувајте го вашиот водич за синтетички податоци сега!