Vlerësimi i jashtëm i të dhënave tona sintetike nga ekspertët e të dhënave të SAS

Të dhënat tona sintetike janë vlerësuar i miratuar nga ekspertët e të dhënave të SAS

Hyrje në vlerësimin e jashtëm të të dhënave tona sintetike nga ekspertët e të dhënave të SAS

çfarë bëmë?

Të dhënat sintetike të gjeneruara nga Syntho vlerësohen, vërtetohen dhe miratohen nga një këndvështrim i jashtëm dhe objektiv nga ekspertët e të dhënave të SAS.

Pse të dhënat tona sintetike vlerësohen nga jashtë nga ekspertët e të dhënave të SAS?

Megjithëse Syntho është krenar që u ofron përdoruesve të saj një raport të avancuar të sigurimit të cilësisë, ne e kuptojmë gjithashtu rëndësinë e të paturit një vlerësim të jashtëm dhe objektiv të të dhënave tona sintetike nga drejtuesit e industrisë. Kjo është arsyeja pse ne bashkëpunojmë me SAS, lider në analitikë, për të vlerësuar të dhënat tona sintetike.

SAS kryen vlerësime të ndryshme të plota mbi saktësinë e të dhënave, mbrojtjen e privatësisë dhe përdorshmërinë e të dhënave sintetike të gjeneruara nga AI në Syntho në krahasim me të dhënat origjinale. Si përfundim, SAS vlerësoi dhe miratoi të dhënat sintetike të Syntho si të sakta, të sigurta dhe të përdorshme në krahasim me të dhënat origjinale.

Çfarë bëri SAS gjatë këtij vlerësimi?

Ne përdorëm të dhënat e telekomit që përdoren për parashikimin e "përdredhjes" si të dhëna të synuara. Qëllimi i vlerësimit ishte përdorimi i të dhënave sintetike për të trajnuar modele të ndryshme të parashikimit të turbullimit dhe për të vlerësuar performancën e secilit model. Meqenëse parashikimi i përmbysjes është një detyrë klasifikimi, SAS zgjodhi modelet e njohura të klasifikimit për të bërë parashikimet, duke përfshirë:

  1. Pyll i rastësishëm
  2. Rritja e gradientit
  3. Regresioni logjistik
  4. Rrjeti nervor

Përpara se të gjeneronte të dhënat sintetike, SAS ndau në mënyrë të rastësishme të dhënat e telekomit në një grup treni (për trajnimin e modeleve) dhe një grup mbajtës (për vlerësimin e modeleve). Pasja e një grupi të veçantë mbajtës për pikëzimin lejon një vlerësim të paanshëm se sa mirë mund të funksionojë modeli i klasifikimit kur zbatohet për të dhëna të reja.

Duke përdorur grupin e trenit si hyrje, Syntho përdori Motorin e tij Syntho për të gjeneruar një grup të dhënash sintetike. Për krahasim, SAS krijoi gjithashtu një version të anonimizuar të grupit të trenave pas aplikimit të teknikave të ndryshme anonimizimi për të arritur një prag të caktuar (k-anonimiteti). Hapat e mëparshëm rezultuan në katër grupe të dhënash:

  1. Një grup të dhënash treni (dmth. grupi i të dhënave origjinale minus grupin e të dhënave të mbetura)
  2. Një grup të dhënash mbajtëse (dmth. një nëngrup i të dhënave origjinale)
  3. Një grup të dhënash të anonimizuar (të dhëna anonime të grupit të të dhënave të trenit, të dhënat origjinale minus grupin e të dhënave të mbetura)
  4. Një grup të dhënash sintetike (të dhënat e sintetizuara të grupit të të dhënave të trenit, të dhënat origjinale minus grupin e të dhënave të mbetura)

Të dhënat 1, 3 dhe 4 u përdorën për të trajnuar çdo model klasifikimi, duke rezultuar në 12 (3 x 4) modele të trajnuara. SAS më pas përdori grupin e të dhënave mbajtëse për të matur saktësinë e secilit model në parashikimin e shpërnguljes së klientit.

SAS kryen vlerësime të ndryshme të plota mbi saktësinë e të dhënave, mbrojtjen e privatësisë dhe përdorshmërinë e të dhënave sintetike të gjeneruara nga AI në Syntho në krahasim me të dhënat origjinale. Si përfundim, SAS vlerësoi dhe miratoi të dhënat sintetike të Syntho si të sakta, të sigurta dhe të përdorshme në krahasim me të dhënat origjinale.

A keni ndonjë pyetje?

Bisedoni me një nga ekspertët tanë

Rezultatet fillestare të vlerësimit të të dhënave nga SAS

Modelet e trajnuara me të dhëna sintetike kanë rezultate shumë të ngjashme në krahasim me modelet e trajnuara me të dhëna origjinale

Të dhënat sintetike nga Syntho nuk janë vetëm për modelet bazë, por gjithashtu kapin modele statistikore të "fshehura" të thella të kërkuara për detyra të avancuara analitike. Kjo e fundit është demonstruar në grafikun me shtylla, duke treguar se saktësia e modeleve të trajnuara në të dhëna sintetike kundrejt modeleve të trajnuara me të dhëna origjinale janë të ngjashme. Prandaj, të dhënat sintetike mund të përdoren për trajnimin aktual të modeleve. Inputet dhe rëndësia e ndryshueshme e zgjedhur nga algoritmet mbi të dhënat sintetike në krahasim me të dhënat origjinale ishin shumë të ngjashme. Kështu, konstatohet se procesi i modelimit mund të bëhet në të dhëna sintetike, si një alternativë për përdorimin e të dhënave reale të ndjeshme.

Pse modelet e trajnuara për të dhëna anonime shënojnë më keq?

Teknikat klasike të anonimizimit kanë të përbashkët se ato manipulojnë të dhënat origjinale në mënyrë që të pengojnë gjurmimin e individëve. Ata manipulojnë të dhënat dhe në këtë mënyrë shkatërrojnë të dhënat në proces. Sa më shumë të anonimizoni, aq më mirë mbrohen të dhënat tuaja, por edhe aq më shumë të dhënat tuaja shkatërrohen. Kjo është veçanërisht shkatërruese për AI dhe detyrat e modelimit ku "fuqia parashikuese" është thelbësore, sepse të dhënat me cilësi të keqe do të rezultojnë në njohuri të këqija nga modeli i AI. SAS e demonstroi këtë, me një zonë nën kurbë (AUC*) afër 0.5, duke demonstruar se modelet e trajnuara mbi të dhëna anonime performojnë shumë më keq.

Rezultatet shtesë të vlerësimeve të të dhënave sintetike nga SAS

Rezultatet shtesë të vlerësimeve të të dhënave sintetike nga SAS

Korrelacionet dhe marrëdhëniet ndërmjet variablave u ruajtën me saktësi në të dhënat sintetike.

Zona nën kurbë (AUC), një metrikë për matjen e performancës së modelit, mbeti e qëndrueshme.

Për më tepër, rëndësia e ndryshores, e cila tregon fuqinë parashikuese të variablave në një model, mbeti e paprekur kur krahasoheshin të dhënat sintetike me grupin e të dhënave origjinale.

Bazuar në këto vëzhgime nga SAS dhe duke përdorur SAS Viya, mund të konkludojmë me besim se të dhënat sintetike të krijuara nga Syntho Engine janë me të vërtetë në të njëjtin nivel me të dhënat reale për sa i përket cilësisë. Kjo vërteton përdorimin e të dhënave sintetike për zhvillimin e modelit, duke hapur rrugën për analitikë të avancuar me të dhëna sintetike.

Konkluzione nga ekspertët e të dhënave të SAS

Logoja e Sas

Të dhënat tona sintetike janë i miratuar nga ekspertët e të dhënave të SAS

Artikuj referencë

mbulesë udhëzuese sinto

Ruani udhëzuesin tuaj të të dhënave sintetike tani!