Anonimləşdirilmiş məlumat və Sintetik məlumat

Əgər siz data analitikasının testini həyata keçirməzdən əvvəl məlumatlarınızı anonimləşdirirsinizsə, burada bir neçə amil var:

  1. Demək olar ki, bütün hallarda, anonimləşdirilmiş məlumatlar hələ də xüsusi və unikal sıralara görə (məsələn, tibbi qeydlər) fərdlərə aid edilə bilər.
  2. Nə qədər çox anonimləşdirsəniz və ya ümumiləşdirsəniz, bir o qədər çox məlumatı məhv edərsiniz. Bu, məlumatlarınızın keyfiyyətini və beləliklə də anlayışlarınızı aşağı salır
  3. Anonimləşdirmə müxtəlif məlumat formatları üçün fərqli işləyir. Bu o deməkdir ki, o, genişləndirilə bilməz və çox vaxt apara bilər

Sintetik məlumatlar bütün bu çatışmazlıqları və daha çoxunu həll edir. SAS-dan (analitika üzrə qlobal bazar lideri) analitik ekspertin orijinal məlumatlar, anonimləşdirilmiş məlumatlar və Syntho tərəfindən yaradılan sintetik məlumatlar arasındakı keyfiyyət fərqi ilə bağlı qiymətləndirməsini izah etmək üçün aşağıdakı videoya baxın.

Bu video süni intellektlə yaradılan sintetik məlumatlar haqqında Syntho x SAS D[N]A Café-dən götürülüb. Tam videonu burada tapa bilərsiniz.

Edwin van Unen Syntho-ya orijinal verilənlər toplusunu göndərdi və biz verilənlər dəstini sintez etdik. Ancaq sual da belə idi: "Sintetik məlumatları anonim məlumatlarla müqayisə etsək nə olacaq?" Anonim məlumatda çoxlu məlumat itirdiyiniz üçün bu, verilənlər toplusunu sintez edərkən də baş verəcəkmi? Biz telekommunikasiya sənayesindən 56.000 sətir və 128 sütundan ibarət şirkət məlumat toplusu ilə başladıq. Bu verilənlər bazası həm sintez edilmiş, həm də anonimləşdirilmişdir ki, Edvin sintezləşdirməni anonimləşdirmə ilə müqayisə edə bilsin. Sonra Edwin SAS Viya ilə modelləşdirməyə başladı. O, klassik reqressiya üsulları və qərar ağaclarından istifadə etməklə, həm də neyron şəbəkələri, gradient gücləndirmə, təsadüfi meşə kimi daha mürəkkəb texnikalardan istifadə edərək, orijinal verilənlər bazasında bir neçə çaxnaşma modeli qurdu - bu cür üsullar. Modelləri qurarkən standart SAS Viya seçimlərindən istifadə.

Sonra nəticələrə baxmaq vaxtı gəldi. Nəticələr anonimləşdirmə üçün deyil, sintetik məlumatlar üçün çox ümidverici idi. Auditoriyada heç bir maşın öyrənməyən mütəxəssislər üçün biz modelin dəqiqliyi haqqında nəsə deyən ROC əyrisi altındakı sahəyə baxırıq. Orijinal məlumatları anonimləşdirilmiş məlumatlarla müqayisə etsək, orijinal məlumat modelinin .8-lik ROC əyrisi altında bir sahəyə sahib olduğunu görürük, bu olduqca yaxşıdır, Bununla belə, anonimləşdirilmiş məlumatların .6-nın ROC əyrisi altında bir sahəsi var. Bu o deməkdir ki, biz anonim modellə çoxlu məlumatı itiririk, beləliklə siz çoxlu proqnozlaşdırma gücünü itirirsiniz.

Bəs onda sual yaranır ki, sintetik məlumatlar haqqında nə demək olar? Burada biz də eyni şeyi etdik, lakin məlumatları anonimləşdirmək əvəzinə Syntho məlumatları sintez etdi. İndi biz həm orijinal verilənlərin, həm də sintetik məlumatların ROC əyrisi altında .8 sahəsinə malik olduğunu görürük ki, bu da çox oxşardır. Dəyişkənliyə görə tam eyni deyil, lakin çox oxşardır. Bu o deməkdir ki, sintetik məlumatların potensialı çox perspektivlidir – Edvin bundan çox xoşbəxtdir.

gülümsəyən bir qrup insan

Məlumat sintetikdir, lakin komandamız realdır!

Syntho ilə əlaqə saxlayın və mütəxəssislərimizdən biri sintetik məlumatların dəyərini öyrənmək üçün işıq sürətində sizinlə əlaqə saxlayacaq!