AI tərəfindən yaradılan Sintetik Məlumat, yüksək keyfiyyətli məlumatlara asan və sürətli çıxış?

AI praktikada sintetik məlumatlar yaratdı

Süni intellektlə yaradılan sintetik məlumatlar üzrə mütəxəssis olan Syntho, dönüş etməyi hədəfləyir privacy by design süni intellektlə yaradılan sintetik məlumatlar ilə rəqabət üstünlüyünə çevrilir. Onlar təşkilatlara yüksək keyfiyyətli məlumatlara asan və sürətli çıxış ilə güclü məlumat bazası yaratmağa kömək edir və bu yaxınlarda Philips İnnovasiya Mükafatını qazanıb.

Bununla belə, AI ilə sintetik məlumatların yaradılması adətən tez-tez verilən sualları təqdim edən nisbətən yeni bir həlldir. Bunlara cavab vermək üçün Syntho, Advanced Analytics və AI proqram təminatı sahəsində bazar lideri SAS ilə birlikdə təcrübə araşdırmasına başladı.

Hollandiyanın AI Koalisiyası (NL AIC) ilə əməkdaşlıq edərək, onlar Syntho Mühərriki tərəfindən yaradılan süni intellekt əsasında yaradılan sintetik məlumatları verilənlərin keyfiyyəti, hüquqi etibarlılığı və istifadəyə yararlılığı üzrə müxtəlif qiymətləndirmələr vasitəsilə orijinal məlumatlar ilə müqayisə edərək sintetik məlumatların dəyərini araşdırdılar.

Məlumatların anonimləşdirilməsi həll yolu deyilmi?

Klassik anonimləşdirmə üsullarının ümumi cəhətləri var ki, onlar fərdləri izləməyə mane olmaq üçün orijinal məlumatları manipulyasiya edirlər. Nümunələr ümumiləşdirmə, bastırma, silmə, təxəllüsləşdirmə, məlumatların maskalanması və sətir və sütunların qarışdırılmasıdır. Aşağıdakı cədvəldə nümunələr tapa bilərsiniz.

məlumatların anonimləşdirilməsi

Bu texnikalar 3 əsas problem təqdim edir:

  1. Onlar məlumat növünə və verilənlər toplusuna görə fərqli işləyirlər, bu da onların miqyasını çətinləşdirir. Bundan əlavə, onlar fərqli şəkildə işlədikləri üçün hansı metodların tətbiq ediləcəyi və hansı texnikaların birləşməsinə ehtiyac olduğu barədə həmişə mübahisələr olacaq.
  2. Orijinal məlumatlar ilə həmişə bir-bir əlaqə var. Bu o deməkdir ki, hər zaman məxfilik riski olacaq, xüsusən də bütün açıq məlumat dəstləri və həmin verilənlər dəstlərini əlaqələndirmək üçün mövcud üsullar.
  3. Onlar məlumatları manipulyasiya edir və bununla da prosesdə məlumatları məhv edirlər. Bu, “proqnozlaşdırma qabiliyyətinin” vacib olduğu AI tapşırıqları üçün xüsusilə dağıdıcıdır, çünki keyfiyyətsiz məlumatlar AI modelindən pis təsəvvürlərlə nəticələnəcək (Zibilin daxil olması zibilin çıxarılması ilə nəticələnəcək).

Bu məqamlar da bu nümunə araşdırması vasitəsilə qiymətləndirilir.

Keys tədqiqatına giriş

Nümunəvi tədqiqat üçün hədəf verilənlər bazası SAS tərəfindən təmin edilmiş 56.600 müştərinin məlumatlarını ehtiva edən telekommunikasiya məlumat dəsti idi. Verilənlər dəsti müştərinin şirkətdən ayrılıb-çıxmadığını (yəni 'çarpışma') və ya etmədiyini göstərən bir sütun da daxil olmaqla 128 sütundan ibarətdir. Nümunəvi tədqiqatın məqsədi sintetik məlumatlardan bəzi modelləri öyrətmək üçün müştərilərin çaşqınlığını proqnozlaşdırmaq və həmin təlim keçmiş modellərin performansını qiymətləndirmək idi. Çatışmazlığın proqnozlaşdırılması təsnifat işi olduğundan, SAS proqnozlar vermək üçün dörd məşhur təsnifat modelini seçdi, o cümlədən:

  1. Təsadüfi meşə
  2. Qradiyent artırma
  3. Logistik reqressiya
  4. Sinir şəbəkəsi

Sintetik məlumatları yaratmazdan əvvəl SAS təsadüfi olaraq telekommunikasiya məlumat dəstini qatar dəstinə (modelləri öyrətmək üçün) və saxlama dəstinə (modelləri qiymətləndirmək üçün) ayırdı. Qiymətləndirmə üçün ayrıca saxlama dəstinin olması təsnifat modelinin yeni məlumatlara tətbiq edildikdə nə dərəcədə yaxşı çıxış edə biləcəyini qərəzsiz qiymətləndirməyə imkan verir.

Qatar dəstini giriş kimi istifadə edərək, Syntho sintetik məlumat dəsti yaratmaq üçün Syntho Mühərrikindən istifadə etdi. Müqayisə üçün SAS müəyyən həddə (k-anonimlik) çatmaq üçün müxtəlif anonimləşdirmə üsullarını tətbiq etdikdən sonra qatar dəstinin manipulyasiya edilmiş versiyasını da yaratdı. Əvvəlki addımlar dörd verilənlər bazası ilə nəticələndi:

  1. Qatar məlumat dəsti (yəni, orijinal verilənlər dəsti minus saxlama məlumat dəsti)
  2. Dayanma verilənlər dəsti (yəni orijinal verilənlər dəstinin alt dəsti)
  3. Anonim verilənlər toplusu (qatar məlumat dəstinə əsaslanaraq)
  4. Sintetik verilənlər toplusu (qatar məlumat dəsti əsasında)

Hər bir təsnifat modelini öyrətmək üçün 1, 3 və 4-cü verilənlər dəsti istifadə edildi, nəticədə 12 (3 x 4) təlim keçmiş model əldə edildi. SAS daha sonra hər bir modelin müştəri itkisini proqnozlaşdırdığı dəqiqliyi ölçmək üçün saxlama məlumat dəstindən istifadə etdi. Nəticələr bəzi əsas statistikadan başlayaraq aşağıda təqdim olunur.

SAS-da yaradılan Maşın Öyrənmə boru kəməri

Şəkil: SAS Visual Data Mining və Machine Learning-də yaradılan Maşın Öyrənmə kəməri

Anonimləşdirilmiş məlumatları orijinal məlumatlarla müqayisə edərkən əsas statistika

Anonimləşdirmə üsulları hətta əsas nümunələri, iş məntiqini, əlaqələri və statistikanı məhv edir (aşağıdakı nümunədə olduğu kimi). Əsas analitika üçün anonim məlumatların istifadəsi etibarsız nəticələr verir. Əslində, anonimləşdirilmiş məlumatların keyfiyyətsizliyi ondan qabaqcıl analitik tapşırıqlar (məsələn, AI/ML modelləşdirmə və idarə paneli) üçün istifadə etməyi demək olar ki, qeyri-mümkün etdi.

anonim məlumatların orijinal məlumatlarla müqayisəsi

Sintetik məlumatları orijinal məlumatlarla müqayisə edərkən əsas statistika

AI ilə sintetik məlumatların yaradılması əsas nümunələri, biznes məntiqini, əlaqələri və statistikanı qoruyur (aşağıdakı nümunədə olduğu kimi). Əsas analitika üçün sintetik məlumatların istifadəsi etibarlı nəticələr verir. Əsas sual, sintetik məlumatlar qabaqcıl analitik tapşırıqlar (məsələn, AI/ML modelləşdirmə və idarə panelləri) üçün nəzərdə tutulubmu?

sintetik məlumatların orijinal məlumatlarla müqayisəsi

AI tərəfindən yaradılan sintetik məlumatlar və qabaqcıl analitika

Sintetik məlumatlar təkcə əsas nümunələr üçün deyil (keçmiş süjetlərdə göstərildiyi kimi), o, həmçinin qabaqcıl analitik tapşırıqlar üçün tələb olunan dərin “gizli” statistik nümunələri də əhatə edir. Sonuncu aşağıdakı qrafada nümayiş etdirilir ki, bu da sintetik məlumatlarla öyrədilmiş modellərin orijinal məlumatlarla öyrədilmiş modellərə qarşı dəqiqliyinin oxşar olduğunu göstərir. Bundan əlavə, əyri altındakı sahə (AUC*) 0.5-ə yaxın olduqda, anonimləşdirilmiş məlumatlar əsasında təlim keçmiş modellər ən pis nəticə göstərir. Orijinal məlumatlarla müqayisədə sintetik məlumatlara dair bütün qabaqcıl analitik qiymətləndirmələri olan tam hesabat sorğu əsasında təqdim olunur.

*AUC: əyrinin altındakı sahə həqiqi müsbət, yanlış müsbət, yanlış neqativ və həqiqi neqativləri nəzərə alan qabaqcıl analitik modellərin dəqiqliyi üçün ölçüdür. 0,5 modelin təsadüfi proqnoz verdiyini və heç bir proqnoz gücünə malik olmadığını, 1 isə modelin həmişə düzgün olduğunu və tam proqnozlaşdırma gücünə malik olduğunu bildirir.

Bundan əlavə, bu sintetik məlumatlar modellərin faktiki təlimi üçün lazım olan məlumatların xüsusiyyətlərini və əsas dəyişənləri başa düşmək üçün istifadə edilə bilər. Orijinal verilənlərlə müqayisədə sintetik verilənlər üzərində alqoritmlər tərəfindən seçilmiş girişlər çox oxşar idi. Beləliklə, modelləşdirmə prosesi bu sintetik versiyada həyata keçirilə bilər ki, bu da məlumatların pozulması riskini azaldır. Bununla belə, fərdi qeydlərdən (məsələn, telekommunikasiya müştərisi) nəticə çıxararkən, izah oluna bilmə, qəbulun artırılması və ya sırf tənzimləmə səbəbi ilə orijinal məlumatlar üzrə yenidən təlim keçmək tövsiyə olunur.                              

Metod üzrə qruplaşdırılmış alqoritm üzrə AUC

AUC

Sonuç:

  • Orijinal məlumatlar üzərində öyrədilmiş modellərlə müqayisədə sintetik məlumatlar üzərində təlim keçmiş modellər çox oxşar performans göstərir
  • "Klassik anonimləşdirmə üsulları" ilə anonimləşdirilmiş məlumatlar üzərində təlim keçmiş modellər orijinal məlumat və ya sintetik məlumat əsasında təlim keçmiş modellərlə müqayisədə aşağı performans göstərir.
  • Sintetik məlumatların yaradılması asan və sürətlidir, çünki texnika hər verilənlər bazası və məlumat növü üzrə tam olaraq eyni işləyir.

Əlavə dəyər verən sintetik məlumatların istifadəsi halları

İstifadə nümunəsi 1: Model inkişafı və qabaqcıl analitika üçün sintetik məlumatlar

İstifadəyə yararlı, yüksək keyfiyyətli məlumatlara asan və sürətli çıxışı olan güclü məlumat bazasına malik olmaq modellərin (məsələn, idarə panelləri [BI] və qabaqcıl analitika [AI və ML]) hazırlanması üçün vacibdir. Bununla belə, bir çox təşkilatlar 3 əsas problemlə nəticələnən optimal olmayan məlumat bazasından əziyyət çəkirlər:

  • Verilənlərə giriş əldə etmək (məxfilik) qaydaları, daxili proseslər və ya məlumat siloları səbəbindən uzun müddət çəkir
  • Klassik anonimləşdirmə üsulları məlumatları məhv edərək, məlumatları təhlil və qabaqcıl analitika üçün daha uyğun etmir (zibil daxil = zibil çıxdı)
  • Mövcud həllər genişləndirilə bilməz, çünki onlar verilənlər bazasına və məlumat növünə görə fərqli işləyirlər və böyük çox cədvəlli verilənlər bazalarını idarə edə bilmirlər.

Sintetik məlumat yanaşması: aşağıdakılar üçün real sintetik məlumatlarla modellər hazırlayın:

  • Geliştiricilərinizə mane olmadan orijinal məlumatların istifadəsini minimuma endirin
  • Şəxsi məlumatların kilidini açın və əvvəllər məhdudlaşdırılmış daha çox məlumatlara giriş əldə edin (məsələn, məxfilik səbəbindən)
  • Müvafiq məlumatlara asan və sürətli məlumat əldə etmək
  • Hər bir verilənlər bazası, məlumat növü və kütləvi verilənlər bazası üçün eyni işləyən ölçeklenebilir bir həll

Bu, təşkilata məlumatların kilidini açmaq və məlumat imkanlarından istifadə etmək üçün istifadə edilə bilən, yüksək keyfiyyətli məlumatlara asan və sürətli çıxış ilə güclü məlumat bazası yaratmağa imkan verir.

 

İstifadə nümunəsi 2: proqram təminatının sınağı, inkişafı və çatdırılması üçün ağıllı sintetik test məlumatları

Yüksək keyfiyyətli test məlumatları ilə sınaq və inkişaf ən müasir proqram həllərini təqdim etmək üçün vacibdir. Orijinal istehsal məlumatlarından istifadə aydın görünür, lakin (məxfilik) qaydalarına görə icazə verilmir. Alternativ Test Data Management (TDM) alətləri təqdim edir "legacy-by-design” test məlumatlarını düzgün əldə etmək üçün:

  • İstehsal məlumatlarını əks etdirməyin və biznes məntiqi və istinad bütövlüyü qorunmur
  • Yavaş və vaxt aparan işləyin
  • Əl işi tələb olunur

Sintetik məlumat yanaşması: Ağıllı ən müasir proqram həllərini təqdim etmək üçün AI tərəfindən yaradılmış sintetik test məlumatları ilə sınaqdan keçirin və inkişaf etdirin:

  • Saxlanılan biznes məntiqi və istinad bütövlüyü ilə istehsala bənzər məlumatlar
  • Ən müasir AI ilə asan və sürətli məlumat istehsalı
  • Dizayna görə məxfilik
  • Asan, sürətli və agile

Bu, təşkilata ən müasir proqram həllərini təqdim etmək üçün növbəti səviyyəli test məlumatları ilə sınaqdan keçirməyə və inkişaf etdirməyə imkan verir!

Ətraflı məlumat

Maraqlıdır? Sintetik məlumatlar haqqında ətraflı məlumat üçün Syntho veb saytına daxil olun və ya Wim Kees Janssen ilə əlaqə saxlayın. SAS haqqında ətraflı məlumat üçün ziyarət edin www.sas.com və ya kees@syntho.ai ilə əlaqə saxlayın.

Bu istifadə vəziyyətində Syntho, SAS və NL AIC nəzərdə tutulan nəticələrə nail olmaq üçün birlikdə işləyirlər. Syntho süni intellektlə yaradılan sintetik məlumatlar üzrə ekspertdir və SAS analitika sahəsində bazar lideridir və məlumatların tədqiqi, təhlili və vizuallaşdırılması üçün proqram təminatı təklif edir.

* 2021-ci ili proqnozlaşdırır – Rəqəmsal biznesi idarə etmək, miqyaslaşdırmaq və transformasiya etmək üçün məlumat və analitik strategiyalar, Gartner, 2020.

syntho bələdçi qapağı

Sintetik məlumat bələdçinizi indi yadda saxlayın!