Anonim ma'lumotlar va sintetik ma'lumotlar

Agar siz ma'lumotlar tahlilini sinovdan o'tkazishdan oldin ma'lumotlaringizni anonimlashtirsangiz, unda bir nechta omillar mavjud:

  1. Deyarli barcha holatlarda, anonim ma'lumotlar aniq va noyob qatorlar (masalan, tibbiy yozuvlar) tufayli jismoniy shaxslar tomonidan kuzatilishi mumkin.
  2. Qanchalik ko'p anonimlashtirsangiz yoki umumlashtirsangiz, shunchalik ko'p ma'lumotlarni yo'q qilasiz. Bu sizning ma'lumotlaringiz sifatini va shuning uchun tushunchalaringizni pasaytiradi
  3. Anonimlashtirish turli xil ma'lumotlar formatlari uchun boshqacha ishlaydi. Bu shuni anglatadiki, uni kengaytirib bo'lmaydi va juda ko'p vaqt talab qilishi mumkin

Sintetik ma'lumotlar bu kamchiliklarning barchasini va boshqalarni hal qiladi. SAS (analitika boʻyicha global bozor yetakchisi) tahliliy mutaxassisi oʻzining asl maʼlumotlar, anonimlashtirilgan maʼlumotlar va Syntho tomonidan yaratilgan sintetik maʼlumotlar oʻrtasidagi sifat farqi haqidagi bahosi haqida tushuntirishini koʻrish uchun quyidagi videoni tomosha qiling.

Bu video AI tomonidan yaratilgan sintetik maʼlumotlar haqidagi Syntho x SAS D[N]A kafesidan olingan. Toʻliq videoni bu yerda toping.

Edvin van Unen Syntho-ga asl ma'lumotlar to'plamini yubordi va biz ma'lumotlar to'plamini sintez qildik. Ammo savol ham bor edi: "Agar biz sintetik ma'lumotlarni anonim ma'lumotlar bilan taqqoslasak nima bo'ladi?" Anonim ma'lumotlarda ko'p ma'lumotlarni yo'qotganingiz uchun, bu ma'lumotlar to'plamini sintez qilishda ham sodir bo'ladimi? Biz telekommunikatsiya sanoatining 56.000 128 qator va XNUMX ustunli kompaniya to'g'risidagi ma'lumotlar to'plamidan boshladik. Edvin sintezni anonimlashtirish bilan solishtirishi uchun bu maʼlumotlar toʻplami ham sintez, ham anonimlashtirildi. Keyin Edvin SAS Viya yordamida modellashni boshladi. U klassik regressiya usullari va qarorlar daraxtlaridan foydalangan holda asl ma'lumotlar to'plamida bir nechta chayqalish modellarini, shuningdek, neyron tarmoqlar, gradientni kuchaytirish, tasodifiy o'rmon kabi murakkabroq usullarni yaratdi - bu kabi usullar. Modellarni yaratishda standart SAS Viya opsiyalaridan foydalanish.

Keyin natijalarni ko'rish vaqti keldi. Natijalar anonimlashtirish uchun emas, balki sintetik ma'lumotlar uchun juda istiqbolli edi. Tomoshabinlar ichida hech qanday mashinani o'rganmaydigan mutaxassislar uchun biz ROC egri chizig'i ostidagi maydonni ko'rib chiqamiz, bu modelning aniqligi haqida biror narsa aytadi. Anonim ma'lumotlarga asl ma'lumotlarni solishtirish, Biz original ma'lumotlar modeli ROC-egri ostida bir maydon bor, deb ko'rish .8, bu juda yaxshi, Biroq, anonim ma'lumotlar ROC-egri ostida bir maydon bor .6. Bu anonim model bilan biz juda ko'p ma'lumotlarni yo'qotamiz, shuning uchun siz juda ko'p bashorat qilish kuchini yo'qotasiz.

Ammo keyin sintetik ma'lumotlar haqida nima deyish mumkin? Bu erda biz xuddi shunday qildik, lekin ma'lumotlarni anonimlashtirish o'rniga, Syntho ma'lumotlarni sintez qildi. Endi biz asl ma'lumotlarning ham, sintetik ma'lumotlarning ham ROC-egri chizig'i ostidagi maydonga ega ekanligini ko'ramiz.8, bu juda o'xshash. O'zgaruvchanlik tufayli mutlaqo bir xil emas, lekin juda o'xshash. Bu shuni anglatadiki, sintetik ma'lumotlarning salohiyati juda istiqbolli - Edvin bundan juda xursand.

tabassum qiladigan odamlar guruhi

Ma'lumotlar sintetik, ammo bizning jamoamiz haqiqiy!

Syntho bilan bog'laning va bizning mutaxassislarimizdan biri sintetik ma'lumotlarning qiymatini o'rganish uchun yorug'lik tezligida siz bilan bog'lanadi!