AI tomonidan yaratilgan Sintetik ma'lumotlar, yuqori sifatli ma'lumotlarga oson va tez kirish mumkinmi?

AI amaliyotda sintetik ma'lumotlarni yaratdi

AI tomonidan yaratilgan sintetik ma'lumotlar bo'yicha mutaxassis Syntho burilishni maqsad qilgan privacy by design AI tomonidan yaratilgan sintetik ma'lumotlar bilan raqobatdosh ustunlikka. Ular tashkilotlarga yuqori sifatli maʼlumotlarga oson va tez kirish imkoniyati bilan kuchli maʼlumotlar bazasini yaratishda yordam beradi va yaqinda Flibs Innovatsiya mukofotini qoʻlga kiritdi.

Biroq, sun'iy intellekt yordamida sintetik ma'lumotlarni yaratish nisbatan yangi yechim bo'lib, odatda tez-tez beriladigan savollarni taqdim etadi. Bularga javob berish uchun Syntho Advanced Analytics va AI dasturiy ta'minoti bo'yicha bozor yetakchisi SAS bilan birgalikda amaliy tadqiqotlarni boshladi.

Gollandiyaning sun'iy intellekt koalitsiyasi (NL AIC) bilan hamkorlikda ular Syntho Engine tomonidan yaratilgan sun'iy intellekt tomonidan yaratilgan sintetik ma'lumotlarni ma'lumotlar sifati, qonuniy asosliligi va foydalanish qulayligi bo'yicha turli baholashlar orqali original ma'lumotlar bilan solishtirish orqali sintetik ma'lumotlarning qiymatini o'rgandilar.

Ma'lumotlarni anonimlashtirish yechim emasmi?

Klassik anonimlashtirish usullarining umumiy jihati shundaki, ular shaxslarni qidirishga xalaqit berish uchun asl ma'lumotlarni manipulyatsiya qiladi. Misollar umumlashtirish, bostirish, oʻchirish, taxalluslash, maʼlumotlarni maskalash va satr va ustunlarni aralashtirish. Quyidagi jadvalda misollarni topishingiz mumkin.

ma'lumotlarni anonimlashtirish

Ushbu texnikalar uchta asosiy muammoni keltirib chiqaradi:

  1. Ular ma'lumotlar turiga va ma'lumotlar to'plamiga qarab har xil ishlaydi, bu ularni masshtablashni qiyinlashtiradi. Bundan tashqari, ular boshqacha ishlaganligi sababli, qaysi usullarni qo'llash va qanday usullar kombinatsiyasi kerakligi haqida doimo bahs-munozaralar bo'ladi.
  2. Asl ma'lumotlar bilan har doim birma-bir munosabat mavjud. Bu shuni anglatadiki, har doim maxfiylik xavfi mavjud bo'ladi, ayniqsa barcha ochiq ma'lumotlar to'plamlari va ushbu ma'lumotlar to'plamlarini bog'lashning mavjud usullari tufayli.
  3. Ular ma'lumotlarni manipulyatsiya qiladi va shu bilan jarayonda ma'lumotlarni yo'q qiladi. Bu, ayniqsa, "bashorat qilish kuchi" muhim bo'lgan sun'iy intellekt vazifalari uchun halokatli, chunki sifatsiz ma'lumotlar AI modelidan yomon tushunchaga olib keladi (Garbage-in axlatni olib tashlashga olib keladi).

Ushbu fikrlar ham ushbu misol orqali baholanadi.

Keys tadqiqotiga kirish

Amaliy tadqiqot uchun maqsadli ma'lumotlar to'plami SAS tomonidan taqdim etilgan 56.600 mijozning ma'lumotlarini o'z ichiga olgan telekommunikatsiya ma'lumotlar to'plami edi. Ma'lumotlar to'plami 128 ta ustunni o'z ichiga oladi, shu jumladan mijoz kompaniyani tark etgan yoki yo'qligini ko'rsatadigan bitta ustun. Amaliy tadqiqotning maqsadi sintetik ma'lumotlardan ba'zi modellarni iste'molchilarning ishdan chiqishini bashorat qilish va o'qitilgan modellarning ishlashini baholash uchun o'rgatishdan iborat edi. Chiqarishni bashorat qilish tasniflash vazifasi bo'lganligi sababli, SAS bashorat qilish uchun to'rtta mashhur tasniflash modelini tanladi, jumladan:

  1. Tasodifiy o'rmon
  2. Gradientni kuchaytirish
  3. Logistik regressiya
  4. Neyron tarmoq

Sintetik ma'lumotlarni yaratishdan oldin, SAS tasodifiy ravishda telekommunikatsiya ma'lumotlar to'plamini poezdlar to'plamiga (modellarni o'rgatish uchun) va ushlab turish to'plamiga (modellarni baholash uchun) ajratdi. Baholash uchun alohida kutish to'plamiga ega bo'lish tasniflash modeli yangi ma'lumotlarga qo'llanganda qanchalik yaxshi ishlashi mumkinligini xolis baholash imkonini beradi.

Poezd to'plamini kirish sifatida ishlatib, Syntho sintetik ma'lumotlar to'plamini yaratish uchun o'zining Syntho dvigatelidan foydalangan. Benchmarking uchun SAS, shuningdek, ma'lum bir chegaraga (k-anonimlik) erishish uchun turli xil anonimlashtirish usullarini qo'llaganidan so'ng, poezdlar to'plamining manipulyatsiya qilingan versiyasini yaratdi. Oldingi qadamlar to'rtta ma'lumotlar to'plamiga olib keldi:

  1. Poyezd ma’lumotlar to‘plami (ya’ni, asl ma’lumotlar to‘plami minus ushlab turish ma’lumotlar to‘plami)
  2. Toʻxtatilgan maʼlumotlar toʻplami (yaʼni asl maʼlumotlar toʻplamining quyi toʻplami)
  3. Anonim ma'lumotlar to'plami (poezd ma'lumotlar to'plamiga asoslangan)
  4. Sintetik ma'lumotlar to'plami (poezd ma'lumotlar to'plamiga asoslangan)

Har bir tasniflash modelini o'rgatish uchun 1, 3 va 4 ma'lumotlar to'plami ishlatilgan, natijada 12 (3 x 4) o'qitilgan modellar paydo bo'ldi. Keyinchalik SAS har bir model mijozning ishlamay qolishini bashorat qilishning aniqligini o'lchash uchun ushlab turuvchi ma'lumotlar to'plamidan foydalangan. Natijalar ba'zi asosiy statistik ma'lumotlardan boshlab quyida keltirilgan.

SASda ishlab chiqarilgan Machine Learning quvur liniyasi

Rasm: SAS Visual Data Mining va Machine Learning-da yaratilgan Machine Learning quvur liniyasi

Anonim ma'lumotlarni asl ma'lumotlar bilan taqqoslashda asosiy statistik ma'lumotlar

Anonimlashtirish usullari hatto asosiy naqshlarni, biznes mantiqini, munosabatlarni va statistikani ham yo'q qiladi (quyidagi misolda bo'lgani kabi). Asosiy tahlillar uchun anonim ma'lumotlardan foydalanish ishonchsiz natijalarga olib keladi. Aslida, anonimlashtirilgan maʼlumotlarning sifatsizligi uni ilgʻor tahliliy vazifalar (masalan, AI/ML modellashtirish va boshqaruv paneli) uchun ishlatishni deyarli imkonsiz qildi.

anonim ma'lumotlarni asl ma'lumotlar bilan taqqoslash

Sintetik ma'lumotlarni asl ma'lumotlar bilan taqqoslashda asosiy statistika

Sun'iy intellekt yordamida sintetik ma'lumotlarni yaratish asosiy naqshlarni, biznes mantiqini, munosabatlarni va statistikani saqlaydi (quyidagi misolda bo'lgani kabi). Asosiy tahlillar uchun sintetik ma'lumotlardan foydalanish ishonchli natijalar beradi. Asosiy savol, sintetik ma'lumotlar ilg'or tahliliy vazifalarga (masalan, AI/ML modellashtirish va boshqaruv paneli) mos keladimi?

sintetik ma'lumotlarni asl ma'lumotlarga solishtirish

AI tomonidan yaratilgan sintetik ma'lumotlar va ilg'or tahlillar

Sintetik ma'lumotlar nafaqat asosiy naqshlarga tegishli (oldingi chizmalarda ko'rsatilganidek), u ilg'or tahliliy vazifalar uchun zarur bo'lgan chuqur "yashirin" statistik naqshlarni ham qamrab oladi. Ikkinchisi quyidagi chiziqli diagrammada ko'rsatilgan, bu sintetik ma'lumotlarga o'rgatilgan modellarning asl ma'lumotlarga o'rgatilgan modellarga nisbatan aniqligi o'xshashligini ko'rsatadi. Bundan tashqari, egri chiziq ostidagi maydon (AUC*) 0.5 ga yaqin bo'lsa, anonim ma'lumotlarga o'rgatilgan modellar eng yomon ko'rsatkichga ega. Asl ma'lumotlarga nisbatan sintetik ma'lumotlar bo'yicha barcha ilg'or tahliliy baholashlar bilan to'liq hisobot so'rov bo'yicha mavjud.

*AUC: egri chiziq ostidagi maydon haqiqiy musbat, noto‘g‘ri musbat, noto‘g‘ri negativ va haqiqiy negativlarni hisobga olgan holda ilg‘or tahliliy modellarning aniqligi o‘lchovidir. 0,5 modellar tasodifiy bashorat qilishini va bashorat qilish kuchiga ega emasligini, 1 esa model har doim to'g'ri va to'liq bashorat qilish kuchiga ega ekanligini anglatadi.

Bundan tashqari, ushbu sintetik ma'lumotlardan modellarni haqiqiy o'qitish uchun zarur bo'lgan ma'lumotlar xususiyatlarini va asosiy o'zgaruvchilarni tushunish uchun foydalanish mumkin. Asl ma'lumotlarga nisbatan sintetik ma'lumotlarga algoritmlar tomonidan tanlangan kirishlar juda o'xshash edi. Shunday qilib, modellashtirish jarayoni ushbu sintetik versiyada amalga oshirilishi mumkin, bu ma'lumotlarning buzilishi xavfini kamaytiradi. Biroq, individual yozuvlarni (masalan, telekommunikatsion mijoz) xulosa qilishda asl ma'lumotni tushuntirish, qabul qilishni oshirish yoki faqat tartibga solish sababli qayta tayyorlash tavsiya etiladi.                              

Usul bo'yicha guruhlangan algoritm bo'yicha AUC

AUC

Natijalar:

  • Sintetik ma'lumotlar bo'yicha o'qitilgan modellar original ma'lumotlarga o'rgatilgan modellarga nisbatan juda o'xshash ishlashni ko'rsatadi
  • "Klassik anonimlashtirish texnikasi" bilan anonimlashtirilgan ma'lumotlarga o'rgatilgan modellar asl ma'lumotlar yoki sintetik ma'lumotlarga o'rgatilgan modellarga nisbatan pastroq ishlashni ko'rsatadi.
  • Sintetik ma'lumotlarni yaratish oson va tezdir, chunki texnika har bir ma'lumot to'plami va har bir ma'lumot turi uchun aynan bir xil ishlaydi.

Sintetik ma'lumotlardan foydalanish holatlari qimmatlidir

Foydalanish holati 1: Modelni ishlab chiqish va ilg'or tahlil uchun sintetik ma'lumotlar

Foydalanish mumkin bo'lgan, yuqori sifatli ma'lumotlarga oson va tez kirish imkoniyatiga ega kuchli ma'lumotlar bazasiga ega bo'lish modellarni (masalan, asboblar paneli [BI] va ilg'or tahlil [AI & ML]) ishlab chiqish uchun muhim ahamiyatga ega. Biroq, ko'pgina tashkilotlar suboptimal ma'lumotlar bazasidan aziyat chekmoqda va bu uchta asosiy muammoga olib keladi:

  • Ma'lumotlarga kirish (maxfiylik) qoidalari, ichki jarayonlar yoki ma'lumotlar omborlari tufayli ko'p yillar talab etiladi
  • Klassik anonimlashtirish usullari ma'lumotlarni yo'q qiladi, bu esa ma'lumotlarni tahlil qilish va ilg'or tahlil qilish uchun yaroqsiz holga keltiradi (axlat kirish = axlat chiqarish)
  • Mavjud echimlarni kengaytirib bo'lmaydi, chunki ular har bir ma'lumotlar to'plami va ma'lumotlar turi bo'yicha boshqacha ishlaydi va katta ko'p jadvalli ma'lumotlar bazalarini boshqara olmaydi

Sintetik ma'lumotlarga yondashuv: haqiqiy kabi sintetik ma'lumotlarga ega modellarni ishlab chiqish:

  • Ishlab chiquvchilaringizga to'sqinlik qilmasdan, asl ma'lumotlardan foydalanishni kamaytiring
  • Shaxsiy ma'lumotlarning qulfini oching va ilgari cheklangan (masalan, maxfiylik tufayli) ko'proq ma'lumotlarga ega bo'ling.
  • Tegishli ma'lumotlarga tez va oson kirish
  • Har bir ma'lumotlar to'plami, ma'lumotlar turi va katta ma'lumotlar bazalari uchun bir xil ishlaydigan o'lchovli echim

Bu tashkilotga ma'lumotlarni qulfdan chiqarish va ma'lumotlar imkoniyatlaridan foydalanish uchun qulay, yuqori sifatli ma'lumotlarga oson va tez kirish imkoniyati bilan kuchli ma'lumotlar bazasini yaratish imkonini beradi.

 

Foydalanish holati 2: dasturiy ta'minotni sinab ko'rish, ishlab chiqish va yetkazib berish uchun aqlli sintetik test ma'lumotlari

Yuqori sifatli test ma'lumotlari bilan sinovdan o'tkazish va ishlab chiqish eng zamonaviy dasturiy echimlarni taqdim etish uchun zarurdir. Asl ishlab chiqarish ma'lumotlaridan foydalanish aniq ko'rinadi, lekin (maxfiylik) qoidalari tufayli ruxsat etilmaydi. Muqobil Test Data Management (TDM) vositalari joriy etadi "legacy-by-design” test maʼlumotlarini toʻgʻri olishda:

  • Ishlab chiqarish ma'lumotlarini aks ettirmang va biznes mantig'i va havola yaxlitligi saqlanmaydi
  • Sekin va ko'p vaqt talab qiladigan ish
  • Qo'lda ishlash talab qilinadi

Sintetik ma'lumotlarga yondashuv: Aqlli zamonaviy dasturiy echimlarni taqdim etish uchun sun'iy idrok yordamida yaratilgan sintetik test ma'lumotlarini sinab ko'ring va ishlab chiqing:

  • Saqlangan biznes mantig'i va ma'lumot yaxlitligi bilan ishlab chiqarishga o'xshash ma'lumotlar
  • Zamonaviy AI yordamida ma'lumotlarni tez va oson ishlab chiqarish
  • Dizayn bo'yicha maxfiylik
  • Oson, tez va agile

Bu tashkilotga eng zamonaviy dasturiy yechimlarni yetkazib berish uchun keyingi darajadagi test ma'lumotlarini sinab ko'rish va rivojlantirish imkonini beradi!

Qo'shimcha ma'lumot

Qiziqmi? Sintetik ma'lumotlar haqida qo'shimcha ma'lumot olish uchun Syntho veb-saytiga tashrif buyuring yoki Wim Kees Janssen bilan bog'laning. SAS haqida ko'proq ma'lumot olish uchun tashrif buyuring www.sas.com yoki kees@syntho.ai bilan bog'laning.

Bunday holda, Syntho, SAS va NL AIC mo'ljallangan natijalarga erishish uchun birgalikda ishlaydi. Syntho sunʼiy intellekt tomonidan yaratilgan sintetik maʼlumotlar boʻyicha mutaxassis, SAS esa analitika sohasida yetakchi hisoblanadi va maʼlumotlarni oʻrganish, tahlil qilish va vizualizatsiya qilish uchun dasturiy taʼminotni taklif etadi.

* 2021 yilni bashorat qilmoqda - Raqamli biznesni boshqarish, ko'paytirish va o'zgartirish uchun ma'lumotlar va tahlil strategiyalari, Gartner, 2020.

syntho qo'llanma qopqog'i

Sintetik ma'lumotlar qo'llanmasini hozir saqlang!