AI үүсгэсэн синтетик өгөгдөл, өндөр чанартай өгөгдөлд хялбар бөгөөд хурдан нэвтрэх боломжтой юу?

AI практикт синтетик өгөгдлийг бий болгосон

AI-ээр үүсгэгдсэн нийлэг өгөгдлийн шинжээч Syntho нь эргэхийг зорьж байна privacy by design хиймэл оюун ухаанаар үүсгэсэн нийлэг өгөгдлөөр өрсөлдөх давуу тал болно. Эдгээр нь байгууллагуудад өндөр чанартай өгөгдөлд хялбар бөгөөд хурдан хандах боломжтой мэдээллийн бат бөх суурийг бий болгоход тусалдаг ба саяхан Philips Innovation Award-ийн шагналыг хүртсэн.

Гэсэн хэдий ч хиймэл оюун ухаантай синтетик өгөгдөл үүсгэх нь ихэвчлэн байнга асуудаг асуултуудыг танилцуулдаг харьцангуй шинэ шийдэл юм. Эдгээрт хариулахын тулд Syntho нь Advanced Analytics болон AI программ хангамжийн зах зээлд тэргүүлэгч SAS-тай хамтран кейс судалгааг эхлүүлсэн.

Тэд Нидерландын хиймэл оюун ухааны эвсэл (NL AIC)-тай хамтран өгөгдлийн чанар, хууль эрх зүйн хүчинтэй байдал, ашиглах боломжтой байдлын талаар янз бүрийн үнэлгээ хийх замаар Syntho Engine-ээр үүсгэсэн хиймэл оюун ухаанаар үүсгэсэн синтетик өгөгдлийг анхны өгөгдөлтэй харьцуулах замаар синтетик өгөгдлийн үнэ цэнийг судалсан.

Өгөгдлийн нэрээ нууцлах нь шийдэл биш гэж үү?

Сонгодог нэрээ нууцлах аргууд нь хүмүүсийг хайхад саад болохын тулд анхны өгөгдлийг өөрчилдөг нийтлэг зүйл юм. Жишээ нь: ерөнхийлөлт, дарах, арчих, хуурамч нэршил, өгөгдлийг далдлах, мөр, баганыг холих. Та доорх хүснэгтээс жишээг олж болно.

өгөгдлийг нэргүй болгох

Эдгээр техникүүд нь 3 гол сорилтыг бий болгодог:

  1. Эдгээр нь өгөгдлийн төрөл болон өгөгдлийн багц тус бүрээр өөр өөр ажилладаг тул масштаблахад хэцүү болгодог. Цаашилбал, тэдгээр нь өөр өөр ажилладаг тул ямар аргыг хэрэглэх, ямар техникийг хослуулах шаардлагатай вэ гэдэг маргаан үргэлж байх болно.
  2. Анхны өгөгдөлтэй нэгийг харьцах харилцаа үргэлж байдаг. Энэ нь нууцлалын эрсдэл үргэлж байх болно гэсэн үг бөгөөд ялангуяа бүх нээлттэй өгөгдлийн багцууд болон тэдгээр өгөгдлийн багцыг холбох боломжит техникүүдээс шалтгаалж болно.
  3. Тэд өгөгдлийг удирдаж, улмаар үйл явц дахь өгөгдлийг устгадаг. Энэ нь ялангуяа "урьдчилан таамаглах хүч" чухал байдаг хиймэл оюун ухааны ажлуудын хувьд маш их хор хөнөөлтэй байдаг, учир нь чанар муутай өгөгдөл нь хиймэл оюун ухааны загвараас муу ойлголттой болоход хүргэдэг (Хог оруулах нь хог хаягдлыг арилгахад хүргэдэг).

Эдгээр оноог мөн энэ кейс судалгаагаар үнэлдэг.

Кейсийн судалгааны танилцуулга

Кейс судалгааны хувьд зорилтот өгөгдлийн багц нь 56.600 хэрэглэгчийн мэдээллийг агуулсан SAS-аас өгсөн харилцаа холбооны мэдээллийн багц байв. Өгөгдлийн багц нь 128 багана агуулсан бөгөөд нэг багана нь хэрэглэгч компаниас гарсан эсэхийг (өөрөөр хэлбэл, "хоцрогдсон") эсвэл орхиогүйг илэрхийлдэг. Кейсийн судалгааны зорилго нь нийлэг өгөгдлийг ашиглан хэрэглэгчийн алдагдлыг урьдчилан таамаглах, эдгээр бэлтгэгдсэн загваруудын гүйцэтгэлийг үнэлэхэд зарим загварыг сургах явдал байв. Урьдчилан таамаглах нь ангиллын даалгавар тул SAS таамаглал дэвшүүлэхийн тулд дөрвөн алдартай ангиллын загварыг сонгосон бөгөөд үүнд:

  1. Санамсаргүй ой
  2. Градиент нэмэгдүүлэх
  3. Логистик регресс
  4. Мэдрэлийн сүлжээ

Синтетик өгөгдлийг үүсгэхийн өмнө SAS нь харилцаа холбооны өгөгдлийн багцыг галт тэрэгний багц (загваруудыг сургах) болон саатуулах багц (загваруудыг оноо авах) болгон хуваадаг. Онооны хувьд тусдаа зогсолтын багцтай байх нь ангиллын загвар нь шинэ өгөгдөлд хэрэглэгдэх үед хэр сайн ажиллаж болохыг бодитой үнэлэх боломжийг олгодог.

Галт тэрэгний багцыг оролт болгон ашиглаж Syntho нь синтетик мэдээллийн багц үүсгэхийн тулд Syntho хөдөлгүүрээ ашигласан. Шинжилгээний хувьд SAS нь тодорхой босго (k-нэргүй) хүрэхийн тулд янз бүрийн нэрээ нууцлах арга техникийг хэрэглэсний дараа галт тэрэгний багцын өөрчилсөн хувилбарыг бий болгосон. Өмнөх алхмуудын үр дүнд дөрвөн өгөгдлийн багц бий болсон:

  1. Галт тэрэгний өгөгдлийн багц (жишээ нь, анхны өгөгдлийн багцаас саатлын өгөгдлийн багцыг хассан)
  2. Хадгалах өгөгдлийн багц (жишээ нь анхны өгөгдлийн багцын дэд багц)
  3. Нэргүй мэдээллийн багц (галт тэрэгний мэдээллийн багц дээр үндэслэсэн)
  4. Синтетик өгөгдлийн багц (галт тэрэгний мэдээллийн багц дээр үндэслэсэн)

Ангиллын загвар бүрийг сургахад өгөгдлийн багц 1, 3, 4-ийг ашигласан бөгөөд үр дүнд нь 12 (3 x 4) бэлтгэгдсэн загвар гарсан. Дараа нь SAS загвар бүр хэрэглэгчийн алдагдлыг урьдчилан таамаглаж буй нарийвчлалыг хэмжихийн тулд зогсолтын өгөгдлийн багцыг ашигласан. Зарим үндсэн статистик мэдээллээс эхлээд үр дүнг доор харуулав.

SAS-д үүсгэсэн Machine Learning дамжуулах хоолой

Зураг: SAS Visual Data Mining болон Machine Learning-д үүсгэсэн Machine Learning дамжуулах хоолой

Нэргүй өгөгдлийг анхны өгөгдөлтэй харьцуулах үндсэн статистик

Нэргүй болгох арга нь үндсэн хэв маяг, бизнесийн логик, харилцаа холбоо, статистикийг ч устгадаг (доорх жишээн дээрх шиг). Үндсэн аналитикт нэрээ нууцалсан өгөгдлийг ашиглах нь найдваргүй үр дүнд хүргэдэг. Үнэн хэрэгтээ нэрээ нууцалсан өгөгдлийн чанар муу нь үүнийг аналитикийн дэвшилтэт ажлуудад (жишээлбэл, AI/ML загварчлал, хяналтын самбар) ашиглахад бараг боломжгүй болгосон.

нэргүй өгөгдлийг анхны өгөгдөлтэй харьцуулах

Синтетик өгөгдлийг анхны өгөгдөлтэй харьцуулах үндсэн статистик

AI ашиглан синтетик өгөгдөл үүсгэх нь үндсэн хэв маяг, бизнесийн логик, харилцаа холбоо, статистикийг хадгалдаг (доорх жишээн дээрх шиг). Үндсэн аналитикийн хувьд синтетик өгөгдлийг ашиглах нь найдвартай үр дүнг бий болгодог. Гол асуулт бол синтетик өгөгдөл нь дэвшилтэт аналитик даалгавруудад (жишээ нь: AI/ML загварчлал болон хяналтын самбар) багтах уу?

синтетик өгөгдлийг анхны өгөгдөлтэй харьцуулах

AI-ээр үүсгэгдсэн синтетик өгөгдөл болон дэвшилтэт аналитик

Синтетик өгөгдөл нь зөвхөн үндсэн хэв маягт хамаарахгүй (өмнөх зурагт үзүүлсэн шиг), энэ нь ахисан түвшний аналитик даалгавруудад шаардлагатай гүн гүнзгий "далд" статистикийн хэв маягийг агуулдаг. Сүүлийнх нь нийлэг өгөгдөл дээр бэлтгэгдсэн загварууд болон анхны өгөгдөл дээр бэлтгэгдсэн загваруудын нарийвчлал ижил төстэй байгааг харуулсан баганан диаграммд сүүлийнх нь харагдаж байна. Цаашилбал, муруйн доорх талбай (AUC*) 0.5-тай ойролцоо байгаа бол нэрээ нууцалсан өгөгдөл дээр сургагдсан загварууд хамгийн муу гүйцэтгэлтэй байдаг. Анхны өгөгдөлтэй харьцуулсан синтетик өгөгдлийн бүх дэвшилтэт аналитик үнэлгээ бүхий бүрэн тайланг хүсэлтийн дагуу авах боломжтой.

*AUC: муруйн доорх талбай нь үнэн эерэг, худал эерэг, худал сөрөг, үнэн сөрөг үзүүлэлтүүдийг харгалзан дэвшилтэт аналитик загваруудын нарийвчлалын хэмжүүр юм. 0,5 нь загвар нь санамсаргүй байдлаар таамаглаж, таамаглах чадваргүй, 1 нь загвар үргэлж зөв, бүрэн таамаглах чадвартай гэсэн үг юм.

Нэмж дурдахад энэхүү синтетик өгөгдлийг загваруудын бодит сургалтанд шаардлагатай өгөгдлийн шинж чанар, үндсэн хувьсагчдыг ойлгоход ашиглаж болно. Синтетик өгөгдлийн алгоритмуудын сонгосон оролт нь анхны өгөгдөлтэй маш төстэй байв. Тиймээс загварчлалын процессыг энэхүү синтетик хувилбар дээр хийж болох бөгөөд энэ нь өгөгдөл зөрчих эрсдэлийг бууруулдаг. Гэсэн хэдий ч, хувийн бүртгэлийг (жишээ нь, цахилгаан холбооны хэрэглэгч) дүгнэлт гаргахдаа анхны өгөгдөл дээр дахин сургах нь ойлгомжтой байх, хүлээн зөвшөөрөгдөх байдлыг нэмэгдүүлэх эсвэл зөвхөн зохицуулалтын улмаас санал болгож байна.                              

Алгоритмоор AUC-ыг Аргаар бүлэглэсэн

AUC

Дүгнэлт:

  • Синтетик өгөгдөл дээр бэлтгэгдсэн загварууд нь анхны өгөгдөл дээр бэлтгэгдсэн загваруудтай харьцуулахад маш төстэй гүйцэтгэлийг харуулдаг
  • "Сонгодог нэрээ нууцлах арга техник"-ээр нэрээ нууцалсан өгөгдөл дээр сургагдсан загварууд нь анхны өгөгдөл эсвэл синтетик өгөгдөл дээр сургагдсан загваруудтай харьцуулахад гүйцэтгэл муу байгааг харуулж байна.
  • Энэ техник нь өгөгдлийн багц болон өгөгдлийн төрөл тус бүрээр яг адилхан ажилладаг тул синтетик өгөгдөл үүсгэх нь хялбар бөгөөд хурдан юм.

Нэмүү өртөг шингэсэн өгөгдлийн хэрэглээний тохиолдол

Хэрэглэх тохиолдол 1: Загвар боловсруулах болон дэвшилтэт аналитикт зориулсан синтетик өгөгдөл

Ашиглах боломжтой, өндөр чанартай өгөгдөлд хялбар бөгөөд хурдан нэвтрэх хүчтэй мэдээллийн сантай байх нь загвар (жишээ нь хяналтын самбар [BI] болон дэвшилтэт аналитик [AI & ML]) боловсруулахад зайлшгүй шаардлагатай. Гэсэн хэдий ч, олон байгууллага мэдээллийн сан нь оновчтой биш учраас 3 гол бэрхшээлийг дагуулдаг:

  • Өгөгдөлд хандах нь (нууцлалын) дүрэм журам, дотоод үйл явц эсвэл өгөгдлийн агуулах зэргээс шалтгаалан олон жилийн хугацаа шаардагддаг
  • Сонгодог нэрээ нууцлах аргууд нь өгөгдлийг устгаж, дүн шинжилгээ хийх, дэвшилтэт аналитик хийхэд тохиромжгүй болгодог (хог хаягдал = хог хаягдал)
  • Одоо байгаа шийдлүүд нь өгөгдлийн багц болон өгөгдлийн төрөл тус бүрээр өөр өөр ажилладаг тул олон хүснэгттэй том мэдээллийн санг удирдах боломжгүй тул өргөтгөх боломжгүй.

Синтетик өгөгдлийн хандлага: Бодитоосоо сайн синтетик өгөгдөл бүхий загваруудыг боловсруулах:

  • Хөгжүүлэгчиддээ саад учруулахгүйгээр анхны өгөгдлийг ашиглахыг багасгах
  • Хувийн мэдээллийн түгжээг тайлж, өмнө нь хязгаарласан байсан бусад өгөгдөлд хандах эрхтэй байх (жишээ нь, нууцлалын улмаас)
  • Холбогдох өгөгдөлд өгөгдөлд хялбар, хурдан хандах
  • Өгөгдлийн сан, өгөгдлийн төрөл, их хэмжээний мэдээллийн бааз бүрт ижил ажилладаг масштабтай шийдэл

Энэ нь байгууллагад өгөгдлийн түгжээг тайлах, өгөгдлийн боломжуудыг ашиглах боломжтой, өндөр чанартай өгөгдөлд хялбар бөгөөд хурдан хандах боломжтой мэдээллийн бат бөх суурийг бий болгох боломжийг олгодог.

 

Хэрэглэх тохиолдол 2: Програм хангамжийн туршилт, хөгжүүлэлт, хүргэлтийн ухаалаг синтетик туршилтын өгөгдөл

Хамгийн сүүлийн үеийн програм хангамжийн шийдлүүдийг хүргэхийн тулд өндөр чанарын туршилтын өгөгдөл бүхий туршилт, хөгжүүлэлт чухал юм. Үйлдвэрлэлийн анхны өгөгдлийг ашиглах нь ойлгомжтой мэт боловч (нууцлалын) журмын дагуу зөвшөөрөгдөөгүй. Альтернатив Test Data Management (TDM) хэрэгслүүдийг танилцуулах "legacy-by-design” туршилтын өгөгдлийг зөв болгоход:

  • Үйлдвэрлэлийн өгөгдлийг тусгаагүй, бизнесийн логик, лавлагааны бүрэн бүтэн байдал хадгалагдаагүй болно
  • Удаан, цаг хугацаа шаардсан ажил
  • Гарын авлагын ажил шаардлагатай

Синтетик өгөгдлийн арга: AI-ийн үүсгэсэн синтетик тестийн өгөгдлийг туршиж, хөгжүүлж, хамгийн сүүлийн үеийн програм хангамжийн шийдлүүдийг ухаалаг гаргана:

  • Бизнесийн логик, мэдээллийн бүрэн бүтэн байдлыг хадгалсан үйлдвэрлэлтэй төстэй өгөгдөл
  • Орчин үеийн хиймэл оюун ухааны тусламжтайгаар өгөгдлийг хялбар, хурдан бий болгох
  • Дизайнаар нууцлал
  • Хялбар, хурдан бөгөөд agile

Энэ нь байгууллагад хамгийн сүүлийн үеийн програм хангамжийн шийдлүүдийг хүргэхийн тулд дараагийн түвшний тестийн өгөгдлийг туршиж, хөгжүүлэх боломжийг олгодог!

Нэмэлт мэдээлэл

Сонирхсон уу? Синтетик өгөгдлийн талаар нэмэлт мэдээлэл авахыг хүсвэл Syntho вэбсайт руу зочлох эсвэл Wim Kees Janssen-тэй холбогдоно уу. SAS-ийн талаар дэлгэрэнгүй мэдээлэл авахыг хүсвэл зочилно уу www.sas.com эсвэл kees@syntho.ai хаягаар холбогдоно уу.

Энэ тохиолдолд Syntho, SAS болон NL AIC нь төлөвлөсөн үр дүнд хүрэхийн тулд хамтран ажилладаг. Syntho нь хиймэл оюун ухаанаар үүсгэсэн нийлэг өгөгдлийн мэргэжилтэн бөгөөд SAS нь аналитикийн зах зээлд тэргүүлэгч бөгөөд өгөгдлийг судлах, шинжлэх, дүрслэн харуулах програм хангамжийг санал болгодог.

* 2021 оныг урьдчилан таамаглаж байна – Дижитал бизнесийг удирдах, өргөжүүлэх, өөрчлөх өгөгдөл, аналитик стратеги, Gartner, 2020.

syntho гарын авлагын хавтас

Синтетик мэдээллийн гарын авлагыг яг одоо хадгалаарай!