тусламж

Синтетик өгөгдлийн талаар байнга асуудаг асуултууд

Ойлгомжтой! Аз болоход бидэнд хариултууд байгаа бөгөөд бид туслахад бэлэн байна. Бидний байнга асуудаг асуултуудыг шалгана уу.

Доорх асуултыг нээж, холбоосууд дээр дарж нэмэлт мэдээлэл авна уу. Энд дурдаагүй илүү төвөгтэй асуулт байна уу? Манай мэргэжилтнүүдээс шууд асуугаарай!

Хамгийн их асуудаг асуултууд

Синтетик өгөгдөл гэдэг нь бодит эх сурвалжаас цуглуулсан бус зохиомлоор үүсгэгдсэн өгөгдлийг хэлдэг. Ерөнхийдөө анхны өгөгдлийг хүмүүс (үйлчлүүлэгч, өвчтөн гэх мэт) болон бүх дотоод процессоор дамжуулан цуглуулдаг бол нийлэг өгөгдлийг компьютерийн алгоритмаар үүсгэдэг.

Синтетик өгөгдлийг мөн хяналттай орчинд загварыг турших, үнэлэх, эсвэл бодит мэдээлэлтэй төстэй боловч ямар ч эмзэг мэдээлэл агуулаагүй өгөгдөл үүсгэх замаар нууц мэдээллийг хамгаалахад ашиглаж болно. Синтетик өгөгдлийг ихэвчлэн хувийн нууцад мэдрэмтгий өгөгдлийн өөр хувилбар болгон ашигладаг бөгөөд үүнийг туршилтын өгөгдөл, аналитик эсвэл машин сургалтанд сургахад ашиглаж болно.

Цааш нь

Синтетик өгөгдөл нь анхны өгөгдлийнхтэй ижил өгөгдлийн чанарыг агуулна гэдгийг баталгаажуулах нь хэцүү байж болох бөгөөд ихэвчлэн ашиглалтын тодорхой тохиолдол болон синтетик өгөгдлийг үүсгэх аргуудаас хамаардаг. Синтетик өгөгдөл үүсгэх зарим аргууд, тухайлбал үүсгэгч загварууд нь анхны өгөгдөлтэй маш төстэй өгөгдлийг гаргаж чаддаг. Гол асуулт: Үүнийг хэрхэн харуулах вэ?

Синтетик мэдээллийн чанарыг баталгаажуулах хэд хэдэн арга байдаг:

  • Манай мэдээллийн чанарын тайлангаар дамжуулан өгөгдлийн чанарын хэмжүүр: Синтетик өгөгдөл нь анхны өгөгдөлтэй ижил өгөгдлийн чанарыг хадгалах нэг арга бол синтетик өгөгдлийг анхны өгөгдөлтэй харьцуулахын тулд өгөгдлийн чанарын хэмжүүрийг ашиглах явдал юм. Эдгээр хэмжигдэхүүнийг өгөгдлийн ижил төстэй байдал, нарийвчлал, бүрэн байдал зэрэг зүйлсийг хэмжихэд ашиглаж болно. Syntho программ хангамж нь өгөгдлийн чанарын янз бүрийн хэмжигдэхүүн бүхий өгөгдлийн чанарын тайланг багтаасан.
  • Гадаад үнэлгээ: Синтетик өгөгдлийн өгөгдлийн чанар нь анхны өгөгдөлтэй харьцуулахад чухал байдаг тул бид саяхан SAS (аналитикийн зах зээлийн тэргүүлэгч) мэдээллийн мэргэжилтнүүдтэй хамтран Syntho-ийн синтетик өгөгдлийн өгөгдлийн чанарыг бодит өгөгдөлтэй харьцуулан харуулахын тулд үнэлгээ хийсэн. SAS-ийн аналитик шинжээч Эдвин ван Унен Syntho-оос үүсгэсэн синтетик мэдээллийн багцыг янз бүрийн аналитик (AI) үнэлгээгээр үнэлж, үр дүнг хуваалцав. Тэр видеоны товч тоймыг эндээс үзнэ үү.
  • Туршилт, үнэлгээг өөрөө хийх: синтетик өгөгдлийг бодит ертөнцийн өгөгдөлтэй харьцуулах эсвэл машин сургалтын загваруудыг сургахад ашиглах, гүйцэтгэлийг бодит өгөгдөл дээр бэлтгэгдсэн загваруудтай харьцуулах замаар туршиж, үнэлж болно. Яагаад синтетик өгөгдлийн өгөгдлийн чанарыг өөрөө шалгаж болохгүй гэж? Үүний боломжийн талаар манай мэргэжилтнүүдээс асуугаарай

Синтетик өгөгдөл нь анхны өгөгдөлтэй 100% төстэй байхыг хэзээ ч баталж чадахгүй, гэхдээ энэ нь тодорхой хэрэглээний тохиолдолд хэрэг болохуйц ойрхон байж болохыг анхаарах нь чухал юм. Энэхүү тусгай хэрэглээний тохиолдол нь дэвшилтэт аналитик эсвэл сургалтын машин сургалтын загвар байж болно.

Сонгодог "нэрээ нууцлах" нь үргэлж хамгийн сайн шийдэл байдаггүй, учир нь:

  1. Хувийн мэдээллийн эрсдэл - чамд үргэлж байх болно
    нууцлалын эрсдэл. Тэдгээрийг хэрэглэж байна
    нэрээ нууцлах сонгодог арга
    зөвхөн хэцүү болгодог, гэхдээ тийм биш
    хувь хүмүүсийг тодорхойлох боломжгүй.
  2. Өгөгдлийг устгах - чи илүү
    нэрээ нууцлах тусам илүү сайн хамгаална
    таны хувийн нууц, гэхдээ та илүү их
    таны өгөгдлийг устгах. Энэ бол юу биш
    Та аналитик хийхийг хүсч байна, учир нь
    устгасан өгөгдөл нь муу үр дүнд хүргэнэ
    ойлголт.
  3. Цаг үрсэн - Энэ бол шийдэл юм
    Энэ нь маш их цаг хугацаа шаарддаг, учир нь
    Эдгээр техникүүд өөр өөр ажилладаг
    өгөгдлийн багц болон өгөгдлийн төрөл тус бүрээр.

Синтетик өгөгдөл нь эдгээр бүх дутагдлыг арилгах зорилготой. Ялгаа нь маш гайхалтай тул бид энэ тухай видео хийсэн. Үүнийг ажиглана уу.

Түгээмэл асуултууд

Синтетик өгөгдөл

Ерөнхийдөө манай үйлчлүүлэгчдийн ихэнх нь синтетик өгөгдлийг дараахь зорилгоор ашигладаг.

  • Програм хангамжийн туршилт, хөгжүүлэлт
  • Аналитик, загвар боловсруулах, дэвшилтэт аналитик (AI & ML) -д зориулсан синтетик өгөгдөл
  • Бүтээгдэхүүний демо

Дэлгэрэнгүй уншиж, хэрэглээний тохиолдлуудыг судлаарай.

Синтетик өгөгдлийн ихэр нь бодит ертөнцийн өгөгдлийн багц ба/эсвэл мэдээллийн сангийн алгоритмаар үүсгэгдсэн хуулбар юм. Synthetic Data Twin-ийн тусламжтайгаар Syntho нь анхны өгөгдлийн багц эсвэл мэдээллийн санг дуурайж, эх өгөгдлийн бодит дүрслэлийг бий болгохыг зорьдог. Синтетик өгөгдлийн ихэрийн тусламжтайгаар бид анхны өгөгдөлтэй харьцуулахад синтетик өгөгдлийн чанарыг дээд зэргээр хангахыг зорьдог. Бид үүнийг хамгийн сүүлийн үеийн хиймэл оюун ухааны загваруудыг ашигладаг синтетик өгөгдлийн программ хангамжаараа хийдэг. Эдгээр хиймэл оюун ухааны загварууд нь цоо шинэ өгөгдлийн цэгүүдийг үүсгэж, тэдгээрийг загварчилсан бөгөөд ингэснээр бид анхны өгөгдлийн шинж чанар, хамаарал, статистикийн хэв маягийг хадгалдаг бөгөөд та үүнийг анхны өгөгдөл юм шиг ашиглах боломжтой болно.

Үүнийг машин сургалтын загварыг турших, сургах, судалгаа, хөгжүүлэлтийн хувилбаруудыг загварчлах, сургалт, боловсролын виртуал орчныг бий болгох зэрэг олон зорилгоор ашиглаж болно. Синтетик өгөгдлийн ихрүүдийг ашиглан бодит мэдээллийн оронд ашиглах боломжтой бодитой, төлөөллийн өгөгдлийг бий болгох боломжтой бөгөөд энэ нь боломжгүй үед эсвэл мэдээллийн нууцлалын хатуу зохицуулалтын улмаас бодит өгөгдлийг ашиглах боломжгүй эсвэл ёс зүйгүй байх болно.

Цааш унших.

Тиймээ бид тэгдэг. Бид таны өгөгдлийг дараагийн түвшинд хүргэхийн тулд тохуурхагчдыг оруулаад нэмүү өртөг шингэсэн өгөгдлийн оновчлол, нэмэгдүүлэх төрөл бүрийн функцуудыг санал болгож байна.

Цааш унших.

Хуурамч өгөгдөл болон хиймэл оюун ухаанаар үүсгэгдсэн синтетик өгөгдөл нь хоёулаа синтетик өгөгдлийн төрөл боловч тэдгээр нь өөр өөр аргаар үүсгэгддэг бөгөөд өөр өөр зорилгоор үйлчилдэг.

Хуурамч өгөгдөл нь гараар бүтээгдсэн синтетик өгөгдлийн төрөл бөгөөд ихэвчлэн туршилт, хөгжүүлэлтийн зорилгоор ашиглагддаг. Энэ нь ихэвчлэн хяналттай орчинд бодит ертөнцийн өгөгдлийн зан төлөвийг дуурайлган загварчлахад ашиглагддаг бөгөөд ихэвчлэн систем эсвэл програмын ажиллагааг шалгахад ашиглагддаг. Энэ нь ихэвчлэн энгийн, үүсгэхэд хялбар бөгөөд нарийн төвөгтэй загвар, алгоритм шаарддаггүй. Ихэнхдээ нэг нь өгөгдлийг "хуурамч өгөгдөл" эсвэл "хуурамч өгөгдөл" гэж элэглэдэг.

Нөгөө талаас хиймэл оюун ухаанаар үүсгэсэн синтетик өгөгдлийг машин суралцах эсвэл үүсгэгч загвар гэх мэт хиймэл оюун ухааны техник ашиглан бүтээдэг. Энэ нь нууцлалын хатуу зохицуулалтын улмаас бодит өгөгдлийг ашиглах нь бодит бус эсвэл ёс зүйгүй байх үед бодит мэдээллийн оронд ашиглаж болох бодитой, төлөөлөх өгөгдлийг бий болгоход ашиглагддаг. Энэ нь ихэвчлэн илүү төвөгтэй бөгөөд гарын авлагын хуурамч өгөгдлөөс илүү тооцоолох нөөц шаарддаг. Үүний үр дүнд энэ нь илүү бодитой бөгөөд анхны өгөгдлийг аль болох ойртуулдаг.

Дүгнэж хэлэхэд хуурамч өгөгдлийг гараар бүтээдэг бөгөөд ихэвчлэн туршилт, хөгжүүлэлтэд ашигладаг бол хиймэл оюун ухаанаар үүсгэсэн синтетик өгөгдлийг хиймэл оюун ухааны техник ашиглан бүтээж, төлөөлөх, бодитой өгөгдлийг бий болгоход ашигладаг.

Илүү олон асуулт байна уу? Манай мэргэжилтнүүдээс асуу

Өгөгдлийн чанар

Синтетик өгөгдөл нь анхны өгөгдлийнхтэй ижил өгөгдлийн чанарыг агуулна гэдгийг баталгаажуулах нь хэцүү байж болох бөгөөд ихэвчлэн ашиглалтын тодорхой тохиолдол болон синтетик өгөгдлийг үүсгэх аргуудаас хамаардаг. Синтетик өгөгдөл үүсгэх зарим аргууд, тухайлбал үүсгэгч загварууд нь анхны өгөгдөлтэй маш төстэй өгөгдлийг гаргаж чаддаг. Гол асуулт: Үүнийг хэрхэн харуулах вэ?

Синтетик мэдээллийн чанарыг баталгаажуулах хэд хэдэн арга байдаг:

  • Манай мэдээллийн чанарын тайлангаар дамжуулан өгөгдлийн чанарын хэмжүүр: Синтетик өгөгдөл нь анхны өгөгдөлтэй ижил өгөгдлийн чанарыг хадгалах нэг арга бол синтетик өгөгдлийг анхны өгөгдөлтэй харьцуулахын тулд өгөгдлийн чанарын хэмжүүрийг ашиглах явдал юм. Эдгээр хэмжигдэхүүнийг өгөгдлийн ижил төстэй байдал, нарийвчлал, бүрэн байдал зэрэг зүйлсийг хэмжихэд ашиглаж болно. Syntho программ хангамж нь өгөгдлийн чанарын янз бүрийн хэмжигдэхүүн бүхий өгөгдлийн чанарын тайланг багтаасан.
  • Гадаад үнэлгээ: Синтетик өгөгдлийн өгөгдлийн чанар нь анхны өгөгдөлтэй харьцуулахад чухал байдаг тул бид саяхан SAS (аналитикийн зах зээлийн тэргүүлэгч) мэдээллийн мэргэжилтнүүдтэй хамтран Syntho-ийн синтетик өгөгдлийн өгөгдлийн чанарыг бодит өгөгдөлтэй харьцуулан харуулахын тулд үнэлгээ хийсэн. SAS-ийн аналитик шинжээч Эдвин ван Унен Syntho-оос үүсгэсэн синтетик мэдээллийн багцыг янз бүрийн аналитик (AI) үнэлгээгээр үнэлж, үр дүнг хуваалцав. Тэр видеоны товч тоймыг эндээс үзнэ үү.
  • Туршилт, үнэлгээг өөрөө хийх: синтетик өгөгдлийг бодит ертөнцийн өгөгдөлтэй харьцуулах эсвэл машин сургалтын загваруудыг сургахад ашиглах, гүйцэтгэлийг бодит өгөгдөл дээр бэлтгэгдсэн загваруудтай харьцуулах замаар туршиж, үнэлж болно. Яагаад синтетик өгөгдлийн өгөгдлийн чанарыг өөрөө шалгаж болохгүй гэж? Үүний боломжийн талаар манай мэргэжилтнүүдээс асуугаарай

Синтетик өгөгдөл нь анхны өгөгдөлтэй 100% төстэй байхыг хэзээ ч баталж чадахгүй, гэхдээ энэ нь тодорхой хэрэглээний тохиолдолд хэрэг болохуйц ойрхон байж болохыг анхаарах нь чухал юм. Энэхүү тусгай хэрэглээний тохиолдол нь дэвшилтэт аналитик эсвэл сургалтын машин сургалтын загвар байж болно.

Тийм ээ. Синтетик өгөгдөл нь анхны өгөгдөлд байгааг та мэдэхгүй байсан хэв маягийг агуулдаг.

Гэхдээ зөвхөн бидний үгийг хүлээж авах хэрэггүй. SAS (Дэлхийн аналитикийн зах зээлд тэргүүлэгч) компанийн аналитик шинжээчид манай синтетик өгөгдөлд (AI) үнэлгээ хийж, анхны өгөгдөлтэй харьцуулсан. Сониуч байна уу? -г үзээрэй бүх үйл явдал энд байна эсвэл тухай богино хувилбарыг үзээрэй өгөгдлийн чанар энд байна.

Тиймээ бид тэгдэг. Манай платформ нь өгөгдлийн санд зориулагдсан бөгөөд үүний үр дүнд өгөгдлийн сан дахь өгөгдлийн багц хоорондын лавлагааны бүрэн бүтэн байдлыг хадгалахад зориулагдсан.

Энэ талаар илүү ихийг мэдэхийг хүсч байна уу?

Манай мэргэжилтнүүдээс шууд асуугаарай.

Нууцлалын

Үгүй ээ, бид тэгэхгүй. Бид докероор дамжуулан Syntho Engine-ийг газар дээр нь эсвэл таны хувийн үүлэн дотор хялбархан байрлуулж болно.

Үгүй. Бид платформоо хэрэглэгчийн итгэмжлэгдсэн орчинд хялбархан ашиглах боломжтой болгож оновчтой болгосон. Энэ нь өгөгдөл нь хэрэглэгчийн итгэмжлэгдсэн орчноос хэзээ ч гарахгүй гэдгийг баталгаажуулдаг. Үйлчлүүлэгчийн итгэмжлэгдсэн орчинд байршуулах сонголтууд нь "байгууллагад" болон "харилцагчийн үүл орчинд (хувийн үүл)" байдаг.

Нэмэлт: Syntho нь "Syntho үүл"-д байршуулсан хувилбарыг дэмждэг.

Үгүй. Syntho Engine нь өөрөө өөртөө үйлчлэх платформ юм. Үүний үр дүнд Syntho Engine ашиглан синтетик өгөгдөл үүсгэх боломжтой end-to-end процессын үед Syntho хэзээ ч харах боломжгүй бөгөөд өгөгдлийг боловсруулах шаардлагагүй.

Тийм ээ, бид үүнийг QA тайлангаараа дамжуулан хийдэг.

 

Мэдээллийн багцыг нэгтгэхдээ хувь хүнийг дахин таних боломжгүй гэдгийг харуулах нь чухал юм. онд энэ видео, Марижн үүнийг харуулахын тулд манай чанарын тайланд байгаа нууцлалын арга хэмжээг танилцуулж байна.

Syntho-ийн QA тайланд гурван байна салбарын стандарт мэдээллийн нууцлалыг үнэлэх хэмжүүрүүд. Эдгээр хэмжигдэхүүн бүрийн цаад санаа нь дараах байдалтай байна.

  • Синтетик өгөгдөл (S) нь зорилтот өгөгдөлд "аль болох ойр" байх боловч "хэт ойр биш" байх ёстой (T).
  • Санамсаргүй байдлаар сонгосон зогсолтын өгөгдөл (H) "хэт ойрхон" гэсэн жишиг үзүүлэлтийг тодорхойлдог.
  • A төгс шийдэл Анхны өгөгдөлтэй яг адилхан ажилладаг шинэ синтетик өгөгдлийг үүсгэдэг, гэхдээ урьд өмнө үзэгдэж байгаагүй (= H).

Голландын Мэдээлэл Хамгаалах Газраас тусгайлан онцолсон хэрэглээний тохиолдлуудын нэг бол синтетик өгөгдлийг туршилтын өгөгдөл болгон ашиглах явдал юм.

Илүү ихийг энэ нийтлэлээс олж болно.

Синто хөдөлгүүр

Syntho хөдөлгүүрийг Docker-ийн чингэлэгт тээвэрлэж, өөрийн хүссэн орчинд хялбархан байрлуулж, залгах боломжтой.

Байршуулах боломжит сонголтууд нь:

  • Орон дээр
  • Аливаа (хувийн) үүл
  • Өөр ямар ч орчин

Цааш нь.

Syntho нь өгөгдлийн сан, программ, өгөгдлийн дамжуулах хоолой эсвэл файлын системтэйгээ амархан холбогдох боломжийг олгодог. 

Бид төрөл бүрийн нэгдсэн холбогчийг дэмждэг бөгөөд ингэснээр та эх үүсвэр (анхны өгөгдөл хадгалагдаж байгаа) болон очих орчин (та нийлэг өгөгдлөө бичихийг хүсэж байгаа) -тай холбогдох боломжтой. end-to-end нэгдсэн арга барил.

Бидний дэмждэг холболтын онцлогууд:

  • Docker-тэй залгаад тоглоорой
  • 20+ мэдээллийн сангийн холбогч
  • 20+ файлын системийн холбогч

Цааш нь.

Мэдээжийн хэрэг, үүсгэх хугацаа нь мэдээллийн сангийн хэмжээнээс хамаарна. Дунджаар 1 сая хүрэхгүй бичлэгтэй хүснэгтийг 5 минут хүрэхгүй хугацаанд нэгтгэдэг.

Syntho-ийн машин сургалтын алгоритмууд нь илүү олон аж ахуйн нэгжийн бүртгэлээр онцлог шинж чанаруудыг илүү сайн ерөнхийлж чаддаг бөгөөд энэ нь нууцлалын эрсдлийг бууруулдаг. Багана-мөр хоорондын харьцаа хамгийн багадаа 1:500 байхыг зөвлөж байна. Жишээлбэл, хэрэв таны эх хүснэгт 6 баганатай бол хамгийн багадаа 3000 мөр байх ёстой.

Огт үгүй. Хэдийгээр нийлэг өгөгдлийн давуу тал, үйл ажиллагаа, ашиглалтын тохиолдлуудыг бүрэн ойлгоход бага зэрэг хүчин чармайлт шаардагдаж болох ч нэгтгэх үйл явц нь маш энгийн бөгөөд компьютерийн анхан шатны мэдлэгтэй хүн бүр үүнийг хийж чадна. Синтез хийх үйл явцын талаар нэмэлт мэдээлэл авахыг хүсвэл шалгана уу энэ хуудас or Демо хүсэх.

Syntho хөдөлгүүр нь бүтэцлэгдсэн, хүснэгтэн өгөгдөл (мөр, багана агуулсан бүх зүйл) дээр хамгийн сайн ажилладаг. Эдгээр бүтцийн хүрээнд бид дараах өгөгдлийн төрлүүдийг дэмждэг:

  • Хүснэгтэд форматлагдсан бүтэц өгөгдөл (категорийн, тоон гэх мэт)
  • Шууд танигч ба PII
  • Том өгөгдлийн багц ба мэдээллийн сан
  • Газарзүйн байршлын өгөгдөл (GPS гэх мэт)
  • Цагийн цувааны өгөгдөл
  • Олон хүснэгтийн мэдээллийн сан (лавлагааны бүрэн бүтэн байдал)
  • Текст өгөгдлийг нээх

 

Мэдээллийн цогц дэмжлэг
Бүх ердийн төрлийн хүснэгтэн өгөгдлийн хажууд Syntho Engine нь нарийн төвөгтэй өгөгдлийн төрлүүд болон өгөгдлийн цогц бүтцийг дэмждэг.

  • Цагийн цуврал
  • Олон хүснэгтийн мэдээллийн сан
  • Нээлттэй текст

Цааш нь.

Үгүй ээ, бид өгөгдлийн нарийвчлалыг алдагдуулахгүйгээр тооцооллын шаардлагыг багасгахын тулд платформоо оновчтой болгосон (жишээлбэл, GPU шаардлагагүй). Нэмж дурдахад бид асар том мэдээллийн санг нэгтгэхийн тулд автомат масштабыг дэмждэг.

Тиймээ. Syntho программ хангамж нь олон хүснэгт агуулсан мэдээллийн санд зориулагдсан.

Үүний хувьд Syntho нь өгөгдлийн нарийвчлалыг нэмэгдүүлэхийн тулд өгөгдлийн төрөл, схем, форматыг автоматаар илрүүлдэг. Олон хүснэгтийн өгөгдлийн сангийн хувьд бид лавлагааны бүрэн бүтэн байдлыг хадгалахын тулд автомат хүснэгтийн хамаарлын дүгнэлт, синтезийг дэмждэг.

инээмсэглэж буй хэсэг хүмүүс

Өгөгдөл бол синтетик, гэхдээ манай баг жинхэнэ юм!

Syntho -той холбоо бариарай мөн манай мэргэжилтнүүдийн нэг нь гэрлийн хурдаар тантай холбогдож синтетик өгөгдлийн үнэ цэнийг судлах болно!