Шта су синтетички подаци?

Синтетички подаци убрзаног курса

 

 

увод

Шта су синтетички подаци?

Одговор је релативно једноставан. Док се оригинални подаци прикупљају у свим вашим интеракцијама са стварним особама (нпр. клијентима, пацијентима, запосленима итд.) и кроз све ваше интерне процесе, синтетичке податке генерише компјутерски алгоритам. Овај компјутерски алгоритам генерише потпуно нове и вештачке тачке података.

Решите проблеме приватности података

Синтетички генерисани подаци се састоје од потпуно нових и вештачких тачака података без односа један-на-један са оригиналним подацима. Дакле, ниједна од синтетичких тачака података се не може пратити уназад или обрнутим инжењерингом до оригиналних података. Као резултат тога, синтетички подаци су изузети од прописа о приватности, као што је ГДПР, и служе као решење за решавање и превазилажење изазова у вези са приватношћу података.

Повећајте и симулирајте

Генеративни аспект генерисања синтетичких података омогућава да се увећају и симулирају потпуно нови подаци. Ово функционише као решење када немате довољно података (недостатак података), желите да повећате узорке рубних случајева или када још немате податке.

Овде је фокус Синтхо -а на структурираним подацима (подаци форматирани у табелама које садрже редове и колоне, као што видите на Екцел листовима), али увек волимо да илуструјемо концепт синтетичких података путем слика, јер је привлачнији.

Врсте синтетичких података

У оквиру синтетичких података постоје три типа синтетичких података. Те 3 врсте синтетичких података су: лажни подаци, синтетички генерисани подаци засновани на правилима и синтетички подаци које генерише вештачка интелигенција (АИ). Укратко објашњавамо које су 3 различите врсте синтетичких података.

Лажни подаци / лажни подаци

Лажни подаци су насумично генерисани подаци (нпр. лажни генератор података).

Сходно томе, карактеристике, односи и статистички обрасци који се налазе у оригиналним подацима нису сачувани, ухваћени и репродуковани у генерисаним лажним подацима. Дакле, репрезентативност лажних података / лажних података је минимална у поређењу са оригиналним подацима.

  • Када га користити: да замените директне идентификаторе (ПИИ) или када немате податке (још) и не желите да трошите време и енергију на дефинисање правила.

Генерисани синтетички подаци засновани на правилима

Синтетички подаци генерисани на основу правила су синтетички подаци генерисани унапред дефинисаним скупом правила. Примери тих унапред дефинисаних правила могу бити да бисте желели да имате синтетичке податке са одређеном минималном вредношћу, максималном вредношћу или просечном вредношћу. Било која од карактеристика, односа и статистичких образаца, које желите да репродукујете у синтетичким подацима заснованим на правилима, треба да буде унапред дефинисана.

Сходно томе, квалитет података ће бити једнако добар као и унапред дефинисани скуп правила. Ово доводи до изазова када је висок квалитет података од суштинског значаја. Прво, може се дефинисати само ограничен скуп правила која ће бити обухваћена синтетичким подацима. Поред тога, постављање више правила обично доводи до преклапања и сукоба правила. Штавише, никада нећете у потпуности покрити сва релевантна правила. Штавише, можда постоје релевантна правила којих нисте ни свесни. И на крају (и да не заборавим), ово ће вам одузети много времена и енергије што резултира неефикасним решењем.

  • Када га користити: када немате податке (још)

Синтетички подаци које генерише вештачка интелигенција (АИ)

Као што очекујете од имена, синтетички подаци које генерише вештачка интелигенција (АИ) су синтетички подаци генерисани алгоритмом вештачке интелигенције (АИ). АИ модел је обучен на оригиналним подацима да научи све карактеристике, односе и статистичке обрасце. Након тога, овај АИ алгоритам је у стању да генерише потпуно нове тачке података и моделира те нове тачке података на такав начин да репродукује карактеристике, односе и статистичке обрасце из оригиналног скупа података. То је оно што зовемо синтетички близанац података.

АИ модел опонаша оригиналне податке за генерисање синтетичких података близанаца који се могу користити као да су оригинални подаци. Ово откључава различите случајеве употребе у којима се синтетички подаци генерисани помоћу вештачке интелигенције могу користити као алтернатива за коришћење оригиналних (осетљивих) података, као што је коришћење синтетичких података генерисаних вештачком интелигенцијом као тест података, демо података или за аналитику.

Визуелни приказ како се синтетички подаци креирају

У поређењу са синтетичким подацима генерисаним на основу правила: уместо да ви проучавате и дефинишете релевантна правила, АИ алгоритам то ради аутоматски уместо вас. Овде неће бити обухваћене само карактеристике, односи и статистички обрасци којих сте свесни, већ ће бити обухваћене и карактеристике, односи и статистички обрасци којих нисте ни свесни.

  • Када га користити: када имате (неке) податке као улаз за опонашање или које ћете користити као полазну тачку за паметно генерисање података и функције повећања

Коју врсту синтетичких података користити?

У зависности од вашег случаја употребе, саветује се комбинација лажних података / лажних података, синтетичких података генерисаних на основу правила или синтетичких података које генерише вештачка интелигенција (АИ). Овај преглед вам пружа прву назнаку коју врсту синтетичких података да користите. Пошто Синтхо подржава све њих, слободно контактирајте наше стручњаке да са нама проуче ваш случај употребе.

Овај графикон представља различите врсте синтетичких података

синто поклопац водича

Сачувајте свој водич за синтетичке податке сада!