Часта задаваныя пытанні

Часта задаюць пытанні аб сінтэтычных дадзеных

Зразумела! На шчасце, у нас ёсць адказы, і мы тут, каб дапамагчы. Праверце нашы часта задаваныя пытанні.

Адкрыйце пытанне ніжэй і націсніце на спасылкі, каб знайсці дадатковую інфармацыю. У вас ёсць больш складанае пытанне, якога тут няма? Спытаеце нашых экспертаў напрамую!

Самыя зададзеныя пытанні

Сінтэтычныя даныя адносяцца да даных, якія ствараюцца штучна, а не збіраюцца з рэальных крыніц. Увогуле, у той час як зыходныя даныя збіраюцца падчас усіх вашых узаемадзеянняў з асобамі (кліентамі, пацыентамі і г.д.) і праз усе вашы ўнутраныя працэсы, сінтэтычныя даныя генеруюцца з дапамогай камп'ютэрнага алгарытму.

Сінтэтычныя даныя таксама могуць быць выкарыстаны для тэсціравання і ацэнкі мадэляў у кантраляваным асяроддзі або для абароны канфідэнцыйнай інфармацыі шляхам стварэння даных, падобных на рэальныя даныя, але не ўтрымліваючых канфідэнцыяльнай інфармацыі. Сінтэтычныя даныя часта выкарыстоўваюцца ў якасці альтэрнатывы канфідэнцыяльным даным і могуць выкарыстоўвацца ў якасці тэставых даных, для аналітыкі або для навучання машыннаму навучанню.

Больш падрабязна

Гарантаваць, што сінтэтычныя даныя захоўваюць такую ​​ж якасць, што і зыходныя даныя, можа быць складанай задачай і часта залежыць ад канкрэтнага выпадку выкарыстання і метадаў, якія выкарыстоўваюцца для стварэння сінтэтычных даных. Некаторыя метады генерацыі сінтэтычных даных, такія як генератыўныя мадэлі, могуць ствараць даныя, вельмі падобныя на зыходныя даныя. Ключавое пытанне: як гэта прадэманстраваць?

Ёсць некалькі спосабаў забяспечыць якасць сінтэтычных даных:

  • Паказчыкі якасці даных у нашай справаздачы аб якасці даных: Адзін са спосабаў гарантаваць, што сінтэтычныя даныя маюць такую ​​ж якасць, што і зыходныя даныя, - гэта выкарыстоўваць паказчыкі якасці даных для параўнання сінтэтычных даных з зыходнымі. Гэтыя паказчыкі можна выкарыстоўваць для вымярэння такіх рэчаў, як падабенства, дакладнасць і паўната даных. Праграмнае забеспячэнне Syntho уключала справаздачу аб якасці даных з рознымі паказчыкамі якасці даных.
  • Знешняя ацэнка: паколькі якасць дадзеных сінтэтычных дадзеных у параўнанні з зыходнымі дадзенымі з'яўляецца ключавым, мы нядаўна правялі ацэнку з экспертамі па дадзеных кампаніі SAS (лідэр на рынку аналітыкі), каб прадэманстраваць якасць дадзеных сінтэтычных дадзеных Syntho у параўнанні з рэальнымі дадзенымі. Эдвін ван Унен, эксперт па аналітыцы з SAS, ацаніў створаныя сінтэтычныя наборы даных з Syntho з дапамогай розных ацэнак аналітыкі (AI) і падзяліўся вынікамі. Паглядзіце кароткі агляд гэтага відэа тут.
  • Тэставанне і ацэнка самастойна: сінтэтычныя даныя можна правяраць і ацэньваць, параўноўваючы іх з рэальнымі данымі або выкарыстоўваючы іх для навучання мадэляў машыннага навучання і параўноўваючы іх прадукцыйнасць з мадэлямі, навучанымі на рэальных даных. Чаму б не праверыць якасць сінтэтычных дадзеных самастойна? Спытайце нашых экспертаў пра магчымасці гэтага тут

Важна адзначыць, што сінтэтычныя даныя ніколі не могуць быць на 100% падобныя на зыходныя даныя, але яны могуць быць дастаткова блізкімі, каб быць карыснымі для канкрэтнага выпадку выкарыстання. Гэты канкрэтны варыянт выкарыстання можа быць нават перадавой аналітыкай або навучальнымі мадэлямі машыннага навучання.

Класічная «ананімізацыя» не заўсёды з'яўляецца лепшым рашэннем, таму што:

  1. Рызыка прыватнасці – заўсёды будзеце мець
    рызыка прыватнасці. Прымяненне тых
    класічныя метады ананімізацыі
    робіць гэта толькі цяжэй, але не
    немагчыма ідэнтыфікаваць асоб.
  2. Знішчэнне дадзеных – чым больш вы
    ананімізаваць, тым лепш вы абараняеце
    вашу канфідэнцыяльнасць, але чым больш вы
    знішчыць вашы дадзеныя. Гэта не што
    вы хочаце для аналітыкі, таму што
    знішчаныя дадзеныя прывядуць да дрэннага
    ідэі.
  3. Патрабуе шмат часу – гэта рашэнне
    што займае шмат часу, таму што
    гэтыя метады працуюць па-рознаму
    за набор даных і за тып даных.

Сінтэтычныя дадзеныя накіраваны на ліквідацыю ўсіх гэтых недахопаў. Розніца настолькі ашаламляльная, што мы знялі пра гэта відэа. Глядзіце яго тут.

Часта задаюць пытанні

Сінтэтычныя дадзеныя

Як правіла, большасць нашых кліентаў выкарыстоўваюць сінтэтычныя дадзеныя для:

  • Тэставанне і распрацоўка праграмнага забеспячэння
  • Сінтэтычныя даныя для аналітыкі, распрацоўкі мадэляў і пашыранай аналітыкі (AI & ML)
  • Дэма-прадукт

Чытайце больш і вывучайце выпадкі выкарыстання.

Сінтэтычны двайнік даных - гэта створаная алгарытмам копія рэальнага набору даных і/або базы дадзеных. Дзякуючы Synthetic Data Twin, Syntho імкнецца імітаваць арыгінальны набор даных або базу дадзеных як мага бліжэй да зыходных даных, каб стварыць рэалістычнае ўяўленне арыгінала. Дзякуючы двайніку сінтэтычных даных, мы імкнемся да лепшай якасці сінтэтычных даных у параўнанні з зыходнымі данымі. Мы робім гэта з дапамогай нашага праграмнага забеспячэння для сінтэтычных даных, якое выкарыстоўвае самыя сучасныя мадэлі штучнага інтэлекту. Гэтыя мадэлі штучнага інтэлекту ствараюць цалкам новыя кропкі даных і мадэлююць іх такім чынам, што мы захоўваем характарыстыкі, адносіны і статыстычныя мадэлі зыходных даных да такой ступені, што вы можаце выкарыстоўваць іх як зыходныя даныя.

Гэта можна выкарыстоўваць для розных мэтаў, такіх як тэсціраванне і навучанне мадэляў машыннага навучання, мадэляванне сцэнарыяў для даследаванняў і распрацовак і стварэнне віртуальных асяроддзяў для навучання і адукацыі. Сінтэтычныя двайнікі даных можна выкарыстоўваць для стварэння рэалістычных і рэпрэзентатыўных даных, якія можна выкарыстоўваць замест рэальных даных, калі яны недаступныя або калі выкарыстанне рэальных даных было б немэтазгодным або неэтычным з-за строгіх правілаў прыватнасці даных.

Больш падрабязна.

Так, мы робім. Мы прапануем розныя дадатковыя функцыі аптымізацыі і павелічэння сінтэтычных даных, у тым ліку насмешкі, каб вывесці вашы даныя на новы ўзровень.

Больш падрабязна.

Макетныя даныя і сінтэтычныя даныя, створаныя штучным інтэлектам, з'яўляюцца тыпамі сінтэтычных даных, але яны ствараюцца рознымі спосабамі і служаць розным мэтам.

Макетныя даныя - гэта тып сінтэтычных даных, якія ствараюцца ўручную і часта выкарыстоўваюцца ў мэтах тэставання і распрацоўкі. Звычайна ён выкарыстоўваецца для мадэлявання паводзін рэальных даных у кантраляваным асяроддзі і часта выкарыстоўваецца для праверкі функцыянальнасці сістэмы або прыкладання. Ён часта просты, яго лёгка згенераваць і не патрабуе складаных мадэляў або алгарытмаў. Часта адзін з рэфералаў таксама высмейвае даныя як «фіктыўныя даныя» або «фальшывыя даныя».

З іншага боку, сінтэтычныя даныя, створаныя штучным інтэлектам, ствараюцца з дапамогай метадаў штучнага інтэлекту, такіх як машыннае навучанне або генератыўныя мадэлі. Ён выкарыстоўваецца для стварэння рэалістычных і рэпрэзентатыўных даных, якія можна выкарыстоўваць замест рэальных даных, калі выкарыстанне рэальных даных было б немэтазгодным або неэтычным з-за строгіх правілаў прыватнасці. Часта ён больш складаны і патрабуе больш вылічальных рэсурсаў, чым імітацыя дадзеных уручную. Як вынік, гэта значна больш рэалістычна і імітуе зыходныя дадзеныя, наколькі гэта магчыма.

Падводзячы вынік, фіктыўныя даныя ствараюцца ўручную і звычайна выкарыстоўваюцца для тэсціравання і распрацоўкі, у той час як сінтэтычныя даныя, створаныя штучным інтэлектам, ствараюцца з выкарыстаннем метадаў штучнага інтэлекту і выкарыстоўваюцца для стварэння рэпрэзентатыўных і рэалістычных даных.

Яшчэ пытанні? Спытайце нашых экспертаў

якасць дадзеных

Гарантаваць, што сінтэтычныя даныя захоўваюць такую ​​ж якасць, што і зыходныя даныя, можа быць складанай задачай і часта залежыць ад канкрэтнага выпадку выкарыстання і метадаў, якія выкарыстоўваюцца для стварэння сінтэтычных даных. Некаторыя метады генерацыі сінтэтычных даных, такія як генератыўныя мадэлі, могуць ствараць даныя, вельмі падобныя на зыходныя даныя. Ключавое пытанне: як гэта прадэманстраваць?

Ёсць некалькі спосабаў забяспечыць якасць сінтэтычных даных:

  • Паказчыкі якасці даных у нашай справаздачы аб якасці даных: Адзін са спосабаў гарантаваць, што сінтэтычныя даныя маюць такую ​​ж якасць, што і зыходныя даныя, - гэта выкарыстоўваць паказчыкі якасці даных для параўнання сінтэтычных даных з зыходнымі. Гэтыя паказчыкі можна выкарыстоўваць для вымярэння такіх рэчаў, як падабенства, дакладнасць і паўната даных. Праграмнае забеспячэнне Syntho уключала справаздачу аб якасці даных з рознымі паказчыкамі якасці даных.
  • Знешняя ацэнка: паколькі якасць дадзеных сінтэтычных дадзеных у параўнанні з зыходнымі дадзенымі з'яўляецца ключавым, мы нядаўна правялі ацэнку з экспертамі па дадзеных кампаніі SAS (лідэр на рынку аналітыкі), каб прадэманстраваць якасць дадзеных сінтэтычных дадзеных Syntho у параўнанні з рэальнымі дадзенымі. Эдвін ван Унен, эксперт па аналітыцы з SAS, ацаніў створаныя сінтэтычныя наборы даных з Syntho з дапамогай розных ацэнак аналітыкі (AI) і падзяліўся вынікамі. Паглядзіце кароткі агляд гэтага відэа тут.
  • Тэставанне і ацэнка самастойна: сінтэтычныя даныя можна правяраць і ацэньваць, параўноўваючы іх з рэальнымі данымі або выкарыстоўваючы іх для навучання мадэляў машыннага навучання і параўноўваючы іх прадукцыйнасць з мадэлямі, навучанымі на рэальных даных. Чаму б не праверыць якасць сінтэтычных дадзеных самастойна? Спытайце нашых экспертаў пра магчымасці гэтага тут

Важна адзначыць, што сінтэтычныя даныя ніколі не могуць быць на 100% падобныя на зыходныя даныя, але яны могуць быць дастаткова блізкімі, каб быць карыснымі для канкрэтнага выпадку выкарыстання. Гэты канкрэтны варыянт выкарыстання можа быць нават перадавой аналітыкай або навучальнымі мадэлямі машыннага навучання.

Так. Сінтэтычныя дадзеныя нават утрымліваюць шаблоны, пра якія вы не ведалі, што яны прысутнічалі ў зыходных дадзеных.

Але не проста верце нам на слова. Эксперты па аналітыцы SAS (лідэр сусветнага рынку ў галіне аналітыкі) правялі ацэнку (AI) нашых сінтэтычных даных і параўналі іх з зыходнымі дадзенымі. Цікава? Сачыце за уся падзея тут або паглядзіце кароткую версію пра якасць дадзеных тут.

Так, мы робім. Наша платформа аптымізавана для баз даных і, такім чынам, для захавання рэферэнтнай цэласнасці паміж наборамі даных у базе даных.

Цікава даведацца пра гэта больш?

Спытайце непасрэдна ў нашых экспертаў.

недатыкальнасць прыватнага жыцця

Не, мы не робім. Мы можам лёгка разгарнуць Syntho Engine на месцы або ў вашым прыватным воблаку праз докер.

Не. Мы аптымізавалі нашу платформу такім чынам, каб яе можна было лёгка разгарнуць у надзейным асяроддзі кліента. Гэта гарантуе, што дадзеныя ніколі не пакінуць даверанае асяроддзе кліента. Варыянты разгортвання для даверанага асяроддзя заказчыка - «лакальна» і ў «воблачным асяроддзі заказчыка (прыватнае воблака)».

Дадаткова: Syntho падтрымлівае версію, якая знаходзіцца ў «воблаку Syntho».

Не. Syntho Engine - гэта платформа самаабслугоўвання. У выніку генерацыя сінтэтычных даных з дапамогай Syntho Engine становіцца магчымай такім чынам, што ў end-to-end Syntho ніколі не можа бачыць і ніколі не патрабуе апрацоўкі даных.

Так, мы робім гэта праз нашу справаздачу аб якасці.

 

Пры сінтэзе набору даных вельмі важна прадэманстраваць, што нельга паўторна ідэнтыфікаваць людзей. У гэта відэа, Марыйн уводзіць меры канфідэнцыяльнасці, якія ёсць у нашай справаздачы аб якасці, каб прадэманстраваць гэта.

Справаздача аб кантролі якасці Syntho змяшчае тры галіновы стандарт метрыкі для ацэнкі прыватнасці даных. Ідэя кожнага з гэтых паказчыкаў заключаецца ў наступным:

  • Сінтэтычныя дадзеныя (S) павінны быць «як мага бліжэй», але «не занадта блізка» да мэтавых дадзеных (T).
  • Выпадкова выбраныя даныя пра затрымку (H) вызначае арыенцір для «занадта блізка».
  • A ідэальнае рашэнне стварае новыя сінтэтычныя даныя, якія паводзяць сябе сапраўды гэтак жа, як зыходныя даныя, але раней іх не было (= H).

Адным з варыянтаў выкарыстання, які спецыяльна вылучае галандскі орган па абароне даных, з'яўляецца выкарыстанне сінтэтычных даных у якасці тэставых даных.

Больш падрабязна можна знайсці ў гэтым артыкуле.

Рухавік Syntho

Syntho Engine пастаўляецца ў кантэйнеры Docker і можа быць лёгка разгорнуты і падлучаны да выбранага асяроддзя.

Магчымыя варыянты разгортвання ўключаюць у сябе:

  • Па-памяшканне
  • Любое (прыватнае) воблака
  • Любое іншае асяроддзе

Больш падрабязна.

Syntho дазваляе вам лёгка падключацца да вашых баз дадзеных, прыкладанняў, канвеераў даных або файлавых сістэм. 

Для end-to-end комплексны падыход.

Функцыі падлучэння, якія мы падтрымліваем:

  • Падключыце і працуйце з Docker
  • 20+ раздымаў базы дадзеных
  • 20+ раздымаў файлавай сістэмы

Больш падрабязна.

Натуральна, час генерацыі залежыць ад памеру базы дадзеных. У сярэднім табліца з менш чым 1 мільёнам запісаў сінтэзуецца менш чым за 5 хвілін.

Алгарытмы машыннага навучання Syntho могуць лепш абагульніць функцыі з большай колькасцю даступных запісаў аб'ектаў, што зніжае рызыку прыватнасці. Рэкамендуецца мінімальнае суадносіны слупка да радка 1:500. Напрыклад, калі ваша зыходная табліца мае 6 слупкоў, яна павінна ўтрымліваць мінімум 3000 радкоў.

Зусім не. Нягледзячы на ​​тое, што для поўнага разумення пераваг, працы і выпадкаў выкарыстання сінтэтычных даных можа спатрэбіцца пэўныя намаганні, працэс сінтэзу вельмі просты, і кожны, хто валодае элементарнымі камп'ютарнымі ведамі, можа гэта зрабіць. Для атрымання дадатковай інфармацыі аб працэсе сінтэзу, праверце гэтай старонкі or запыт дэма.

Syntho Engine лепш за ўсё працуе са структураванымі таблічнымі дадзенымі (усё, што змяшчае радкі і слупкі). У гэтых структурах мы падтрымліваем наступныя тыпы даных:

  • Структуруе даныя, адфарматаваныя ў табліцы (катэгарыяльныя, лікавыя і г.д.)
  • Прамыя ідэнтыфікатары і PII
  • Вялікія наборы даных і базы дадзеных
  • Даныя геаграфічнага месцазнаходжання (напрыклад, GPS)
  • Дадзеныя часавых шэрагаў
  • Шматтаблічныя базы даных (з спасылкай цэласнасцю)
  • Адкрыць тэкставыя даныя

 

Складаная падтрымка дадзеных
Акрамя ўсіх звычайных тыпаў таблічных даных, Syntho Engine падтрымлівае складаныя тыпы даных і складаныя структуры даных.

  • Часовы шэраг
  • Шматтаблічныя базы дадзеных
  • Адкрыты тэкст

Больш падрабязна.

Не, мы аптымізавалі нашу платформу, каб мінімізаваць вылічальныя патрабаванні (напрыклад, не патрабуецца графічны працэсар), без шкоды для дакладнасці даных. Акрамя таго, мы падтрымліваем аўтаматычнае маштабаванне, каб можна было сінтэзаваць велізарныя базы дадзеных.

так. Праграмнае забеспячэнне Syntho аптымізавана для баз даных, якія змяшчаюць некалькі табліц.

Што тычыцца гэтага, Syntho аўтаматычна вызначае тыпы даных, схемы і фарматы для максімальнай дакладнасці даных. Для шматтаблічнай базы дадзеных мы падтрымліваем аўтаматычны вывад і сінтэз адносін табліц для захавання спасылачнай цэласнасці.

група людзей усміхаецца

Дадзеныя сінтэтычныя, але наша каманда сапраўдная!

Звяжыцеся з Syntho і адзін з нашых экспертаў звяжацца з вамі на хуткасці святла, каб вывучыць каштоўнасць сінтэтычных дадзеных!