FAQ

Синтетикалық деректер туралы жиі қойылатын сұрақтар

Түсінікті! Бақытымызға орай, бізде жауаптар бар және біз көмектесуге дайынбыз. Біздің жиі қойылатын сұрақтарды тексеріңіз.

Төменде сұрақты ашып, қосымша ақпарат алу үшін сілтемелерді басыңыз. Мұнда айтылмаған күрделі сұрақ бар ма? Біздің мамандардан тікелей сұраңыз!

Ең көп қойылатын сұрақтар

Синтетикалық деректер нақты дүние көздерінен жиналған емес, жасанды түрде жасалған деректерге жатады. Жалпы алғанда, түпнұсқа деректер сіздің адамдармен (клиенттермен, емделушілермен және т.б.) барлық қарым-қатынастарыңызда және барлық ішкі процестеріңіз арқылы жиналса, синтетикалық деректер компьютерлік алгоритм арқылы жасалады.

Синтетикалық деректерді басқарылатын ортада үлгілерді сынау және бағалау үшін немесе нақты дүние деректеріне ұқсас, бірақ ешқандай құпия ақпаратты қамтымайтын деректерді жасау арқылы құпия ақпаратты қорғау үшін де пайдалануға болады. Синтетикалық деректер көбінесе құпиялылықты қажет ететін деректерге балама ретінде пайдаланылады және сынақ деректері ретінде, аналитика немесе машиналық оқытуды үйрету үшін пайдаланылуы мүмкін.

Ары қарай оқу

Синтетикалық деректердің бастапқы деректермен бірдей деректер сапасына кепілдік беруі қиын болуы мүмкін және көбінесе нақты пайдалану жағдайына және синтетикалық деректерді жасау үшін пайдаланылатын әдістерге байланысты болады. Синтетикалық деректерді генерациялаудың кейбір әдістері, мысалы, генеративті үлгілер, бастапқы деректерге өте ұқсас деректерді шығара алады. Негізгі сұрақ: мұны қалай көрсетуге болады?

Синтетикалық деректердің сапасын қамтамасыз етудің бірнеше жолы бар:

  • Деректер сапасы туралы есеп арқылы деректер сапасы көрсеткіштері: Синтетикалық деректердің бастапқы деректермен бірдей деректер сапасына ие болуын қамтамасыз етудің бір жолы синтетикалық деректерді бастапқы деректермен салыстыру үшін деректер сапасының көрсеткіштерін пайдалану болып табылады. Бұл көрсеткіштерді деректердің ұқсастығы, дәлдігі және толықтығы сияқты нәрселерді өлшеу үшін пайдалануға болады. Syntho бағдарламалық құралы деректер сапасының әртүрлі көрсеткіштері бар деректер сапасының есебін қамтиды.
  • Сыртқы бағалау: бастапқы деректермен салыстырғанда синтетикалық деректердің деректер сапасы маңызды болғандықтан, біз жақында Syntho компаниясының синтетикалық деректердің деректер сапасын нақты деректермен салыстырғанда көрсету үшін SAS (аналитикадағы нарық көшбасшысы) деректер сарапшыларымен бағалау жүргіздік. Эдвин ван Унен, SAS аналитика сарапшысы, Syntho-дан жасалған синтетикалық деректер жиынын әртүрлі аналитикалық (AI) бағалаулары арқылы бағалады және нәтижелермен бөлісті. Сол бейненің қысқаша мазмұнын мына жерден қараңыз.
  • Өз бетінше сынау және бағалау: синтетикалық деректерді нақты дүние деректерімен салыстыру немесе оны машиналық оқыту үлгілерін үйрету үшін пайдалану және олардың өнімділігін нақты дүние деректерінде үйретілген үлгілермен салыстыру арқылы тексеруге және бағалауға болады. Неліктен синтетикалық деректердің деректер сапасын өзіңіз тексермеске? Бұл мүмкіндіктерді біздің мамандардан сұраңыз

Синтетикалық деректердің бастапқы деректерге 100% ұқсас болуына ешқашан кепілдік бере алмайтынын ескеру маңызды, бірақ ол белгілі бір пайдалану жағдайына пайдалы болу үшін жеткілікті жақын болуы мүмкін. Бұл нақты пайдалану жағдайы тіпті жетілдірілген аналитика немесе машинаны оқыту үлгілері болуы мүмкін.

Классикалық «анонимизация» әрқашан ең жақсы шешім бола бермейді, себебі:

  1. Құпиялылық қаупі – сізде әрқашан болады
    құпиялылық тәуекелі. Оларды қолдану
    классикалық анонимизация әдістері
    тек қиындатады, бірақ олай емес
    тұлғаларды анықтау мүмкін емес.
  2. Деректерді жою – соғұрлым көп
    анонимді болыңыз, соғұрлым жақсы қорғайсыз
    сіздің жеке өміріңіз, бірақ сіз көбірек
    деректеріңізді жойыңыз. Бұл не емес
    сіз аналитиканы қалайсыз, өйткені
    жойылған деректер нашар болады
    түсініктер.
  3. Көп уақыт алатын – бұл шешім
    бұл көп уақытты алады, өйткені
    бұл әдістер басқаша жұмыс істейді
    деректер жиынына және деректер түріне.

Синтетикалық деректер осы кемшіліктердің барлығын жоюға бағытталған. Айырмашылығы соншалық, біз бұл туралы бейне түсірдік. Мұнда қараңыз.

Жиі Қойылатын Сұрақтар

Синтетикалық мәліметтер

Әдетте, біздің клиенттеріміздің көпшілігі синтетикалық деректерді мыналар үшін пайдаланады:

  • Бағдарламалық жасақтаманы тестілеу және әзірлеу
  • Аналитика, модель әзірлеу және кеңейтілген аналитика (AI және ML) үшін синтетикалық деректер
  • Өнім көрсетілімдері

Толығырақ оқыңыз және пайдалану жағдайларын зерттеңіз.

Синтетикалық деректер егізі нақты әлемдегі деректер жиынының және/немесе дерекқордың алгоритм арқылы жасалған көшірмесі болып табылады. Synthetic Data Twin көмегімен Syntho түпнұсқаның шынайы көрінісін жасау үшін түпнұсқа деректер жиынын немесе дерекқорды түпнұсқа деректерге барынша жақын имитациялауды мақсат етеді. Синтетикалық деректер егізімен біз бастапқы деректермен салыстырғанда жоғары синтетикалық деректер сапасына ұмтыламыз. Біз мұны ең заманауи AI үлгілерін пайдаланатын синтетикалық деректер бағдарламалық құралы арқылы жасаймыз. Бұл AI үлгілері мүлдем жаңа деректер нүктелерін жасайды және оларды түпнұсқа деректер сияқты пайдалана алатындай дәрежеде бастапқы деректердің сипаттамаларын, қатынастарын және статистикалық үлгілерін сақтайтындай етіп модельдейді.

Бұл машиналық оқыту үлгілерін тестілеу және оқыту, зерттеулер мен әзірлеуге арналған сценарийлерді имитациялау және оқыту мен білім беру үшін виртуалды орталарды жасау сияқты әртүрлі мақсаттар үшін пайдаланылуы мүмкін. Синтетикалық деректер егіздерін нақты деректердің орнына пайдалануға болатын шынайы және өкілдік деректерді жасау үшін пайдалануға болады, олар қол жетімді болмаған кезде немесе деректердің құпиялылығының қатаң ережелеріне байланысты нақты дүние деректерін пайдалану практикалық емес немесе этикаға жатпайтын болады.

Ары қарай оқу.

Иә. Деректеріңізді келесі деңгейге көтеру үшін біз әртүрлі қосымша құнды синтетикалық деректерді оңтайландыру және кеңейту мүмкіндіктерін, соның ішінде мазақ етушілерді ұсынамыз.

Ары қарай оқу.

Жалған деректер және AI арқылы жасалған синтетикалық деректер синтетикалық деректердің екеуі де болып табылады, бірақ олар әртүрлі жолдармен жасалады және әртүрлі мақсаттарға қызмет етеді.

Жалған деректер қолмен жасалған және жиі сынақ және әзірлеу мақсатында пайдаланылатын синтетикалық деректер түрі болып табылады. Ол әдетте басқарылатын ортадағы нақты дүние деректерінің әрекетін модельдеу үшін пайдаланылады және жиі жүйенің немесе қолданбаның функционалдығын тексеру үшін пайдаланылады. Ол көбінесе қарапайым, генерациялау оңай және күрделі модельдер мен алгоритмдерді қажет етпейді. Көбінесе бір сілтеме деректерді «жалған деректер» немесе «жалған деректер» ретінде мазақ етеді.

Жасанды интеллект арқылы жасалған синтетикалық деректер, керісінше, машиналық оқыту немесе генеративті модельдер сияқты жасанды интеллект әдістері арқылы жасалады. Ол нақты деректердің орнына пайдалануға болатын шынайы және өкілді деректерді жасау үшін пайдаланылады, егер нақты деректер құпиялылық ережелеріне байланысты практикалық емес немесе этикалық емес болады. Ол жиі күрделірек және қолмен жалған деректерге қарағанда көбірек есептеу ресурстарын қажет етеді. Нәтижесінде, ол әлдеқайда шынайы және бастапқы деректерді мүмкіндігінше жақын етіп көрсетеді.

Қорытындылай келе, жалған деректер қолмен жасалады және әдетте тестілеу және әзірлеу үшін пайдаланылады, ал AI арқылы жасалған синтетикалық деректер жасанды интеллект әдістері арқылы жасалады және репрезентативті және шынайы деректерді жасау үшін пайдаланылады.

Қосымша сұрақтар ма? Біздің мамандардан сұраңыз

Деректер сапасы

Синтетикалық деректердің бастапқы деректермен бірдей деректер сапасына кепілдік беруі қиын болуы мүмкін және көбінесе нақты пайдалану жағдайына және синтетикалық деректерді жасау үшін пайдаланылатын әдістерге байланысты болады. Синтетикалық деректерді генерациялаудың кейбір әдістері, мысалы, генеративті үлгілер, бастапқы деректерге өте ұқсас деректерді шығара алады. Негізгі сұрақ: мұны қалай көрсетуге болады?

Синтетикалық деректердің сапасын қамтамасыз етудің бірнеше жолы бар:

  • Деректер сапасы туралы есеп арқылы деректер сапасы көрсеткіштері: Синтетикалық деректердің бастапқы деректермен бірдей деректер сапасына ие болуын қамтамасыз етудің бір жолы синтетикалық деректерді бастапқы деректермен салыстыру үшін деректер сапасының көрсеткіштерін пайдалану болып табылады. Бұл көрсеткіштерді деректердің ұқсастығы, дәлдігі және толықтығы сияқты нәрселерді өлшеу үшін пайдалануға болады. Syntho бағдарламалық құралы деректер сапасының әртүрлі көрсеткіштері бар деректер сапасының есебін қамтиды.
  • Сыртқы бағалау: бастапқы деректермен салыстырғанда синтетикалық деректердің деректер сапасы маңызды болғандықтан, біз жақында Syntho компаниясының синтетикалық деректердің деректер сапасын нақты деректермен салыстырғанда көрсету үшін SAS (аналитикадағы нарық көшбасшысы) деректер сарапшыларымен бағалау жүргіздік. Эдвин ван Унен, SAS аналитика сарапшысы, Syntho-дан жасалған синтетикалық деректер жиынын әртүрлі аналитикалық (AI) бағалаулары арқылы бағалады және нәтижелермен бөлісті. Сол бейненің қысқаша мазмұнын мына жерден қараңыз.
  • Өз бетінше сынау және бағалау: синтетикалық деректерді нақты дүние деректерімен салыстыру немесе оны машиналық оқыту үлгілерін үйрету үшін пайдалану және олардың өнімділігін нақты дүние деректерінде үйретілген үлгілермен салыстыру арқылы тексеруге және бағалауға болады. Неліктен синтетикалық деректердің деректер сапасын өзіңіз тексермеске? Бұл мүмкіндіктерді біздің мамандардан сұраңыз

Синтетикалық деректердің бастапқы деректерге 100% ұқсас болуына ешқашан кепілдік бере алмайтынын ескеру маңызды, бірақ ол белгілі бір пайдалану жағдайына пайдалы болу үшін жеткілікті жақын болуы мүмкін. Бұл нақты пайдалану жағдайы тіпті жетілдірілген аналитика немесе машинаны оқыту үлгілері болуы мүмкін.

Иә ол сондай. Синтетикалық деректерде тіпті бастапқы деректерде бар екенін білмеген үлгілер де бар.

Бірақ бұл үшін тек біздің сөзімізді қабылдамаңыз. SAS (аналитикадағы жаһандық нарық көшбасшысы) аналитика сарапшылары біздің синтетикалық деректерге (AI) баға берді және оны бастапқы деректермен салыстырды. Қызық па? қараңыз бүкіл оқиға осында немесе қысқаша нұсқасын қараңыз мұнда деректер сапасы.

Иә. Біздің платформа дерекқорлар үшін оңтайландырылған, демек, деректер базасындағы деректер жиындары арасындағы анықтамалық тұтастықты сақтау.

Бұл туралы көбірек білгіңіз келе ме?

Біздің мамандардан тікелей сұраңыз.

Құпиялық

Жоқ, жоқ. Біз Syntho Engine жүйесін докер арқылы жергілікті немесе жеке бұлтта оңай орналастыра аламыз.

Жоқ. Біз платформамызды тұтынушының сенімді ортасында оңай орналастыруға болатындай етіп оңтайландырдық. Бұл деректер тұтынушының сенімді ортасынан ешқашан кетпейтінін қамтамасыз етеді. Тұтынушының сенімді ортасы үшін орналастыру опциялары «жергілікті» және «тұтынушының бұлтты ортасында (жеке бұлт)».

Қосымша: Syntho «Syntho бұлтында» орналастырылған нұсқаны қолдайды.

Жоқ. Syntho қозғалтқышы - өзіне-өзі қызмет көрсету платформасы. Нәтижесінде, Syntho қозғалтқышымен синтетикалық деректерді генерациялау бұрынғыдай мүмкін болады end-to-end процесінде Syntho ешқашан көре алмайды және деректерді өңдеуді талап етпейді.

Иә, біз мұны QA есебі арқылы жасаймыз.

 

Деректер жиынтығын синтездеу кезінде жеке тұлғаларды қайта сәйкестендіру мүмкін еместігін көрсету қажет. жылы бұл бейне, Marijn мұны көрсету үшін сапа есебіміздегі құпиялылық шараларын ұсынады.

Syntho компаниясының QA есебі үшеуден тұрады салалық стандарт деректердің құпиялылығын бағалауға арналған көрсеткіштер. Бұл көрсеткіштердің әрқайсысының идеясы келесідей:

  • Синтетикалық деректер (S) мақсатты деректерге «мүмкіндігінше жақын», бірақ «тым жақын емес» болуы керек (T).
  • Кездейсоқ таңдалған күту деректері (H) «тым жақын» үшін эталонды анықтайды.
  • A тамаша шешім бастапқы деректер сияқты әрекет ететін, бірақ бұрын көрмеген жаңа синтетикалық деректерді жасайды (= H).

Голландиялық деректерді қорғау органы ерекше атап өткен пайдалану жағдайларының бірі сынақ деректері ретінде синтетикалық деректерді пайдалану болып табылады.

Толығырақ осы мақаладан табуға болады.

Синто қозғалтқышы

Syntho қозғалтқышы Docker контейнерінде жеткізіледі және оны оңай орналастыруға және таңдаған ортаға қосуға болады.

Ықтимал орналастыру опциялары мыналарды қамтиды:

  • Жергілікті
  • Кез келген (жеке) бұлт
  • Кез келген басқа орта

Ары қарай оқу.

Syntho сізге дерекқорлармен, қолданбалармен, деректер құбырларымен немесе файлдық жүйелермен оңай қосылуға мүмкіндік береді. 

Біз әртүрлі біріктірілген қосқыштарды қолдаймыз, осылайша сіз бастапқы ортамен (бастапқы деректер сақталады) және тағайындалған ортамен (синтетикалық деректеріңізді жазғыңыз келетін жерде) қосыла аласыз. end-to-end интеграцияланған тәсіл.

Біз қолдайтын қосылым мүмкіндіктері:

  • Docker көмегімен қосу және ойнату
  • 20+ дерекқор қосқыштары
  • 20+ файлдық жүйе қосқыштары

Ары қарай оқу.

Әрине, генерациялау уақыты дерекқордың көлеміне байланысты. Орташа алғанда, 1 миллионнан аз жазбалары бар кесте 5 минуттан аз уақыт ішінде синтезделеді.

Syntho компаниясының машиналық оқыту алгоритмдері қол жетімді көбірек нысан жазбалары бар мүмкіндіктерді жақсырақ жалпылай алады, бұл құпиялылық қаупін азайтады. Ең аз баған-жол қатынасы 1:500 ұсынылады. Мысалы, бастапқы кестеңізде 6 баған болса, ол кемінде 3000 жолды қамтуы керек.

Ештене етпейді. Синтетикалық деректердің артықшылықтарын, жұмыс істеу мүмкіндіктерін және пайдалану жағдайларын толық түсіну үшін біраз күш қажет болуы мүмкін болса да, синтездеу процесі өте қарапайым және оны қарапайым компьютерлік білімі бар кез келген адам жасай алады. Синтездеу процесі туралы қосымша ақпарат алу үшін қараңыз Бұл бет or демонстрациялар сұраңыз.

Syntho қозғалтқышы құрылымдық, кестелік деректерде (жолдар мен бағандарды қамтитын кез келген нәрсе) жақсы жұмыс істейді. Осы құрылымдарда біз келесі деректер түрлерін қолдаймыз:

  • Кестелерде пішімделген деректер құрылымдары (категориялық, сандық және т.б.)
  • Тікелей идентификаторлар және PII
  • Үлкен деректер жинақтары мен мәліметтер базасы
  • Географиялық орын деректері (мысалы, GPS)
  • Уақыт қатарларының деректері
  • Көп кестелік деректер қоры (анықтамалық тұтастықпен)
  • Мәтіндік деректерді ашу

 

Мәліметтерді кешенді қолдау
Кестелік деректердің барлық қалыпты түрлерімен қатар, Syntho қозғалтқышы күрделі деректер түрлерін және күрделі деректер құрылымдарын қолдайды.

  • Уақыт қатарлары
  • Көп кестелі мәліметтер қоры
  • Ашық мәтін

Ары қарай оқу.

Жоқ, біз деректер дәлдігіне нұқсан келтірместен, есептеу талаптарын (мысалы, GPU қажет емес) азайту үшін платформамызды оңтайландырдық. Бұған қоса, біз үлкен дерекқорларды синтездей алатындай автоматты масштабтауды қолдаймыз.

Иә. Syntho бағдарламалық құралы бірнеше кестелерден тұратын дерекқорлар үшін оңтайландырылған.

Бұған келетін болсақ, Syntho деректер дәлдігін барынша арттыру үшін деректер түрлерін, схемаларын және пішімдерін автоматты түрде анықтайды. Көп кестелік дерекқор үшін сілтеме тұтастығын сақтау үшін кесте қатынасының автоматты түрде қорытындысы мен синтезін қолдаймыз.

күлген адамдар тобы

Деректер синтетикалық, бірақ біздің команда нақты!

Syntho компаниясына хабарласыңыз және біздің мамандардың бірі синтетикалық деректердің құндылығын зерттеу үшін сізбен жарық жылдамдығымен байланысады!