FAQ

Често постављана питања о синтетичким подацима

Разумљиво! Срећом, имамо одговоре и ту смо да помогнемо. Проверите наша често постављана питања.

Отворите питање испод и кликните на везе да бисте пронашли више информација. Имате компликованије питање које овде није наведено? Питајте наше стручњаке директно!

Најчешћа питања

Синтетички подаци се односе на податке који су вештачки генерисани, а не прикупљени из извора у стварном свету. Генерално, док се оригинални подаци прикупљају у свим вашим интеракцијама са особама (клијенти, пацијенти, итд.) и кроз све ваше интерне процесе, синтетичке податке генерише компјутерски алгоритам.

Синтетички подаци се такође могу користити за тестирање и процену модела у контролисаном окружењу или за заштиту осетљивих информација генерисањем података који су слични подацима из стварног света, али не садрже никакве осетљиве информације. Синтетички подаци се често користе као алтернатива за податке осетљиве на приватност и могу се користити као тестни подаци, за аналитику или за обуку машинског учења.

opširnije

Гарантовање да синтетички подаци имају исти квалитет података као и оригинални подаци може бити изазовно и често зависи од специфичног случаја употребе и метода које се користе за генерисање синтетичких података. Неке методе за генерисање синтетичких података, као што су генеративни модели, могу произвести податке који су веома слични оригиналним подацима. Кључно питање: како то показати?

Постоји неколико начина да се осигура квалитет синтетичких података:

  • Показатељи квалитета података преко нашег извештаја о квалитету података: Један од начина да се осигура да синтетички подаци имају исти квалитет података као оригинални подаци је да користите метрику квалитета података да бисте упоредили синтетичке податке са оригиналним подацима. Ове метрике се могу користити за мерење ствари као што су сличност, тачност и потпуност података. Синтхо софтвер је укључио извештај о квалитету података са различитим метрикама квалитета података.
  • Екстерно вредновање: пошто је квалитет података синтетичких података у поређењу са оригиналним подацима кључан, недавно смо урадили процену са стручњацима за податке САС-а (тржишног лидера у аналитици) како бисмо демонстрирали квалитет података синтетичких података компаније Синтхо у поређењу са стварним подацима. Едвин ван Унен, стручњак за аналитику из САС-а, проценио је генерисане синтетичке скупове података из Синтхо-а путем различитих аналитичких (АИ) процена и поделио резултате. Погледајте кратак резиме тог видеа овде.
  • Тестирање и евалуација сами: синтетички подаци се могу тестирати и проценити упоређивањем са подацима из стварног света или коришћењем за обуку модела машинског учења и упоређивањем њихових перформанси са моделима обученим на подацима из стварног света. Зашто не бисте сами тестирали квалитет података синтетичких података? Питајте наше стручњаке за могућности овога овде

Важно је напоменути да синтетички подаци никада не могу гарантовати да ће бити 100% слични оригиналним подацима, али могу бити довољно близу да буду корисни за одређени случај употребе. Овај специфични случај употребе може чак бити и напредна аналитика или модели за обуку машинског учења.

Класична „анонимизација“ није увек најбоље решење, јер:

  1. Ризик приватности – увек ћеш имати
    ризик приватности. Примењујући оне
    класичне технике анонимизације
    само отежава, али не
    немогуће идентификовати појединце.
  2. Уништавање података – што више тебе
    анонимизирајте, то боље штитите
    ваша приватност, али што више вас
    уништите своје податке. Ово није оно
    желите за аналитику, јер
    уништени подаци ће резултирати лошим
    увиде.
  3. Дуготрајан – то је решење
    то одузима много времена, јер
    те технике раде другачије
    по скупу података и по типу података.

Синтетички подаци имају за циљ да реше све ове недостатке. Разлика је толико упадљива да смо снимили видео о томе. Гледајте га овде.

Često Postavljana Pitanja

Синтетички подаци

Генерално, већина наших клијената користи синтетичке податке за:

  • Тестирање и развој софтвера
  • Синтетички подаци за аналитику, развој модела и напредну аналитику (АИ & МЛ)
  • Демонстрације производа

Прочитајте више и истражите случајеве употребе.

Синтетички близанац података је алгоритам генерисана реплика скупа података и/или базе података из стварног света. Са синтетичким близанцем података, Синтхо има за циљ да имитира оригинални скуп података или базу података што је могуће ближе оригиналним подацима како би створио реалистичан приказ оригинала. Са синтетичким близанцем података, тежимо врхунском квалитету синтетичких података у поређењу са оригиналним подацима. Ово радимо са нашим софтвером за синтетичке податке који користи најсавременије АИ моделе. Ти модели АИ генеришу потпуно нове тачке података и моделирају их на такав начин да чувамо карактеристике, односе и статистичке обрасце оригиналних података до те мере да их можете користити као да су оригинални подаци.

Ово се може користити у различите сврхе, као што су тестирање и обука модела машинског учења, симулација сценарија за истраживање и развој и стварање виртуелних окружења за обуку и образовање. Синтетички близанци података могу се користити за креирање реалистичних и репрезентативних података који се могу користити уместо података из стварног света када нису доступни или када би коришћење података из стварног света било непрактично или неетично због строгих прописа о приватности података.

Прочитајте више.

Да. Нудимо различите синтетичке функције за оптимизацију и повећање синтетичких података које додају вредност, укључујући исмевање, како бисмо ваше податке подигли на виши ниво.

Прочитајте више.

Лажни подаци и синтетички подаци генерисани вештачком интелигенцијом су обе врсте синтетичких података, али се генеришу на различите начине и служе у различите сврхе.

Лажни подаци су врста синтетичких података који се креирају ручно и често се користе у сврхе тестирања и развоја. Обично се користи за симулацију понашања података из стварног света у контролисаном окружењу и често се користи за тестирање функционалности система или апликације. Често је једноставан, лак за генерисање и не захтева сложене моделе или алгоритме. Често, неко упућује и на лажне податке као на „лажне податке“ или „лажне податке“.

С друге стране, синтетички подаци генерисани помоћу вештачке интелигенције се генеришу коришћењем техника вештачке интелигенције, као што су машинско учење или генеративни модели. Користи се за креирање реалистичних и репрезентативних података који се могу користити уместо података из стварног света када би коришћење података из стварног света било непрактично или неетично због строгих прописа о приватности. Често је сложенији и захтева више рачунарских ресурса од ручних лажних података. Као резултат тога, много је реалистичније и што је могуће ближе опонаша оригиналне податке.

Укратко, лажни подаци се креирају ручно и обично се користе за тестирање и развој, док се синтетички подаци генерисани помоћу вештачке интелигенције креирају коришћењем техника вештачке интелигенције и користе се за креирање репрезентативних и реалистичних података.

Више питања? Питајте наше стручњаке

Квалитет података

Гарантовање да синтетички подаци имају исти квалитет података као и оригинални подаци може бити изазовно и често зависи од специфичног случаја употребе и метода које се користе за генерисање синтетичких података. Неке методе за генерисање синтетичких података, као што су генеративни модели, могу произвести податке који су веома слични оригиналним подацима. Кључно питање: како то показати?

Постоји неколико начина да се осигура квалитет синтетичких података:

  • Показатељи квалитета података преко нашег извештаја о квалитету података: Један од начина да се осигура да синтетички подаци имају исти квалитет података као оригинални подаци је да користите метрику квалитета података да бисте упоредили синтетичке податке са оригиналним подацима. Ове метрике се могу користити за мерење ствари као што су сличност, тачност и потпуност података. Синтхо софтвер је укључио извештај о квалитету података са различитим метрикама квалитета података.
  • Екстерно вредновање: пошто је квалитет података синтетичких података у поређењу са оригиналним подацима кључан, недавно смо урадили процену са стручњацима за податке САС-а (тржишног лидера у аналитици) како бисмо демонстрирали квалитет података синтетичких података компаније Синтхо у поређењу са стварним подацима. Едвин ван Унен, стручњак за аналитику из САС-а, проценио је генерисане синтетичке скупове података из Синтхо-а путем различитих аналитичких (АИ) процена и поделио резултате. Погледајте кратак резиме тог видеа овде.
  • Тестирање и евалуација сами: синтетички подаци се могу тестирати и проценити упоређивањем са подацима из стварног света или коришћењем за обуку модела машинског учења и упоређивањем њихових перформанси са моделима обученим на подацима из стварног света. Зашто не бисте сами тестирали квалитет података синтетичких података? Питајте наше стручњаке за могућности овога овде

Важно је напоменути да синтетички подаци никада не могу гарантовати да ће бити 100% слични оригиналним подацима, али могу бити довољно близу да буду корисни за одређени случај употребе. Овај специфични случај употребе може чак бити и напредна аналитика или модели за обуку машинског учења.

Да, јесте. Синтетички подаци чак садрже обрасце за које нисте знали да су присутни у оригиналним подацима.

Али немојте нам само веровати на реч. Стручњаци за аналитику САС-а (глобалног тржишног лидера у аналитици) извршили су (АИ) процену наших синтетичких података и упоредили их са оригиналним подацима. Радознао? Гледај цео догађај овде или погледајте кратку верзију о квалитет података овде.

Да. Наша платформа је оптимизована за базе података и сходно томе, очување референтног интегритета између скупова података у бази података.

Радознали сте да сазнате више о овоме?

Питајте наше стручњаке директно.

приватност

Не, немамо. Можемо лако да применимо Синтхо Енгине на лицу места или у вашем приватном облаку преко доцкер-а.

Не. Оптимизовали смо нашу платформу на такав начин да се лако може применити у поузданом окружењу корисника. Ово осигурава да подаци никада неће напустити поуздано окружење клијента. Опције примене за поуздано окружење клијента су „он-премисе“ и у „цлоуд окружењу клијента (приватни облак)“.

Опционо: Синтхо подржава верзију која се налази у „Синтхо облаку“.

Не. Синтхо Енгине је самоуслужна платформа. Као резултат тога, генерисање синтетичких података помоћу Синтхо Енгине-а је могуће на начин да у end-to-end процес, Синтхо никада није у стању да види и никада му није потребно да обрађује податке.

Да, ми то радимо преко нашег КА извештаја.

 

Када се синтетише скуп података, неопходно је показати да неко није у стању да поново идентификује појединце. Ин овај видео, Маријн уводи мере приватности које се налазе у нашем извештају о квалитету како би то демонстрирао.

Синтхоов КА извештај садржи три индустријски стандард метрике за процену приватности података. Идеја иза сваког од ових показатеља је следећа:

  • Синтетички подаци (S) биће „што је могуће ближе“, али „не преблизу“ циљним подацима (T).
  • Насумично одабрани подаци о задржавању (H) одређује референтну вредност за „преблизу“.
  • A савршено решење генерише нове синтетичке податке који се понашају тачно као оригинални подаци, али нису раније виђени (= H).

Један од случајева употребе који је посебно истакао холандско тело за заштиту података је коришћење синтетичких података као података за тестирање.

Више се може наћи у овом чланку.

Синтхо Енгине

Синтхо Енгине се испоручује у Доцкер контејнеру и може се лако применити и укључити у окружење по вашем избору.

Могуће опције постављања укључују:

  • Он-премисе
  • Било који (приватни) облак
  • Било које друго окружење

opširnije.

Синтхо вам омогућава да се лако повежете са вашим базама података, апликацијама, цевоводима података или системима датотека. 

Подржавамо различите интегрисане конекторе тако да се можете повезати са изворним окружењем (где се чувају оригинални подаци) и одредишним окружењем (у које желите да упишете своје синтетичке податке) за end-to-end Интегрисани приступ.

Функције везе које подржавамо:

  • Плуг-анд-плаи са Доцкер-ом
  • 20+ конектора за базу података
  • 20+ конектора за систем датотека

opširnije.

Наравно, време генерисања зависи од величине базе података. У просеку, табела са мање од милион записа се синтетише за мање од 1 минута.

Синтхо-ови алгоритми за машинско учење могу боље да генерализују функције са више доступних записа ентитета, што смањује ризик приватности. Препоручује се минимални однос колоне према реду од 1:500. На пример, ако ваша изворна табела има 6 колона, требало би да садржи најмање 3000 редова.

Нимало. Иако ће можда бити потребно мало труда да се у потпуности разумеју предности, рад и случајеви коришћења синтетичких података, процес синтетизације је веома једноставан и свако са основним знањем о рачунару то може да уради. За више информација о процесу синтезе погледајте Ова страница or затражите демо.

Синтхо Енгине најбоље ради на структурираним, табеларним подацима (све што садржи редове и колоне). У оквиру ових структура подржавамо следеће типове података:

  • Структурира податке форматиране у табелама (категоричке, нумеричке, итд.)
  • Директни идентификатори и ПИИ
  • Велики скупови података и базе података
  • Подаци о географској локацији (као што је ГПС)
  • Подаци о временским серијама
  • Базе података са више табела (са референтним интегритетом)
  • Отворите текстуалне податке

 

Комплексна подршка за податке
Поред свих регуларних типова табеларних података, Синтхо Енгине подржава сложене типове података и сложене структуре података.

  • Временске серије
  • Базе података са више табела
  • Отвори текст

opširnije.

Не, оптимизовали смо нашу платформу да минимизирамо рачунарске захтеве (нпр. није потребан ГПУ), без угрожавања тачности података. Поред тога, подржавамо аутоматско скалирање, тако да се могу синтетизовати огромне базе података.

Да. Синтхо софтвер је оптимизован за базе података које садрже више табела.

Што се овога тиче, Синтхо аутоматски детектује типове података, шеме и формате како би максимизирао тачност података. За базу података са више табела, подржавамо аутоматско закључивање и синтезу односа табела ради очувања референтног интегритета.

група људи који се смеју

Подаци су синтетички, али наш тим је стваран!

Контактирајте Синтхо i jedan od naših stručnjaka će stupiti u kontakt sa vama brzinom svetlosti da istraži vrednost sintetičkih podataka!