Често поставувани прашања

Често поставувани прашања за синтетички податоци

Разбирливо! За среќа, ги имаме одговорите и тука сме да помогнеме. Проверете ги нашите најчесто поставувани прашања.

Отворете прашање подолу и кликнете на линковите за да најдете повеќе информации. Имате покомплицирано прашање што не е наведено овде? Прашајте ги нашите експерти директно!

Најпоставувани прашања

Синтетичките податоци се однесуваат на податоци кои се вештачки генерирани наместо собрани од извори од реалниот свет. Општо земено, додека оригиналните податоци се собираат во сите ваши интеракции со лица (клиенти, пациенти итн.) и преку сите ваши внатрешни процеси, синтетичките податоци се генерираат од компјутерски алгоритам.

Синтетичките податоци може да се користат и за тестирање и евалуација на модели во контролирана средина или за заштита на чувствителни информации со генерирање податоци кои се слични на податоците од реалниот свет, но не содржат никакви чувствителни информации. Синтетичките податоци често се користат како алтернатива за податоци чувствителни на приватност и може да се користат како податоци за тестирање, за аналитика или за обука на машинско учење.

Прочитај повеќе

Гаранцијата дека синтетичките податоци го имаат истиот квалитет на податоците како и оригиналните податоци, може да биде предизвик и често зависи од конкретниот случај на употреба и методите што се користат за генерирање на синтетичките податоци. Некои методи за генерирање на синтетички податоци, како што се генеративните модели, можат да произведат податоци кои се многу слични на оригиналните податоци. Клучно прашање: како да се покаже ова?

Постојат неколку начини да се обезбеди квалитетот на синтетичките податоци:

  • Метрика за квалитетот на податоците преку нашиот извештај за квалитетот на податоците: Еден начин да се осигурате дека синтетичките податоци го имаат истиот квалитет на податоците како и оригиналните податоци е да користите метрика за квалитетот на податоците за да ги споредите синтетичките податоци со оригиналните податоци. Овие метрики може да се користат за мерење на работи како сличност, точност и комплетност на податоците. Софтверот Syntho вклучуваше извештај за квалитетот на податоците со различни метрики за квалитетот на податоците.
  • Надворешна евалуација: бидејќи квалитетот на податоците на синтетичките податоци во споредба со оригиналните податоци е клучен, неодамна направивме проценка со експертите за податоци на SAS (пазарен лидер во аналитика) за да го покажеме квалитетот на податоците на синтетичките податоци од Syntho во споредба со реалните податоци. Едвин ван Унен, експерт за аналитика од SAS, ги оцени генерираните синтетички збирки на податоци од Syntho преку различни проценки за аналитика (AI) и ги сподели резултатите. Погледнете краток преглед на видеото овде.
  • Тестирање и оценување сами: синтетичките податоци може да се тестираат и проценат со споредување со податоци од реалниот свет или со нивно користење за обука на модели за машинско учење и споредување на нивните перформанси со модели обучени на податоци од реалниот свет. Зошто сами да не го тестирате квалитетот на податоците на синтетичките податоци? Прашајте ги нашите експерти за можностите за ова овде

Важно е да се напомене дека синтетичките податоци никогаш не можат да гарантираат дека се 100% слични на оригиналните податоци, но може да бидат доволно блиски за да бидат корисни за одреден случај на употреба. Овој специфичен случај на употреба може да биде дури и напредна аналитика или модели за машинско учење за обука.

Класичната „анонимизација“ не е секогаш најдоброто решение, бидејќи:

  1. Ризик за приватност – секогаш ќе имаш
    ризик за приватност. Применувајќи ги
    класични техники за анонимизација
    го прави само потешко, но не
    невозможно е да се идентификуваат поединци.
  2. Уништување податоци – толку повеќе вие
    анонимизирај, толку подобро штитиш
    вашата приватност, но колку повеќе вие
    уништи ги вашите податоци. Ова не е она што
    сакаш за аналитика, затоа што
    уништените податоци ќе резултираат со лоши
    увиди.
  3. Одзема време – тоа е решение
    за тоа е потребно многу време, бидејќи
    тие техники работат поинаку
    по база на податоци и по тип на податоци.

Синтетичките податоци имаат за цел да ги решат сите овие недостатоци. Разликата е толку впечатлива што направивме видео за тоа. Гледај го тука.

Најчесто поставувани прашања

Синтетички податоци

Општо земено, повеќето од нашите клиенти користат синтетички податоци за:

  • Тестирање и развој на софтвер
  • Синтетички податоци за аналитика, развој на модели и напредна аналитика (AI и ML)
  • Демо производи

Прочитајте повеќе и истражете случаи на употреба.

Синтетички близнак на податоци е реплика генерирана од алгоритам на база на податоци и/или база на податоци од реалниот свет. Со Synthetic Data Twin, Syntho има за цел да имитира оригинална база на податоци или база на податоци што е можно поблиску до оригиналните податоци за да создаде реална претстава на оригиналот. Со синтетички близнак на податоци, се стремиме кон супериорен квалитет на синтетички податоци во споредба со оригиналните податоци. Ова го правиме со нашиот софтвер за синтетички податоци што користи најсовремени модели на вештачка интелигенција. Тие модели со вештачка интелигенција генерираат сосема нови точки на податоци и ги моделираат на таков начин што ги зачувуваме карактеристиките, врските и статистичките обрасци на оригиналните податоци до таа мера што можете да ги користите како да се оригинални податоци.

Ова може да се користи за различни цели, како што се тестирање и обука на модели за машинско учење, симулирање на сценарија за истражување и развој и создавање виртуелни средини за обука и образование. Синтетичките податоци близнаци може да се користат за да се создадат реални и репрезентативни податоци што може да се користат на местото на реалните податоци кога не се достапни или кога користењето на податоците од реалниот свет би било непрактично или неетички поради строгите прописи за приватност на податоците.

Прочитај повеќе.

Да. Нудиме различни функции за оптимизација и зголемување на синтетичките податоци што додаваат вредност, вклучително и потсмевачи, за да ги подигнете вашите податоци на следното ниво.

Прочитај повеќе.

Лажните податоци и синтетичките податоци генерирани со вештачка интелигенција се и двата типа на синтетички податоци, но тие се генерираат на различни начини и служат за различни цели.

Мок податоци се тип на синтетички податоци што се создаваат рачно и често се користат за тестирање и развојни цели. Обично се користи за симулирање на однесувањето на податоците од реалниот свет во контролирана средина и често се користи за тестирање на функционалноста на системот или апликацијата. Често е едноставен, лесен за генерирање и не бара сложени модели или алгоритми. Честопати, некој упатува и на исмејување на податоците како „лажни податоци“ или „лажни податоци“.

Синтетичките податоци генерирани со вештачка интелигенција, од друга страна, се генерираат со помош на техники за вештачка интелигенција, како што се машинско учење или генеративни модели. Се користи за создавање реални и репрезентативни податоци кои можат да се користат наместо реалните податоци кога користењето на податоците од реалниот свет би било непрактично или неетички поради строгите прописи за приватност. Често е покомплексен и бара повеќе пресметковни ресурси од рачните лажни податоци. Како резултат на тоа, тој е многу пореален и ги имитира оригиналните податоци што е можно поблиску.

Накратко, лажните податоци се рачно креирани и вообичаено се користат за тестирање и развој, додека синтетичките податоци генерирани со вештачка интелигенција се создаваат со помош на техники на вештачка интелигенција и се користат за создавање репрезентативни и реални податоци.

Повеќе прашања? Прашајте ги нашите експерти

Квалитет на податоци

Гаранцијата дека синтетичките податоци го имаат истиот квалитет на податоците како и оригиналните податоци, може да биде предизвик и често зависи од конкретниот случај на употреба и методите што се користат за генерирање на синтетичките податоци. Некои методи за генерирање на синтетички податоци, како што се генеративните модели, можат да произведат податоци кои се многу слични на оригиналните податоци. Клучно прашање: како да се покаже ова?

Постојат неколку начини да се обезбеди квалитетот на синтетичките податоци:

  • Метрика за квалитетот на податоците преку нашиот извештај за квалитетот на податоците: Еден начин да се осигурате дека синтетичките податоци го имаат истиот квалитет на податоците како и оригиналните податоци е да користите метрика за квалитетот на податоците за да ги споредите синтетичките податоци со оригиналните податоци. Овие метрики може да се користат за мерење на работи како сличност, точност и комплетност на податоците. Софтверот Syntho вклучуваше извештај за квалитетот на податоците со различни метрики за квалитетот на податоците.
  • Надворешна евалуација: бидејќи квалитетот на податоците на синтетичките податоци во споредба со оригиналните податоци е клучен, неодамна направивме проценка со експертите за податоци на SAS (пазарен лидер во аналитика) за да го покажеме квалитетот на податоците на синтетичките податоци од Syntho во споредба со реалните податоци. Едвин ван Унен, експерт за аналитика од SAS, ги оцени генерираните синтетички збирки на податоци од Syntho преку различни проценки за аналитика (AI) и ги сподели резултатите. Погледнете краток преглед на видеото овде.
  • Тестирање и оценување сами: синтетичките податоци може да се тестираат и проценат со споредување со податоци од реалниот свет или со нивно користење за обука на модели за машинско учење и споредување на нивните перформанси со модели обучени на податоци од реалниот свет. Зошто сами да не го тестирате квалитетот на податоците на синтетичките податоци? Прашајте ги нашите експерти за можностите за ова овде

Важно е да се напомене дека синтетичките податоци никогаш не можат да гарантираат дека се 100% слични на оригиналните податоци, но може да бидат доволно блиски за да бидат корисни за одреден случај на употреба. Овој специфичен случај на употреба може да биде дури и напредна аналитика или модели за машинско учење за обука.

Да тоа е. Синтетичките податоци содржат дури и обрасци за кои не сте знаеле дека се присутни во оригиналните податоци.

Но, немојте само да го прифатите нашиот збор за тоа. Експертите за аналитика на SAS (глобален лидер на пазарот во аналитика) направија (AI) проценка на нашите синтетички податоци и ги споредија со оригиналните податоци. Љубопитни? Гледајте го цел настан овде или погледнете ја кратката верзија за квалитетот на податоците овде.

Да. Нашата платформа е оптимизирана за бази на податоци и, следствено, за зачувување на референцијалниот интегритет помеѓу збирките на податоци во базата на податоци.

Љубопитни да дознаете повеќе за ова?

Прашајте ги директно нашите експерти.

Заштита на податоци

Не, ние не. Можеме лесно да го распоредиме Syntho Engine во просториите или во вашиот приватен облак преку докер.

Не. Ја оптимизиравме нашата платформа на таков начин што може лесно да се распореди во доверливото опкружување на клиентот. Ова осигурува дека податоците никогаш нема да ја напуштат доверливата околина на клиентот. Опциите за распоредување за доверливото опкружување на клиентот се „on-premise“ и во „облак опкружување на клиентот (приватен облак)“.

Изборно: Syntho поддржува верзија која е хостирана во „Syntho облакот“.

Не. Syntho Engine е платформа за самопослужување. Како резултат, генерирањето синтетички податоци со Syntho Engine е можно на начин на кој во end-to-end процес, Syntho никогаш не може да гледа и никогаш не бара да обработува податоци.

Да, ова го правиме преку нашиот извештај за ОК.

 

При синтетизирање на база на податоци, од суштинско значење е да се покаже дека не е во можност повторно да се идентификуваат поединци. Во ова видео, Marijn воведува мерки за приватност кои се во нашиот извештај за квалитет за да го докаже ова.

Извештајот за ОК на Syntho содржи три индустриски стандард метрика за оценување на приватноста на податоците. Идејата зад секоја од овие метрики е како што следува:

  • Синтетички податоци (S) треба да биде „што е можно поблиску“, но „не премногу блиску“ до целните податоци (T).
  • Случајно избрани податоци за задржување (H) го одредува реперот за „премногу блиску“.
  • A совршено решение генерира нови синтетички податоци кои се однесуваат исто како оригиналните податоци, но не биле видени претходно (= H).

Еден од случаите на употреба што е посебно нагласен од холандската управа за заштита на податоци е користењето синтетички податоци како податоци за тестирање.

Повеќе може да се најдат во оваа статија.

Синто мотор

Syntho Engine се испорачува во контејнер Docker и може лесно да се распореди и приклучи во вашата средина по избор.

Можните опции за распоредување вклучуваат:

  • On-премиса
  • Секој (приватен) облак
  • Секоја друга средина

Прочитај повеќе.

Syntho ви овозможува лесно да се поврзете со вашите бази на податоци, апликации, цевководи за податоци или датотечни системи. 

Ние поддржуваме различни интегрирани конектори за да можете да се поврзете со изворната средина (каде што се чуваат оригиналните податоци) и околината на дестинацијата (каде што сакате да ги напишете вашите синтетички податоци) за end-to-end интегриран пристап.

Карактеристики за поврзување што ги поддржуваме:

  • Plug-and-play со Docker
  • 20+ конектори за бази на податоци
  • 20+ конектори за датотечен систем

Прочитај повеќе.

Секако, времето за генерирање зависи од големината на базата на податоци. Во просек, табела со помалку од 1 милион записи се синтетизира за помалку од 5 минути.

Алгоритмите за машинско учење на Syntho можат подобро да ги генерализираат карактеристиките со повеќе достапни записи за ентитети, што го намалува ризикот за приватност. Се препорачува минимален сооднос колона-ред од 1:500. На пример, ако вашата изворна табела има 6 колони, таа треба да содржи минимум 3000 редови.

Воопшто не. Иако може да биде потребен одреден напор за целосно разбирање на предностите, функционирањето и користењето случаи на синтетички податоци, процесот на синтетизирање е многу едноставен и секој со основно знаење за компјутер може да го направи тоа. За повеќе информации за процесот на синтетизирање, проверете оваа страница or побарајте демо.

Syntho Engine најдобро функционира на структурирани, табеларни податоци (се што содржи редови и колони). Во рамките на овие структури, ги поддржуваме следниве типови на податоци:

  • Структурира податоци форматирани во табели (категорични, нумерички, итн.)
  • Директни идентификатори и PII
  • Големи збирки на податоци и бази на податоци
  • Податоци за географска локација (како GPS)
  • Податоци за временски серии
  • Бази на податоци со повеќе табели (со референцијален интегритет)
  • Отворете ги текстуалните податоци

 

Комплексна поддршка на податоци
До сите редовни типови табеларни податоци, Syntho Engine поддржува сложени типови на податоци и сложени структури на податоци.

  • Временски серии
  • Бази на податоци со повеќе табели
  • Отворен текст

Прочитај повеќе.

Не, ја оптимизиравме нашата платформа за да ги минимизираме барањата за пресметување (на пр. не е потребен графички процесор), без да се загрози точноста на податоците. Дополнително, поддржуваме автоматско скалирање, за да може да се синтетизираат огромни бази на податоци.

Да. Софтверот Syntho е оптимизиран за бази на податоци кои содржат повеќе табели.

Што се однесува до ова, Syntho автоматски ги открива типовите на податоци, шемите и форматите за да ја максимизира точноста на податоците. За базата на податоци со повеќе табели, ние поддржуваме автоматско заклучување и синтеза на односи со табели за да се зачува референцијалниот интегритет.

група на луѓе кои се смешкаат

Податоците се синтетички, но нашиот тим е реален!

Контактирајте со Синто и еден од нашите експерти ќе стапи во контакт со вас со брзина на светлината за да ја истражи вредноста на синтетичките податоци!