FAQ

Często zadawane pytania dotyczące danych syntetycznych

Zrozumiale! Na szczęście mamy odpowiedzi i jesteśmy tutaj, aby pomóc. Sprawdź nasze najczęściej zadawane pytania.

Otwórz pytanie poniżej i kliknij łącza, aby uzyskać więcej informacji. Masz bardziej skomplikowane pytanie, które nie zostało tutaj podane? Zapytaj naszych ekspertów bezpośrednio!

Najczęściej zadawane pytania

Dane syntetyczne odnoszą się do danych, które są sztucznie generowane, a nie zbierane z rzeczywistych źródeł. Ogólnie rzecz biorąc, podczas gdy oryginalne dane są gromadzone podczas wszystkich interakcji z osobami (klientami, pacjentami itp.) oraz podczas wszystkich procesów wewnętrznych, dane syntetyczne są generowane przez algorytm komputerowy.

Danych syntetycznych można również używać do testowania i oceny modeli w kontrolowanym środowisku lub do ochrony poufnych informacji poprzez generowanie danych, które są podobne do danych rzeczywistych, ale nie zawierają żadnych poufnych informacji. Dane syntetyczne są często wykorzystywane jako alternatywa dla danych poufnych dotyczących prywatności i mogą być wykorzystywane jako dane testowe, do celów analitycznych lub do trenowania uczenia maszynowego.

Czytaj więcej

Zagwarantowanie, że dane syntetyczne mają taką samą jakość jak dane oryginalne, może być trudne i często zależy od konkretnego przypadku użycia i metod użytych do generowania danych syntetycznych. Niektóre metody generowania danych syntetycznych, takie jak modele generatywne, mogą generować dane, które są bardzo podobne do danych oryginalnych. Kluczowe pytanie: jak to wykazać?

Istnieje kilka sposobów zapewnienia jakości danych syntetycznych:

  • Wskaźniki jakości danych za pośrednictwem naszego raportu dotyczącego jakości danych: Jednym ze sposobów zapewnienia, że ​​dane syntetyczne mają taką samą jakość jak dane oryginalne, jest użycie metryk jakości danych do porównania danych syntetycznych z danymi oryginalnymi. Metryki te mogą służyć do mierzenia podobieństwa, dokładności i kompletności danych. Oprogramowanie Syntho zawierało raport jakości danych z różnymi wskaźnikami jakości danych.
  • Ewaluacja zewnętrzna: ponieważ jakość danych syntetycznych w porównaniu z danymi oryginalnymi jest kluczowa, niedawno przeprowadziliśmy ocenę z ekspertami danych z SAS (lidera rynku w dziedzinie analityki), aby zademonstrować jakość danych syntetycznych Syntho w porównaniu z danymi rzeczywistymi. Edwin van Unen, ekspert ds. analityki z SAS, ocenił wygenerowane syntetyczne zestawy danych z Syntho za pomocą różnych ocen analitycznych (AI) i podzielił się wynikami. Obejrzyj krótkie podsumowanie tego filmu tutaj.
  • Samodzielne testowanie i ocena: dane syntetyczne można testować i oceniać, porównując je z danymi ze świata rzeczywistego lub wykorzystując je do trenowania modeli uczenia maszynowego i porównywania ich wydajności z modelami wyszkolonymi na danych ze świata rzeczywistego. Dlaczego nie przetestować samodzielnie jakości danych syntetycznych? Zapytaj naszych ekspertów o możliwości tego tutaj

Należy zauważyć, że dane syntetyczne nigdy nie gwarantują 100% podobieństwa do danych oryginalnych, ale mogą być na tyle zbliżone, że będą przydatne w konkretnym przypadku użycia. Ten konkretny przypadek użycia może dotyczyć nawet zaawansowanej analizy lub uczenia modeli uczenia maszynowego.

Klasyczna „anonimizacja” nie zawsze jest najlepszym rozwiązaniem, ponieważ:

  1. Ryzyko prywatności – zawsze będziesz mieć
    zagrożenie prywatności. Stosowanie tych
    klasyczne techniki anonimizacji
    tylko utrudnia, ale nie
    niemożliwe do zidentyfikowania osoby.
  2. Niszczenie danych - Tym bardziej
    anonimizuj, tym lepiej chronisz
    Twoja prywatność, ale tym bardziej ty
    zniszczyć swoje dane. To nie jest co
    chcesz do analityki, ponieważ
    zniszczone dane spowodują złe
    spostrzeżenia.
  3. Czasochłonne – to rozwiązanie
    zajmuje to dużo czasu, ponieważ
    te techniki działają inaczej
    na zestaw danych i na typ danych.

Dane syntetyczne mają na celu rozwiązanie wszystkich tych niedociągnięć. Różnica jest tak uderzająca, że ​​nakręciliśmy o tym film. Obejrzyj to tutaj.

Często Zadawane Pytania

Dane syntetyczne

Generalnie większość naszych klientów wykorzystuje dane syntetyczne do:

  • Testowanie i rozwój oprogramowania
  • Syntetyczne dane do analityki, tworzenia modeli i zaawansowanych analiz (AI i ML)
  • Prezentacje produktów

Przeczytaj więcej i poznaj przypadki użycia.

Syntetyczny bliźniak danych to wygenerowana przez algorytm replika rzeczywistego zbioru danych i/lub bazy danych. Dzięki syntetycznemu bliźniakowi danych Syntho ma na celu naśladowanie oryginalnego zestawu danych lub bazy danych jak najbliżej oryginalnych danych, aby stworzyć realistyczną reprezentację oryginału. Dzięki syntetycznemu bliźniakowi danych dążymy do najwyższej jakości danych syntetycznych w porównaniu z oryginalnymi danymi. Robimy to za pomocą naszego oprogramowania do danych syntetycznych, które wykorzystuje najnowocześniejsze modele sztucznej inteligencji. Te modele AI generują zupełnie nowe punkty danych i modelują je w taki sposób, że zachowujemy cechy, relacje i wzorce statystyczne oryginalnych danych w takim stopniu, że można ich używać tak, jakby to były oryginalne dane.

Można to wykorzystać do różnych celów, takich jak testowanie i trenowanie modeli uczenia maszynowego, symulowanie scenariuszy na potrzeby badań i rozwoju oraz tworzenie wirtualnych środowisk na potrzeby szkoleń i edukacji. Syntetyczne bliźniaki danych mogą służyć do tworzenia realistycznych i reprezentatywnych danych, które można wykorzystać zamiast danych rzeczywistych, gdy nie są one dostępne lub gdy korzystanie z danych rzeczywistych byłoby niepraktyczne lub nieetyczne ze względu na surowe przepisy dotyczące prywatności danych.

Czytaj więcej.

Tak. Oferujemy różne funkcje optymalizacji i rozszerzania danych syntetycznych o wartości dodanej, w tym mockery, aby przenieść Twoje dane na wyższy poziom.

Czytaj więcej.

Dane pozorowane i dane syntetyczne generowane przez sztuczną inteligencję to oba rodzaje danych syntetycznych, ale są generowane na różne sposoby i służą różnym celom.

Dane próbne to rodzaj danych syntetycznych tworzonych ręcznie i często używanych do celów testowych i programistycznych. Jest zwykle używany do symulacji zachowania rzeczywistych danych w kontrolowanym środowisku i jest często używany do testowania funkcjonalności systemu lub aplikacji. Często jest prosty, łatwy do wygenerowania i nie wymaga skomplikowanych modeli ani algorytmów. Często odwołuje się również do fałszywych danych jako „danych fikcyjnych” lub „danych fałszywych”.

Z drugiej strony dane syntetyczne generowane przez sztuczną inteligencję są generowane przy użyciu technik sztucznej inteligencji, takich jak uczenie maszynowe lub modele generatywne. Służy do tworzenia realistycznych i reprezentatywnych danych, które można wykorzystać zamiast danych rzeczywistych, gdy korzystanie z danych rzeczywistych byłoby niepraktyczne lub nieetyczne ze względu na surowe przepisy dotyczące prywatności. Często jest to bardziej złożone i wymaga więcej zasobów obliczeniowych niż ręczne dane próbne. W rezultacie jest znacznie bardziej realistyczny i naśladuje oryginalne dane tak blisko, jak to możliwe.

Podsumowując, dane pozorowane są tworzone ręcznie i są zwykle wykorzystywane do testowania i opracowywania, podczas gdy dane syntetyczne generowane przez sztuczną inteligencję są tworzone przy użyciu technik sztucznej inteligencji i służą do tworzenia reprezentatywnych i realistycznych danych.

Więcej pytań? Zapytaj naszych ekspertów

Jakość danych

Zagwarantowanie, że dane syntetyczne mają taką samą jakość jak dane oryginalne, może być trudne i często zależy od konkretnego przypadku użycia i metod użytych do generowania danych syntetycznych. Niektóre metody generowania danych syntetycznych, takie jak modele generatywne, mogą generować dane, które są bardzo podobne do danych oryginalnych. Kluczowe pytanie: jak to wykazać?

Istnieje kilka sposobów zapewnienia jakości danych syntetycznych:

  • Wskaźniki jakości danych za pośrednictwem naszego raportu dotyczącego jakości danych: Jednym ze sposobów zapewnienia, że ​​dane syntetyczne mają taką samą jakość jak dane oryginalne, jest użycie metryk jakości danych do porównania danych syntetycznych z danymi oryginalnymi. Metryki te mogą służyć do mierzenia podobieństwa, dokładności i kompletności danych. Oprogramowanie Syntho zawierało raport jakości danych z różnymi wskaźnikami jakości danych.
  • Ewaluacja zewnętrzna: ponieważ jakość danych syntetycznych w porównaniu z danymi oryginalnymi jest kluczowa, niedawno przeprowadziliśmy ocenę z ekspertami danych z SAS (lidera rynku w dziedzinie analityki), aby zademonstrować jakość danych syntetycznych Syntho w porównaniu z danymi rzeczywistymi. Edwin van Unen, ekspert ds. analityki z SAS, ocenił wygenerowane syntetyczne zestawy danych z Syntho za pomocą różnych ocen analitycznych (AI) i podzielił się wynikami. Obejrzyj krótkie podsumowanie tego filmu tutaj.
  • Samodzielne testowanie i ocena: dane syntetyczne można testować i oceniać, porównując je z danymi ze świata rzeczywistego lub wykorzystując je do trenowania modeli uczenia maszynowego i porównywania ich wydajności z modelami wyszkolonymi na danych ze świata rzeczywistego. Dlaczego nie przetestować samodzielnie jakości danych syntetycznych? Zapytaj naszych ekspertów o możliwości tego tutaj

Należy zauważyć, że dane syntetyczne nigdy nie gwarantują 100% podobieństwa do danych oryginalnych, ale mogą być na tyle zbliżone, że będą przydatne w konkretnym przypadku użycia. Ten konkretny przypadek użycia może dotyczyć nawet zaawansowanej analizy lub uczenia modeli uczenia maszynowego.

Tak to jest. Dane syntetyczne zawierają nawet wzorce, o których nie wiedziałeś, że są obecne w oryginalnych danych.

Ale nie wierz nam tylko na słowo. Eksperci ds. analityki SAS (światowego lidera rynku analityki) dokonali oceny (AI) naszych danych syntetycznych i porównali je z danymi oryginalnymi. Ciekawy? Obejrzyj całe wydarzenie tutaj lub obejrzyj krótką wersję o jakość danych tutaj.

Tak. Nasza platforma jest zoptymalizowana pod kątem baz danych, a co za tym idzie, zachowania integralności referencyjnej między zbiorami danych w bazie danych.

Chcesz dowiedzieć się więcej na ten temat?

Zapytaj naszych ekspertów bezpośrednio.

Prywatności

Nie, nie. Możemy łatwo wdrożyć Syntho Engine lokalnie lub w Twojej prywatnej chmurze za pośrednictwem dokera.

Nie. Zoptymalizowaliśmy naszą platformę w taki sposób, aby można ją było łatwo wdrożyć w zaufanym środowisku klienta. Dzięki temu dane nigdy nie opuszczą zaufanego środowiska klienta. Opcje wdrożenia dla zaufanego środowiska klienta to „on-premise” oraz w „środowisku chmurowym klienta (prywatna chmura)”.

Opcjonalnie: Syntho obsługuje wersję hostowaną w „chmurze Syntho”.

Nie. Syntho Engine to platforma samoobsługowa. Dzięki temu generowanie danych syntetycznych za pomocą Syntho Engine jest możliwe w taki sposób, że w end-to-end proces, Syntho nigdy nie jest w stanie zobaczyć i nigdy nie musi przetwarzać danych.

Tak, robimy to za pośrednictwem naszego raportu kontroli jakości.

 

Podczas syntezy zbioru danych konieczne jest wykazanie, że nie jest się w stanie ponownie zidentyfikować osób. W ten film, Marijn wprowadza środki ochrony prywatności, które znajdują się w naszym raporcie jakości, aby to wykazać.

Raport kontroli jakości firmy Syntho zawiera trzy Standard przemysłowy metryki oceny prywatności danych. Idea każdego z tych wskaźników jest następująca:

  • dane syntetyczne (S) będzie „jak najbliżej”, ale „nie za blisko” danych docelowych (T).
  • Losowo wybrane dane wstrzymania (H) określa punkt odniesienia dla „zbyt blisko”.
  • A idealne rozwiązanie generuje nowe dane syntetyczne, które zachowują się dokładnie tak, jak oryginalne dane, ale nie były wcześniej widoczne (= H).

Jednym z przypadków użycia, który został szczególnie podkreślony przez holenderski organ ochrony danych, jest wykorzystanie danych syntetycznych jako danych testowych.

Więcej można znaleźć w tym artykule.

Silnik syntezatorowy

Syntho Engine jest dostarczany w kontenerze Docker i można go łatwo wdrożyć i podłączyć do wybranego środowiska.

Możliwe opcje wdrażania obejmują:

  • On-przesłanką
  • Dowolna (prywatna) chmura
  • Każde inne środowisko

Czytaj więcej.

Syntho umożliwia łatwe łączenie się z bazami danych, aplikacjami, potokami danych lub systemami plików. 

Obsługujemy różne zintegrowane łączniki, dzięki czemu możesz łączyć się ze środowiskiem źródłowym (w którym przechowywane są oryginalne dane) i środowiskiem docelowym (w którym chcesz zapisać swoje dane syntetyczne) przez end-to-end zintegrowane podejście.

Obsługiwane przez nas funkcje połączeń:

  • Plug-and-play z Docker
  • Ponad 20 złączy bazodanowych
  • Ponad 20 złączy systemu plików

Czytaj więcej.

Oczywiście czas generowania zależy od wielkości bazy danych. Średnio tabela zawierająca mniej niż 1 milion rekordów jest syntetyzowana w mniej niż 5 minut.

Algorytmy uczenia maszynowego Syntho mogą lepiej uogólniać funkcje przy większej liczbie dostępnych rekordów jednostek, co zmniejsza ryzyko prywatności. Zalecany jest minimalny stosunek kolumn do wierszy wynoszący 1:500. Na przykład, jeśli tabela źródłowa ma 6 kolumn, powinna zawierać co najmniej 3000 wierszy.

Zupełnie nie. Chociaż pełne zrozumienie zalet, działania i przypadków użycia danych syntetycznych może wymagać pewnego wysiłku, proces syntezy jest bardzo prosty i może to zrobić każdy, kto ma podstawową wiedzę komputerową. Aby uzyskać więcej informacji o procesie syntezy, sprawdź tutaj or poprosić o demo.

Silnik Syntho działa najlepiej na ustrukturyzowanych danych tabelarycznych (wszystko, co zawiera wiersze i kolumny). W ramach tych struktur obsługujemy następujące typy danych:

  • Dane struktur sformatowane w tabelach (kategoryczne, numeryczne itp.)
  • Identyfikatory bezpośrednie i PII
  • Duże zbiory danych i bazy danych
  • Dane o lokalizacji geograficznej (np. GPS)
  • Dane szeregów czasowych
  • Bazy danych wielotabelowych (z integralnością referencyjną)
  • Otwórz dane tekstowe

 

Kompleksowa obsługa danych
Oprócz wszystkich zwykłych typów danych tabelarycznych, Syntho Engine obsługuje złożone typy danych i złożone struktury danych.

  • Szereg czasowy
  • Bazy danych wielotabelowych
  • Otwórz tekst

Czytaj więcej.

Nie, zoptymalizowaliśmy naszą platformę, aby zminimalizować wymagania obliczeniowe (np. brak konieczności stosowania procesora graficznego), bez uszczerbku dla dokładności danych. Ponadto obsługujemy automatyczne skalowanie, dzięki czemu można zsyntetyzować ogromne bazy danych.

Tak. Oprogramowanie Syntho jest zoptymalizowane pod kątem baz danych zawierających wiele tabel.

Jeśli chodzi o to, Syntho automatycznie wykrywa typy danych, schematy i formaty, aby zmaksymalizować dokładność danych. W przypadku wielotabelowej bazy danych obsługujemy automatyczne wnioskowanie i syntezę relacji między tabelami w celu zachowania integralności referencyjnej.

grupa uśmiechniętych ludzi

Dane są syntetyczne, ale nasz zespół jest prawdziwy!

Skontaktuj się z Syntho a jeden z naszych ekspertów skontaktuje się z Tobą z prędkością światła, aby zbadać wartość danych syntetycznych!