Dane anonimowe a dane syntetyczne

Jeśli anonimizujesz swoje dane przed wykonaniem testów danych w ramach analizy danych, w grę wchodzi kilka czynników:

  1. W prawie wszystkich przypadkach zanonimizowane dane można nadal prześledzić z powrotem do osób ze względu na konkretne i niepowtarzalne wiersze (np. dokumentację medyczną)
  2. Im bardziej anonimizujesz lub uogólniasz, tym więcej danych niszczysz. Obniża to jakość Twoich danych, a tym samym Twoich spostrzeżeń
  3. Anonimizacja działa inaczej dla różnych formatów danych. Oznacza to, że nie jest skalowalny i może być bardzo czasochłonny

Dane syntetyczne rozwiązują wszystkie te niedociągnięcia i nie tylko. Obejrzyj poniższy film, aby zobaczyć, jak ekspert ds. analityki z SAS (światowego lidera rynku analityki) wyjaśnia swoją ocenę różnicy w jakości między danymi oryginalnymi, danymi anonimowymi i danymi syntetycznymi generowanymi przez Syntho.

Ten film został nagrany z Syntho x SAS D[N]A Café na temat danych syntetycznych generowanych przez sztuczną inteligencję. Znajdź cały film tutaj.

Edwin van Unen wysłał oryginalny zestaw danych do Syntho, a my go zsyntetyzowaliśmy. Ale pytanie brzmiało również: „Co się stanie, jeśli porównamy dane syntetyczne z danymi anonimowymi?” Ponieważ tracisz wiele informacji w zanonimizowanych danych, czy tak się stanie również podczas syntezy zbioru danych? Zaczęliśmy od zestawu danych z branży telekomunikacyjnej z 56.000 128 wierszami i XNUMX kolumnami informacji o churnu firmy. Ten zestaw danych został zarówno zsyntetyzowany, jak i zanonimizowany, aby Edwin mógł porównać syntezę z anonimizacją. Następnie Edwin zaczął modelować przy użyciu SAS Viya. Zbudował kilka modeli churn na oryginalnym zbiorze danych, używając klasycznych technik regresji i drzew decyzyjnych, ale także bardziej wyrafinowanych technik, takich jak sieci neuronowe, zwiększanie gradientu, losowy las – tego rodzaju techniki. Korzystanie ze standardowych opcji SAS Viya podczas budowania modeli.

Następnie przyszedł czas na przyjrzenie się wynikom. Wyniki były bardzo obiecujące dla danych syntetycznych, a nie dla anonimizacji. Dla ekspertów, którzy nie uczą się maszynowo, przyglądamy się obszarowi pod krzywą ROC, który mówi coś o dokładności modelu. Porównując oryginalne dane z danymi zanonimizowanymi, widzimy, że oryginalny model danych ma obszar pod krzywą ROC równą 8, co jest całkiem dobre. Jednak dane zanonimizowane mają obszar pod krzywą ROC równą 6. Oznacza to, że w modelu anonimowym tracimy wiele informacji, co powoduje utratę dużej mocy predykcyjnej.

Ale wtedy pojawia się pytanie, co z danymi syntetycznymi? Tutaj zrobiliśmy dokładnie to samo, ale zamiast anonimizować dane, Syntho dokonał ich syntezy. Teraz widzimy, że zarówno oryginalne dane, jak i dane syntetyczne mają obszar pod krzywą ROC równą 8, co jest bardzo podobne. Niezupełnie takie same ze względu na zmienność, ale bardzo podobne. Oznacza to, że potencjał danych syntetycznych jest bardzo obiecujący – Edwin bardzo się z tego cieszy.

grupa uśmiechniętych ludzi

Dane są syntetyczne, ale nasz zespół jest prawdziwy!

Skontaktuj się z Syntho a jeden z naszych ekspertów skontaktuje się z Tobą z prędkością światła, aby zbadać wartość danych syntetycznych!