Anonimleştirilmiş veriler ve Sentetik veriler

Veri analitiğinin veri testini gerçekleştirmeden önce verilerinizi anonimleştirirseniz, söz konusu olan birkaç faktör vardır:

  1. Hemen hemen tüm durumlarda, anonimleştirilmiş veriler, belirli ve benzersiz satırlar (örneğin tıbbi kayıtlar) nedeniyle bireylere kadar izlenebilir.
  2. Ne kadar anonimleştirirseniz veya genelleştirirseniz o kadar çok veriyi yok edersiniz. Bu, verilerinizin kalitesini ve dolayısıyla içgörülerinizi düşürür
  3. Anonimleştirme, farklı veri biçimleri için farklı şekilde çalışır. Bu, ölçeklenebilir olmadığı ve çok zaman alıcı olabileceği anlamına gelir

Sentetik veriler tüm bu eksiklikleri ve daha fazlasını çözer. SAS'tan bir analiz uzmanının (analitikte küresel pazar lideri) orijinal veriler, anonimleştirilmiş veriler ve Syntho tarafından oluşturulan sentetik veriler arasındaki kalite farkı hakkındaki değerlendirmesini açıkladığını görmek için aşağıdaki videoyu izleyin.

Bu video, AI Tarafından Oluşturulan Sentetik Veriler hakkında Syntho x SAS D[N]A Café'den alınmıştır. Videonun tamamını burada bulabilirsiniz.

Edwin van Unen, Syntho'ya orijinal bir veri seti gönderdi ve biz de veri setini sentezledik. Ancak soru şuydu: "Sentetik verileri anonimleştirilmiş verilerle karşılaştırırsak ne olur?" Anonimleştirilmiş bir veride çok fazla bilgi kaybettiğiniz için, bu aynı zamanda bir veri kümesi sentezlerken de olacak mı? Telekomünikasyon endüstrisinden 56.000 satır ve 128 sütun şirket kayıp bilgisi içeren bir veri seti ile başladık. Bu veri seti hem sentezlendi hem de anonimleştirildi, böylece Edwin sentezleme ile anonimleştirmeyi karşılaştırabildi. Ardından Edwin, SAS Viya kullanarak modellemeye başladı. Klasik regresyon teknikleri ve karar ağaçlarının yanı sıra sinir ağları, gradyan artırma, rastgele orman gibi daha karmaşık teknikler - bu tür teknikler kullanarak orijinal veri kümesi üzerinde birkaç kayıp modeli oluşturdu. Modelleri oluştururken standart SAS Viya seçeneklerini kullanma.

Ardından, sonuçlara bakma zamanı geldi. Sonuçlar, anonimleştirme için değil, sentetik veriler için çok umut vericiydi. İzleyicilerdeki makine öğrenimi olmayan uzmanlar için, modelin doğruluğu hakkında bir şeyler söyleyen ROC eğrisinin altındaki alana bakıyoruz. Orijinal verileri anonimleştirilmiş verilerle karşılaştırdığımızda, orijinal veri modelinin ROC eğrisinin altında .8'lik bir alana sahip olduğunu görüyoruz ki bu oldukça iyi. Ancak, anonimleştirilmiş verilerin ROC eğrisinin altında .6'lık bir alan var. Bu, anonimleştirilmiş modelle çok fazla bilgi kaybettiğimiz anlamına gelir, bu nedenle çok fazla tahmin gücü kaybedersiniz.

Ama sonra, soru şu ki, sentetik veriler ne olacak? Burada tam olarak aynısını yaptık ama verileri anonimleştirmek yerine Syntho verileri sentezledi. Şimdi, hem orijinal verilerin hem de sentetik verilerin ROC eğrisinin altında .8'lik bir alana sahip olduğunu görüyoruz, bu çok benzer. Değişkenlik nedeniyle tam olarak aynı değil, ama çok benzer. Bu, sentetik verilerin potansiyelinin çok umut verici olduğu anlamına gelir – Edwin bundan çok mutludur.

gülümseyen bir grup insan

Veriler sentetiktir ancak ekibimiz gerçektir!

Syntho ile iletişim kurun ve uzmanlarımızdan biri, sentetik verilerin değerini keşfetmek için ışık hızında sizinle iletişime geçecek!