Klasik anonimleştirme (ve takma adlaştırma) neden anonim verilerle sonuçlanmaz?

Klasik anonimleştirme nedir?

Klasik anonimleştirme ile, kişilerin geriye doğru izlenmesini engellemek için orijinal bir veri setini manipüle eden veya bozan tüm metodolojileri kastediyoruz.

Klasik anonimleştirmenin pratikte gördüğümüz tipik örnekleri genelleme, bastırma/silme, takma isimlendirme ve satır ve sütun karıştırmadır.

Bu vesile ile ilgili örneklerle bu teknikler.

Teknik Orijinal veriler Manipüle edilmiş veriler
Genelleme 27 yaşında 25-30 yaş arası
Bastırma / Silme info@syntho.ai xxxx@xxxxxx.xx
Takma isimlendirme Amsterdam hVFD6td3jdHHj78ghdgrewui6
Satır ve sütun karıştırma Hizalı karıştırıldı

Klasik anonimleştirmenin dezavantajları nelerdir?

Klasik anonimleştirme teknikleriyle bir veri kümesini manipüle etmek, 2 temel dezavantaja neden olur:

  1. Bir veri kümesini deforme etmek, veri kalitesinin düşmesine neden olur (yani veri yardımcı programı). Bu, klasik çöp içeri çöp dışarı ilkesini tanıtır.
  2. Gizlilik riski azaltılacak, ancak her zaman mevcut olacak. Orijinal veri setinin 1-1 ilişkileri ile kalır ve manipüle edilmiş versiyonudur.

Bu 2 önemli dezavantajı, veri yardımcı programını ve gizlilik korumasını gösteriyoruz. Bunu, uygulanan bastırma ve genelleme ile aşağıdaki çizimle yapıyoruz.

Not: Görselleri açıklama amaçlı kullanıyoruz. Aynı ilke, yapılandırılmış veri kümeleri için de geçerlidir.

Klasik anonimleştirme başarısız
  • Sol: Klasik anonimleştirmenin küçük bir uygulaması, temsili bir örnekle sonuçlanır. Bununla birlikte, birey kolayca tanımlanabilir ve mahremiyet riski önemlidir.

 

  • Sağ: Klasik anonimleştirmenin ciddi şekilde uygulanması, güçlü gizlilik koruması sağlar. Ancak, illüstrasyon işe yaramaz hale gelir.

Klasik anonimleştirme teknikleri, veri kullanımı ve gizlilik koruması arasında optimal olmayan bir kombinasyon sunar.

Bu, klasik anonimleştirme tekniklerinin her zaman her ikisinin de optimal olmayan bir kombinasyonunu sunduğu veri kullanımı ve gizlilik koruması arasındaki dengeyi ortaya koymaktadır. 

klasik anonimleştirme fayda eğrisi

Tüm doğrudan tanımlayıcıları (adlar gibi) veri kümesinden kaldırmak bir çözüm mü?

Hayır. Bu büyük bir yanlış anlamadır ve anonim verilerle sonuçlanmaz. Bunu hala veri kümenizi anonimleştirmenin bir yolu olarak mı uyguluyorsunuz? O zaman bu blog sizin için mutlaka okunmalı.

Sentetik Veriler nasıl farklıdır?

Syntho, yeni veri kayıtlarından oluşan tamamen yeni bir veri seti oluşturmak için yazılım geliştirir. Gerçek kişileri tanımlamaya yönelik bilgiler, sentetik bir veri kümesinde mevcut değildir. Sentetik veriler, yazılım tarafından oluşturulan yapay veri kayıtlarını içerdiğinden, kişisel veriler mevcut değildir ve bu da gizlilik riski olmayan bir duruma neden olur.

Syntho'daki temel fark: makine öğrenimi uyguluyoruz. Sonuç olarak, çözümümüz, orijinal veri kümesinin yapısını ve özelliklerini sentetik veri kümesinde yeniden üreterek maksimum veri kullanımı sağlar. Buna göre, sentetik verileri analiz ederken orijinal verileri kullanmaya kıyasla aynı sonuçları elde edebileceksiniz.

Bu vaka çalışması orijinal verilere kıyasla Syntho Motorumuz aracılığıyla oluşturulan sentetik verilerden çeşitli istatistikler içeren kalite raporumuzdan önemli noktaları gösterir.

Sonuç olarak, sentetik veriler, tüm klasik anonimleştirme tekniklerinin size sunduğu, veri-faydalılığı ve mahremiyet-koruma arasındaki tipik alt-optimal dengenin üstesinden gelmek için tercih edilen çözümdür.

klasik anonimleştirme fayda eğrisi

Peki, sentetik verileri kullanmak varken neden gerçek (hassas) verileri kullanasınız?

Sonuç olarak, veri kullanımı ve gizlilik koruması açısından, kullanım durumunuz izin verdiğinde her zaman sentetik verileri tercih etmelisiniz.

 Analiz için değerGizlilik riski
Sentetik verilerYüksekHayır
Gerçek (kişisel) verilerYüksekYüksek
Manipüle edilmiş veriler (klasik 'anonimleştirme' yoluyla)Düşük OrtaOrta Yüksek
Fikir

Syntho'nun sentetik verileri, her ikisini de en üst düzeye çıkararak klasik anonimleştirme tekniklerinin yetersiz kaldığı boşlukları doldurur. veri yardımcı programı ve Gizlilik koruması.

Fırsatları

Sentetik Verilerin katma değerini bizimle keşfedin