Bil bakalım kim? İsimleri kaldırmanın neden bir seçenek olmadığına 5 örnek

tahmin et kim oyunu

Tahmin Et Kime Giriş

Bil bakalım kim? Çoğunuzun bu oyunu o günlerden bildiğinden emin olsam da, işte kısa bir özet. Oyunun amacı: 'kişi şapka takıyor mu?' gibi 'evet' ve 'hayır' soruları sorarak rakibiniz tarafından seçilen çizgi film karakterinin adını keşfedin. ya da 'kişi gözlük takıyor mu'? Oyuncular, rakibin tepkisine göre adayları ortadan kaldırır ve rakiplerinin gizemli karakteriyle ilgili özellikleri öğrenir. Diğer oyuncunun gizemli karakterini ilk bulan oyuncu oyunu kazanır.

Anladın. Kişi, yalnızca ilgili özniteliklere erişim sağlayarak bir veri kümesinden bireyi tanımlamalıdır. Aslında, bu Tahmin Kimin pratikte uygulandığını düzenli olarak görüyoruz, ancak daha sonra gerçek kişilerin niteliklerini içeren satırlar ve sütunlarla biçimlendirilmiş veri kümelerinde kullanılıyor. Verilerle çalışırken temel fark, insanların yalnızca birkaç özniteliğe erişerek gerçek bireylerin maskesini düşürmenin kolaylığını hafife alma eğiliminde olmalarıdır.

Kim Tahmin Et oyununun gösterdiği gibi, birisi sadece birkaç özelliğe erişim sağlayarak bireyleri tanımlayabilir. Veri kümenizden yalnızca 'adları' (veya diğer doğrudan tanımlayıcıları) kaldırmanın bir anonimleştirme tekniği olarak neden başarısız olduğunun basit bir örneği olarak hizmet eder. Bu blogda, bir veri anonimleştirme aracı olarak sütunların kaldırılmasıyla ilişkili gizlilik riskleri hakkında sizi bilgilendirmek için dört pratik vaka sunuyoruz.

2) Bağlantı saldırıları: diğer (genel) veri kaynaklarına bağlı veri kümeniz

Bir anonimleştirme yöntemi olarak yalnızca isimlerin kaldırılmasının (artık) işe yaramamasının en önemli nedeni bağlantı saldırıları riskidir. Bir bağlantı saldırısı ile saldırgan, bir kişiyi benzersiz bir şekilde tanımlamak ve bu kişi hakkında (genellikle hassas) bilgiler öğrenmek için orijinal verileri diğer erişilebilir veri kaynaklarıyla birleştirir.

Buradaki anahtar, şu anda mevcut olan veya gelecekte mevcut olabilecek diğer veri kaynaklarının kullanılabilirliğidir. Kendini düşün. Facebook, Instagram veya LinkedIn'de bir bağlantı saldırısı için potansiyel olarak kötüye kullanılabilecek kişisel verilerinizin ne kadarı bulunabilir?

Daha önceki günlerde, verilerin mevcudiyeti çok daha sınırlıydı; bu, kişilerin mahremiyetini korumak için isimlerin kaldırılmasının neden yeterli olduğunu kısmen açıklıyor. Daha az kullanılabilir veri, verileri bağlamak için daha az fırsat anlamına gelir. Ancak, veri miktarının katlanarak arttığı veri odaklı bir ekonomide artık (aktif) katılımcılarız. Daha fazla veri ve veri toplama teknolojisinin geliştirilmesi, bağlantı saldırıları için artan potansiyele yol açacaktır. 10 yıl içinde bir bağlantı saldırısı riski hakkında ne yazarsınız?

İllüstrasyon 1

Üstel olarak büyüyen veriler bir gerçektir

Veri miktarı

Örnek olay

Sweeney (2002), bir akademik makalede, halka açık bir 'hastane ziyaretleri' veri setini Amerika Birleşik Devletleri'ndeki kamuya açık oylama kayıt memuruna bağlayarak bireylerden hassas tıbbi verileri nasıl tanımlayabildiğini ve elde edebildiğini göstermiştir. Adların ve diğer doğrudan tanımlayıcıların silinmesi yoluyla uygun şekilde anonimleştirildiği varsayılan her iki veri kümesi.

İllüstrasyon 2

Uygulamada bağlantı saldırısı

Bağlantı Saldırısı

Yalnızca üç parametreye (1) Posta Kodu, (2) Cinsiyet ve (3) Doğum Tarihine dayanarak, tüm ABD nüfusunun %87'sinin, yukarıda belirtilen özellikleri her iki veri kümesinden eşleştirerek yeniden tanımlanabileceğini gösterdi. Sweeney daha sonra, 'Posta Kodu'na alternatif olarak 'ülke'ye sahip olma konusundaki çalışmalarını tekrarladı. Ek olarak, tüm ABD nüfusunun %18'inin yalnızca (1) ana ülke, (2) cinsiyet ve (3) doğum tarihi hakkında bilgi içeren bir veri kümesine erişim sağlanarak tanımlanabileceğini gösterdi. Facebook, LinkedIn veya Instagram gibi yukarıda belirtilen kamu kaynaklarını düşünün. Ülkeniz, cinsiyetiniz ve doğum tarihiniz görünüyor mu, yoksa diğer kullanıcılar bunu düşebiliyor mu?

İllüstrasyon 3

Sweeney'nin sonuçları

yarı tanımlayıcılar

ABD nüfusunun benzersiz olarak tanımlanmış yüzdesi (248 milyon)

5 haneli ZIP, cinsiyet, doğum tarihi

%87

yer, cinsiyet, doğum tarihi

%53

ülke, cinsiyet, doğum tarihi

%18

Bu örnek, görünüşte anonim verilerdeki bireyleri anonimleştirmenin son derece kolay olabileceğini göstermektedir. İlk olarak, bu çalışma çok büyük bir riske işaret ediyor, çünkü ABD nüfusunun% 87'si kullanılarak kolayca tanımlanabilir birkaç özellik. İkincisi, bu çalışmada maruz kalan tıbbi veriler oldukça hassastı. Hastane ziyaretleri veri setinden maruz kalan bireylerin verilerine örnekler arasında etnik köken, teşhis ve ilaçlar yer alır. Kişinin, örneğin sigorta şirketlerinden gizli tutmayı tercih edebileceği nitelikler.

3) Bilgilendirilmiş bireyler

Yalnızca adlar gibi doğrudan tanımlayıcıları kaldırmanın bir başka riski, bilgili bireylerin veri kümesindeki belirli bireylerin özellikleri veya davranışları hakkında üstün bilgiye veya bilgiye sahip olduklarında ortaya çıkar.. Saldırgan, bilgilerine dayanarak belirli veri kayıtlarını gerçek kişilere bağlayabilir.

Örnek olay

Üstün bilgi kullanan bir veri kümesine yapılan saldırıya bir örnek, Atockar'ın (2014) belirli kişilerin maskesini kaldırabildiği New York taksi davasıdır. Kullanılan veri seti, başlangıç ​​koordinatları, bitiş koordinatları, fiyat ve yolculuğun bahşişi gibi temel niteliklerle zenginleştirilmiş, New York'taki tüm taksi yolculuklarını içeriyordu.

New York'u bilen bilinçli bir kişi, yetişkin kulübü 'Hustler'a taksi gezileri ayarlayabildi. 'Bitiş konumunu' filtreleyerek, tam başlangıç ​​adreslerini çıkardı ve böylece çeşitli sık ziyaretçileri belirledi. Benzer şekilde, kişinin ev adresi bilindiğinde taksi yolculukları da çıkarılabilir. Birkaç ünlü film yıldızının zamanı ve yeri dedikodu sitelerinde keşfedildi. Bu bilgiyi NYC taksi verileriyle ilişkilendirdikten sonra, taksi yolculuklarını, ödedikleri tutarı ve bahşiş verip vermediklerini öğrenmek kolaydı.

İllüstrasyon 4

Bilgili birey

bırakma koordinatları Hustler

Bradley Cooper

taksi ve harita

Jessica Alba

harita takibi

4) Parmak izi olarak veri

Ortak bir argüman çizgisi, 'bu veriler değersizdir' veya 'kimse bu verilerle bir şey yapamaz' şeklindedir. Bu genellikle bir yanlış anlamadır. En masum veriler bile benzersiz bir 'parmak izi' oluşturabilir ve bireyleri yeniden tanımlamak için kullanılabilir. Verinin kendisinin değersiz olduğu halde değersiz olduğu inancından kaynaklanan risktir.

Verilerin, yapay zekanın ve verilerdeki karmaşık ilişkilerin ortaya çıkarılmasını sağlayan diğer araç ve algoritmaların artmasıyla tanımlama riski artacaktır. Sonuç olarak, veri kümeniz şu anda ortaya çıkarılamasa ve bugün yetkisiz kişiler için muhtemelen işe yaramazsa, yarın olmayabilir.

Örnek olay

Harika bir örnek, Netflix'in film tavsiye sistemlerini geliştirmek için açık bir Netflix yarışması düzenleyerek Ar-Ge departmanını kitle kaynaklı olarak kullanmayı amaçladığı durumdur. 'Filmler için kullanıcı derecelendirmelerini tahmin etmek için ortak filtreleme algoritmasını geliştiren kişi 1,000,000 ABD Doları ödül kazanıyor'. Kalabalığı desteklemek için Netflix yalnızca şu temel özellikleri içeren bir veri seti yayınladı: kullanıcı kimliği, film, sınıf tarihi ve sınıf (bu nedenle kullanıcı veya filmin kendisi hakkında daha fazla bilgi yok).

İllüstrasyon 5

Veri kümesi yapısı Netflix fiyatı

Kullanıcı kimliği Film Sınıf tarihi sınıf
123456789 Imkansız misyon 10-12-2008 4

İzolasyonda, veriler boş görünüyordu. 'Veri setinde gizli tutulması gereken müşteri bilgisi var mı?' sorusuna verilen cevap şu oldu:

 'Hayır, tüm müşteri tanımlama bilgileri kaldırıldı; geriye kalan tek şey reytingler ve tarihler. Bu, gizlilik politikamıza uygundur…'

Ancak, Austin'deki Texas Üniversitesi'nden Narayanan (2008) aksini kanıtladı. Bir bireyin notları, not tarihi ve filminin birleşimi benzersiz bir film parmak izi oluşturur. Kendi Netflix davranışınızı düşünün. Sizce aynı filmi kaç kişi izledi? Aynı filmi aynı anda kaç kişi izledi?

Ana soru, bu parmak izi nasıl eşleştirilir? Oldukça basitti. İyi bilinen film derecelendirme web sitesi IMDb'den (İnternet Film Veritabanı) alınan bilgilere dayanarak, benzer bir parmak izi oluşturulabilir. Sonuç olarak, bireyler yeniden tanımlanabilir.

Film izleme davranışı hassas bilgi olarak kabul edilmese de kendi davranışlarınızı düşünün - halka açıklansa sorun olur mu? Narayanan'ın makalesinde verdiği örnekler, kolayca damıtılabilen siyasi tercihler ("Nasıralı İsa" ve "Yuhanna İncili" hakkındaki derecelendirmeler) ve cinsel tercihlerdir ("Bent" ve "Queer as folk" hakkındaki derecelendirmeler).

5) Genel Veri Koruma Yönetmeliği (GDPR)

GDPR, süper heyecan verici olmayabilir veya blog konuları arasında gümüş kurşun olmayabilir. Yine de kişisel verileri işlerken tanımları doğru yapmakta fayda var. Bu blog, verileri anonimleştirmenin ve sizi veri işlemcisi olarak eğitmenin bir yolu olarak sütunları kaldırmanın yaygın bir yanılgısıyla ilgili olduğundan, GDPR'ye göre anonimleştirmenin tanımını keşfetmekle başlayalım. 

GDPR'nin 26. gerekçesine göre, anonimleştirilmiş bilgiler şu şekilde tanımlanır:

'Kimliği belirli veya belirlenebilir bir gerçek kişiyle ilgili olmayan bilgiler veya veri sahibinin kimliği belirlenemeyecek veya artık tanımlanamayacak şekilde anonim hale getirilen kişisel veriler.'

Gerçek bir kişiyle ilgili kişisel veriler işlendiğinden, tanımın sadece 2. kısmı geçerlidir. Tanıma uymak için, veri öznesinin (bireyin) artık tanımlanamayacağından veya artık tanımlanamayacağından emin olunmalıdır. Ancak bu blogda belirtildiği gibi, bireyleri birkaç özelliğe dayalı olarak tanımlamak oldukça basittir. Bu nedenle, bir veri kümesinden adların kaldırılması, GDPR'nin anonimleştirme tanımına uymaz.

Sonuç olarak;

Yaygın olarak kabul edilen ve ne yazık ki hala sıklıkla uygulanan bir veri anonimleştirme yaklaşımına meydan okuduk: adları kaldırmak. Tahmin Et Kim oyununda ve bununla ilgili dört örnek:

  • Bağlantı saldırıları
  • Bilgilendirilmiş bireyler
  • Parmak izi olarak veri
  • Genel Veri Koruma Yönetmeliği (GDPR)

isimlerin silinmesinin anonimleştirme olarak başarısız olduğu gösterildi. Örnekler çarpıcı vakalar olsa da, her biri yeniden tanımlamanın basitliğini göstermektedir. ve bireylerin mahremiyeti üzerindeki olası olumsuz etkiler.

Sonuç olarak, veri kümenizden adların kaldırılması anonim verilerle sonuçlanmaz. Bu nedenle, her iki terimi de birbirinin yerine kullanmaktan kaçınmalıyız. Umarım anonimleştirme için bu yaklaşımı uygulamazsınız. Ve hala yapıyorsanız, sizin ve ekibinizin gizlilik risklerini tam olarak anladığınızdan ve etkilenen kişiler adına bu riskleri kabul etme iznine sahip olduğunuzdan emin olun.

gülümseyen bir grup insan

Veriler sentetiktir ancak ekibimiz gerçektir!

Syntho ile iletişim kurun ve uzmanlarımızdan biri, sentetik verilerin değerini keşfetmek için ışık hızında sizinle iletişime geçecek!

  • D. Reinsel, J. Gantz, John Rydning. Uçtan Çekirdeğe Dünyanın Dijitalleşmesi, Veri Çağı 2025, 2018
  • L. Sweeney. k-anonimlik: mahremiyeti korumak için bir model. Uluslararası Belirsizlik, Bulanıklık ve Bilgiye Dayalı Sistemler Dergisi, 10 (5), 2002: 557-570
  • L. Sweeney. Basit Demografi Genellikle İnsanları Benzersiz Bir Şekilde Tanımlar. Carnegie Mellon Üniversitesi, Veri Gizliliği Çalışma Belgesi 3. Pittsburgh 2000
  • P. Samarati. Mikro Veri Yayınında Katılımcıların Kimliklerinin Korunması. IEEE İşlemleri Bilgi ve Veri Mühendisliği, 13 (6), 2001: 1010-1027
  • Atokkar. Riding with the Stars: NYC Taxicab Dataset'te Yolcu Gizliliği, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Büyük seyrek veri kümelerinin güçlü anonimleştirilmesi. Bildirilerde – 2008 IEEE Güvenlik ve Gizlilik Sempozyumu, SP (s. 111-125)
  • Genel Veri Koruma Yönetmeliği (GDPR), Gerekçe 26, Anonim Veriler için Geçerli Değil