טרעף צו ווער? 5 ביישפילן וואָס רימוווינג נעמען איז נישט אַן אָפּציע

טרעפן וואס שפּיל

אַ הקדמה צו Guess Who

טרעף צו ווער? כאָטש איך בין זיכער אַז רובֿ פון איר וויסן דעם שפּיל פֿון די לעצטע טעג, דאָ אַ קורץ רעצענזיע. דער ציל פון די שפּיל: אַנטדעקן דעם נאָמען פון דעם קאַרטון כאַראַקטער אויסגעקליבן דורך דיין קעגנער דורך אַסקינג "יאָ" און "קיין" פֿראגן, ווי "צי דער מענטש טראָגן אַ הוט?" אָדער "טוט דער מענטש טראָגן ברילן"? פּלייַערס עלימינירן קאַנדאַדייץ באזירט אויף די ענטפער פון די קעגנער און לערנען אַטריביוץ וואָס פאַרבינדן צו די מיסטעריע כאַראַקטער פון זייער קעגנער. דער ערשטער שפּילער וואָס פיגיערז די מיסטעריע כאַראַקטער פון די אנדערע שפּילער ווינס די שפּיל.

איר גאַט עס. מען דאַרף ידענטיפיצירן דעם יחיד פֿון אַ דאַטאַסעט דורך בלויז אַקסעס צו די קאָראַספּאַנדינג אַטריביוץ. אין פאַקט, מיר קעסיידער זען דעם באַגריף פון Guess Who געווענדט אין פיר, אָבער דערנאָך געוויינט אויף דאַטאַסעץ פאָרמאַטטעד מיט ראָוז און שפאלטן מיט אַטריביוץ פון פאַקטיש מענטשן. דער הויפּט חילוק אין ארבעטן מיט דאַטן איז אַז מענטשן טענד צו אַנדערעסטאַמאַט די יז פון פאַקטיש מענטשן קענען זיין אַנמאַסקט דורך אַקסעס צו בלויז אַ ביסל אַטריביוץ.

ווי די שפּיל טרעפן די שפּיל טרעפן ווער, עמעצער קענען ידענטיפיצירן מענטשן מיט אַקסעס צו בלויז אַ ביסל אַטריביוץ. עס סערוועס ווי אַ פּשוט ביישפּיל פון רימוווינג בלויז 'נעמען' (אָדער אנדערע דירעקט ידענטיפיערס) פֿון דיין דאַטאַסעט פיילז ווי אַן אַנאָנימיזאַטיאָן טעכניק. אין דעם בלאָג, מיר צושטעלן פיר פּראַקטיש קאַסעס צו מיטטיילן איר וועגן די פּריוואַטקייט ריסקס פֿאַרבונדן מיט די באַזייַטיקונג פון שפאלטן ווי אַ מיטל פֿאַר דאַטן אַנאָנימיזאַטיאָן.

2) לינגקאַדזש אנפאלן: דיין דאַטאַסעט לינגקט צו אנדערע (עפנטלעך) דאַטן קוואלן

די ריזיקירן פון אַ לינגקאַדזש אַטאַקס איז די מערסט וויכטיק סיבה וואָס בלויז רימוווינג נעמען קען נישט (ענימאָר) אַרבעט ווי אַן אַנאָנימיזאַטיאָן אופֿן. מיט אַ לינגקאַדזש באַפאַלן, די אַטאַקער קאַמביינז די אָריגינעל דאַטן מיט אנדערע צוטריטלעך דאַטן קוואלן אין סדר צו יוניקלי ידענטיפיצירן אַ יחיד און לערנען (אָפט שפּירעוודיק) אינפֿאָרמאַציע וועגן דעם מענטש.

דער שליסל דאָ איז די אַוויילאַביליטי פון אנדערע דאַטן רעסורסן וואָס זענען פאָרשטעלן איצט אָדער קען זיין פאָרשטעלן אין דער צוקונפֿט. טראַכטן וועגן זיך. ווי פיל פון דיין אייגענע פערזענלעכע דאַטן קענען זיין געפֿונען אויף פאַסעבאָאָק, ינסטאַגראַם אָדער לינקעדין וואָס קען פּאַטענטשאַלי זיין אַביוזד פֿאַר אַ פֿאַרבינדונג באַפאַלן?

אין פריער טעג, די אַוויילאַביליטי פון דאַטן איז געווען פיל מער לימיטעד, וואָס טייל דערקלערט וואָס די באַזייַטיקונג פון נעמען איז גענוג צו ופהיטן די פּריוואַטקייט פון מענטשן. ווייניקער פאַראַנען דאַטן מיטל ווייניקערע אַפּערטונאַטיז פֿאַר פֿאַרבינדונג דאַטן. אָבער, מיר זענען איצט (אַקטיוו) פּאַרטיסאַפּאַנץ אין אַ דאַטן-געטריבן עקאנאמיע, וווּ די סומע פון ​​דאַטן איז גראָוינג אין אַ עקספּאָונענשאַל טעמפּאָ. מער דאַטן און ימפּרוווינג טעכנאָלאָגיע פֿאַר זאַמלונג דאַטן וועט פירן צו אַ פאַרגרעסערן אין פּאָטענציעל פֿאַר פֿאַרבינדונג אנפאלן. וואָס וואָלט מען שרייַבן אין 10 יאָר וועגן די ריזיקירן פון אַ לינגקאַדזש באַפאַלן?

אילוסטראציע 1

עקספּאָונענשאַלי גראָוינג דאַטן איז אַ פאַקט

סומע פון ​​דאַטן

פאַל לערנען

Sweeney (2002) דעמאַנסטרייטיד אין אַן אַקאַדעמיק צייטונג ווי זי איז געווען ביכולת צו ידענטיפיצירן און צוריקקריגן שפּירעוודיק מעדיציניש דאַטן פון מענטשן באזירט אויף פֿאַרבינדונג פון אַ עפנטלעך פאַראַנען דאַטן שטעלן פון 'שפּיטאָל וויזיץ' צו די עפנטלעך בארעכטיגט אָפּשטימונג רעגיסטראַטאָר אין די פאַרייניקטע שטאַטן. ביידע דאַטאַסעץ זענען אנגענומען צו זיין אַנאָנימיזעד רעכט דורך דילישאַן פון נעמען און אנדערע דירעקט ידענטיפיערס.

אילוסטראציע 2

לינגקאַדזש באַפאַלן אין פיר

לינגקאַדזש אַטאַק

באַזירט אויף בלויז די דריי פּאַראַמעטערס (1) זיפּ קאָוד, (2) דזשענדער און (3) געבורט טאָג, זי געוויזן אַז 87% פון די גאַנץ יו. Sweeney דערנאָך ריפּיטיד איר אַרבעט מיט "לאַנד" ווי אַן אָלטערנאַטיוו צו "זיפּ קאָוד". אין אַדישאַן, זי דעמאַנסטרייטיד אַז 18% פון די גאנצע יו. עס. באַפעלקערונג קען זיין יידענאַפייד בלויז דורך אַקסעס צו אַ דאַטאַסעט מיט אינפֿאָרמאַציע וועגן די (1) היים לאַנד, (2) דזשענדער און (3) געבורט טאָג. טראַכטן וועגן די אַפאָרמענשאַנד עפנטלעך קוואלן, אַזאַ ווי פאַסעבאָאָק, לינקעדין אָדער ינסטאַגראַם. איז דיין לאַנד, דזשענדער און געבורט טאָג קענטיק, אָדער קענען אנדערע יוזערז אַראָפּרעכענען עס?

אילוסטראציע 3

די רעזולטאַטן פון Sweeney

קוואַזי-ידענטיפיערס

באַפעלקערונג (248 מיליאָן)

5-ציפֿער זיפ, דזשענדער, טאָג פון געבורט

קסנומקס%

אָרט, דזשענדער, געבורט טאָג

קסנומקס%

לאַנד, דזשענדער, געבורט טאָג

קסנומקס%

דער ביישפּיל דעמאַנסטרייץ אַז עס קען זיין רימאַרקאַבלי גרינג צו דע-אַנאָנימיזע מענטשן אין פּאָנעם אַנאָנימע באַנוצערס דאַטן. ערשטער, דעם לערנען ינדיקייץ אַ ריזיק מאַגנאַטוד פון ריזיקירן באַפעלקערונג קענען זיין יידענאַפייד מיט 87% פון די יו ווייניק קעראַקטעריסטיקס. צווייטנס, די יקספּאָוזד מעדיציניש דאַטן אין דעם לערנען זענען העכסט שפּירעוודיק. ביישפילן פון יקספּאָוזד מענטשן 'ס דאַטן פון די שפּיטאָל וויזיץ דאַטאַסעט אַרייַננעמען עטהניסיטי, דיאַגנאָסיס און מעדאַקיישאַן. אַטריביוץ אַז מען קען גאַנץ האַלטן געהיים, למשל, פון פאַרזיכערונג קאָמפּאַניעס.

3) אינפארמירטע פערזאנען

אן אנדער ריזיקירן פון רימוווינג בלויז דירעקט ידענטיפיערס, אַזאַ ווי נעמען, ערייזאַז ווען ינפאָרמד מענטשן האָבן העכער וויסן אָדער אינפֿאָרמאַציע וועגן טרייץ אָדער נאַטור פון ספּעציפיש מענטשן אין די דאַטאַסעט. באַזירט אויף זייער וויסן, דער אַטאַקער קען דערנאָך פֿאַרבינדן ספּעציפיש דאַטן רעקאָרדס צו פאַקטיש מענטשן.

פאַל לערנען

א ביישפּיל פון אַ באַפאַלן אויף אַ דאַטאַסעט מיט העכער וויסן איז די טאַקסי פאַל אין ניו יארק, וווּ Atockar (2014) איז געווען ביכולת צו אַנמאַסק ספּעציפיש מענטשן. די אָנגעשטעלטע דאַטאַסעט כּולל אַלע טאַקסי דזשערניז אין ניו יארק, ענריטשט מיט יקערדיק אַטריביוץ ווי אָנהייב קאָואָרדאַנאַץ, סוף קאָואָרדאַנאַץ, פּרייַז און שפּיץ פון די פאָר.

אַן ינפאָרמד מענטש וואָס ווייסט אַז ניו יארק איז ביכולת צו באַקומען טאַקסי טריפּס צו די דערוואַקסן קלוב 'הוסטלער'. דורך פילטערינג די 'סוף אָרט', ער דעדאַקייטאַד די פּינטלעך אָנהייב ווענדט און דערמיט יידענאַפייד פאַרשידן אָפט וויזיטערז. סימילאַרלי, מען קען אַרויספירן טאַקסי רידעס ווען דער היים אַדרעס פון דעם יחיד איז געווען באַוווסט. די צייט און אָרט פון עטלעכע רום פֿילם שטערן זענען דיסקאַווערד אויף יענטע זייטלעך. נאָך פֿאַרבינדונג פון די אינפֿאָרמאַציע צו די NYC טאַקסי דאַטן, עס איז גרינג צו באַקומען זייער טאַקסי רידעס, די סומע זיי באַצאָלט און צי זיי האָבן געהאָלפֿן.

אילוסטראציע 4

אַ ינפאָרמד יחיד

קאַפּ-קאָואָרדאַנאַץ הוסטלער

בראַדליי קופּער

טאַקסי און מאַפּע

דזשעסיקאַ אַלבאַ

מאַפּס טראַקינג

4) דאַטאַ ווי אַ פינגערפּרינט

א פּראָסט שורה פון אַרגומענטאַטיאָן איז 'די דאַטן זענען נישטיק' אָדער 'קיינער קענען טאָן עפּעס מיט די דאַטן'. דאָס איז אָפט אַ מיסקאַנסעפּשאַן. אפילו די מערסט אומשולדיק דאַטן קענען פאָרעם אַ יינציק 'פינגערפּרינט' און קענען ווערן גענוצט צו שייַעך-ידענטיפיצירן מענטשן. דאָס איז דער ריזיקירן פון די גלויבן אַז די דאַטן זיך זענען נישטיק, בשעת דאָס איז נישט.

די ריזיקירן פון לעגיטימאַציע וועט פאַרגרעסערן מיט די פאַרגרעסערן פון דאַטן, אַי, און אנדערע מכשירים און אַלגערידאַמז וואָס געבן די ופדעקונג פון קאָמפּלעקס ריליישאַנשיפּ דאַטן. דעריבער, אפילו אויב דיין דאַטאַסעט קענען ניט זיין אַנקאַווערד איצט און איז מאַשמאָעס אַרויסגעוואָרפן פֿאַר אַנאָטערייזד מענטשן הייַנט, עס קען נישט זיין מאָרגן.

פאַל לערנען

א גוטע ביישפּיל איז דער פאַל ווען Netflix בדעה צו מאַסע זיין ר & די אָפּטיילונג דורך ינטראָודוסינג אַ עפענען Netflix פאַרמעסט צו פֿאַרבעסערן זייער פֿילם רעקאַמאַנדיישאַן סיסטעם. "דער וואָס ימפּרוווז די קאַלאַבערייטיוו פֿילטרירונג אַלגערידאַם צו פאָרויסזאָגן באַניצער רייטינגז פֿאַר פילמס ווינס אַ פרייז פון $ 1,000,000." כּדי צו שטיצן די מאַסע, Netflix פארעפנטלעכט אַ דאַטאַסעט מיט בלויז די פאלגענדע יקערדיק אַטריביוץ: userID, פֿילם, טאָג פון מיינונג און מיינונג (אַזוי קיין מער אינפֿאָרמאַציע וועגן דער באַניצער אָדער פילם זיך).

אילוסטראציע 5

דאַטאַסעט סטרוקטור Netflix פּרייַז

באַניצער שייַן פֿילם טאָג פון מיינונג מיינונג
123456789 מיסיע אוממעגלעך 10-12-2008 4

אין אפגעזונדערטקייט, די דאַטן ארויס ומזיסט. ווען איר פרעגן די קשיא 'איז קיין קונה אינפֿאָרמאַציע אין די דאַטאַסעט וואָס זאָל זיין פּריוואַט?', די ענטפער איז געווען:

 'ניין, אַלע קונה ידענטיפיינג אינפֿאָרמאַציע איז אַוועקגענומען; אַלע וואָס בלייבט זענען רייטינגז און דאַטעס. דאָס נאָכפאָלגן אונדזער פּריוואַטקייט פּאָליטיק ... '

אָבער, Narayanan (2008) פון די אוניווערסיטעט פון טעקסאַס אין אַוסטין פּרוווד אַנדערש. די קאָמבינאַציע פון ​​גראַדעס, דאַטע פון ​​מיינונג און פֿילם פון אַ יחיד איז אַ יינציק פֿילם פינגערפּרינט. טראַכטן וועגן דיין אייגענע Netflix נאַטור. ווי פילע מענטשן טאָן איר טראַכטן וואָטשט דער זעלביקער גאַנג פון קינאָ? ווי פילע וואָטשט דער זעלביקער גאַנג פון קינאָ אין דער זעלביקער צייט?

הויפּט קשיא, ווי צו גלייַכן דעם פינגערפּרינט? עס איז געווען גאַנץ פּשוט. באַזירט אויף אינפֿאָרמאַציע פון ​​די באַוווסט קינאָ וועבזייטל IMDb (Internet Movie Database), אַ ענלעך פינגערפּרינט קען זיין געשאפן. דעריבער, מענטשן קען זיין שייַעך-יידענאַפייד.

כאָטש פילם-וואַטשינג נאַטור קען נישט זיין סאַספּעקטיד ווי שפּירעוודיק אינפֿאָרמאַציע, טראַכטן וועגן דיין אייגענע נאַטור-וואָלט איר טראַכטן אויב דאָס וואָלט זיין עפנטלעך? ביישפילן וואָס נאַרייַאַנאַן צוגעשטעלט אין זיין צייטונג זענען פּאָליטיש פּרעפֿערענצן (רייטינגז אויף 'יאָשקע פון ​​נצרת' און 'די בשורה פון יוחנן') און געשלעכט פּרעפֿערענצן (רייטינגז אויף 'בענט' און 'קוועער ווי פאָלק') וואָס קען זיין לייכט דיסטילד.

5) אַלגעמיינע דאַטאַ פּראַטעקשאַן רעגולאַטיאָן (GDPR)

GDPR קען נישט זיין סופּער יקסייטינג און ניט די זילבער קויל צווישן בלאָג טעמעס. אָבער, עס איז נוציק צו באַקומען די זוך גלייך ווען פּראַסעסינג פערזענלעכע דאַטן. זינט דעם בלאָג איז וועגן דער פּראָסט מיסקאַנסעפּשאַן פון רימוווינג שפאלטן ווי אַ וועג צו אַנאָנימיזע דאַטן און צו דערציען איר ווי אַ דאַטן פּראַסעסער, לאָזן אונדז אָנהייבן צו ויספאָרשן די דעפֿיניציע פון ​​אַנאָנימיזאַטיאָן לויט GDPR. 

לויט ריסיטאַל 26 פון די GDPR, אַנאָנימיזעד אינפֿאָרמאַציע איז דיפיינד ווי:

'אינפֿאָרמאַציע וואָס איז ניט שייך צו אַ יידענאַפייד אָדער יידענאַפייד נאַטירלעך מענטש אָדער פערזענלעכע דאַטן רענדערד אַנאָנימע באַנוצערס אין אַזאַ אַ וועג אַז די דאַטן ונטערטעניק איז ניט אָדער ניט מער יידענטאַפייאַבאַל.'

זינט איינער פּראַסעסאַז פערזענלעכע דאַטן וואָס זענען שייך צו אַ נאַטירלעך מענטש, בלויז טייל 2 פון די דעפֿיניציע איז באַטייַטיק. כּדי צו נאָכקומען מיט די דעפֿיניציע, איר מוזן ענשור אַז די ונטערטעניק פון די דאַטן (יחיד) איז ניט אָדער ניט מער יידענאַפייד. ווי אנגעוויזן אין דעם בלאָג, עס איז רימאַרקאַבלי פּשוט צו ידענטיפיצירן מענטשן באזירט אויף עטלעכע אַטריביוץ. רימוווינג נעמען פון אַ דאַטאַסעט איז נישט אין לויט מיט די GDPR דעפֿיניציע פון ​​אַנאָנימיזאַטיאָן.

אין מסקנא

מיר טשאַלאַדזשד איינער קאַמאַנלי קאַנסידערד און, ליידער, נאָך אָפט געווענדט צוגאַנג פון דאַטן אַנאָנימיזאַטיאָן: רימוווינג נעמען. אין די Guess Who שפּיל און פיר אנדערע ביישפילן וועגן:

  • לינגקאַדזש אנפאלן
  • ינפאָרמד מענטשן
  • דאַטאַ ווי אַ פינגערפּרינט
  • אַלגעמיינע דאַטאַ פּראַטעקשאַן רעגולאַטיאָן (GDPR)

עס איז געוויזן אַז רימוווינג נעמען פיילז ווי אַנאָנימיזאַטיאָן. כאָטש די ביישפילן זענען סטרייקינג קאַסעס, יעדער ווייזט די פּאַשטעס פון שייַעך-לעגיטימאַציע און די פּאָטענציעל נעגאַטיוו פּראַל אויף די פּריוואַטקייט פון מענטשן.

אין מסקנא, די באַזייַטיקונג פון נעמען פֿון דיין דאַטאַסעט קען נישט פירן צו אַנאָנימע באַנוצערס דאַטן. דעריבער, מיר בעסער ויסמיידן ביידע טערמינען ינטערטשיינדזשאַבלי. איך בעעמעס האָפן אַז איר וועט נישט צולייגן דעם צוגאַנג פֿאַר אַנאָנימיזאַטיאָן. און אויב איר נאָך טאָן דאָס, מאַכן זיכער אַז איר און דיין מאַנשאַפֿט גאָר פֿאַרשטיין די פּריוואַטקייט ריסקס און זענען ערלויבט צו אָננעמען די ריסקס פֿאַר די אַפעקטאַד מענטשן.

גרופּע פון ​​מענטשן סמיילינג

דאַטן זענען סינטעטיש, אָבער אונדזער מאַנשאַפֿט איז פאַקטיש!

קאָנטאַקט סינטהאָ און איינער פון אונדזער עקספּערץ וועט קאָנטאַקט איר מיט די גיכקייַט פון ליכט צו ויספאָרשן די ווערט פון סינטעטיש דאַטן!

  • D. Reinsel, J. Gantz, John Rydning. די דיגיטאַליזאַטיאָן פון דער וועלט פֿון עדזש צו קאָר, דאַטאַ אַגע 2025, 2018
  • ל סוועעניי. k-anonymity: אַ מאָדעל פֿאַר פּראַטעקטינג פּריוואַטקייט. אינטערנאַציאָנאַלער דזשאָורנאַל אויף ונסערטאַנטי, פוזזינעסס און וויסן-באזירט סיסטעמס, 10 (5), 2002: 557-570
  • ל סוועעניי. פּשוט דעמאָגראַפיקס אָפט ידענטיפיצירן מענטשן יוניקלי. Carnegie Mellon אוניווערסיטעט, דאַטאַ פריוואטקייט ארבעטן פּאַפּיר 3. פּיטצבורגה 2000
  • פּי סאַמאַראַטי. פּראַטעקטינג די אידענטיטעט פון ריספּאַנדאַנץ אין די מעלדונג פון מיקראָדאַטאַ. יעעע טראַנזאַקשאַנז אויף וויסן און דאַטאַ אינזשעניריע, 13 (6), 2001: 1010-1027
  • Atockar. ריידינג מיט די שטערן: פּאַסאַזשיר פּריוואַטקייט אין די NYC טאַקסיקאַב דאַטאַסעט, 2014
  • Narayanan, A., & Shmatikov, V. (2008). געזונט דע-אַנאָנימיזאַטיאָן פון גרויס שיטער דאַטאַסעץ. I Proceedings-2008 IEEE סימפּאָסיום אויף זיכערהייט און פּריוואַטקייט, SP (פּפּ. 111-125)
  • אַלגעמיינע דאַטאַ פּראַטעקשאַן רעגולאַטיאָן (GDPR), רעסיטאַל 26, ניט אָנווענדלעך צו אַנאָנימע באַנוצערס