Texmîn Kî? 5 mînak çima rakirina navan ne vebijarkek e

texmîn bike kî lîstik

Pêşgotinek ji Guess Who re

Guess Who? Her çend ez piştrast im ku piraniya we vê lîstikê ji berê de nas dikin, li vir kurteyek paşîn. Armanca lîstikê: Navê karakterê kartonî yê ku ji hêla dijberê we ve hatî hilbijartin bi pirsîna pirsên 'erê' û 'na' kifş bikin, mînaka 'ew kes xalîçeyê li xwe dike?' an 'ew kes berçavkan li xwe dike'? Lîstikvan li ser bingeha bersiva dijber namzetan radikin û taybetmendiyên ku bi karakterê nepenî yê dijberê xwe ve têkildar dibin fêr dibin. Yekem lîstikvanê ku karakterê nepenî yê lîstikvanê din diyar dike lîstikê qezenc dike.

Te fam kir. Pêdivî ye ku meriv kesane ji daneyê bi tenê gihîştina taybetmendiyên têkildar nas bike. Bi rastî, em bi rêkûpêk vê têgîna Guess Who di pratîkê de sepandî dibînin, lê dûv re li ser databasên ku bi rêz û stûnên ku bi taybetmendiyên mirovên rastîn ve hatî format kirin de xebitîn. Cûdahiya sereke dema ku bi daneyan re dixebite ev e ku mirov bi hêsanî tenê çend heb taybetmendiyan re hêsantiriya ku ji hêla kesên rastîn ve têne xuyang kirin kêm dikin.

Wekî ku lîstika Guess Who şirove dike, kes dikare bi gihîştina tenê çend taybetmendiyan kesan nas bike. Ew wekî mînakek hêsan e ku çima rakirina tenê 'navan' (an nasnameyên dî yên yekser) ji daneya we wekî teknîkek anonîmîzekirinê têk diçe. Di vê tevnvîsê de, em çar dozên pratîkî peyda dikin ku we di derheqê xetereyên nepenîtiyê yên têkildarî rakirina stûnan de wekî amûrek anonîmîzasyona daneyê agahdar bikin.

2) attacksrîşên girêdanê: Daneya weya we bi çavkaniyên daneya din (giştî) ve girêdayî ye

Xetereya êrişên girêdanê sedema herî girîng e ku çima rakirina navan tenê wekî rêbaza anonîmîzekirinê (êdî) naxebite. Bi êrişek pêwendiyê, êrişker daneyên orîjînal bi çavkaniyên daneya gihîştî yên din re hevber dike da ku takekesek bêhempa nas bike û di derbarê vî kesî de agahdariya (pirî caran hesas) fêr bibe.

Li vir ya bingehîn hebûna çavkaniyên daneya din ên ku naha hene, an jî dibe ku di pêşerojê de hebin hene. Li ser xwe bifikirin. Çiqas daneyên weyên kesane yên we dikarin li ser Facebook, Instagram an LinkedIn werin dîtin ku dibe ku ji bo êrişek girêdanê potansiyel werin xirab kirin?

Di rojên berê de, peydabûna daneyan pir tixûbdar bû, ku ev yek hinekî diyar dike çima rakirina navan ji bo parastina nepenîtiya kesan bes bû. Daneyên kêm peyda dibin ji bo girêdana daneyan kêm derfet hene. Lêbelê, em naha (çalak) beşdarên aboriyek daneyê ne, ku hêjeya daneyê bi rêjeyek berbiçav zêde dibe. Daneyên bêtir, û çêtirkirina teknolojiya berhevkirina daneyan dê bibe sedema zêdebûna potansiyela êrişên girêdanê. Ma meriv di 10 salan de li ser xetereya êrîşa girêdanê çi dinivîse?

1 xuyang

Daneyên pêşkeftî mezin dibin rastiyek e

Hejmara daneyan

Lêkolînê

Sweeney (2002) di kaxezek akademîk de destnîşan kir ka wê çawa dikaribû daneyên bijîjkî yên hesas ji kesan vebigere û li ser bingeha girêdana daneya gelemperî ya 'serdanên nexweşxaneyê' bi tomara dengdanê ya li Dewletên Yekbûyî re. Her du koma daneyan li cihê ku tê texmîn kirin ku bi navgîniya jêbirina navan û nasnameyên din ên yekser bi rêkûpêk bênavkirî ne.

2 xuyang

Di pratîkê de êrîşa girêdanê

Girêdana ackrîşê

Li ser bingeha tenê sê parametreyan (1) Zip Code, (2) Zayend û (3) Dîroka Jidayikbûnê, wê destnîşan kir ku 87% ji tevahiya nifûsa Dewletên Yekbûyî dikare ji nû ve bi naskirina taybetmendiyên van her du daneyan were nas kirin. Dûv re Sweeney xebata xwe bi hebûna 'welat' wekî alternatîfek 'Zip Code' dubare kir. Wekî din, wê destnîşan kir ku 18% ji tevahiya nifûsa Dewletên Yekbûyî tenê bi gihîştina daneyek ku agahdariya di derbarê (1) welatê xwe, (2) zayend û (3) roja jidayikbûnê de heye dikare were nas kirin. Li ser çavkaniyên gelemperî yên jorîn, mîna Facebook, LinkedIn an Instagram bifikirin. Welat, zayend û roja jidayikbûna we diyar e, an bikarhênerên din dikarin jê derxînin?

3 xuyang

Encamên Sweeney

Nîv-nasname

% nifûsa Dewletên Yekbûyî (248 mîlyon) yekane naskirî

5-reqemî ZIP, zayend, roja bûyînê

87%

cîh, zayend, roja bûyînê

53%

welat, zayend, roja bûyînê

18%

Ev mînak destnîşan dike ku pir hêsan e ku meriv di daneyên bi rengek nediyar de bênasname bike. Pêşîn, ev lêkolîn mezinahiyek mezin a xetereyê destnîşan dike, wek 87% ji nifûsa Dewletên Yekbûyî dikare bi hêsanî were bikar anîn çend taybetmendiyên. Ya duyemîn, di vê lêkolînê de daneyên bijîjkî yên eşkerekirî pir hesas bûn. Nimûneyên daneyên kesên vekirî ji daneya serdanên nexweşxaneyê etnîsîte, teşhîs û derman in. Taybetmendiyên ku meriv dikare wan ji pargîdaniyên bîmeyê ve veşêre.

3) Kesên agahdar

Xetereyek din a rakirina tenê nasnameyên rasterast, wek navan, çêdibe dema ku kesên agahdar di derheqê taybetmendî an behra kesên taybetî yên di daneyê de xwedan zanyarî an agahiyek çêtir bin.. Li ser bingeha zanîna wan, dibe ku êrişkar hingê karibe tomarên daneyên taybetî bi mirovên rastîn ve girêbide.

Lêkolînê

Nimûneyek êrişek li ser daneyek ku zanyariyên jêhatî bikar tîne doza taksiya New York -ê ye, ku Atockar (2014) karibû kesên taybetî nexşandî bike. Daneya xebitandî hemî rêwîtiyên taksiyê yên li New York -ê vedihewand, bi taybetmendiyên bingehîn ên wekî koordînatên destpêkirinê, koordînatên dawîn, bihayê û sernavê rêwîtiyê dewlemend kirin.

Kesek agahdar ku dizane New York karibû rêwîtiyên taksiyê li klûba mezinan 'Hustler' bike. Bi fîlterkirina 'cîhê dawîn', wî navnîşanên destpêkê yên rastîn derxist û bi vî rengî mêvanên cihêreng ên cihêreng nas kir. Bi vî rengî, gava ku navnîşana malê ya kesane hate zanîn, meriv dikare siwarên taksiyê derxe. Dem û cîhê çend stêrkên fîlimê yên navdar li ser malperên gotegotan hatin dîtin. Piştî girêdana vê agahiyê bi daneya taksiyê ya NYC re, hêsan bû ku meriv siwarên wan ên taksiyê, mîqdara ku wan daye, û gelo wan gilî kiribe derxe.

4 xuyang

Kesek agahdar

koordînatên drop-off Hustler

Bradley Cooper

taxi û nexşe

Jessica Alba

şopandina nexşeyan

4) Daneyên wekî şopa tiliyê

Xêzek hevbeş a nîqaşê ev e 'ev daneya bêkêmasî ye' an 'kes bi van daneyan tiştek nikare bike'. Ev pir caran têgihîştinek çewt e. Tewra daneyên herî bêguneh jî dikarin 'şopa tiliyê' ya bêhempa pêk bînin û ji bo ji nû ve naskirina kesan were bikar anîn. Ew xetereya ku ji baweriya ku daneya bixwe bêkêmasî ye tê wergirtin, dema ku ne wusa be.

Xetereya nasnameyê dê bi zêdebûna daneyê, AI -yê, û amûr û algorîtmayên din ên ku vedîtina têkiliyên tevlihev ên di daneyê de zêde dike, zêde bibe. Ji ber vê yekê, tewra ku daneya weya niha nekare were eşkere kirin, û dibe ku îro ji bo kesên ne destûrdar bêkêr be, dibe ku sibê nebe.

Lêkolînê

Nimûneyek girîng ew e ku Netflix mebest kir ku beşa R&D ya xwe berhev bike û pêşbaziyek vekirî ya Netflix destnîşan bike da ku pergala pêşniyara fîlimê baştir bike. 'Yê ku algorîtmaya parzûnê ya hevkariyê baştir dike ku pêşbîniya nirxên bikarhêneran ji bo fîlman bike xelatek $ 1,000,000 $ digire'. Ji bo ku piştgiriyê bide girseyê, Netflix danegehek weşand ku tenê van taybetmendiyên bingehîn li jêr hene: userID, fîlim, tarîxa pola û pola (ji ber vê yekê bêtir agahdarî li ser bikarhêner an fîlim bixwe).

5 xuyang

Struktura Dataset bihayê Netflix

UserID Fîlm Dîroka pola Sinif
123456789 Mission mumkin nabe 10-12-2008 4

Di veqetandinê de, daneyên pûç xuya bûn. Dema ku pirsa 'Di daneyê de agahdariya xerîdar heye ku divê ew nepenî bimîne?', Bersiv ev bû:

 'Na, hemî agahdariya nasnameya xerîdar rakirin; tiştê ku dimîne nirx û tarîx in. Ev polîtîkaya nepenîtiya me dişopîne ... '

Lêbelê, Narayanan (2008) ji Zanîngeha Texas li Austin berevajî îsbat kir. Kombînasyona polan, tarîxa pola û fîlima kesek bixwe şopa tiliyek fîlmek bêhempa pêk tîne. Li ser behreya xweya Netflix bifikirin. Li gorî te çend kesan heman seta fîlman temaşe kir? Çend kesan heman seta fîlman di heman demê de temaşe kir?

Pirsa sereke, meriv çawa vê şopa tilikê li hev dike? Ew pir hêsan bû. Li ser bingeha agahdariya ji malpera navdar-nirxandina fîlimê IMDb (Databasa Fîlimên Internetnternetê), dibe ku şopek tiliyek wusa were çêkirin. Di encamê de, kes dikarin ji nû ve bêne nas kirin.

Digel ku dibe ku behreya temaşekirina fîlimê wekî agahdariya hesas neyê hesibandin, li ser tevgerê xwe bifikirin-gelo hûn ê bala xwe bidin ger ew gelemperî bibe? Nimûneyên ku Narayanan di kaxeza xwe de pêşkêş kiriye tercîhên siyasî ne (nirxandinên li ser 'Jesussa yê Nisretî' û 'Mizgîna Yûhenna') û tercîhên cinsî (nirxandinên li ser 'Bent' û 'Queer as folk') ku bi hêsanî têne qewirandin.

5) Rêziknameya Parastina Daneyên Giştî (GDPR)

Dibe ku GDPR ne super-heyecan be, ne jî guleya zîv di nav mijarên tevnvîsê de. Lêbelê, arîkar e ku meriv dema ku daneyên kesane pêvajoyê dike rasterast pênaseyan bike. Ji ber ku ev blog di derbarê têgihîştina xelet a hevpar a rakirina stûnan de wekî awayek anonîmkirina daneyê û ji bo we wekî daneya daneyê perwerde dike ye, bila em bi vekolîna pênaseya anonîmîzasyonê ya li gorî GDPR dest pê bikin. 

Li gorî benda 26 a ji GDPR, agahdariya nenaskirî ev e:

'agahdariya ku bi kesekî / a xwezayî ya naskirî an naskirî re têkildar nine an daneyên kesane yên ku bi rengek anonîm têne xuyang kirin bi vî rengî ku mijara daneyê ne an êdî nayê nas kirin.'

Ji ber ku yek daneya kesane ya ku bi kesek xwezayî ve têkildar dike pêvajo dike, tenê beşa 2 -an a pênaseyê têkildar e. Ji bo ku meriv li gorî danasînê tevbigere, pêdivî ye ku meriv pê ewle be ku mijara daneyê (kesane) ne naskirî ye an na. Wekî ku di vê tevnvîsê de hatî destnîşan kirin, lêbelê, naskirina kesan li ser bingeha çend taybetmendiyan pir ecêb hêsan e. Ji ber vê yekê, rakirina navan ji daneyek li gorî pênaseya anonîmîzasyona GDPR nake.

di encamê de

Me yekê ku bi gelemperî tête hesibandin û, mixabin, hîn jî bi gelemperî tê bikar anîn anonîmîzasyona daneyê: rakirina navan. Di lîstika Guess Who de û çar mînakên din ên di derbarê:

  • Linkrîşên girêdanê
  • Kesên agahdar
  • Daneyên wekî şopa tiliyê
  • Qanûna Parastina Parastina Giştî (GDPR)

hat xuyakirin ku rakirina navan wekî bênavkirinê têk diçe. Her çend mînak dozên balkêş in, her yek hêsaniya ji nû ve naskirinê nîşan dide û bandora neyînî ya potansiyel li ser nepenîtiya kesan.

Di encamnameyê de, rakirina navan ji daneya we daneyên nediyar bi dest naxe. Ji ber vê yekê, em çêtir e ku em her du têgehan bi hevûdu bikar neynin. Ez ji dil hêvî dikim ku hûn ê vê nêzîkatiyê ji bo anonîmîzekirinê nekin. ,, Heke hûn hîn jî wiya dikin, pê ewle bine ku hûn û tîmê we xetereyên nepenîtiyê bi tevahî fam dikin, û destûr heye ku hûn wan xetereyan li ser navê kesên mexdûr qebûl bikin.

koma mirovan dikenin

Daneyên sentetîk e, lê tîmê me rast e!

Bi Syntho re têkilî daynin û yek ji pisporên me dê bi leza tîrêjê bi we re têkeve têkiliyê da ku nirxa daneyên sentetîkî bikole!

  • D. Reinsel, J. Gantz, John Rydning. Dîjîtalîzasyona Cîhanê Ji Qiraxê Heta Coreyê, Serdema Daneyan 2025, 2018
  • L. Sweeney. k-bênav: modelek ji bo parastina nepenîtiyê. Kovara Navneteweyî ya li ser Bêbawerî, Fuzziness and Systems-based Knowledge, 10 (5), 2002: 557-570
  • L. Sweeney. Demografiya Hêsan Pir caran Mirovên Yekane Nas dikin. Zanîngeha Carnegie Mellon, Pirtûka Xebitandina Nepenîtiya Daneyan 3. Pittsburgh 2000
  • P. Samarati. Di Belavkirina Mîkrodata de Parastina Nasnameyên Bersivdaran. Danûstandinên IEEE yên li ser Zanîn û Endezyariya Daneyê, 13 (6), 2001: 1010-1027
  • Atockar. Siwarbûna bi Stêrkan: Nepenîtiya Rêwiyan di Dataseta Taxicab a NYC de, 2014
  • Narayanan, A., & Shmatikov, V. (2008). De-anonîmîzekirina zexm a databasên mezin. In Proceedings-2008 IEEE Sempozyuma Ewlehî û Taybetiyê, SP (rûpel 111-125)
  • Rêziknameya Parastina Daneyên Giştî (GDPR), Benda 26, Ji Daneyên Anonîm re Nabe