Guess Who? Her çend ez piştrast im ku piraniya we vê lîstikê ji berê de nas dikin, li vir kurteyek paşîn. Armanca lîstikê: Navê karakterê kartonî yê ku ji hêla dijberê we ve hatî hilbijartin bi pirsîna pirsên 'erê' û 'na' kifş bikin, mînaka 'ew kes xalîçeyê li xwe dike?' an 'ew kes berçavkan li xwe dike'? Lîstikvan li ser bingeha bersiva dijber namzetan radikin û taybetmendiyên ku bi karakterê nepenî yê dijberê xwe ve têkildar dibin fêr dibin. Yekem lîstikvanê ku karakterê nepenî yê lîstikvanê din diyar dike lîstikê qezenc dike.
Te fam kir. Pêdivî ye ku meriv kesane ji daneyê bi tenê gihîştina taybetmendiyên têkildar nas bike. Bi rastî, em bi rêkûpêk vê têgîna Guess Who di pratîkê de sepandî dibînin, lê dûv re li ser databasên ku bi rêz û stûnên ku bi taybetmendiyên mirovên rastîn ve hatî format kirin de xebitîn. Cûdahiya sereke dema ku bi daneyan re dixebite ev e ku mirov bi hêsanî tenê çend heb taybetmendiyan re hêsantiriya ku ji hêla kesên rastîn ve têne xuyang kirin kêm dikin.
Wekî ku lîstika Guess Who şirove dike, kes dikare bi gihîştina tenê çend taybetmendiyan kesan nas bike. Ew wekî mînakek hêsan e ku çima rakirina tenê 'navan' (an nasnameyên dî yên yekser) ji daneya we wekî teknîkek anonîmîzekirinê têk diçe. Di vê tevnvîsê de, em çar dozên pratîkî peyda dikin ku we di derheqê xetereyên nepenîtiyê yên têkildarî rakirina stûnan de wekî amûrek anonîmîzasyona daneyê agahdar bikin.
Xetereya êrişên girêdanê sedema herî girîng e ku çima rakirina navan tenê wekî rêbaza anonîmîzekirinê (êdî) naxebite. Bi êrişek pêwendiyê, êrişker daneyên orîjînal bi çavkaniyên daneya gihîştî yên din re hevber dike da ku takekesek bêhempa nas bike û di derbarê vî kesî de agahdariya (pirî caran hesas) fêr bibe.
Li vir ya bingehîn hebûna çavkaniyên daneya din ên ku naha hene, an jî dibe ku di pêşerojê de hebin hene. Li ser xwe bifikirin. Çiqas daneyên weyên kesane yên we dikarin li ser Facebook, Instagram an LinkedIn werin dîtin ku dibe ku ji bo êrişek girêdanê potansiyel werin xirab kirin?
Di rojên berê de, peydabûna daneyan pir tixûbdar bû, ku ev yek hinekî diyar dike çima rakirina navan ji bo parastina nepenîtiya kesan bes bû. Daneyên kêm peyda dibin ji bo girêdana daneyan kêm derfet hene. Lêbelê, em naha (çalak) beşdarên aboriyek daneyê ne, ku hêjeya daneyê bi rêjeyek berbiçav zêde dibe. Daneyên bêtir, û çêtirkirina teknolojiya berhevkirina daneyan dê bibe sedema zêdebûna potansiyela êrişên girêdanê. Ma meriv di 10 salan de li ser xetereya êrîşa girêdanê çi dinivîse?
1 xuyang
Sweeney (2002) di kaxezek akademîk de destnîşan kir ka wê çawa dikaribû daneyên bijîjkî yên hesas ji kesan vebigere û li ser bingeha girêdana daneya gelemperî ya 'serdanên nexweşxaneyê' bi tomara dengdanê ya li Dewletên Yekbûyî re. Her du koma daneyan li cihê ku tê texmîn kirin ku bi navgîniya jêbirina navan û nasnameyên din ên yekser bi rêkûpêk bênavkirî ne.
2 xuyang
Li ser bingeha tenê sê parametreyan (1) Zip Code, (2) Zayend û (3) Dîroka Jidayikbûnê, wê destnîşan kir ku 87% ji tevahiya nifûsa Dewletên Yekbûyî dikare ji nû ve bi naskirina taybetmendiyên van her du daneyan were nas kirin. Dûv re Sweeney xebata xwe bi hebûna 'welat' wekî alternatîfek 'Zip Code' dubare kir. Wekî din, wê destnîşan kir ku 18% ji tevahiya nifûsa Dewletên Yekbûyî tenê bi gihîştina daneyek ku agahdariya di derbarê (1) welatê xwe, (2) zayend û (3) roja jidayikbûnê de heye dikare were nas kirin. Li ser çavkaniyên gelemperî yên jorîn, mîna Facebook, LinkedIn an Instagram bifikirin. Welat, zayend û roja jidayikbûna we diyar e, an bikarhênerên din dikarin jê derxînin?
3 xuyang
Nîv-nasname | % nifûsa Dewletên Yekbûyî (248 mîlyon) yekane naskirî |
5-reqemî ZIP, zayend, roja bûyînê | 87% |
cîh, zayend, roja bûyînê | 53% |
welat, zayend, roja bûyînê | 18% |
Ev mînak destnîşan dike ku pir hêsan e ku meriv di daneyên bi rengek nediyar de bênasname bike. Pêşîn, ev lêkolîn mezinahiyek mezin a xetereyê destnîşan dike, wek 87% ji nifûsa Dewletên Yekbûyî dikare bi hêsanî were bikar anîn çend taybetmendiyên. Ya duyemîn, di vê lêkolînê de daneyên bijîjkî yên eşkerekirî pir hesas bûn. Nimûneyên daneyên kesên vekirî ji daneya serdanên nexweşxaneyê etnîsîte, teşhîs û derman in. Taybetmendiyên ku meriv dikare wan ji pargîdaniyên bîmeyê ve veşêre.
Xetereyek din a rakirina tenê nasnameyên rasterast, wek navan, çêdibe dema ku kesên agahdar di derheqê taybetmendî an behra kesên taybetî yên di daneyê de xwedan zanyarî an agahiyek çêtir bin.. Li ser bingeha zanîna wan, dibe ku êrişkar hingê karibe tomarên daneyên taybetî bi mirovên rastîn ve girêbide.
Nimûneyek êrişek li ser daneyek ku zanyariyên jêhatî bikar tîne doza taksiya New York -ê ye, ku Atockar (2014) karibû kesên taybetî nexşandî bike. Daneya xebitandî hemî rêwîtiyên taksiyê yên li New York -ê vedihewand, bi taybetmendiyên bingehîn ên wekî koordînatên destpêkirinê, koordînatên dawîn, bihayê û sernavê rêwîtiyê dewlemend kirin.
Kesek agahdar ku dizane New York karibû rêwîtiyên taksiyê li klûba mezinan 'Hustler' bike. Bi fîlterkirina 'cîhê dawîn', wî navnîşanên destpêkê yên rastîn derxist û bi vî rengî mêvanên cihêreng ên cihêreng nas kir. Bi vî rengî, gava ku navnîşana malê ya kesane hate zanîn, meriv dikare siwarên taksiyê derxe. Dem û cîhê çend stêrkên fîlimê yên navdar li ser malperên gotegotan hatin dîtin. Piştî girêdana vê agahiyê bi daneya taksiyê ya NYC re, hêsan bû ku meriv siwarên wan ên taksiyê, mîqdara ku wan daye, û gelo wan gilî kiribe derxe.
4 xuyang
koordînatên drop-off Hustler
Bradley Cooper
Jessica Alba
Xêzek hevbeş a nîqaşê ev e 'ev daneya bêkêmasî ye' an 'kes bi van daneyan tiştek nikare bike'. Ev pir caran têgihîştinek çewt e. Tewra daneyên herî bêguneh jî dikarin 'şopa tiliyê' ya bêhempa pêk bînin û ji bo ji nû ve naskirina kesan were bikar anîn. Ew xetereya ku ji baweriya ku daneya bixwe bêkêmasî ye tê wergirtin, dema ku ne wusa be.
Xetereya nasnameyê dê bi zêdebûna daneyê, AI -yê, û amûr û algorîtmayên din ên ku vedîtina têkiliyên tevlihev ên di daneyê de zêde dike, zêde bibe. Ji ber vê yekê, tewra ku daneya weya niha nekare were eşkere kirin, û dibe ku îro ji bo kesên ne destûrdar bêkêr be, dibe ku sibê nebe.
Nimûneyek girîng ew e ku Netflix mebest kir ku beşa R&D ya xwe berhev bike û pêşbaziyek vekirî ya Netflix destnîşan bike da ku pergala pêşniyara fîlimê baştir bike. 'Yê ku algorîtmaya parzûnê ya hevkariyê baştir dike ku pêşbîniya nirxên bikarhêneran ji bo fîlman bike xelatek $ 1,000,000 $ digire'. Ji bo ku piştgiriyê bide girseyê, Netflix danegehek weşand ku tenê van taybetmendiyên bingehîn li jêr hene: userID, fîlim, tarîxa pola û pola (ji ber vê yekê bêtir agahdarî li ser bikarhêner an fîlim bixwe).
5 xuyang
UserID | Fîlm | Dîroka pola | Sinif |
123456789 | Mission mumkin nabe | 10-12-2008 | 4 |
Di veqetandinê de, daneyên pûç xuya bûn. Dema ku pirsa 'Di daneyê de agahdariya xerîdar heye ku divê ew nepenî bimîne?', Bersiv ev bû:
'Na, hemî agahdariya nasnameya xerîdar rakirin; tiştê ku dimîne nirx û tarîx in. Ev polîtîkaya nepenîtiya me dişopîne ... '
Lêbelê, Narayanan (2008) ji Zanîngeha Texas li Austin berevajî îsbat kir. Kombînasyona polan, tarîxa pola û fîlima kesek bixwe şopa tiliyek fîlmek bêhempa pêk tîne. Li ser behreya xweya Netflix bifikirin. Li gorî te çend kesan heman seta fîlman temaşe kir? Çend kesan heman seta fîlman di heman demê de temaşe kir?
Pirsa sereke, meriv çawa vê şopa tilikê li hev dike? Ew pir hêsan bû. Li ser bingeha agahdariya ji malpera navdar-nirxandina fîlimê IMDb (Databasa Fîlimên Internetnternetê), dibe ku şopek tiliyek wusa were çêkirin. Di encamê de, kes dikarin ji nû ve bêne nas kirin.
Digel ku dibe ku behreya temaşekirina fîlimê wekî agahdariya hesas neyê hesibandin, li ser tevgerê xwe bifikirin-gelo hûn ê bala xwe bidin ger ew gelemperî bibe? Nimûneyên ku Narayanan di kaxeza xwe de pêşkêş kiriye tercîhên siyasî ne (nirxandinên li ser 'Jesussa yê Nisretî' û 'Mizgîna Yûhenna') û tercîhên cinsî (nirxandinên li ser 'Bent' û 'Queer as folk') ku bi hêsanî têne qewirandin.
Dibe ku GDPR ne super-heyecan be, ne jî guleya zîv di nav mijarên tevnvîsê de. Lêbelê, arîkar e ku meriv dema ku daneyên kesane pêvajoyê dike rasterast pênaseyan bike. Ji ber ku ev blog di derbarê têgihîştina xelet a hevpar a rakirina stûnan de wekî awayek anonîmkirina daneyê û ji bo we wekî daneya daneyê perwerde dike ye, bila em bi vekolîna pênaseya anonîmîzasyonê ya li gorî GDPR dest pê bikin.
Li gorî benda 26 a ji GDPR, agahdariya nenaskirî ev e:
'agahdariya ku bi kesekî / a xwezayî ya naskirî an naskirî re têkildar nine an daneyên kesane yên ku bi rengek anonîm têne xuyang kirin bi vî rengî ku mijara daneyê ne an êdî nayê nas kirin.'
Ji ber ku yek daneya kesane ya ku bi kesek xwezayî ve têkildar dike pêvajo dike, tenê beşa 2 -an a pênaseyê têkildar e. Ji bo ku meriv li gorî danasînê tevbigere, pêdivî ye ku meriv pê ewle be ku mijara daneyê (kesane) ne naskirî ye an na. Wekî ku di vê tevnvîsê de hatî destnîşan kirin, lêbelê, naskirina kesan li ser bingeha çend taybetmendiyan pir ecêb hêsan e. Ji ber vê yekê, rakirina navan ji daneyek li gorî pênaseya anonîmîzasyona GDPR nake.
Me yekê ku bi gelemperî tête hesibandin û, mixabin, hîn jî bi gelemperî tê bikar anîn anonîmîzasyona daneyê: rakirina navan. Di lîstika Guess Who de û çar mînakên din ên di derbarê:
hat xuyakirin ku rakirina navan wekî bênavkirinê têk diçe. Her çend mînak dozên balkêş in, her yek hêsaniya ji nû ve naskirinê nîşan dide û bandora neyînî ya potansiyel li ser nepenîtiya kesan.
Di encamnameyê de, rakirina navan ji daneya we daneyên nediyar bi dest naxe. Ji ber vê yekê, em çêtir e ku em her du têgehan bi hevûdu bikar neynin. Ez ji dil hêvî dikim ku hûn ê vê nêzîkatiyê ji bo anonîmîzekirinê nekin. ,, Heke hûn hîn jî wiya dikin, pê ewle bine ku hûn û tîmê we xetereyên nepenîtiyê bi tevahî fam dikin, û destûr heye ku hûn wan xetereyan li ser navê kesên mexdûr qebûl bikin.
Bi Syntho re têkilî daynin û yek ji pisporên me dê bi leza tîrêjê bi we re têkeve têkiliyê da ku nirxa daneyên sentetîkî bikole!