Kial klasika anonimigo (kaj pseŭdonimigo) ne rezultigas anonimajn datumojn

Kio estas klasika anonimigo?

Kun klasika anonimigo, ni implicas ĉiujn metodojn, kie oni manipulas aŭ distordas originalan datumaron por malhelpi spuradon de individuoj.

Tipaj ekzemploj de klasika anonimigo, kiujn ni vidas praktike, estas ĝeneraligo, subpremado / forviŝado, pseŭdonimigo kaj vico kaj kolumno intermiksado.

Ĉi-maniere tiuj teknikoj kun respondaj ekzemploj.

tekniko Originalaj datumoj Manipulitaj datumoj
Ĝeneraligo 27-jaraĝa Inter 25 kaj 30 jaroj
Subpremado / Viŝado info@syntho.ai xxxx@xxxxxx.xx
Pseŭdonimigo Amsterdamo hVFD6td3jdHHj78ghdgrewui6
Vico kaj kolumno intermiksiĝas Vicigita Intermiksita

Kiaj estas la malavantaĝoj de klasika anonimigo?

Manipulado de datumbazo per klasikaj anonimigaj teknikoj rezultigas 2 ŝlosilajn malavantaĝojn:

  1. Distordi datumaron rezultigas malpliigitan datuman kvaliton (t.e. datuma utileco). Ĉi tio enkondukas la klasikan principon de forĵetaĵa rubo.
  2. Privateca risko reduktiĝos, sed ĉiam ĉeestos. Ĝi restas kaj manipulis version de la originala datumaro kun 1-1 rilatoj.

Ni montras tiujn 2 ŝlosilajn malavantaĝojn, datuman utilecon kaj privatan protekton. Ni faras tion per la sekva ilustraĵo kun aplika subpremado kaj ĝeneraligo.

Noto: ni uzas bildojn por ilustraj celoj. La sama principo validas por strukturitaj datenserioj.

Klasika anonimigo malsukcesas
  • Maldekstra: malmulta apliko de klasika anonimigo rezultigas reprezentan ilustraĵon. Tamen la individuo povas facile esti identigita kaj privateca risko estas grava.

 

  • Uste: severa apliko de klasika anonimigo rezultigas fortan privatecan protekton. Tamen la ilustraĵo fariĝas senutila.

Klasikaj anonimigaj teknikoj ofertas suboptiman kombinaĵon inter datum-utila kaj privateca protekto.

Ĉi tio enkondukas la interŝanĝon inter datuma utileco kaj privateca protekto, kie klasikaj anonimigaj teknikoj ĉiam ofertas neoptiman kombinaĵon de ambaŭ. 

klasika anonimiga utileca kurbo

Ĉu forigo de ĉiuj rektaj identigiloj (kiel nomoj) de la datumaro estas solvo?

Ne. Ĉi tio estas granda miskompreno kaj ne rezultigas anonimajn datumojn. Ĉu vi ankoraŭ aplikas ĉi tion kiel maniero anonimigi vian datumaron? Tiam ĉi tiu blogo nepre legeblas por vi.

Kiel diferencas Sintezaj Datumoj?

Syntho disvolvas programojn por generi tute novan datumaron de freŝaj datumaj registroj. Informoj por identigi realajn individuojn simple ne ĉeestas en sinteza datumaro. Ĉar sintezaj datumoj enhavas artefaritajn datumajn registrojn generitajn de programoj, personaj datumoj simple ne ĉeestas rezultigante situacion sen privataj riskoj.

La ŝlosila diferenco ĉe Syntho: ni aplikas maŝinan lernadon. Sekve, nia solvo reproduktas la strukturon kaj ecojn de la originala datumaro en la sinteza datumaro rezultigante maksimuman datum-utilecon. Sekve, vi povos akiri la samajn rezultojn kiam vi analizos la sintezajn datumojn kompare kun uzi la originalajn datumojn.

Ĉi tiu kazesploro montras kulminaĵojn de nia kvalita raporto enhavanta diversajn statistikojn de sintezaj datumoj generitaj per nia Syntho Engine kompare al la originalaj datumoj.

Konklude, sintezaj datumoj estas la preferata solvo por superi la tipan sub-optimuman interŝanĝon inter datuma utileco kaj privateca protekto, kiun ĉiuj klasikaj anonimigaj teknikoj ofertas al vi.

klasika anonimiga utileca kurbo

Do kial uzi realajn (sentemajn) datumojn kiam vi povas uzi sintezajn datumojn?

Konklude, laŭ perspektiva datuma utileco kaj privateca protekto, oni ĉiam elektu sintezajn datumojn, kiam via uzokazo permesas tion.

 Valoro por analizoPrivateca risko
Sintezaj datumojaltaneniu
Realaj (personaj) datumojaltaalta
Manipulitaj datumoj (per klasika 'anonimigo')Malalta-MezaMez-Alta
ideo

Sintezaj datumoj de Syntho plenigas la malplenojn, kie klasikaj anonimigaj teknikoj mankas, maksimumigante ambaŭ datuma-utileco kaj privatec-protekto.

Interesita?

Esploru la aldonitan valoron de Sintezaj Datumoj kun ni