Waarom scoren modellen die zijn getraind op geanonimiseerde data slechter?
Klassieke anonimiseringstechnieken hebben gemeen dat ze originele data manipuleren om het traceren van individuen te verhinderen. Ze manipuleren data en vernietigen daarmee data in het proces. Hoe meer u anonimiseert, hoe beter uw data beschermd is, maar ook hoe meer uw data vernietigd wordt.
Dit is vooral verwoestend voor AI- en modelleringstaken waarbij "voorspellende kracht" essentieel is, omdat data van slechte kwaliteit zullen resulteren in slechte inzichten van het AI-model. SAS heeft dit aangetoond met een oppervlakte onder de curve (AUC*) van bijna 0.5, wat aantoont dat de modellen die zijn getraind op geanonimiseerde data veruit het slechtst presteren.
