匿名化されたデータでトレーニングされたモデルのスコアが悪化するのはなぜですか?
従来の匿名化技術に共通するのは、個人の追跡を阻止するために元のデータを操作するという点です。これらの技術では、データを操作することで、その過程でデータが破壊されます。匿名化が進むほど、データの保護は強化されますが、破壊されるデータも増えます。
これは、「予測力」が不可欠な AI およびモデリング タスクにとって特に壊滅的です。品質の悪いデータは AI モデルから得られる洞察の質を低下させるからです。SAS はこれを実証し、曲線下面積 (AUC*) が 0.5 に近づき、匿名化されたデータでトレーニングされたモデルのパフォーマンスがはるかに悪いことを証明しました。
