Với tính năng ẩn danh cổ điển, chúng tôi ngụ ý tất cả các phương pháp mà người ta thao túng hoặc bóp méo tập dữ liệu gốc để cản trở việc truy tìm lại các cá nhân.
Các ví dụ điển hình của ẩn danh cổ điển mà chúng ta thấy trong thực tế là tổng quát hóa, loại bỏ / xóa, giả danh và xáo trộn hàng và cột.
Dưới đây là các kỹ thuật với các ví dụ tương ứng.
Kỹ thuật | Dữ liệu gốc | Dữ liệu bị điều khiển |
Khái quát | 27 tuổi | Từ 25 đến 30 tuổi |
Ức chế / Xóa sạch | info@syntho.ai | xxxx@xxxxxx.xx |
Bút danh | Amsterdam | hVFD6td3jdHHj78ghdgrehui6 |
Hàng và cột xáo trộn | Căn chỉnh | Xáo trộn |
Thao tác tập dữ liệu với các kỹ thuật ẩn danh cổ điển dẫn đến 2 nhược điểm chính:
Chúng tôi chứng minh 2 nhược điểm chính đó là tiện ích dữ liệu và bảo vệ quyền riêng tư. Chúng tôi làm điều đó với hình minh họa sau đây với áp dụng triệt tiêu và tổng quát hóa.
Lưu ý: chúng tôi sử dụng hình ảnh cho mục đích minh họa. Nguyên tắc tương tự cũng áp dụng cho các tập dữ liệu có cấu trúc.
Điều này dẫn đến sự đánh đổi giữa tiện ích dữ liệu và bảo vệ quyền riêng tư, trong đó các kỹ thuật ẩn danh cổ điển luôn cung cấp sự kết hợp tối ưu của cả hai.
Không. Đây là một quan niệm sai lầm lớn và không dẫn đến dữ liệu ẩn danh. Bạn có còn áp dụng cách này để ẩn danh tập dữ liệu của mình không? Sau đó, blog này là phải đọc cho bạn.
Syntho phát triển phần mềm để tạo ra một tập dữ liệu hoàn toàn mới gồm các bản ghi dữ liệu mới. Thông tin để xác định các cá nhân thực chỉ đơn giản là không có trong một tập dữ liệu tổng hợp. Vì dữ liệu tổng hợp chứa các bản ghi dữ liệu nhân tạo do phần mềm tạo ra, dữ liệu cá nhân chỉ đơn giản là không có mặt dẫn đến tình huống không có rủi ro về quyền riêng tư.
Điểm khác biệt chính tại Syntho: chúng tôi áp dụng học máy. Do đó, giải pháp của chúng tôi tái tạo cấu trúc và thuộc tính của tập dữ liệu gốc trong tập dữ liệu tổng hợp, dẫn đến tối đa hóa tiện ích dữ liệu. Theo đó, bạn sẽ có thể thu được kết quả tương tự khi phân tích dữ liệu tổng hợp so với khi sử dụng dữ liệu gốc.
Nghiên cứu điển hình này thể hiện những điểm nổi bật từ báo cáo chất lượng của chúng tôi chứa nhiều thống kê khác nhau từ dữ liệu tổng hợp được tạo thông qua Công cụ Syntho của chúng tôi so với dữ liệu gốc.
Kết luận, dữ liệu tổng hợp là giải pháp ưu tiên để vượt qua sự đánh đổi dưới mức tối ưu điển hình giữa tiện ích dữ liệu và bảo vệ quyền riêng tư, mà tất cả các kỹ thuật ẩn danh cổ điển cung cấp cho bạn.
Tóm lại, từ góc độ tiện ích dữ liệu và bảo vệ quyền riêng tư, người ta phải luôn chọn dữ liệu tổng hợp khi trường hợp sử dụng của bạn cho phép.
Giá trị để phân tích | Rủi ro về quyền riêng tư | |
Dữ liệu tổng hợp | Cao | Không áp dụng |
Dữ liệu thực (cá nhân) | Cao | Cao |
Dữ liệu bị thao túng (thông qua 'ẩn danh' cổ điển) | Low-Medium | Medium-High |
Dữ liệu tổng hợp của Syntho lấp đầy khoảng trống mà các kỹ thuật ẩn danh cổ điển bị thiếu hụt bằng cách tối đa hóa cả hai tiện ích dữ liệu và bảo vệ quyền riêng tư.