Dữ liệu ẩn danh so với dữ liệu tổng hợp

Nếu bạn ẩn danh dữ liệu của mình trước khi thực hiện kiểm tra dữ liệu về phân tích dữ liệu, thì có một số yếu tố sau:

  1. Trong hầu hết các trường hợp, dữ liệu ẩn danh vẫn có thể được truy xuất trở lại các cá nhân do các hàng cụ thể và duy nhất (ví dụ: hồ sơ y tế)
  2. Bạn càng ẩn danh hoặc tổng quát hóa, bạn càng phá hủy nhiều dữ liệu. Điều này làm giảm chất lượng dữ liệu của bạn và do đó, thông tin chi tiết của bạn
  3. Ẩn danh hoạt động khác nhau đối với các định dạng dữ liệu khác nhau. Điều này có nghĩa là nó không thể mở rộng và có thể rất tốn thời gian

Dữ liệu tổng hợp giải quyết tất cả những thiếu sót này và hơn thế nữa. Hãy xem video bên dưới để xem chuyên gia phân tích từ SAS (công ty dẫn đầu thị trường toàn cầu về phân tích) giải thích về đánh giá của anh ấy về sự khác biệt về chất lượng giữa dữ liệu gốc, dữ liệu ẩn danh và dữ liệu tổng hợp do Syntho tạo ra.

Video này được quay từ Syntho x SAS D [N] A Café về Dữ liệu Tổng hợp được Tạo bởi AI. Tìm toàn bộ video ở đây.

Edwin van Unen đã gửi một tập dữ liệu gốc cho Syntho và chúng tôi đã tổng hợp tập dữ liệu đó. Nhưng câu hỏi cũng là: "Điều gì sẽ xảy ra nếu chúng ta so sánh dữ liệu tổng hợp với dữ liệu ẩn danh?" Bởi vì bạn mất nhiều thông tin trong một dữ liệu ẩn danh, điều này cũng sẽ xảy ra khi tổng hợp một tập dữ liệu? Chúng tôi bắt đầu với một tập dữ liệu từ ngành viễn thông với 56.000 hàng và 128 cột thông tin liên quan đến công ty. Tập dữ liệu này vừa được tổng hợp vừa được ẩn danh để Edwin có thể so sánh quá trình tổng hợp với quá trình ẩn danh. Sau đó, Edwin bắt đầu lập mô hình bằng SAS Viya. Ông đã xây dựng một vài mô hình churn trên tập dữ liệu gốc, sử dụng các kỹ thuật hồi quy cổ điển và cây quyết định, nhưng cũng có các kỹ thuật phức tạp hơn như mạng nơ-ron, tăng cường độ dốc, rừng ngẫu nhiên - những loại kỹ thuật này. Sử dụng các tùy chọn SAS Viya tiêu chuẩn khi xây dựng mô hình.

Sau đó, đã đến lúc nhìn vào kết quả. Kết quả rất hứa hẹn đối với dữ liệu tổng hợp và không phải đối với ẩn danh. Đối với khán giả là các chuyên gia không sử dụng máy học, chúng tôi xem xét khu vực dưới đường cong ROC cho biết điều gì đó về độ chính xác của mô hình. So sánh dữ liệu gốc với dữ liệu ẩn danh, chúng ta thấy rằng mô hình dữ liệu gốc có diện tích nằm dưới đường cong ROC là .8, khá tốt, Tuy nhiên, dữ liệu ẩn danh có diện tích nằm dưới đường cong ROC là .6. Điều này có nghĩa là chúng tôi mất rất nhiều thông tin với mô hình ẩn danh, vì vậy bạn sẽ mất rất nhiều khả năng dự đoán.

Nhưng sau đó, câu hỏi đặt ra là dữ liệu tổng hợp thì sao? Ở đây, chúng tôi đã làm chính xác như vậy nhưng thay vì ẩn danh dữ liệu, Syntho đã tổng hợp dữ liệu. Bây giờ, chúng ta thấy cả dữ liệu gốc và dữ liệu tổng hợp đều có diện tích nằm dưới đường cong ROC là .8, rất giống nhau. Không hoàn toàn giống nhau do có thể thay đổi, nhưng rất giống nhau. Điều này có nghĩa là, tiềm năng của dữ liệu tổng hợp là rất hứa hẹn - Edwin rất vui vì điều này.

nhóm người mỉm cười

Dữ liệu là tổng hợp, nhưng nhóm của chúng tôi là có thật!

Liên hệ với Syntho và một trong những chuyên gia của chúng tôi sẽ liên hệ với bạn với tốc độ ánh sáng để khám phá giá trị của dữ liệu tổng hợp!