Ανώνυμα δεδομένα έναντι Συνθετικών δεδομένων

Εάν ανωνυμοποιήσετε τα δεδομένα σας προτού εκτελέσετε τη δοκιμή δεδομένων των αναλυτικών στοιχείων δεδομένων, υπάρχουν διάφοροι παράγοντες που παίζουν:

  1. Σχεδόν σε όλες τις περιπτώσεις, τα ανώνυμα δεδομένα μπορούν να εξακολουθήσουν να ανιχνεύονται σε άτομα λόγω συγκεκριμένων και μοναδικών σειρών (π.χ. ιατρικά αρχεία)
  2. Όσο περισσότερο ανωνυμοποιείτε ή γενικεύετε, τόσο περισσότερα δεδομένα καταστρέφετε. Αυτό μειώνει την ποιότητα των δεδομένων σας και, κατά συνέπεια, τις πληροφορίες σας
  3. Η ανωνυμοποίηση λειτουργεί διαφορετικά για διαφορετικές μορφές δεδομένων. Αυτό σημαίνει ότι δεν είναι επεκτάσιμο και μπορεί να είναι πολύ χρονοβόρο

Τα συνθετικά δεδομένα λύνουν όλες αυτές τις ελλείψεις και πολλά άλλα. Παρακολουθήστε το παρακάτω βίντεο για να δείτε έναν εμπειρογνώμονα αναλυτικών στοιχείων από τη SAS (παγκόσμιος ηγέτης στην αγορά αναλυτικών στοιχείων) να εξηγεί σχετικά με την εκτίμησή του σχετικά με τη διαφορά ποιότητας μεταξύ των αρχικών δεδομένων, των ανώνυμων δεδομένων και των συνθετικών δεδομένων που δημιουργεί η Syntho.

Αυτό το βίντεο τραβήχτηκε από το Syntho x SAS D[N]A Café σχετικά με τα συνθετικά δεδομένα που δημιουργούνται από AI. Βρείτε το πλήρες βίντεο εδώ.

Ο Edwin van Unen έστειλε ένα πρωτότυπο σύνολο δεδομένων στη Syntho και συνθέσαμε το σύνολο δεδομένων. Αλλά το ερώτημα ήταν επίσης: "Τι θα συμβεί αν συγκρίνουμε συνθετικά δεδομένα με ανώνυμα δεδομένα;" Επειδή χάνετε πολλές πληροφορίες σε ανώνυμα δεδομένα, θα συμβεί αυτό και κατά τη σύνθεση ενός συνόλου δεδομένων; Ξεκινήσαμε με ένα σύνολο δεδομένων από τον κλάδο των τηλεπικοινωνιών με 56.000 σειρές και 128 στήλες εταιρικών πληροφοριών. Αυτό το σύνολο δεδομένων συντέθηκε και ανωνυμοποιήθηκε, ώστε ο Edwin να μπορεί να συγκρίνει τη σύνθεση με την ανωνυμοποίηση. Στη συνέχεια, ο Edwin άρχισε να ασχολείται με το μόντελινγκ χρησιμοποιώντας το SAS Viya. Κατασκεύασε μερικά μοντέλα ανατροπής στο αρχικό σύνολο δεδομένων, χρησιμοποιώντας κλασικές τεχνικές παλινδρόμησης και δέντρα αποφάσεων, αλλά και πιο εξελιγμένες τεχνικές όπως νευρωνικά δίκτυα, ενίσχυση κλίσης, τυχαίο δάσος – αυτού του είδους οι τεχνικές. Χρήση των τυπικών επιλογών SAS Viya κατά την κατασκευή των μοντέλων.

Τότε, ήρθε η ώρα να δούμε τα αποτελέσματα. Τα αποτελέσματα ήταν πολλά υποσχόμενα για συνθετικά δεδομένα και όχι για ανωνυμοποίηση. Για τους ειδικούς που δεν μαθαίνουν μηχανικά στο κοινό, εξετάζουμε την περιοχή κάτω από την καμπύλη ROC που λέει κάτι για την ακρίβεια του μοντέλου. Συγκρίνοντας τα αρχικά δεδομένα με τα ανώνυμα δεδομένα, βλέπουμε ότι το αρχικό μοντέλο δεδομένων έχει μια περιοχή κάτω από την καμπύλη ROC 8, η οποία είναι αρκετά καλή. Ωστόσο, τα ανώνυμα δεδομένα έχουν μια περιοχή κάτω από την καμπύλη ROC 6. Αυτό σημαίνει ότι χάνουμε πολλές πληροφορίες με το ανώνυμα μοντέλο, έτσι χάνετε μεγάλη προγνωστική ισχύ.

Αλλά τότε, το ερώτημα είναι τι γίνεται με τα συνθετικά δεδομένα; Εδώ, κάναμε ακριβώς το ίδιο, αλλά αντί να ανωνυμοποιήσει τα δεδομένα, η Syntho συνέθεσε τα δεδομένα. Τώρα, βλέπουμε τόσο τα αρχικά δεδομένα όσο και τα συνθετικά δεδομένα να έχουν μια περιοχή κάτω από την καμπύλη ROC 8, η οποία είναι πολύ παρόμοια. Όχι ακριβώς το ίδιο λόγω μεταβλητότητας, αλλά πολύ παρόμοια. Αυτό σημαίνει ότι η δυνατότητα των συνθετικών δεδομένων είναι πολλά υποσχόμενη – ο Edwin είναι πολύ χαρούμενος για αυτό.

ομάδα ανθρώπων που χαμογελούν

Τα δεδομένα είναι συνθετικά, αλλά η ομάδα μας είναι πραγματική!

Επικοινωνήστε με τον Syntho και ένας από τους ειδικούς μας θα έρθει σε επαφή μαζί σας με την ταχύτητα του φωτός για να διερευνήσει την αξία των συνθετικών δεδομένων!