Ανώνυμα δεδομένα έναντι Συνθετικών δεδομένων

Εάν ανωνυμοποιήσετε τα δεδομένα σας προτού εκτελέσετε τη δοκιμή δεδομένων των αναλυτικών στοιχείων δεδομένων, υπάρχουν διάφοροι παράγοντες που παίζουν:

Σχεδόν σε όλες τις περιπτώσεις, τα ανώνυμα δεδομένα μπορούν να εξακολουθήσουν να ανιχνεύονται σε άτομα λόγω συγκεκριμένων και μοναδικών σειρών (π.χ. ιατρικά αρχεία)
Όσο περισσότερο ανωνυμοποιείτε ή γενικεύετε, τόσο περισσότερα δεδομένα καταστρέφετε. Αυτό μειώνει την ποιότητα των δεδομένων σας και, κατά συνέπεια, τις πληροφορίες σας
Η ανωνυμοποίηση λειτουργεί διαφορετικά για διαφορετικές μορφές δεδομένων. Αυτό σημαίνει ότι δεν είναι επεκτάσιμο και μπορεί να είναι πολύ χρονοβόρο

Τα συνθετικά δεδομένα λύνουν όλες αυτές τις ελλείψεις και πολλά άλλα. Παρακολουθήστε το παρακάτω βίντεο για να δείτε έναν εμπειρογνώμονα αναλυτικών στοιχείων από τη SAS (παγκόσμιος ηγέτης στην αγορά αναλυτικών στοιχείων) να εξηγεί σχετικά με την εκτίμησή του σχετικά με τη διαφορά ποιότητας μεταξύ των αρχικών δεδομένων, των ανώνυμων δεδομένων και των συνθετικών δεδομένων που δημιουργεί η Syntho.

Αυτό το βίντεο τραβήχτηκε από το Syntho x SAS D[N]A Café σχετικά με τα συνθετικά δεδομένα που δημιουργούνται από AI. Βρείτε το πλήρες βίντεο εδώ.

Ο Edwin van Unen έστειλε ένα πρωτότυπο σύνολο δεδομένων στη Syntho και συνθέσαμε το σύνολο δεδομένων. Αλλά το ερώτημα ήταν επίσης: "Τι θα συμβεί αν συγκρίνουμε συνθετικά δεδομένα με ανώνυμα δεδομένα;" Επειδή χάνετε πολλές πληροφορίες σε ανώνυμα δεδομένα, θα συμβεί αυτό και κατά τη σύνθεση ενός συνόλου δεδομένων; Ξεκινήσαμε με ένα σύνολο δεδομένων από τον κλάδο των τηλεπικοινωνιών με 56.000 σειρές και 128 στήλες εταιρικών πληροφοριών. Αυτό το σύνολο δεδομένων συντέθηκε και ανωνυμοποιήθηκε, ώστε ο Edwin να μπορεί να συγκρίνει τη σύνθεση με την ανωνυμοποίηση. Στη συνέχεια, ο Edwin άρχισε να ασχολείται με το μόντελινγκ χρησιμοποιώντας το SAS Viya. Κατασκεύασε μερικά μοντέλα ανατροπής στο αρχικό σύνολο δεδομένων, χρησιμοποιώντας κλασικές τεχνικές παλινδρόμησης και δέντρα αποφάσεων, αλλά και πιο εξελιγμένες τεχνικές όπως νευρωνικά δίκτυα, ενίσχυση κλίσης, τυχαίο δάσος – αυτού του είδους οι τεχνικές. Χρήση των τυπικών επιλογών SAS Viya κατά την κατασκευή των μοντέλων.

Τότε, ήρθε η ώρα να δούμε τα αποτελέσματα. Τα αποτελέσματα ήταν πολλά υποσχόμενα για συνθετικά δεδομένα και όχι για ανωνυμοποίηση. Για τους ειδικούς που δεν μαθαίνουν μηχανικά στο κοινό, εξετάζουμε την περιοχή κάτω από την καμπύλη ROC που λέει κάτι για την ακρίβεια του μοντέλου. Συγκρίνοντας τα αρχικά δεδομένα με τα ανώνυμα δεδομένα, βλέπουμε ότι το αρχικό μοντέλο δεδομένων έχει μια περιοχή κάτω από την καμπύλη ROC 8, η οποία είναι αρκετά καλή. Ωστόσο, τα ανώνυμα δεδομένα έχουν μια περιοχή κάτω από την καμπύλη ROC 6. Αυτό σημαίνει ότι χάνουμε πολλές πληροφορίες με το ανώνυμα μοντέλο, έτσι χάνετε μεγάλη προγνωστική ισχύ.

Αλλά τότε, το ερώτημα είναι τι γίνεται με τα συνθετικά δεδομένα; Εδώ, κάναμε ακριβώς το ίδιο, αλλά αντί να ανωνυμοποιήσει τα δεδομένα, η Syntho συνέθεσε τα δεδομένα. Τώρα, βλέπουμε τόσο τα αρχικά δεδομένα όσο και τα συνθετικά δεδομένα να έχουν μια περιοχή κάτω από την καμπύλη ROC 8, η οποία είναι πολύ παρόμοια. Όχι ακριβώς το ίδιο λόγω μεταβλητότητας, αλλά πολύ παρόμοια. Αυτό σημαίνει ότι η δυνατότητα των συνθετικών δεδομένων είναι πολλά υποσχόμενη – ο Edwin είναι πολύ χαρούμενος για αυτό.

Τα δεδομένα είναι συνθετικά, αλλά η ομάδα μας είναι πραγματική!

Επικοινωνήστε με τον Syntho και ένας από τους ειδικούς μας θα έρθει σε επαφή μαζί σας με την ταχύτητα του φωτός για να διερευνήσει την αξία των συνθετικών δεδομένων!

Τι είναι συνθετικά δεδομένα;

Έκθεση διασφάλισης ποιότητας

Εξωτερική αξιολόγηση από τη SAS

Συνθετικά δεδομένα χρονοσειρών

Σαρωτής PII

Συνθετικά εικονικά δεδομένα

Συνεπής χαρτογράφηση

Αποταυτοποίηση και σύνθεση

Συνθετικά δεδομένα βασισμένα σε κανόνες

Υπορύθμιση

Ανάπτυξη και ενοποίηση

Συνδετήρες καλωδίων

Εκτεταμένες λειτουργίες

Υποστηριζόμενα δεδομένα

Τεκμηρίωση χρήστη

Προγραμματίστε μια επίδειξη

Τιμοκατάλογος

Συνθετικά δεδομένα ως δεδομένα δοκιμής

Συνθετικά δεδομένα για αναλυτικά στοιχεία

Συνθετικά δεδομένα για κοινή χρήση δεδομένων

Συνθετικά δεδομένα για επίδειξη προϊόντων

Φροντίδα Υγείας

Υπηρεσίες

Δημόσιοι Οργανισμοί

Τεκμηρίωση χρήστη

Λευκές Βίβλοι και Οδηγοί

Blog

Webinars

Μελέτες Περιπτώσεων

Τιμοκατάλογος

Σχετικά με εμάς

Καριέρα

Ανώνυμα δεδομένα έναντι Συνθετικών δεδομένων

Τα δεδομένα είναι συνθετικά, αλλά η ομάδα μας είναι πραγματική!

Τι κάνουμε

Εταιρεία

Υποστηρικτικό υλικό

Ενημερωτικό δελτίο Syntho

Κυρίως μενού