Εξωτερική αξιολόγηση των συνθετικών μας δεδομένων από τους ειδικούς δεδομένων της SAS

Τα συνθετικά μας δεδομένα είναι αξιολόγηση και εγκεκριμένη από τους ειδικούς δεδομένων του SAS

Εισαγωγή στην εξωτερική αξιολόγηση των συνθετικών μας δεδομένων από τους ειδικούς δεδομένων της SAS

Τι κάναμε;

Τα συνθετικά δεδομένα που παράγονται από τη Syntho αξιολογούνται, επικυρώνονται και εγκρίνονται από εξωτερική και αντικειμενική σκοπιά από τους ειδικούς δεδομένων της SAS.

Γιατί τα συνθετικά μας δεδομένα αξιολογούνται εξωτερικά από τους ειδικούς δεδομένων της SAS;

Αν και η Syntho είναι περήφανη που προσφέρει στους χρήστες της μια προηγμένη αναφορά διασφάλισης ποιότητας, κατανοούμε επίσης τη σημασία της εξωτερικής και αντικειμενικής αξιολόγησης των συνθετικών δεδομένων μας από κορυφαίους κλάδους. Γι' αυτό συνεργαζόμαστε με την SAS, ηγέτη στην ανάλυση, για την αξιολόγηση των συνθετικών δεδομένων μας.

Η SAS διενεργεί διάφορες ενδελεχείς αξιολογήσεις σχετικά με την ακρίβεια των δεδομένων, την προστασία του απορρήτου και τη χρηστικότητα των συνθετικών δεδομένων που δημιουργούνται από την τεχνητή νοημοσύνη της Syntho σε σύγκριση με τα αρχικά δεδομένα. Ως συμπέρασμα, η SAS αξιολόγησε και ενέκρινε τα συνθετικά δεδομένα της Syntho ως ακριβή, ασφαλή και χρησιμοποιήσιμα σε σύγκριση με τα αρχικά δεδομένα.

Τι έκανε η SAS κατά τη διάρκεια αυτής της αξιολόγησης;

Ως δεδομένα στόχου χρησιμοποιήσαμε δεδομένα τηλεπικοινωνιών που χρησιμοποιούνται για την πρόβλεψη "ανατροπής". Ο στόχος της αξιολόγησης ήταν η χρήση συνθετικών δεδομένων για την εκπαίδευση διαφόρων μοντέλων πρόβλεψης ανατροπής και για την αξιολόγηση της απόδοσης κάθε μοντέλου. Καθώς η πρόβλεψη ανατροπής είναι μια εργασία ταξινόμησης, η SAS επέλεξε δημοφιλή μοντέλα ταξινόμησης για να κάνει τις προβλέψεις, όπως:

  1. Τυχαίο δάσος
  2. Ενίσχυση κλίσης
  3. Λογιστική παλινδρόμηση
  4. Νευρικό σύστημα

Πριν από τη δημιουργία των συνθετικών δεδομένων, η SAS διαχώρισε τυχαία το σύνολο δεδομένων τηλεπικοινωνιών σε ένα σύνολο τρένων (για την εκπαίδευση των μοντέλων) και ένα σύνολο συγκράτησης (για τη βαθμολόγηση των μοντέλων). Η ύπαρξη ξεχωριστού συνόλου βαθμολόγησης επιτρέπει μια αμερόληπτη αξιολόγηση του πόσο καλά μπορεί να είναι το μοντέλο ταξινόμησης όταν εφαρμόζεται σε νέα δεδομένα.

Χρησιμοποιώντας το σύνολο τρένου ως είσοδο, η Syntho χρησιμοποίησε το Syntho Engine της για να δημιουργήσει ένα συνθετικό σύνολο δεδομένων. Για τη συγκριτική αξιολόγηση, η SAS δημιούργησε επίσης μια ανωνυμοποιημένη έκδοση του συνόλου των αμαξοστοιχιών μετά την εφαρμογή διαφόρων τεχνικών ανωνυμοποίησης για να φτάσει σε ένα συγκεκριμένο όριο (k-ανωνυμίας). Τα προηγούμενα βήματα κατέληξαν σε τέσσερα σύνολα δεδομένων:

  1. Ένα σύνολο δεδομένων τρένου (δηλαδή το αρχικό σύνολο δεδομένων μείον το σύνολο δεδομένων κράτησης)
  2. Ένα σύνολο δεδομένων κράτησης (δηλαδή ένα υποσύνολο του αρχικού συνόλου δεδομένων)
  3. Ένα ανώνυμο σύνολο δεδομένων (ανώνυμα δεδομένα του συνόλου δεδομένων τρένου, αρχικό σύνολο δεδομένων μείον το σύνολο δεδομένων παραμονής)
  4. Ένα συνθετικό σύνολο δεδομένων (συνθετικά δεδομένα του συνόλου δεδομένων αμαξοστοιχίας, αρχικό σύνολο δεδομένων μείον το σύνολο δεδομένων συγκράτησης)

Τα σύνολα δεδομένων 1, 3 και 4 χρησιμοποιήθηκαν για την εκπαίδευση κάθε μοντέλου ταξινόμησης, με αποτέλεσμα 12 (3 x 4) εκπαιδευμένα μοντέλα. Στη συνέχεια, η SAS χρησιμοποίησε το σύνολο δεδομένων κράτησης για να μετρήσει την ακρίβεια κάθε μοντέλου στην πρόβλεψη της απόσυρσης πελατών.

Η SAS διενεργεί διάφορες ενδελεχείς αξιολογήσεις σχετικά με την ακρίβεια των δεδομένων, την προστασία του απορρήτου και τη χρηστικότητα των συνθετικών δεδομένων που δημιουργούνται από την τεχνητή νοημοσύνη της Syntho σε σύγκριση με τα αρχικά δεδομένα. Ως συμπέρασμα, η SAS αξιολόγησε και ενέκρινε τα συνθετικά δεδομένα της Syntho ως ακριβή, ασφαλή και χρησιμοποιήσιμα σε σύγκριση με τα αρχικά δεδομένα.

Έχετε ερωτήσεις;

Μιλήστε με έναν από τους ειδικούς μας

Τα αρχικά αποτελέσματα της αξιολόγησης δεδομένων από τη SAS

Τα μοντέλα που έχουν εκπαιδευτεί σε συνθετικά δεδομένα έχουν πολύ παρόμοια βαθμολογία σε σύγκριση με τα μοντέλα που έχουν εκπαιδευτεί σε πρωτότυπα δεδομένα

Τα συνθετικά δεδομένα από το Syntho δεν ισχύουν μόνο για βασικά μοτίβα, αλλά καταγράφουν επίσης βαθιά «κρυμμένα» στατιστικά μοτίβα που απαιτούνται για προηγμένες εργασίες ανάλυσης. Το τελευταίο καταδεικνύεται στο γράφημα ράβδων, υποδεικνύοντας ότι η ακρίβεια των μοντέλων που έχουν εκπαιδευτεί σε συνθετικά δεδομένα έναντι των μοντέλων που έχουν εκπαιδευτεί σε πρωτότυπα δεδομένα είναι παρόμοια. Ως εκ τούτου, τα συνθετικά δεδομένα μπορούν να χρησιμοποιηθούν για την πραγματική εκπαίδευση των μοντέλων. Οι είσοδοι και η μεταβλητή σημασία που επιλέχθηκαν από τους αλγόριθμους για συνθετικά δεδομένα σε σύγκριση με τα αρχικά δεδομένα ήταν πολύ παρόμοια. Ως εκ τούτου, συμπεραίνεται ότι η διαδικασία μοντελοποίησης μπορεί να γίνει σε συνθετικά δεδομένα, ως εναλλακτική λύση για τη χρήση πραγματικών ευαίσθητων δεδομένων.

Γιατί τα μοντέλα που έχουν εκπαιδευτεί σε ανώνυμα δεδομένα έχουν χειρότερη βαθμολογία;

Οι κλασικές τεχνικές ανωνυμοποίησης έχουν κοινό ότι χειραγωγούν τα αρχικά δεδομένα προκειμένου να εμποδίσουν τον εντοπισμό ατόμων. Χειρίζονται δεδομένα και ως εκ τούτου καταστρέφουν δεδομένα στη διαδικασία. Όσο περισσότερο ανωνυμοποιείτε, τόσο καλύτερα προστατεύονται τα δεδομένα σας, αλλά και τόσο περισσότερο καταστρέφονται τα δεδομένα σας. Αυτό είναι ιδιαίτερα καταστροφικό για εργασίες τεχνητής νοημοσύνης και μοντελοποίησης όπου η «προγνωστική ισχύς» είναι απαραίτητη, επειδή τα δεδομένα κακής ποιότητας θα οδηγήσουν σε κακές πληροφορίες από το μοντέλο AI. Η SAS το απέδειξε αυτό, με μια περιοχή κάτω από την καμπύλη (AUC*) κοντά στο 0.5, δείχνοντας ότι τα μοντέλα που έχουν εκπαιδευτεί σε ανώνυμα δεδομένα έχουν μακράν τη χειρότερη απόδοση.

Πρόσθετα αποτελέσματα αξιολογήσεων συνθετικών δεδομένων από τη SAS

Πρόσθετα αποτελέσματα αξιολογήσεων συνθετικών δεδομένων από τη SAS

Οι συσχετίσεις και οι σχέσεις μεταξύ των μεταβλητών διατηρήθηκαν με ακρίβεια σε συνθετικά δεδομένα.

Η περιοχή κάτω από την καμπύλη (AUC), μια μέτρηση για τη μέτρηση της απόδοσης του μοντέλου, παρέμεινε σταθερή.

Επιπλέον, η σημασία της μεταβλητής, η οποία έδειξε την προγνωστική ισχύ των μεταβλητών σε ένα μοντέλο, παρέμεινε άθικτη κατά τη σύγκριση των συνθετικών δεδομένων με το αρχικό σύνολο δεδομένων.

Με βάση αυτές τις παρατηρήσεις της SAS και χρησιμοποιώντας το SAS Viya, μπορούμε με βεβαιότητα να συμπεράνουμε ότι τα συνθετικά δεδομένα που παράγονται από το Syntho Engine είναι πράγματι ισοδύναμα με τα πραγματικά δεδομένα όσον αφορά την ποιότητα. Αυτό επικυρώνει τη χρήση συνθετικών δεδομένων για την ανάπτυξη μοντέλων, ανοίγοντας το δρόμο για προηγμένες αναλύσεις με συνθετικά δεδομένα.

Συμπεράσματα από τους ειδικούς δεδομένων της SAS

Λογότυπο Sas

Τα συνθετικά μας δεδομένα είναι εγκεκριμένη από τους ειδικούς δεδομένων της SAS

Άρθρα αναφοράς

συνθετικό κάλυμμα οδηγού

Αποθηκεύστε τον οδηγό συνθετικών δεδομένων σας τώρα!