Γιατί η κλασική ανωνυμοποίηση (και ψευδωνυμοποίηση) δεν καταλήγει σε ανώνυμα δεδομένα

Τι είναι η κλασική ανωνυμοποίηση;

Με την κλασική ανωνυμοποίηση, υπονοούμε όλες τις μεθοδολογίες όπου κάποιος χειρίζεται ή στρεβλώνει ένα αρχικό σύνολο δεδομένων για να εμποδίσει τον εντοπισμό ατόμων.

Χαρακτηριστικά παραδείγματα κλασικής ανωνυμοποίησης που βλέπουμε στην πράξη είναι η γενίκευση, η καταστολή / σκούπισμα, η ψευδωνυμοποίηση και το ανακάτεμα γραμμών και στηλών.

Εδώ οι τεχνικές με αντίστοιχα παραδείγματα.

Τεχνική Αρχικά δεδομένα Χειρισμένα δεδομένα
Γενίκευση 27 ετών Από 25 έως 30 ετών
Καταστολή / Σκούπισμα info@syntho.ai xxxx@xxxxxx.xx
Ψευδωνυμοποίηση Άμστερνταμ hVFD6td3jdHHj78ghdgrewui6
Ανακάτεμα γραμμής και στήλης Ευθυγραμμισμένος Ανακατεμένο

Ποια είναι τα μειονεκτήματα της κλασικής ανωνυμοποίησης;

Ο χειρισμός ενός συνόλου δεδομένων με κλασικές τεχνικές ανωνυμοποίησης έχει ως αποτέλεσμα 2 βασικά μειονεκτήματα:

  1. Η παραμόρφωση ενός συνόλου δεδομένων οδηγεί σε μειωμένη ποιότητα δεδομένων (δηλ. Χρησιμότητα δεδομένων). Αυτό εισάγει την κλασική αρχή απορριμμάτων απορριμμάτων.
  2. Κίνδυνος απορρήτου θα μειωθεί, αλλά θα είναι πάντα παρώνΤο Παραμένει και χειρίζεται την έκδοση του αρχικού συνόλου δεδομένων με σχέσεις 1-1.

Σας παρουσιάζουμε αυτά τα δύο βασικά μειονεκτήματα, τη χρησιμότητα δεδομένων και την προστασία της ιδιωτικής ζωής. Το κάνουμε με την ακόλουθη εικόνα με εφαρμοσμένη καταστολή και γενίκευση.

Σημείωση: χρησιμοποιούμε εικόνες για επεξηγηματικούς σκοπούς. Η ίδια αρχή ισχύει για δομημένα σύνολα δεδομένων.

Η κλασική ανωνυμοποίηση αποτυγχάνει
  • Αριστερά: μικρή εφαρμογή κλασικής ανωνυμοποίησης έχει ως αποτέλεσμα μια αντιπροσωπευτική εικονογράφηση. Ωστόσο, το άτομο μπορεί εύκολα να αναγνωριστεί και ο κίνδυνος απορρήτου είναι σημαντικός.

 

  • Δεξιά: η αυστηρή εφαρμογή της κλασικής ανωνυμοποίησης έχει ως αποτέλεσμα την ισχυρή προστασία της ιδιωτικής ζωής. Ωστόσο, η εικονογράφηση καθίσταται άχρηστη.

Οι κλασικές τεχνικές ανωνυμοποίησης προσφέρουν έναν μη βέλτιστο συνδυασμό μεταξύ χρησιμότητας δεδομένων και προστασίας απορρήτου.

Αυτό εισάγει την αντιστάθμιση μεταξύ χρησιμότητας δεδομένων και προστασίας της ιδιωτικής ζωής, όπου οι κλασικές τεχνικές ανωνυμοποίησης προσφέρουν πάντα έναν μη βέλτιστο συνδυασμό και των δύο. 

κλασική καμπύλη χρησιμότητας ανωνυμοποίησης

Είναι η κατάργηση όλων των άμεσων αναγνωριστικών (όπως τα ονόματα) από το σύνολο δεδομένων μια λύση;

Όχι. Αυτή είναι μια μεγάλη παρανόηση και δεν καταλήγει σε ανώνυμα δεδομένα. Εξακολουθείτε να το εφαρμόζετε ως τρόπο ανωνυμοποίησης του συνόλου δεδομένων σας; Τότε αυτό το ιστολόγιο πρέπει να διαβαστεί για εσάς.

Πώς διαφέρει το Synthetic Data;

Ο Syntho αναπτύσσει λογισμικό για τη δημιουργία ενός εντελώς νέου συνόλου νέων εγγραφών δεδομένων. Οι πληροφορίες για τον προσδιορισμό πραγματικών ατόμων απλώς δεν υπάρχουν σε ένα συνθετικό σύνολο δεδομένων. Δεδομένου ότι τα συνθετικά δεδομένα περιέχουν τεχνητές εγγραφές δεδομένων που δημιουργούνται από λογισμικό, τα προσωπικά δεδομένα απλά δεν υπάρχουν με αποτέλεσμα μια κατάσταση χωρίς κινδύνους απορρήτου.

Η βασική διαφορά στο Syntho: εφαρμόζουμε μηχανική μάθηση. Κατά συνέπεια, η λύση μας αναπαράγει τη δομή και τις ιδιότητες του αρχικού συνόλου δεδομένων στο συνθετικό σύνολο δεδομένων με αποτέλεσμα τη μεγιστοποίηση της χρησιμότητας δεδομένων. Κατά συνέπεια, θα μπορείτε να λάβετε τα ίδια αποτελέσματα κατά την ανάλυση των συνθετικών δεδομένων σε σύγκριση με τη χρήση των αρχικών δεδομένων.

Αυτή η μελέτη περίπτωσης παρουσιάζει τις καλύτερες στιγμές από την αναφορά ποιότητας που περιέχει διάφορα στατιστικά στοιχεία από συνθετικά δεδομένα που παράγονται μέσω του Syntho Engine σε σύγκριση με τα αρχικά δεδομένα.

Συμπερασματικά, τα συνθετικά δεδομένα είναι η προτιμώμενη λύση για να ξεπεραστεί η τυπική υποβέλτιστη ανταλλαγή μεταξύ χρησιμότητας δεδομένων και προστασίας απορρήτου, που σας προσφέρουν όλες οι κλασικές τεχνικές ανωνυμοποίησης.

κλασική καμπύλη χρησιμότητας ανωνυμοποίησης

Λοιπόν, γιατί να χρησιμοποιείτε πραγματικά (ευαίσθητα) δεδομένα όταν μπορείτε να χρησιμοποιήσετε συνθετικά δεδομένα;

Συμπερασματικά, από την άποψη της χρησιμότητας δεδομένων και της προστασίας της ιδιωτικής ζωής, θα πρέπει πάντα να επιλέγετε συνθετικά δεδομένα όταν το επιτρέπει η περίπτωση χρήσης σας.

 Αξία για ανάλυσηΚίνδυνος απορρήτου
Συνθετικά δεδομέναΨηλάΚανένας
Πραγματικά (προσωπικά) δεδομέναΨηλάΨηλά
Χειρισμένα δεδομένα (μέσω κλασικής «ανωνυμοποίησης»)Χαμηλή-ΜεσαίαMedium-High
ιδέα

Τα συνθετικά δεδομένα του Syntho καλύπτουν τα κενά όπου οι κλασικές τεχνικές ανωνυμοποίησης υπολείπονται μεγιστοποιώντας και τα δύο βοηθητικό πρόγραμμα δεδομένων και  προστασία προσωπικών δεδομένων.

Ενδιαφέρεστε;

Εξερευνήστε την προστιθέμενη αξία των Συνθετικών Δεδομένων μαζί μας