נתונים אנונימיים לעומת נתונים סינתטיים

אם תהפוך את הנתונים שלך לאנונימיים לפני ביצוע בדיקות נתונים של ניתוח נתונים, ישנם מספר גורמים שפועלים:

  1. כמעט בכל המקרים, עדיין ניתן לאתר נתונים אנונימיים ליחידים עקב שורות ספציפיות וייחודיות (למשל רשומות רפואיות)
  2. ככל שאתה עושה אנונימיות או הכללה, כך אתה משמיד יותר נתונים. זה מוריד את איכות הנתונים שלך ובכך את התובנות שלך
  3. אנונימיזציה פועלת בצורה שונה עבור פורמטים שונים של נתונים. זה אומר שזה לא ניתן להרחבה ויכול לקחת זמן רב

נתונים סינתטיים פותרים את כל החסרונות הללו ועוד. צפו בסרטון למטה כדי לראות מומחה ניתוח מ-SAS (מוביל שוק עולמי באנליטיקה) מסביר על ההערכה שלו לגבי ההבדל באיכות בין נתונים מקוריים, נתונים אנונימיים ונתונים סינתטיים שנוצרו על ידי Syntho.

סרטון זה נלכד מבית הקפה Syntho x SAS D[N]A בנושא נתונים סינתטיים שנוצרו על ידי בינה מלאכותית. מצא את הסרטון המלא כאן.

אדווין ואן אונן שלח מערך נתונים מקורי ל-Syntho וסנתזנו את מערך הנתונים. אבל השאלה הייתה גם: "מה יקרה אם נשווה נתונים סינתטיים לנתונים אנונימיים?" מכיוון שאתה מאבד מידע רב בנתונים אנונימיים, האם זה יקרה גם בעת סינתזה של מערך נתונים? התחלנו עם מערך נתונים מתעשיית הטלקומוניקציה עם 56.000 שורות ו-128 עמודות של מידע על נטייה של החברה. מערך הנתונים הזה היה מסונתז וגם אנונימי כך שאדווין יוכל להשוות סינתזה לאנונימיזציה. לאחר מכן, אדווין התחיל לדגמן באמצעות SAS Viya. הוא בנה כמה מודלים של נטייה על מערך הנתונים המקורי, תוך שימוש בטכניקות רגרסיה קלאסיות ועצי החלטה, אך גם בטכניקות מתוחכמות יותר כמו רשתות עצביות, הגברת גרדיאנט, יער אקראי - טכניקות מסוג זה. שימוש באפשרויות SAS Viya הסטנדרטיות בעת בניית הדגמים.

ואז, הגיע הזמן להסתכל על התוצאות. התוצאות היו מבטיחות מאוד עבור נתונים סינתטיים ולא עבור אנונימיזציה. עבור המומחים ללא לימוד מכונה בקהל, אנו מסתכלים על השטח שמתחת לעקומת ה-ROC מה שאומר משהו על הדיוק של המודל. בהשוואה בין הנתונים המקוריים לנתונים האנונימיים, אנו רואים שלמודל הנתונים המקורי יש שטח מתחת לעקומת ה-ROC של .8, וזה די טוב, עם זאת, לנתונים האנונימיים יש שטח מתחת לעקומת ROC של .6. משמעות הדבר היא שאנו מאבדים מידע רב עם המודל האנונימי כך שאתה מאבד הרבה כוח חיזוי.

אבל אז, השאלה היא מה לגבי נתונים סינתטיים? כאן, עשינו בדיוק את אותו הדבר, אבל במקום לעשות אנונימיות של הנתונים, סינתו סינתזה את הנתונים. כעת, אנו רואים שגם לנתונים המקוריים וגם לנתונים הסינתטיים יש שטח מתחת לעקומת ה-ROC של .8, שזה מאוד דומה. לא בדיוק זהה בגלל השונות, אבל מאוד דומה. המשמעות היא שהפוטנציאל של נתונים סינתטיים מבטיח מאוד - אדווין שמח מאוד על כך.

קבוצת אנשים מחייכת

הנתונים הם סינתטיים, אבל הצוות שלנו אמיתי!

צור קשר עם סינתו ואחד המומחים שלנו ייצור איתך קשר במהירות האור כדי לחקור את הערך של נתונים סינתטיים!