הערכה חיצונית של הנתונים הסינתטיים שלנו על ידי מומחי הנתונים של SAS

הנתונים הסינתטיים שלנו הם מוֹעֳרָך ו מאושר על ידי מומחי הנתונים של SAS

מבוא להערכה החיצונית של הנתונים הסינתטיים שלנו על ידי מומחי הנתונים של SAS

מה עשינו?

נתונים סינתטיים שנוצרו על ידי Syntho מוערכים, מאומתים ומאושרים מנקודת מבט חיצונית ואובייקטיבית על ידי מומחי הנתונים של SAS.

מדוע הנתונים הסינתטיים שלנו מוערכים חיצונית על ידי מומחי הנתונים של SAS?

למרות ש-Syntho גאה להציע למשתמשים שלה דוח אבטחת איכות מתקדם, אנו מבינים גם את החשיבות של הערכה חיצונית ואובייקטיבית של הנתונים הסינתטיים שלנו ממובילי התעשייה. זו הסיבה שאנו משתפים פעולה עם SAS, המובילה באנליטיקה, כדי להעריך את הנתונים הסינתטיים שלנו.

SAS עורכת הערכות יסודיות שונות על דיוק הנתונים, הגנת הפרטיות והשימושיות של הנתונים הסינטטיים שנוצרו על ידי AI של Syntho בהשוואה לנתונים המקוריים. לסיכום, SAS העריכה ואישרה את הנתונים הסינתטיים של Syntho כמדויקים, מאובטחים ושמישים בהשוואה לנתונים המקוריים.

מה עשתה SAS במהלך הערכה זו?

השתמשנו בנתוני טלקום המשמשים לחיזוי "נטישה" כנתוני יעד. מטרת ההערכה הייתה להשתמש בנתונים סינתטיים כדי להכשיר מודלים שונים של חיזוי נטישה ולהעריך את הביצועים של כל מודל. מכיוון שחיזוי נטישה היא משימת סיווג, SAS בחרה דגמי סיווג פופולריים כדי לבצע את התחזיות, כולל:

  1. יער אקראי
  2. הגברת שיפוע
  3. רגרסיה לוגיסטית
  4. רשת נוירונים

לפני הפקת הנתונים הסינתטיים, SAS פיצלה באופן אקראי את מערך הטלקום לסט רכבות (להכשרת המודלים) ולסט מחזיק (לניקוד המודלים). ערכת החזקה נפרדת לניקוד מאפשרת הערכה בלתי משוחדת של מידת היעילות של מודל הסיווג כשהוא מיושם על נתונים חדשים.

באמצעות מערכת הרכבות כקלט, Syntho השתמשה ב-Syntho Engine שלה כדי ליצור מערך נתונים סינתטי. לצורך השוואת ביצועים, SAS יצרה גם גרסה אנונימית של מערך הרכבות לאחר יישום טכניקות אנונימיזציה שונות כדי להגיע לסף מסוים (של k-אנונימיות). השלבים הקודמים הובילו לארבעה מערכי נתונים:

  1. מערך נתונים של רכבת (כלומר מערך הנתונים המקורי פחות מערך הנתונים החזק)
  2. מערך נתונים מחזיק (כלומר תת-קבוצה של מערך הנתונים המקורי)
  3. מערך נתונים אנונימי (נתונים אנונימיים של מערך הרכבת, מערך נתונים מקורי פחות מערך הנתונים החזק)
  4. מערך נתונים סינתטי (נתונים מסונתזים של מערך הרכבת, מערך נתונים מקורי פחות מערך הנתונים החזק)

ערכות נתונים 1, 3 ו-4 שימשו להכשרת כל מודל סיווג, וכתוצאה מכך 12 (3 על 4) מודלים מאומנים. SAS השתמשה לאחר מכן במערך הנתונים של holdout כדי למדוד את הדיוק של כל מודל בחיזוי נטישת לקוחות.

SAS עורכת הערכות יסודיות שונות על דיוק הנתונים, הגנת הפרטיות והשימושיות של הנתונים הסינטטיים שנוצרו על ידי AI של Syntho בהשוואה לנתונים המקוריים. לסיכום, SAS העריכה ואישרה את הנתונים הסינתטיים של Syntho כמדויקים, מאובטחים ושמישים בהשוואה לנתונים המקוריים.

יש לך שאלות?

דבר עם אחד המומחים שלנו

תוצאות ראשוניות של הערכת הנתונים על ידי SAS

מודלים שהוכשרו על נתונים סינתטיים ציונים דומים מאוד בהשוואה למודלים שהוכשרו על נתונים מקוריים

נתונים סינתטיים מ-Syntho מחזיקים לא רק עבור דפוסים בסיסיים, הם גם לוכדים דפוסים סטטיסטיים 'מוסתרים' עמוקים הנדרשים למשימות ניתוח מתקדמות. זה האחרון מודגם בתרשים העמודות, המצביע על כך שהדיוק של מודלים שהוכשרו על נתונים סינתטיים לעומת מודלים שהוכשרו על נתונים מקוריים דומים. לפיכך, ניתן להשתמש בנתונים סינתטיים להדרכה בפועל של הדגמים. התשומות והחשיבות המשתנה שנבחרו על ידי האלגוריתמים על נתונים סינתטיים בהשוואה לנתונים מקוריים היו דומים מאוד. מכאן, המסקנה היא שתהליך המידול יכול להיעשות על נתונים סינתטיים, כחלופה לשימוש בנתונים רגישים אמיתיים.

מדוע מודלים שהוכשרו על נתונים אנונימיים מקבלים ציון גרוע יותר?

לטכניקות אנונימיזציה קלאסיות המשותף הוא שהן מבצעות מניפולציות בנתונים מקוריים על מנת למנוע מעקב אחר אנשים. הם מבצעים מניפולציות בנתונים ובכך משמידים נתונים בתהליך. ככל שתעשי יותר אנונימיות, כך הנתונים שלך מוגנים טוב יותר, אך גם הנתונים שלך נהרסים יותר. זה הרסני במיוחד עבור משימות בינה מלאכותית ומידול שבהן "כוח חיזוי" הוא חיוני, כי נתונים באיכות ירודה יגרמו לתובנות רעות ממודל ה-AI. SAS הדגימה זאת, עם שטח מתחת לעקומה (AUC*) קרוב ל-0.5, מה שהוכיח שהמודלים שאומנו על נתונים אנונימיים מתפקדים בצורה הגרועה ביותר.

תוצאות נוספות של הערכות נתונים סינתטיים על ידי SAS

תוצאות נוספות של הערכות נתונים סינתטיים על ידי SAS

המתאמים והקשרים בין משתנים נשמרו במדויק בנתונים סינתטיים.

השטח מתחת לעקומה (AUC), מדד למדידת ביצועי המודל, נשאר עקבי.

יתרה מזאת, חשיבות המשתנה, שהצביעה על כוח הניבוי של משתנים במודל, נותרה בעינה בהשוואה בין נתונים סינתטיים למערך הנתונים המקורי.

בהתבסס על תצפיות אלה על ידי SAS ועל ידי שימוש ב-SAS Viya, אנו יכולים להסיק בביטחון כי נתונים סינתטיים שנוצרו על ידי מנוע Syntho אכן משתווים לנתונים אמיתיים מבחינת איכות. זה מאמת את השימוש בנתונים סינתטיים לפיתוח מודלים, וסוללת את הדרך לניתוח מתקדם עם נתונים סינתטיים.

מסקנות של מומחי הנתונים של SAS

לוגו של סאס

הנתונים הסינתטיים שלנו הם מאושר על ידי מומחי הנתונים של SAS

מאמרי עזר

כיסוי מדריך סינתו

שמור את מדריך הנתונים הסינתטיים שלך עכשיו!