נתונים סינתטיים שנוצרו על ידי Syntho מוערכים, מאומתים ומאושרים מנקודת מבט חיצונית ואובייקטיבית על ידי מומחי הנתונים של SAS.
למרות ש-Syntho גאה להציע למשתמשים שלה דוח אבטחת איכות מתקדם, אנו מבינים גם את החשיבות של הערכה חיצונית ואובייקטיבית של הנתונים הסינתטיים שלנו ממובילי התעשייה. זו הסיבה שאנו משתפים פעולה עם SAS, המובילה באנליטיקה, כדי להעריך את הנתונים הסינתטיים שלנו.
SAS עורכת הערכות יסודיות שונות על דיוק הנתונים, הגנת הפרטיות והשימושיות של הנתונים הסינטטיים שנוצרו על ידי AI של Syntho בהשוואה לנתונים המקוריים. לסיכום, SAS העריכה ואישרה את הנתונים הסינתטיים של Syntho כמדויקים, מאובטחים ושמישים בהשוואה לנתונים המקוריים.
השתמשנו בנתוני טלקום המשמשים לחיזוי "נטישה" כנתוני יעד. מטרת ההערכה הייתה להשתמש בנתונים סינתטיים כדי להכשיר מודלים שונים של חיזוי נטישה ולהעריך את הביצועים של כל מודל. מכיוון שחיזוי נטישה היא משימת סיווג, SAS בחרה דגמי סיווג פופולריים כדי לבצע את התחזיות, כולל:
לפני הפקת הנתונים הסינתטיים, SAS פיצלה באופן אקראי את מערך הטלקום לסט רכבות (להכשרת המודלים) ולסט מחזיק (לניקוד המודלים). ערכת החזקה נפרדת לניקוד מאפשרת הערכה בלתי משוחדת של מידת היעילות של מודל הסיווג כשהוא מיושם על נתונים חדשים.
באמצעות מערכת הרכבות כקלט, Syntho השתמשה ב-Syntho Engine שלה כדי ליצור מערך נתונים סינתטי. לצורך השוואת ביצועים, SAS יצרה גם גרסה אנונימית של מערך הרכבות לאחר יישום טכניקות אנונימיזציה שונות כדי להגיע לסף מסוים (של k-אנונימיות). השלבים הקודמים הובילו לארבעה מערכי נתונים:
ערכות נתונים 1, 3 ו-4 שימשו להכשרת כל מודל סיווג, וכתוצאה מכך 12 (3 על 4) מודלים מאומנים. SAS השתמשה לאחר מכן במערך הנתונים של holdout כדי למדוד את הדיוק של כל מודל בחיזוי נטישת לקוחות.
SAS עורכת הערכות יסודיות שונות על דיוק הנתונים, הגנת הפרטיות והשימושיות של הנתונים הסינטטיים שנוצרו על ידי AI של Syntho בהשוואה לנתונים המקוריים. לסיכום, SAS העריכה ואישרה את הנתונים הסינתטיים של Syntho כמדויקים, מאובטחים ושמישים בהשוואה לנתונים המקוריים.
נתונים סינתטיים מ-Syntho מחזיקים לא רק עבור דפוסים בסיסיים, הם גם לוכדים דפוסים סטטיסטיים 'מוסתרים' עמוקים הנדרשים למשימות ניתוח מתקדמות. זה האחרון מודגם בתרשים העמודות, המצביע על כך שהדיוק של מודלים שהוכשרו על נתונים סינתטיים לעומת מודלים שהוכשרו על נתונים מקוריים דומים. לפיכך, ניתן להשתמש בנתונים סינתטיים להדרכה בפועל של הדגמים. התשומות והחשיבות המשתנה שנבחרו על ידי האלגוריתמים על נתונים סינתטיים בהשוואה לנתונים מקוריים היו דומים מאוד. מכאן, המסקנה היא שתהליך המידול יכול להיעשות על נתונים סינתטיים, כחלופה לשימוש בנתונים רגישים אמיתיים.
לטכניקות אנונימיזציה קלאסיות המשותף הוא שהן מבצעות מניפולציות בנתונים מקוריים על מנת למנוע מעקב אחר אנשים. הם מבצעים מניפולציות בנתונים ובכך משמידים נתונים בתהליך. ככל שתעשי יותר אנונימיות, כך הנתונים שלך מוגנים טוב יותר, אך גם הנתונים שלך נהרסים יותר. זה הרסני במיוחד עבור משימות בינה מלאכותית ומידול שבהן "כוח חיזוי" הוא חיוני, כי נתונים באיכות ירודה יגרמו לתובנות רעות ממודל ה-AI. SAS הדגימה זאת, עם שטח מתחת לעקומה (AUC*) קרוב ל-0.5, מה שהוכיח שהמודלים שאומנו על נתונים אנונימיים מתפקדים בצורה הגרועה ביותר.
המתאמים והקשרים בין משתנים נשמרו במדויק בנתונים סינתטיים.
השטח מתחת לעקומה (AUC), מדד למדידת ביצועי המודל, נשאר עקבי.
יתרה מזאת, חשיבות המשתנה, שהצביעה על כוח הניבוי של משתנים במודל, נותרה בעינה בהשוואה בין נתונים סינתטיים למערך הנתונים המקורי.
בהתבסס על תצפיות אלה על ידי SAS ועל ידי שימוש ב-SAS Viya, אנו יכולים להסיק בביטחון כי נתונים סינתטיים שנוצרו על ידי מנוע Syntho אכן משתווים לנתונים אמיתיים מבחינת איכות. זה מאמת את השימוש בנתונים סינתטיים לפיתוח מודלים, וסוללת את הדרך לניתוח מתקדם עם נתונים סינתטיים.