נתונים סינתטיים שנוצרו בינה מלאכותית, גישה קלה ומהירה לנתונים באיכות גבוהה?

AI יצר נתונים סינתטיים בפועל

Syntho, מומחה לנתונים סינתטיים שנוצרו בינה מלאכותית, שואף לפנות privacy by design ליתרון תחרותי עם נתונים סינתטיים שנוצרו בינה מלאכותית. הם עוזרים לארגונים לבנות בסיס נתונים חזק עם גישה קלה ומהירה לנתונים באיכות גבוהה וזכו לאחרונה בפרס החדשנות של פיליפס.

עם זאת, יצירת נתונים סינתטיים עם AI הוא פתרון חדש יחסית שמציג בדרך כלל שאלות נפוצות. כדי לענות על אלה, Syntho פתחה מקרה בוחן יחד עם SAS, מובילת שוק בתוכנת אנליטיקה מתקדמת ובינה מלאכותית.

בשיתוף פעולה עם קואליציית ה-AI ההולנדית (NL AIC), הם חקרו את הערך של נתונים סינתטיים על ידי השוואת נתונים סינתטיים שנוצרו על ידי AI שנוצרו על ידי Syntho Engine עם נתונים מקוריים באמצעות הערכות שונות על איכות נתונים, תוקף משפטי ושימושיות.

האם אנונימיזציה של נתונים אינה פתרון?

לטכניקות אנונימיזציה קלאסיות המשותף הוא שהן מבצעות מניפולציות בנתונים מקוריים על מנת למנוע מעקב אחר אנשים. דוגמאות הן הכללה, דיכוי, מחיקה, פסאודונימיזציה, מיסוך נתונים וערבוב של שורות ועמודות. תוכל למצוא דוגמאות בטבלה למטה.

אנונימיזציה של נתונים

הטכניקות הללו מציגות 3 אתגרים מרכזיים:

  1. הם פועלים בצורה שונה לפי סוג נתונים ולכל מערך נתונים, מה שקשה להתאים אותם. יתר על כן, מכיוון שהם עובדים אחרת, תמיד יהיה ויכוח על אילו שיטות ליישם ואיזה שילוב של טכניקות נדרש.
  2. תמיד יש קשר אחד לאחד עם הנתונים המקוריים. משמעות הדבר היא שתמיד יהיה סיכון פרטיות, במיוחד בשל כל מערכי הנתונים הפתוחים והטכניקות הזמינות לקישור מערכי הנתונים הללו.
  3. הם מבצעים מניפולציות בנתונים ובכך משמידים נתונים בתהליך. זה הרסני במיוחד עבור משימות בינה מלאכותית שבהן "כוח חיזוי" חיוני, כי נתונים באיכות ירודה יגרמו לתובנות גרועות ממודל הבינה המלאכותית (הכנסת זבל תגרום להוצאת זבל).

נקודות אלו מוערכות גם באמצעות מחקר מקרה זה.

מבוא למקרה בוחן

עבור מחקר המקרה, מערך הנתונים היעד היה מערך נתונים טלקום שסופק על ידי SAS המכיל את הנתונים של 56.600 לקוחות. מערך הנתונים מכיל 128 עמודות, כולל עמודה אחת המציינת אם לקוח עזב את החברה (כלומר 'נפטר') או לא. מטרת המקרה הייתה להשתמש בנתונים הסינתטיים כדי להכשיר כמה מודלים כדי לחזות נטישה של לקוחות ולהעריך את הביצועים של אותם מודלים מאומנים. מכיוון שחיזוי נטישה היא משימת סיווג, SAS בחרה ארבעה דגמי סיווג פופולריים כדי לבצע את התחזיות, כולל:

  1. יער אקראי
  2. הגברת שיפוע
  3. רגרסיה לוגיסטית
  4. רשת נוירונים

לפני הפקת הנתונים הסינתטיים, SAS פיצלה באופן אקראי את מערך הטלקום לסט רכבות (להכשרת המודלים) ולסט מחזיק (לניקוד המודלים). ערכת החזקה נפרדת לניקוד מאפשרת הערכה בלתי משוחדת של ביצועי מודל הסיווג כשהוא מיושם על נתונים חדשים.

באמצעות ערכת הרכבות כקלט, Syntho השתמשה ב-Syntho Engine שלה כדי ליצור מערך נתונים סינתטי. לצורך השוואת ביצועים, SAS יצרה גם גרסה מטופלת של מערך הרכבות לאחר יישום טכניקות אנונימיזציה שונות כדי להגיע לסף מסוים (של k-אננומיות). השלבים הקודמים הובילו לארבעה מערכי נתונים:

  1. מערך נתונים של רכבת (כלומר מערך הנתונים המקורי פחות מערך הנתונים החזק)
  2. מערך נתונים מחזיק (כלומר תת-קבוצה של מערך הנתונים המקורי)
  3. מערך נתונים אנונימי (מבוסס על מערך הנתונים של הרכבת)
  4. מערך נתונים סינתטי (מבוסס על מערך הנתונים של הרכבת)

ערכות נתונים 1, 3 ו-4 שימשו להכשרת כל מודל סיווג, וכתוצאה מכך 12 (3 x 4) מודלים מאומנים. SAS השתמשה לאחר מכן במערך הנתונים של holdout כדי למדוד את הדיוק שבו כל מודל חוזה נטישה של לקוחות. התוצאות מוצגות להלן, מתחילות בכמה סטטיסטיקות בסיסיות.

צינור למידת מכונה שנוצר ב-SAS

איור: צינור למידת מכונה שנוצר ב-SAS Visual Data Mining ו-Machine Learning

נתונים סטטיסטיים בסיסיים בעת השוואת נתונים אנונימיים לנתונים מקוריים

טכניקות אנונימיזציה הורסים אפילו דפוסים בסיסיים, היגיון עסקי, מערכות יחסים וסטטיסטיקה (כמו בדוגמה למטה). שימוש בנתונים אנונימיים לצורך ניתוח בסיסי מייצר תוצאות לא אמינות. למעשה, האיכות הירודה של הנתונים האנונימיים גרמה לכך שכמעט בלתי אפשרי להשתמש בהם למשימות ניתוח מתקדמות (כגון מודלים של AI/ML ודשבורד).

השוואת נתונים אנונימיים לנתונים מקוריים

נתונים סטטיסטיים בסיסיים בעת השוואת נתונים סינתטיים לנתונים מקוריים

יצירת נתונים סינתטיים עם AI משמרת דפוסים בסיסיים, היגיון עסקי, קשרים וסטטיסטיקות (כמו בדוגמה למטה). שימוש בנתונים סינתטיים לניתוח בסיסי מייצר תוצאות אמינות. שאלת מפתח, האם נתונים סינתטיים מתקיימים עבור משימות ניתוח מתקדמות (למשל מודלים של AI/ML ודשבורד)?

השוואת נתונים סינתטיים לנתונים מקוריים

נתונים סינתטיים שנוצרו על ידי בינה מלאכותית וניתוחים מתקדמים

נתונים סינתטיים מתקיימים לא רק עבור דפוסים בסיסיים (כפי שמוצג בעלילות הקודמות), הם גם לוכדים דפוסים סטטיסטיים 'מוסתרים' עמוקים הנדרשים למשימות ניתוח מתקדמות. זה האחרון מודגם בתרשים העמודות שלהלן, המצביע על כך שהדיוק של מודלים שהוכשרו על נתונים סינתטיים לעומת מודלים שהוכשרו על נתונים מקוריים דומים. יתר על כן, עם שטח מתחת לעקומה (AUC*) קרוב ל-0.5, המודלים שאומנו על נתונים אנונימיים מתפקדים בצורה הגרועה ביותר. הדוח המלא עם כל הערכות הניתוח המתקדמות על נתונים סינתטיים בהשוואה לנתונים המקוריים זמין לפי בקשה.

*AUC: השטח מתחת לעקומה הוא מדד לדיוק של מודלים אנליטיים מתקדמים, תוך התחשבות בתוצאות חיוביות אמיתיות, חיוביות שגויות, שליליות שגויות ושליליות אמיתיות. 0,5 אומר שמודל מנבא באופן אקראי ואין לו כוח חיזוי ו-1 אומר שהמודל תמיד נכון ובעל כוח חיזוי מלא.

בנוסף, ניתן להשתמש בנתונים סינתטיים אלה כדי להבין את מאפייני הנתונים והמשתנים העיקריים הדרושים לאימון בפועל של המודלים. התשומות שנבחרו על ידי האלגוריתמים על נתונים סינתטיים בהשוואה לנתונים מקוריים היו דומים מאוד. לפיכך, תהליך המידול יכול להיעשות בגרסה סינתטית זו, מה שמפחית את הסיכון לפרצות נתונים. עם זאת, כאשר מסיקים רשומות בודדות (למשל לקוח טלקו) מומלץ לבצע הדרכה מחדש על נתונים מקוריים לצורך הסבר, קבלה מוגברת או רק בגלל רגולציה.                              

AUC לפי אלגוריתם מקובץ לפי שיטה

AUC

מסקנות:

  • מודלים שהוכשרו על נתונים סינתטיים בהשוואה למודלים שהוכשרו על נתונים מקוריים מראים ביצועים דומים ביותר
  • מודלים שהוכשרו על נתונים אנונימיים עם 'טכניקות אנונימיזציה קלאסיות' מציגים ביצועים נחותים בהשוואה למודלים שהוכשרו על פי הנתונים המקוריים או נתונים סינתטיים
  • יצירת נתונים סינתטיים היא קלה ומהירה מכיוון שהטכניקה עובדת בדיוק אותו הדבר לכל מערך נתונים ולכל סוג נתונים.

מקרי שימוש בנתונים סינתטיים בעלי ערך מוסף

מקרה שימוש 1: נתונים סינתטיים לפיתוח מודל וניתוח מתקדם

בסיס נתונים חזק עם גישה קלה ומהירה לנתונים שמישים ואיכותיים חיוניים לפיתוח מודלים (למשל לוחות מחוונים [BI] וניתוח מתקדם [AI & ML]). עם זאת, ארגונים רבים סובלים מבסיס נתונים לא אופטימלי וכתוצאה מכך 3 אתגרים מרכזיים:

  • קבלת גישה לנתונים אורכת גילאים עקב תקנות (פרטיות), תהליכים פנימיים או ממגורות נתונים
  • טכניקות אנונימיזציה קלאסיות הורסות נתונים, מה שהופך את הנתונים לא מתאימים יותר לניתוח וניתוח מתקדם (זבל פנימה = זבל החוצה)
  • הפתרונות הקיימים אינם ניתנים להרחבה מכיוון שהם פועלים באופן שונה לכל מערך נתונים ולכל סוג נתונים ואינם יכולים להתמודד עם מסדי נתונים מרובים שולחניים גדולים

גישת נתונים סינתטיים: לפתח מודלים עם נתונים סינתטיים טובים כמו-אמיתיים כדי:

  • צמצם את השימוש בנתונים מקוריים, מבלי להפריע למפתחים שלך
  • נעילת נתונים אישיים וגישה לנתונים נוספים שהוגבלו בעבר (למשל בשל פרטיות)
  • גישה קלה ומהירה לנתונים לנתונים רלוונטיים
  • פתרון מדרגי שעובד זהה עבור כל מערך נתונים, סוג נתונים ולמסדי נתונים מאסיביים

זה מאפשר לארגון לבנות בסיס נתונים חזק עם גישה קלה ומהירה לנתונים שמיש ואיכותיים כדי לפתוח נתונים ולמנף הזדמנויות נתונים.

 

מקרה שימוש 2: נתוני בדיקה סינתטיים חכמים לבדיקות תוכנה, פיתוח ואספקה

בדיקה ופיתוח עם נתוני בדיקה באיכות גבוהה חיוניים כדי לספק פתרונות תוכנה חדישים. השימוש בנתוני ייצור מקוריים נראה מובן מאליו, אך אינו מותר בשל תקנות (פרטיות). חֲלוּפָה Test Data Management כלי (TDM) מציגים את "legacy-by-design" בקבלת נתוני הבדיקה הנכונים:

  • אין לשקף נתוני ייצור וההיגיון העסקי והשלמות ההתייחסותית אינם נשמרים
  • עבודה איטית וגוזלת זמן
  • נדרשת עבודה ידנית

גישת נתונים סינתטיים: בדוק ופתח עם נתוני בדיקה סינתטיים שנוצרו בינה מלאכותית כדי לספק פתרונות תוכנה חדישים ומתקדמים עם:

  • נתונים דמויי ייצור עם היגיון עסקי משומר ושלמות התייחסותית
  • ייצור נתונים קל ומהיר עם AI חדיש
  • פרטיות לפי עיצוב
  • קל, מהיר ו agile

זה מאפשר לארגון לבדוק ולהתפתח עם נתוני בדיקה ברמה הבאה כדי לספק פתרונות תוכנה חדישים!

מידע נוסף

מעוניין? למידע נוסף על נתונים סינתטיים, בקר באתר Syntho או צור קשר עם Wim Kees Janssen. למידע נוסף על SAS, בקר www.sas.com או צור קשר עם kees@syntho.ai.

במקרה שימוש זה, Syntho, SAS וה-NL AIC פועלים יחד כדי להשיג את התוצאות המיועדות. Syntho היא מומחית בנתונים סינתטיים שנוצרו בינה מלאכותית ו-SAS היא מובילת שוק באנליטיקה ומציעה תוכנה לחקירה, ניתוח והצגה של נתונים.

* חוזה לשנת 2021 - אסטרטגיות נתונים וניתוח לניהול, קנה מידה ושינוי של עסקים דיגיטליים, Gartner, 2020.

כיסוי מדריך סינתו

שמור את מדריך הנתונים הסינתטיים שלך עכשיו!