מה זה נתונים סינתטיים?

קורס מזורז נתונים סינתטיים

 

 

מבוא

מה זה נתונים סינתטיים?

התשובה פשוטה יחסית. בעוד הנתונים המקוריים נאספים בכל האינטראקציות שלך עם אנשים אמיתיים (למשל לקוחות, מטופלים, עובדים וכו') ובאמצעות כל התהליכים הפנימיים שלך, נתונים סינתטיים נוצרים על ידי אלגוריתם מחשב. אלגוריתם מחשב זה מייצר נקודות נתונים חדשות ומלאכותיות לחלוטין.

לפתור אתגרי פרטיות הנתונים

נתונים שנוצרו באופן סינתטי מורכבים מנקודות מידע חדשות ומלאכותיות לחלוטין ללא קשר אחד לאחד לנתונים המקוריים. לפיכך, לא ניתן לאתר אף אחת מנקודות הנתונים הסינתטיות או לבצע הנדסה לאחור לנתונים המקוריים. כתוצאה מכך, נתונים סינתטיים פטורים מתקנות פרטיות, כגון GDPR ומשמשים כפתרון לפתרון ולהתגבר על אתגרי פרטיות הנתונים.

להגדיל ולדמות

ההיבט הגנרטיבי של יצירת נתונים סינתטיים מאפשר להגדיל ולדמות נתונים חדשים לחלוטין. זה מתפקד כפתרון כאשר אין לך מספיק נתונים (מחסור בנתונים), תרצה לדגום מקרי קצה או כאשר אין לך עדיין נתונים.

כאן, המוקד של Syntho הוא נתונים מובנים (נתונים המעוצבים בטבלאות המכילות שורות ועמודות, כפי שאתה רואה בגיליונות אקסל), אבל אנחנו תמיד אוהבים להמחיש את הרעיון של נתונים סינתטיים באמצעות תמונות, כי זה מושך יותר.

סוגי נתונים סינתטיים

שלושה סוגים של נתונים סינתטיים קיימים בתוך מטריית הנתונים הסינתטיים. שלושת סוגי הנתונים הסינטטיים הללו הם: נתוני דמה, נתונים סינתטיים שנוצרו מבוססי כללים ונתונים סינתטיים שנוצרו על ידי בינה מלאכותית (AI). אנו מסבירים בקצרה מהם 3 הסוגים השונים של נתונים סינתטיים.

נתוני דמה / נתוני דמה

נתוני דמה הם נתונים שנוצרים באופן אקראי (למשל על ידי מחולל נתונים מדומה).

כתוצאה מכך, מאפיינים, קשרים ודפוסים סטטיסטיים שנמצאים בנתונים המקוריים אינם נשמרים, נלכדים ומשוחזרים בנתוני הדמה שנוצרו. לפיכך, הייצוגיות של נתוני דמה / נתוני דמה היא מינימלית בהשוואה לנתונים המקוריים.

  • מתי להשתמש בו: כדי להחליף מזהים ישירים (PII) או כאשר אין לך נתונים (עדיין) ואינך רוצה לבזבז זמן ואנרגיה על הגדרת כללים.

נתונים סינתטיים שנוצרו על פי חוק

נתונים סינתטיים שנוצרו על בסיס כללים הם נתונים סינתטיים שנוצרו על ידי קבוצה מוגדרת מראש של כללים. דוגמאות לאותם כללים מוגדרים מראש יכולות להיות שאתה רוצה לקבל נתונים סינתטיים עם ערך מינימלי מסוים, ערך מקסימלי או ערך ממוצע מסוים. יש להגדיר מראש כל אחד מהמאפיינים, הקשרים והדפוסים הסטטיסטיים שהייתם רוצים שישחזרו בנתונים הסינטטיים שנוצרו מבוססי כללים.

כתוצאה מכך, איכות הנתונים תהיה טובה כמו מערכת הכללים שהוגדרה מראש. זה מביא לאתגרים כאשר איכות נתונים גבוהה היא המהות. ראשית, ניתן להגדיר רק סט מוגבל של כללים שיילכדו בנתונים הסינתטיים. בנוסף, הגדרת כללים מרובים תגרום בדרך כלל לחפיפה ולכללים סותרים. יתר על כן, לעולם לא תכסה באופן מלא את כל הכללים הרלוונטיים. יתר על כן, עשויים להיות כללים רלוונטיים שאתה אפילו לא מודע אליהם. ולבסוף (ולא לשכוח), זה ייקח לך הרבה זמן ואנרגיה וכתוצאה מכך פתרון לא יעיל.

  • מתי להשתמש בו: כשאין לך נתונים (עדיין)

נתונים סינתטיים שנוצרו על ידי בינה מלאכותית (AI)

כפי שאתה מצפה מהשם, נתונים סינתטיים שנוצרו על ידי בינה מלאכותית (AI) הם נתונים סינתטיים שנוצרים על ידי אלגוריתם של בינה מלאכותית (AI). מודל הבינה המלאכותית מאומן על הנתונים המקוריים כדי ללמוד את כל המאפיינים, הקשרים והדפוסים הסטטיסטיים. לאחר מכן, אלגוריתם בינה מלאכותית זה מסוגל ליצור נקודות נתונים חדשות לחלוטין ולדגמן את נקודות הנתונים החדשות בצורה כזו שהוא משחזר את המאפיינים, הקשרים והדפוסים הסטטיסטיים ממערך הנתונים המקורי. לזה אנחנו קוראים תאום נתונים סינתטיים.

מודל הבינה המלאכותית מחקה נתונים מקוריים כדי ליצור תאומי נתונים סינתטיים שניתן להשתמש בהם כאילו מדובר בנתונים מקוריים. זה פותח מקרי שימוש שונים שבהם ניתן להשתמש בנתונים הסינטטיים שנוצרו בינה מלאכותית כחלופה לשימוש בנתונים מקוריים (רגישים), כגון שימוש בנתונים סינתטיים שנוצרו בינה מלאכותית כנתוני בדיקה, נתוני הדגמה או לניתוח.

הדמיה כיצד נוצרים נתונים סינתטיים

בהשוואה לנתונים סינתטיים שנוצרו מבוססי כללים: במקום שתלמד ותגדיר כללים רלוונטיים, אלגוריתם הבינה המלאכותית עושה זאת עבורך באופן אוטומטי. כאן יכוסו לא רק מאפיינים, קשרים ודפוסים סטטיסטיים שאתם מודעים אליהם, גם מאפיינים, קשרים ודפוסים סטטיסטיים שאתם אפילו לא מודעים אליהם יכוסו.

  • מתי להשתמש בו: כאשר יש לך (חלק) נתונים כקלט לחיקוי או כדי להשתמש בהם כנקודת התחלה ליצירת נתונים חכמים ותכונות הגדלה

באיזה סוג של נתונים סינתטיים להשתמש?

בהתאם למקרה השימוש שלך, מומלץ שילוב של נתוני דמה/נתונים מדומים, נתונים סינתטיים שנוצרו מבוססי כללים או נתונים סינתטיים שנוצרו על ידי בינה מלאכותית (AI). סקירה כללית זו מספקת לך אינדיקציה ראשונה באיזה סוג של נתונים סינתטיים להשתמש. מכיוון ש-Syntho תומכת בכולם, אל תהסס ליצור קשר עם המומחים שלנו כדי לעומק את מקרה השימוש שלך איתנו.

תרשים זה מציג סוגים שונים של נתונים סינתטיים

כיסוי מדריך סינתו

שמור את מדריך הנתונים הסינתטיים שלך עכשיו!