שאלות נפוצות

שאלות נפוצות לגבי נתונים סינתטיים

מובן! למרבה המזל, יש לנו את התשובות ואנחנו כאן כדי לעזור. בדוק את השאלות הנפוצות שלנו.

אנא פתח שאלה למטה ולחץ על הקישורים כדי למצוא מידע נוסף. יש לכם שאלה יותר מסובכת שלא מופיעה כאן? שאל את המומחים שלנו ישירות!

השאלות הנשאלות ביותר

נתונים סינתטיים מתייחסים לנתונים שנוצרים באופן מלאכותי ולא נאספים ממקורות אמיתיים. באופן כללי, בעוד שהנתונים המקוריים נאספים בכל האינטראקציות שלך עם אנשים (לקוחות, מטופלים וכו') ובאמצעות כל התהליכים הפנימיים שלך, נתונים סינתטיים נוצרים על ידי אלגוריתם מחשב.

ניתן להשתמש בנתונים סינתטיים גם כדי לבדוק ולהעריך מודלים בסביבה מבוקרת, או כדי להגן על מידע רגיש על ידי הפקת נתונים הדומים לנתונים בעולם האמיתי אך אינם מכילים מידע רגיש. נתונים סינתטיים משמשים לעתים קרובות כחלופה לנתונים רגישים לפרטיות ויכולים לשמש כנתוני בדיקה, לניתוח או לאימון למידת מכונה.

קרא עוד

הבטחה כי נתונים סינתטיים מחזיקים באותה איכות נתונים כמו הנתונים המקוריים יכולה להיות מאתגרת, ולעתים קרובות תלויה במקרה השימוש הספציפי ובשיטות המשמשות להפקת הנתונים הסינתטיים. שיטות מסוימות להפקת נתונים סינתטיים, כגון מודלים מחוללים, יכולות לייצר נתונים הדומים מאוד לנתונים המקוריים. שאלה מרכזית: איך להדגים זאת?

ישנן כמה דרכים להבטיח את איכות הנתונים הסינתטיים:

  • מדדי איכות נתונים באמצעות דוח איכות הנתונים שלנו: דרך אחת להבטיח שהנתונים הסינתטיים מחזיקים באותה איכות נתונים כמו הנתונים המקוריים היא להשתמש במדדי איכות נתונים כדי להשוות את הנתונים הסינתטיים לנתונים המקוריים. ניתן להשתמש במדדים אלה כדי למדוד דברים כמו דמיון, דיוק ושלמות הנתונים. תוכנת Syntho כללה דוח איכות נתונים עם מדדי איכות נתונים שונים.
  • הערכה חיצונית: מכיוון שאיכות הנתונים של נתונים סינתטיים בהשוואה לנתונים מקוריים היא המפתח, עשינו לאחרונה הערכה עם מומחי הנתונים של SAS (מובילת שוק בניתוח) כדי להדגים את איכות הנתונים של נתונים סינתטיים על ידי Syntho בהשוואה לנתונים האמיתיים. אדווין ואן אונן, מומחה לניתוח מ-SAS, העריך מערכי נתונים סינתטיים שנוצרו מ-Syntho באמצעות הערכות ניתוח שונות (AI) ושיתף את התוצאות. צפו כאן בסיכום קצר של הסרטון.
  • בדיקה והערכה בעצמך: ניתן לבדוק ולהעריך נתונים סינתטיים על ידי השוואתם לנתונים מהעולם האמיתי או על ידי שימוש בהם לאימון מודלים של למידת מכונה והשוואת ביצועיהם למודלים שהוכשרו על נתונים מהעולם האמיתי. למה שלא תבדוק את איכות הנתונים של נתונים סינתטיים בעצמך? שאל את המומחים שלנו לגבי האפשרויות לכך כאן

חשוב לציין כי נתונים סינתטיים לעולם אינם יכולים להבטיח שהם דומים ב-100% לנתונים המקוריים, אך הם יכולים להיות קרובים מספיק כדי להיות שימושיים עבור מקרה שימוש ספציפי. מקרה השימוש הספציפי הזה יכול אפילו להיות ניתוח מתקדם או אימון מודלים של למידת מכונה.

'אנונימיזציה' קלאסית היא לא תמיד הפתרון הטוב ביותר, כי:

  1. סיכון פרטיות - תמיד תהיה לך
    סיכון פרטיות. יישום אלה
    טכניקות אנונימיות קלאסיות
    עושה את זה רק יותר קשה, אבל לא
    בלתי אפשרי לזהות אנשים.
  2. הורס נתונים – ככל שאתה
    אנונימי, ככל שתגן טוב יותר
    הפרטיות שלך, אבל ככל שאתה
    להשמיד את הנתונים שלך. זה לא מה
    אתה רוצה לניתוח, כי
    נתונים שהושמדו יגרמו לרעה
    תובנות.
  3. דורש זמן רב - זה פתרון
    זה לוקח הרבה זמן, כי
    הטכניקות האלה עובדות אחרת
    לכל מערך נתונים ולכל סוג נתונים.

נתונים סינתטיים שואפים לפתור את כל החסרונות הללו. ההבדל כל כך בולט שעשינו עליו סרטון. צפה בו כאן.

שאלות נפוצות

נתונים סינתטיים

בדרך כלל, רוב הלקוחות שלנו משתמשים בנתונים סינתטיים עבור:

  • בדיקות ופיתוח תוכנה
  • נתונים סינתטיים לניתוח, פיתוח מודלים וניתוח מתקדם (AI ו-ML)
  • הדגמות מוצרים

קרא עוד ובדוק מקרי שימוש.

תאום נתונים סינתטי הוא העתק שנוצר באמצעות אלגוריתם של מערך נתונים ו/או מסד נתונים בעולם האמיתי. עם תאום נתונים סינתטיים, Syntho שואפת לחקות מערך נתונים או מסד נתונים מקוריים קרוב ככל האפשר לנתונים המקוריים כדי ליצור ייצוג מציאותי של המקור. עם תאום נתונים סינתטיים, אנו שואפים לאיכות נתונים סינתטיים מעולה בהשוואה לנתונים המקוריים. אנו עושים זאת עם תוכנת הנתונים הסינתטיים שלנו המשתמשת במודלים מתקדמים של AI. מודלים אלה של AI מייצרים נקודות נתונים חדשות לחלוטין ומדגמים אותן בצורה כזו שאנו משמרים את המאפיינים, הקשרים והדפוסים הסטטיסטיים של הנתונים המקוריים עד כדי כך שתוכל להשתמש בהם כאילו מדובר בנתונים מקוריים.

זה יכול לשמש למגוון מטרות, כגון בדיקה והדרכה של מודלים של למידת מכונה, הדמיית תרחישים למחקר ופיתוח, ויצירת סביבות וירטואליות להדרכה וחינוך. ניתן להשתמש בתאומי נתונים סינתטיים ליצירת נתונים מציאותיים ומייצגים שניתן להשתמש בהם במקום נתונים מהעולם האמיתי כאשר הם אינם זמינים או כאשר השימוש בנתונים מהעולם האמיתי יהיה בלתי מעשי או לא אתי עקב תקנות קפדניות של פרטיות נתונים.

קרא עוד.

כן אנחנו כן. אנו מציעים תכונות שונות של אופטימיזציה והגדלת נתונים סינתטיים בעלי ערך מוסף, כולל לעגנים, כדי לקחת את הנתונים שלך לשלב הבא.

קרא עוד.

נתונים מדומים ונתונים סינתטיים שנוצרו בינה מלאכותית הם שני סוגי נתונים סינתטיים, אך הם נוצרים בדרכים שונות ומשרתים מטרות שונות.

נתונים מדומים הם סוג של נתונים סינתטיים שנוצרים באופן ידני ומשמשים לעתים קרובות למטרות בדיקה ופיתוח. הוא משמש בדרך כלל כדי לדמות את ההתנהגות של נתונים מהעולם האמיתי בסביבה מבוקרת ומשמש לרוב לבדיקת הפונקציונליות של מערכת או אפליקציה. לרוב הוא פשוט, קל להפקה ואינו דורש מודלים מורכבים או אלגוריתמים. לעתים קרובות, אדם מתייחס גם לנתונים מדומים כ"נתוני דמה" או "נתונים מזויפים".

נתונים סינתטיים שנוצרו בינה מלאכותית, לעומת זאת, נוצרים באמצעות טכניקות בינה מלאכותית, כגון למידת מכונה או מודלים מחוללים. הוא משמש ליצירת נתונים מציאותיים ומייצגים שניתן להשתמש בהם במקום נתונים מהעולם האמיתי כאשר השימוש בנתונים מהעולם האמיתי יהיה לא מעשי או לא אתי בגלל תקנות פרטיות מחמירות. לעתים קרובות זה מורכב יותר ודורש יותר משאבי חישוב מאשר נתונים מדומים ידניים. כתוצאה מכך, הוא הרבה יותר מציאותי ומחקה את הנתונים המקוריים קרוב ככל האפשר.

לסיכום, נתונים מדומים נוצרים באופן ידני ומשמשים בדרך כלל לבדיקה ופיתוח, בעוד נתונים סינתטיים שנוצרים בינה מלאכותית נוצרים באמצעות טכניקות של בינה מלאכותית ומשמשים ליצירת נתונים מייצגים ומציאותיים.

שאלות נוספות? שאל את המומחים שלנו

איכות הנתונים

הבטחה כי נתונים סינתטיים מחזיקים באותה איכות נתונים כמו הנתונים המקוריים יכולה להיות מאתגרת, ולעתים קרובות תלויה במקרה השימוש הספציפי ובשיטות המשמשות להפקת הנתונים הסינתטיים. שיטות מסוימות להפקת נתונים סינתטיים, כגון מודלים מחוללים, יכולות לייצר נתונים הדומים מאוד לנתונים המקוריים. שאלה מרכזית: איך להדגים זאת?

ישנן כמה דרכים להבטיח את איכות הנתונים הסינתטיים:

  • מדדי איכות נתונים באמצעות דוח איכות הנתונים שלנו: דרך אחת להבטיח שהנתונים הסינתטיים מחזיקים באותה איכות נתונים כמו הנתונים המקוריים היא להשתמש במדדי איכות נתונים כדי להשוות את הנתונים הסינתטיים לנתונים המקוריים. ניתן להשתמש במדדים אלה כדי למדוד דברים כמו דמיון, דיוק ושלמות הנתונים. תוכנת Syntho כללה דוח איכות נתונים עם מדדי איכות נתונים שונים.
  • הערכה חיצונית: מכיוון שאיכות הנתונים של נתונים סינתטיים בהשוואה לנתונים מקוריים היא המפתח, עשינו לאחרונה הערכה עם מומחי הנתונים של SAS (מובילת שוק בניתוח) כדי להדגים את איכות הנתונים של נתונים סינתטיים על ידי Syntho בהשוואה לנתונים האמיתיים. אדווין ואן אונן, מומחה לניתוח מ-SAS, העריך מערכי נתונים סינתטיים שנוצרו מ-Syntho באמצעות הערכות ניתוח שונות (AI) ושיתף את התוצאות. צפו כאן בסיכום קצר של הסרטון.
  • בדיקה והערכה בעצמך: ניתן לבדוק ולהעריך נתונים סינתטיים על ידי השוואתם לנתונים מהעולם האמיתי או על ידי שימוש בהם לאימון מודלים של למידת מכונה והשוואת ביצועיהם למודלים שהוכשרו על נתונים מהעולם האמיתי. למה שלא תבדוק את איכות הנתונים של נתונים סינתטיים בעצמך? שאל את המומחים שלנו לגבי האפשרויות לכך כאן

חשוב לציין כי נתונים סינתטיים לעולם אינם יכולים להבטיח שהם דומים ב-100% לנתונים המקוריים, אך הם יכולים להיות קרובים מספיק כדי להיות שימושיים עבור מקרה שימוש ספציפי. מקרה השימוש הספציפי הזה יכול אפילו להיות ניתוח מתקדם או אימון מודלים של למידת מכונה.

כן זה כן. הנתונים הסינתטיים אפילו מכילים דפוסים שלא ידעתם שהם קיימים בנתונים המקוריים.

אבל אל תסתפק במילה שלנו. מומחי האנליטיקה של SAS (מובילת שוק עולמית באנליטיקה) ערכו הערכה (AI) של הנתונים הסינתטיים שלנו והשוו אותם עם הנתונים המקוריים. סקרן? צפה ב כל האירוע כאן או צפו בגרסה הקצרה על איכות הנתונים כאן.

כן אנחנו כן. הפלטפורמה שלנו מותאמת לבסיסי נתונים, וכתוצאה מכך, לשימור שלמות ההתייחסות בין מערכי נתונים במסד הנתונים.

סקרנים לגלות עוד על זה?

שאל את המומחים שלנו ישירות.

פרטיות

לא אנחנו לא. אנו יכולים לפרוס בקלות את Syntho Engine במקום או בענן הפרטי שלך באמצעות Docker.

לא. ביצענו אופטימיזציה לפלטפורמה שלנו בצורה כזו שניתן לפרוס אותה בקלות בסביבה המהימנה של הלקוח. זה מבטיח שהנתונים לעולם לא יעזבו את הסביבה המהימנה של הלקוח. אפשרויות הפריסה עבור הסביבה המהימנה של הלקוח הן "on-premise" וב"סביבת הענן של הלקוח (ענן פרטי)".

אופציונלי: Syntho תומך בגרסה שמתארחת ב"ענן Syntho".

לא. מנוע הסינטו הוא פלטפורמת שירות עצמי. כתוצאה מכך, יצירת נתונים סינתטיים עם Syntho Engine אפשרית באופן שב- end-to-end תהליך, Syntho לעולם אינו מסוגל לראות ואף פעם לא נדרש לעבד נתונים.

כן, אנו עושים זאת באמצעות דוח ה-QA שלנו.

 

בעת סינתזה של מערך נתונים, חיוני להדגים שלא ניתן לזהות מחדש אנשים. ב וידאו זה, Marijn מציגה אמצעי פרטיות שנמצאים בדוח האיכות שלנו כדי להדגים זאת.

דוח ה-QA של Syntho מכיל שלושה סטנדרט תעשייתי מדדים להערכת פרטיות הנתונים. הרעיון מאחורי כל אחד מהמדדים הללו הוא כדלקמן:

  • נתונים סינתטיים (S) יהיה "קרוב ככל האפשר", אך "לא קרוב מדי" לנתוני היעד (T).
  • נתוני החזקה שנבחרו באקראי (H) קובע את המדד עבור "קרוב מדי".
  • A פיתרון מושלם יוצר נתונים סינתטיים חדשים שמתנהגים בדיוק כמו הנתונים המקוריים, אך לא נראו בעבר (= H).

אחד ממקרי השימוש המודגשים במיוחד על ידי רשות הגנת המידע ההולנדית הוא שימוש בנתונים סינתטיים כנתוני בדיקה.

עוד ניתן למצוא במאמר זה.

מנוע סינתו

מנוע Syntho נשלח בקונטיינר Docker וניתן לפרוס אותו בקלות ולחבר אותו לסביבה שתבחר.

אפשרויות פריסה אפשריות כוללות:

  • במתחם
  • כל ענן (פרטי).
  • כל סביבה אחרת

קרא עוד.

Syntho מאפשר לך להתחבר בקלות עם מסדי הנתונים, היישומים, צינורות הנתונים או מערכות הקבצים שלך. 

אנו תומכים במחברים משולבים שונים כך שתוכל להתחבר עם סביבת המקור (שם מאוחסנים הנתונים המקוריים) וסביבת היעד (איפה אתה רוצה לכתוב את הנתונים הסינתטיים שלך) עבור end-to-end גישה משולבת.

תכונות חיבור שאנו תומכים בהן:

  • הכנס והפעל עם Docker
  • 20+ מחברי מסד נתונים
  • 20+ מחברי מערכת קבצים

קרא עוד.

מטבע הדברים, זמן היצירה תלוי בגודל בסיס הנתונים. בממוצע, טבלה עם פחות ממיליון רשומות מסונתזת תוך פחות מ-1 דקות.

אלגוריתמי למידת המכונה של Syntho יכולים להכליל טוב יותר את התכונות עם יותר רשומות ישות זמינות, מה שמקטין את הסיכון לפרטיות. מומלץ יחס עמודה לשורה מינימלי של 1:500. לדוגמה, אם טבלת המקור שלך כוללת 6 עמודות, היא צריכה להכיל מינימום של 3000 שורות.

בכלל לא. למרות שעשוי לדרוש קצת מאמץ כדי להבין היטב את היתרונות, פעולתם ומקרי השימוש של נתונים סינתטיים, תהליך הסינתזה הוא פשוט מאוד וכל מי שיש לו ידע בסיסי במחשב יכול לעשות זאת. למידע נוסף על תהליך הסינתזה, בדוק דף זה or לבקש הדגמה.

מנוע הסינתו פועל בצורה הטובה ביותר על נתונים מובנים בטבלה (כל דבר שמכיל שורות ועמודות). בתוך מבנים אלה, אנו תומכים בסוגי הנתונים הבאים:

  • מבנה נתונים המעוצבים בטבלאות (קטגורי, מספרי וכו')
  • מזהים ישירים ו-PII
  • מערכי נתונים ומסדי נתונים גדולים
  • נתוני מיקום גיאוגרפיים (כמו GPS)
  • נתוני סדרות זמן
  • מסדי נתונים מרובי טבלאות (עם שלמות התייחסותית)
  • פתח נתוני טקסט

 

תמיכה מורכבת בנתונים
לצד כל הסוגים הרגילים של נתונים טבלאיים, Syntho Engine תומך בסוגי נתונים מורכבים ומבני נתונים מורכבים.

  • סדרת זמן
  • מסדי נתונים מרובי שולחנות
  • פתח טקסט

קרא עוד.

לא, ביצענו אופטימיזציה לפלטפורמה שלנו כדי למזער דרישות חישוביות (לדוגמה, אין צורך ב-GPU), מבלי להתפשר על דיוק הנתונים. בנוסף, אנו תומכים בקנה מידה אוטומטי, כך שניתן לסנתז מסדי נתונים ענקיים.

כן. תוכנת Syntho מותאמת לבסיסי נתונים המכילים טבלאות מרובות.

באשר לכך, Syntho מזהה אוטומטית את סוגי הנתונים, הסכמות והפורמטים כדי למקסם את דיוק הנתונים. עבור מסד נתונים מרובה טבלאות, אנו תומכים בהסקה אוטומטית של קשרי טבלה ובסינתזה כדי לשמור על שלמות ההתייחסות.

קבוצת אנשים מחייכת

הנתונים הם סינתטיים, אבל הצוות שלנו אמיתי!

צור קשר עם סינתו ואחד המומחים שלנו ייצור איתך קשר במהירות האור כדי לחקור את הערך של נתונים סינתטיים!