אַי-דזשענערייטאַד סינטעטיש דאַטן, גרינג און שנעל אַקסעס צו הויך קוואַליטעט דאַטן?

אַי דזשענערייטאַד סינטעטיש דאַטן אין פיר

סינטהאָ, אַ מומחה אין אַי-דזשענערייטאַד סינטעטיש דאַטן, יימז צו ווענדן privacy by design אין אַ קאַמפּעטיטיוו מייַלע מיט אַי-דזשענערייטאַד סינטעטיש דאַטן. זיי העלפֿן אָרגאַנאַזיישאַנז צו בויען אַ שטאַרק דאַטן יסוד מיט גרינג און שנעל אַקסעס צו הויך קוואַליטעט דאַטן און לעצטנס וואַן די Philips Innovation Award.

אָבער, סינטעטיש דאַטן דור מיט אַי איז אַ לעפיערעך נייַע לייזונג וואָס טיפּיקלי ינטראַדוסיז אָפט געשטעלטע פֿראגן. צו ענטפֿערן די, Syntho סטאַרטעד אַ פאַל-לערנען צוזאַמען מיט SAS, מאַרק פירער אין אַוואַנסירטע אַנאַליטיקס און אַי ווייכווארג.

אין מיטאַרבעט מיט די האָלענדיש אַי קאָאַליטיאָן (NL AIC), זיי ינוועסטאַגייטאַד די ווערט פון סינטעטיש דאַטן דורך קאַמפּערינג אַי-דזשענערייטאַד סינטעטיש דאַטן דזשענערייטאַד דורך די סינטהאָ ענגינע מיט אָריגינעל דאַטן דורך פאַרשידן אַסעסמאַנץ אויף דאַטן קוואַליטעט, לעגאַל גילטיקייַט און וסאַביליטי.

איז דאַטן אַנאָנימיזאַטיאָן נישט אַ לייזונג?

קלאַסיש אַנאָנימיזאַטיאָן טעקניקס האָבן אין פּראָסט אַז זיי מאַניפּולירן אָריגינעל דאַטן אין סדר צו פאַרמייַדן טרייסינג צוריק מענטשן. ביישפילן זענען גענעראַליזאַטיאָן, סאַפּרעשאַן, ווישן, פּסעודאָנימיזאַטיאָן, דאַטן מאַסקינג און שאַפלינג פון ראָוז און שפאלטן. איר קענען געפֿינען ביישפילן אין די טיש אונטן.

דאַטן אַנאָנימיזאַטיאָן

די טעקניקס פאָרשטעלן 3 שליסל טשאַלאַנדזשיז:

  1. זיי אַרבעטן דיפערענטלי פּער דאַטן טיפּ און פּער דאַטאַסעט, וואָס מאכט זיי שווער צו וואָג. דערצו, זינט זיי אַרבעט דיפערענטלי, עס וועט שטענדיק זיין דעבאַטע וועגן וואָס מעטהאָדס צו צולייגן און וואָס קאָמבינאַציע פון ​​טעקניקס זענען דארף.
  2. עס איז שטענדיק אַ איין-צו-איינער שייכות מיט די אָריגינעל דאַטן. דאָס מיינט אַז עס וועט שטענדיק זיין אַ פּריוואַטקייט ריזיקירן, ספּעציעל רעכט צו אַלע אָפֿן דאַטאַסעץ און פאַראַנען טעקניקס צו פֿאַרבינדונג די דאַטאַסעץ.
  3. זיי מאַניפּולירן דאַטן און דערמיט צעשטערן דאַטן אין דעם פּראָצעס. דאָס איז ספּעציעל דעוואַסטייטינג פֿאַר אַי טאַסקס ווו "פּרידיקטיוו מאַכט" איז יקערדיק, ווייַל שלעכט קוואַליטעט דאַטן וועט רעזולטאַט אין שלעכט ינסייץ פון די אַי מאָדעל (מיסט-אין וועט רעזולטאַט אין מיסט-אויס).

די פונקטן זענען אויך אַססעססעד דורך דעם פאַל לערנען.

אַ הקדמה צו דעם פאַל לערנען

פֿאַר דעם פאַל לערנען, די ציל דאַטאַסעט איז געווען אַ טעלעקאָם דאַטאַסעט צוגעשטעלט דורך SAS מיט די דאַטן פון 56.600 קאַסטאַמערז. די דאַטאַסעט כּולל 128 שפאלטן, אַרייַנגערעכנט איין זייַל וואָס ינדיקייץ צי אַ קונה האט לינקס די פירמע (ד"ה 'טשורנד') אָדער נישט. דער ציל פון דעם פאַל לערנען איז געווען צו נוצן די סינטעטיש דאַטן צו באַן עטלעכע מאָדעלס צו פאָרויסזאָגן קונה טשורן און צו אָפּשאַצן די פאָרשטעלונג פון די טריינד מאָדעלס. ווייַל טשערן פּראָגנאָז איז אַ קלאַסאַפאַקיישאַן אַרבעט, SAS אויסגעקליבן פיר פאָלקס קלאַסאַפאַקיישאַן מאָדעלס צו מאַכן די פֿאָרויסזאָגן, אַרייַנגערעכנט:

  1. טראַפ וואַלד
  2. גראַדיענט בוסטינג
  3. לאָגיסטיק ראַגרעשאַן
  4. נעוראַל נעץ

איידער דזשענערייטינג די סינטעטיש דאַטן, SAS ראַנדאַמלי שפּאַלטן די טעלעקאָם דאַטאַסעט אין אַ באַן גאַנג (פֿאַר טריינינג די מאָדעלס) און אַ האָלדאַוט גאַנג (פֿאַר כעזשבן די מאָדעלס). מיט אַ באַזונדער סטאַנדאַוט שטעלן פֿאַר סקאָרינג אַלאַוז אַן אַנבייאַסט אַסעסמאַנט פון ווי געזונט די קלאַסאַפאַקיישאַן מאָדעל קען דורכפירן ווען געווענדט צו נייַע דאַטן.

מיט די באַן שטעלן ווי אַרייַנשרייַב, Syntho געוויינט זיין סינטהאָ ענגינע צו דזשענערייט אַ סינטעטיש דאַטאַסעט. פֿאַר בענטשמאַרקינג, SAS אויך באשאפן אַ מאַניפּיאַלייטיד ווערסיע פון ​​​​די באַן שטעלן נאָך אַפּלייינג פאַרשידן אַנאָנימיזאַטיאָן טעקניקס צו דערגרייכן אַ זיכער שוועל (פון ק-אַנאַנימאַטי). די ערשטע סטעפּס ריזאַלטיד אין פיר דאַטאַסעץ:

  1. א באַן דאַטאַסעט (ד"ה דער אָריגינעל דאַטאַסעט מינוס די האָלדאַוט דאַטאַסעט)
  2. א האָלדאַוט דאַטאַסעט (ד"ה אַ סאַבסעט פון דער אָריגינעל דאַטאַסעט)
  3. אַן אַנאָנימייזד דאַטאַבייס (באזירט אויף די באַן דאַטאַסעט)
  4. א סינטעטיש דאַטאַסעט (באזירט אויף די באַן דאַטאַסעט)

דאַטאַסעטס 1, 3 און 4 זענען געניצט צו באַן יעדער קלאַסאַפאַקיישאַן מאָדעל, ריזאַלטינג אין 12 (3 קס 4) טריינד מאָדעלס. SAS דערנאָך געוויינט די האָלדאַוט דאַטאַסעט צו מעסטן די אַקיעראַסי מיט וואָס יעדער מאָדעל פּרידיקס קונה טשורן. די רעזולטאַטן זענען דערלאנגט אונטן, סטאַרטינג מיט עטלעכע יקערדיק סטאַטיסטיק.

מאַשין לערנען רערנ - ליניע דזשענערייטאַד אין SAS

פיגור: מאַשין לערנען רערנ - ליניע דזשענערייטאַד אין סאַס וויסואַל דאַטאַ מינינג און מאַשין לערנען

יקערדיק סטאַטיסטיק ווען קאַמפּערינג אַנאָנימייזד דאַטן צו אָריגינעל דאַטן

אַנאָנימיזאַטיאָן טעקניקס צעשטערן אפילו יקערדיק פּאַטערנז, געשעפט לאָגיק, באציונגען און סטאַטיסטיק (ווי אין דעם בייַשפּיל אונטן). ניצן אַנאָנימייזד דאַטן פֿאַר יקערדיק אַנאַליטיקס, אַזוי פּראָדוצירן אַנרילייאַבאַל רעזולטאַטן. אין פאַקט, די נעבעך קוואַליטעט פון די אַנאָנימייזד דאַטן געמאכט עס כּמעט אוממעגלעך צו נוצן עס פֿאַר אַוואַנסירטע אַנאַליטיקס טאַסקס (למשל אַי / מל מאָדעלינג און דאַשבאָרדינג).

קאַמפּערינג אַנאָנימייזד דאַטן צו אָריגינעל דאַטן

יקערדיק סטאַטיסטיק ווען קאַמפּערינג סינטעטיש דאַטן מיט אָריגינעל דאַטן

דער פּראָדוקציע פון ​​סינטעטיש דאַטן מיט אַי פּראַזערווז יקערדיק פּאַטערנז, געשעפט לאָגיק, באציונגען און סטאַטיסטיק (ווי אין דעם בייַשפּיל אונטן). ניצן סינטעטיש דאַטן פֿאַר יקערדיק אַנאַליטיקס, אַזוי טראגט פאַרלאָזלעך רעזולטאַטן. שליסל קשיא, טוט סינטעטיש דאַטן פֿאַר אַוואַנסירטע אַנאַליטיקס טאַסקס (למשל אַי / מל מאָדעלינג און דאַשבאָרדינג)?

אַמפּערינג סינטעטיש דאַטן צו אָריגינעל דאַטן

אַי-דזשענערייטאַד סינטעטיש דאַטן און אַוואַנסירטע אַנאַליטיקס

סינטעטיש דאַטן האלט ניט בלויז פֿאַר יקערדיק פּאַטערנז (ווי געוויזן אין די ערשטע פּלאַץ), עס אויך קאַפּטשערז טיף 'פאַרבאָרגן' סטאַטיסטיש פּאַטערנז פארלאנגט פֿאַר אַוואַנסירטע אַנאַליטיקס טאַסקס. די יענער איז דעמאַנסטרייטיד אין די באַר טשאַרט אונטן, וואָס ינדיקייץ אַז די אַקיעראַסי פון מאָדעלס טריינד אויף סינטעטיש דאַטן קעגן מאָדעלס טריינד אויף אָריגינעל דאַטן זענען ענלעך. דערצו, מיט אַ שטח אונטער די ויסבייג (AUC *) נאָענט צו 0.5, די מאָדעלס טריינד אויף אַנאָנימייזד דאַטן זענען די ערגסט. דער פול באַריכט מיט אַלע אַוואַנסירטע אַנאַליטיקס אַסעסמאַנץ אויף סינטעטיש דאַטן אין פאַרגלייַך מיט דער אָריגינעל דאַטן איז בארעכטיגט אויף בעטן.

*AUC: די שטח אונטער די ויסבייג איז אַ מאָס פֿאַר די אַקיעראַסי פון אַוואַנסירטע אַנאַליטיקס מאָדעלס, גענומען אין חשבון אמת פּאַזאַטיווז, פאַלש positive, פאַלש נעגאַטיוועס און אמת נעגאַטיוועס. 0,5 מיטל אַז אַ מאָדעל פּרידיקס ראַנדאַמלי און האט קיין פּרידיקטיוו מאַכט און 1 מיטל אַז דער מאָדעל איז שטענדיק ריכטיק און האט פול פּרידיקטיוו מאַכט.

אַדדיטיאָנאַללי, די סינטעטיש דאַטן קענען ווערן גענוצט צו פֿאַרשטיין דאַטן קעראַקטעריסטיקס און הויפּט וועריאַבאַלז פֿאַר פאַקטיש טריינינג פון די מאָדעלס. די ינפּוץ אויסגעקליבן דורך די אַלגערידאַמז אויף סינטעטיש דאַטן קאַמפּערד מיט אָריגינעל דאַטן זענען זייער ענלעך. דערפֿאַר, די מאָדעלינג פּראָצעס קענען זיין דורכגעקאָכט אויף דעם סינטעטיש ווערסיע, וואָס ראַדוסאַז די ריזיקירן פון דאַטן בריטשיז. אָבער, ווען ינפעראַנסינג יחיד רעקאָרדס (למשל טעלקאָ קונה) ריטריינינג אויף אָריגינעל דאַטן איז רעקאַמענדיד פֿאַר יקספּליינינגאַביליטי, געוואקסן אַקסעפּטאַנס אָדער נאָר ווייַל פון רעגולירן.                              

AUC דורך אַלגערידאַם גרופּט דורך מעטאַד

AUC

קאַנקלוזשאַנז:

  • מאָדעלס טריינד אויף סינטעטיש דאַטן קאַמפּערד מיט די מאָדעלס טריינד אויף אָריגינעל דאַטן ווייַזן זייער ענלעך פאָרשטעלונג
  • מאָדעלס טריינד אויף אַנאָנימייזד דאַטן מיט 'קלאַסיש אַנאָנימיזאַטיאָן טעקניקס' ווייַזן ערגער פאָרשטעלונג קאַמפּערד מיט מאָדעלס טריינד אויף אָריגינעל דאַטן אָדער סינטעטיש דאַטן
  • דער פּראָדוקציע פון ​​סינטעטיש דאַטן איז גרינג און שנעל ווייַל די טעכניק אַרבעט פּונקט די זעלבע פּער דאַטאַסעט און פּער דאַטן טיפּ.

ווערט-אַדדינג סינטעטיש דאַטן נוצן קאַסעס

נוצן פאַל 1: סינטעטיש דאַטן פֿאַר מאָדעל אַנטוויקלונג און אַוואַנסירטע אַנאַליטיקס

האָבן אַ שטאַרק דאַטן יסוד מיט גרינג און שנעל אַקסעס צו ניצלעך, הויך קוואַליטעט דאַטן איז יקערדיק צו אַנטוויקלען מאָדעלס (למשל דאַשבאָרדז [BI] און אַוואַנסירטע אַנאַליטיקס [AI & ML]). אָבער, פילע אָרגאַנאַזיישאַנז ליידן פון אַ סובאָפּטימאַל דאַטן יסוד ריזאַלטינג אין 3 שליסל טשאַלאַנדזשיז:

  • צו באַקומען אַקסעס צו דאַטן נעמט דורות רעכט צו (פּריוואַטקייט) רעגיאַליישאַנז, ינערלעך פּראַסעסאַז אָדער דאַטן סיילאָוז
  • קלאַסיש אַנאָנימיזאַטיאָן טעקניקס צעשטערן דאַטן, מאכן די דאַטן ניט מער פּאַסיק פֿאַר אַנאַליסיס און אַוואַנסירטע אַנאַליטיקס (מיסט אין = מיסט אויס)
  • יגזיסטינג סאַלושאַנז זענען נישט סקאַלאַבלע ווייַל זיי אַרבעט דיפערענטלי פּער דאַטאַסעט און פּער דאַטן טיפּ און קענען נישט שעפּן גרויס מאַלטי-טיש דאַטאַבייסיז

סינטעטיש דאַטן צוגאַנג: אַנטוויקלען מאָדעלס מיט ווי גוט ווי פאַקטיש סינטעטיש דאַטן צו:

  • מינימיזירן די נוצן פון אָריגינעל דאַטן, אָן כינדערינג דיין דעוועלאָפּערס
  • ופשליסן פערזענלעכע דאַטן און האָבן אַקסעס צו מער דאַטן וואָס זענען ביז אַהער ריסטריקטיד (למשל רעכט צו פּריוואַטקייט)
  • גרינג און שנעל דאַטן אַקסעס צו באַטייַטיק דאַטן
  • סקאַלאַבלע לייזונג וואָס אַרבעט די זעלבע פֿאַר יעדער דאַטאַסעט, דאַטאַטיפּע און פֿאַר מאַסיוו דאַטאַבייסיז

דאָס אַלאַוז אָרגאַניזאַציע צו בויען אַ שטאַרק דאַטן יסוד מיט גרינג און שנעל אַקסעס צו ניצלעך, הויך קוואַליטעט דאַטן צו ופשליסן דאַטן און לעווערידזש דאַטן אַפּערטונאַטיז.

 

נוצן פאַל 2: קלוג סינטעטיש פּרובירן דאַטן פֿאַר ווייכווארג טעסטינג, אַנטוויקלונג און עקספּרעס

טעסטינג און אַנטוויקלונג מיט הויך קוואַליטעט טעסט דאַטן איז יקערדיק צו צושטעלן מאָדערן ווייכווארג סאַלושאַנז. ניצן אָריגינעל פּראָדוקציע דאַטן סימז קלאָר ווי דער טאָג, אָבער איז נישט ערלויבט רעכט צו (פּריוואַטקייט) רעגיאַליישאַנז. אנדער ברירה Test Data Management (טדם) מכשירים באַקענען "legacy-by-design"אין באַקומען די פּראָבע דאַטן רעכט:

  • טאָן ניט פאַרטראַכטנ זיך פּראָדוקציע דאַטן און געשעפט לאָגיק און רעפערענטשאַל אָרנטלעכקייַט זענען נישט אפגעהיט
  • אַרבעט פּאַמעלעך און צייט קאַנסומינג
  • מאַנואַל אַרבעט איז פארלאנגט

סינטעטיש דאַטן צוגאַנג: טעסט און אַנטוויקלען מיט אַי-דזשענערייטאַד סינטעטיש טעסט דאַטן צו צושטעלן מאָדערן ווייכווארג סאַלושאַנז קלוג מיט:

  • פּראָדוקציע-ווי דאַטן מיט אפגעהיט געשעפט לאָגיק און רעפערענטשאַל אָרנטלעכקייַט
  • גרינג און שנעל דאַטן דור מיט מאָדערן AI
  • פּריוואַטקייט-דורך-פּלאַן
  • גרינג, שנעל און agile

דאָס אַלאַוז אָרגאַניזאַציע צו פּרובירן און אַנטוויקלען מיט ווייַטער-מדרגה פּרובירן דאַטן צו צושטעלן די מערסט מאָדערן ווייכווארג סאַלושאַנז!

מער אינפֿאָרמאַציע

אינטערעסירט? פֿאַר מער אינפֿאָרמאַציע וועגן סינטעטיש דאַטן, באַזוכן די Syntho וועבזייטל אָדער קאָנטאַקט Wim Kees Janssen. פֿאַר מער אינפֿאָרמאַציע וועגן SAS, באַזוכן www.sas.com אָדער קאָנטאַקט kees@syntho.ai.

אין דעם פאַל, Syntho, SAS און NL AIC אַרבעט צוזאַמען צו דערגרייכן די בדעה רעזולטאַטן. Syntho איז אַ מומחה אין אַי-דזשענערייטאַד סינטעטיש דאַטן און SAS איז אַ מאַרק פירער אין אַנאַליטיקס און אָפפערס ווייכווארג פֿאַר ויספאָרשן, אַנאַלייזינג און וויזשוואַלייזינג דאַטן.

* פּרידיקס 2021 - דאַטן און אַנאַליטיקס סטראַטעגיעס צו רעגירן, וואָג און יבערמאַכן דיגיטאַל געשעפטן, Gartner, 2020.

סינטהאָ פירער דעקן

היט דיין סינטעטיש דאַטן פירן איצט!