אַנאָנימייזד דאַטן ווס סינטעטיש דאַטן

אויב איר אַנאָנימיזע דיין דאַטן איידער איר דורכפירן דאַטן טעסטינג פון דאַטן אַנאַליטיקס, עס זענען עטלעכע סיבות אין שפּיל:

  1. אין כּמעט אַלע קאַסעס, אַנאָנימייזד דאַטן קענען נאָך זיין טרייסט צוריק צו מענטשן רעכט צו ספּעציפיש און יינציק ראָוז (למשל מעדיציניש רעקאָרדס)
  2. די מער איר אַנאָנימיזע אָדער גענעראַליזירן, די מער דאַטן איר צעשטערן. דאָס לאָווערס די קוואַליטעט פון דיין דאַטן און אַזוי דיין ינסייץ
  3. אַנאָנימיזאַטיאָן אַרבעט דיפערענטלי פֿאַר פאַרשידענע דאַטן פֿאָרמאַטירונגען. דעם מיטל אַז עס איז נישט סקאַלאַבלע און קען זיין זייער צייט-קאַנסומינג

סינטעטיש דאַטן סאַלווז אַלע די שאָרטקאָמינגס און מער. היטן די ווידעא אונטן צו זען אַן אַנאַליטיקס עקספּערט פון SAS (גלאבאלע מאַרק פירער אין אַנאַליטיקס) דערקלערן זיין אַסעסמאַנט אויף די חילוק אין קוואַליטעט צווישן אָריגינעל דאַטן, אַנאָנימייזד דאַטן און סינטהאָ דזשענערייטאַד סינטעטיש דאַטן.

דער ווידעא איז קאַפּטשערד פון די Syntho x SAS D[N]A קאַפע וועגן אַי דזשענערייטאַד סינטעטיש דאַטן. געפֿינען די פול ווידעא דאָ.

Edwin van Unen האָט געשיקט אַן אָריגינעל דאַטאַסעט צו Syntho און מיר סינטאַסייזד די דאַטאַסעט. אָבער די קשיא איז אויך געווען: "וואָס וועט פּאַסירן אויב מיר פאַרגלייַכן סינטעטיש דאַטן צו אַנאָנימייזד דאַטן?" ווייַל איר פאַרלירן אַ פּלאַץ פון אינפֿאָרמאַציע אין אַן אַנאָנימייזד דאַטן, וועט דאָס אויך פּאַסירן ווען סינטאַסייזינג אַ דאַטאַסעט? מיר סטאַרטעד מיט אַ דאַטאַסעט פון די טעלעקאָממוניקאַטיאָנס אינדוסטריע מיט 56.000 ראָוז און 128 שפאלטן פון פירמע טשערן אינפֿאָרמאַציע. דער דאַטאַסעט איז געווען סינטאַסייזד און אַנאָנימייזד אַזוי עדווין קען פאַרגלייַכן סינטעז מיט אַנאָנימיזאַטיאָן. דערנאָך, עדווין סטאַרטעד מאָדעלינג מיט SAS Viya. ער געבויט אַ פּאָר פון טשערן מאָדעלס אויף דער אָריגינעל דאַטאַסעט, ניצן קלאַסיש ראַגרעשאַן טעקניקס און באַשלוס ביימער, אָבער אויך מער סאַפיסטאַקייטיד טעקניקס אַזאַ ווי נעוראַל נעטוואָרקס, גראַדיענט בוסטינג, טראַפ - וואַלד - די מינים פון טעקניקס. ניצן די נאָרמאַל SAS Viya אָפּציעס ווען איר בויען די מאָדעלס.

דערנאָך עס איז געווען צייט צו קוקן אין די רעזולטאַטן. די רעזולטאַטן זענען געווען זייער פּראַמאַסינג פֿאַר סינטעטיש דאַטן און נישט פֿאַר אַנאָנימיזאַטיאָן. פֿאַר די גאָרניט-מאַשין-לערנען עקספּערץ אין די וילעם, מיר קוקן אין די געגנט אונטער די ROC-ויסבייג וואָס דערציילט עפּעס וועגן די אַקיעראַסי פון די מאָדעל. קאַמפּערינג די אָריגינעל דאַטן צו די אַנאָנימייזד דאַטן, מיר זען אַז דער אָריגינעל דאַטן מאָדעל האט אַ שטח אונטער די ROC-ויסבייג פון .8, וואָס איז שיין גוט, אָבער, די אַנאָנימייזד דאַטן האָבן אַ שטח אונטער די ROC-ויסבייג פון .6. דעם מיטל מיר פאַרלירן אַ פּלאַץ פון אינפֿאָרמאַציע מיט די אַנאָנימייזד מאָדעל אַזוי איר פאַרלירן אַ פּלאַץ פון פּרידיקטיוו מאַכט.

אָבער, די קשיא איז וואָס וועגן סינטעטיקס דאַטן? דאָ מיר האָבן פּונקט די זעלבע, אָבער אַנשטאָט פון אַנאָנימיזינג די דאַטן, Syntho סינטאַסייזד די דאַטן. איצט, מיר זען ביידע די אָריגינעל דאַטן און די סינטעטיש דאַטן האָבן אַ שטח אונטער די ROC-ויסבייג פון .8, וואָס איז זייער ענלעך. ניט פּונקט די זעלבע רעכט צו וועריאַביליטי, אָבער זייער ענלעך. דעם מיטל, די פּאָטענציעל פון סינטעטיש דאַטן איז זייער פּראַמאַסינג - עדווין איז זייער צופרידן וועגן דעם.

גרופּע פון ​​מענטשן סמיילינג

דאַטן זענען סינטעטיש, אָבער אונדזער מאַנשאַפֿט איז פאַקטיש!

קאָנטאַקט סינטהאָ און איינער פון אונדזער עקספּערץ וועט קאָנטאַקט איר מיט די גיכקייַט פון ליכט צו ויספאָרשן די ווערט פון סינטעטיש דאַטן!