פונדרויסנדיק אפשאצונג פון אונדזער סינטעטיש דאַטן דורך די דאַטן עקספּערץ פון SAS

אונדזער סינטעטיש דאַטן איז אַססעססעד און באוויליקט דורך די דאַטן עקספּערץ פון סאַס

הקדמה צו די פונדרויסנדיק אפשאצונג פון אונדזער סינטעטיש דאַטן דורך די דאַטן עקספּערץ פון SAS

װאָס האָבן מיר געטאָן?

סינטעטיש דאַטן דזשענערייטאַד דורך Syntho זענען אַססעססעד, וואַלאַדייטאַד און באוויליקט פֿון אַ פונדרויסנדיק און אָביעקטיוו פונט פון מיינונג דורך די דאַטן עקספּערץ פון SAS.

פארוואס זענען אונדזער סינטעטיש דאַטן ויסווייניק עוואַלואַטעד דורך די דאַטן עקספּערץ פון SAS?

כאָטש Syntho איז שטאָלץ צו פאָרשלאָגן זיין יוזערז אַ אַוואַנסירטע קוואַליטעט פארזיכערונג באַריכט, מיר אויך פֿאַרשטיין די וויכטיקייט פון אַ פונדרויסנדיק און אָביעקטיוו אפשאצונג פון אונדזער סינטעטיש דאַטן פון ינדאַסטרי פירער. אַז ס וואָס מיר מיטאַרבעטן מיט SAS, פירער אין אַנאַליטיקס, צו אַססעסס אונדזער סינטעטיש דאַטן.

SAS קאַנדאַקץ פאַרשידן גרונטיק יוואַליויישאַנז אויף דאַטן-פּינטלעכקייַט, פּריוואַטקייט שוץ און וסאַביליטי פון Syntho ס אַי-דזשענערייטאַד סינטעטיש דאַטן אין פאַרגלייַך מיט די אָריגינעל דאַטן. ווי מסקנא, SAS אַססעססעד און באוויליקט סינטהאָ ס סינטעטיש דאַטן ווי פּינטלעך, זיכער און ניצלעך אין פאַרגלייַך מיט די אָריגינעל דאַטן.

וואָס האָט SAS געטאָן בעשאַס דעם אַסעסמאַנט?

מיר געוויינט טעלעקאָם דאַטן וואָס זענען גענוצט פֿאַר "טשערן" פּראָגנאָז ווי ציל דאַטן. דער ציל פון די אפשאצונג איז געווען צו נוצן סינטעטיש דאַטן צו באַן פאַרשידן טשערן פּראָגנאָז מאָדעלס און אַססעסס די פאָרשטעלונג פון יעדער מאָדעל. ווייַל טשערן פּראָגנאָז איז אַ קלאַסאַפאַקיישאַן אַרבעט, SAS אויסגעקליבן פאָלקס קלאַסאַפאַקיישאַן מאָדעלס צו מאַכן די פֿאָרויסזאָגן, אַרייַנגערעכנט:

  1. טראַפ וואַלד
  2. גראַדיענט בוסטינג
  3. לאָגיסטיק ראַגרעשאַן
  4. נעוראַל נעץ

איידער דזשענערייטינג די סינטעטיש דאַטן, SAS ראַנדאַמלי שפּאַלטן די טעלעקאָם דאַטאַסעט אין אַ באַן גאַנג (פֿאַר טריינינג די מאָדעלס) און אַ האָלדאַוט גאַנג (פֿאַר כעזשבן די מאָדעלס). מיט אַ באַזונדער סטאַנדאַוט שטעלן פֿאַר סקאָרינג אַלאַוז אַן אַנבייאַסט אַססעססמענט פון ווי געזונט די קלאַסאַפאַקיישאַן מאָדעל קען טאָן ווען געווענדט צו נייַע דאַטן.

מיט די באַן שטעלן ווי אַרייַנשרייַב, Syntho געוויינט זיין סינטהאָ ענגינע צו דזשענערייט אַ סינטעטיש דאַטאַסעט. פֿאַר בענטשמאַרקינג, SAS אויך באשאפן אַן אַנאָנימייזד ווערסיע פון ​​​​די באַן שטעלן נאָך אַפּלייינג פאַרשידן אַנאָנימיזאַטיאָן טעקניקס צו דערגרייכן אַ זיכער שוועל (פון ק-אַנאַנאַמיטי). די ערשטע סטעפּס ריזאַלטיד אין פיר דאַטאַסעץ:

  1. א באַן דאַטאַסעט (ד"ה דער אָריגינעל דאַטאַסעט מינוס די האָלדאַוט דאַטאַסעט)
  2. א האָלדאַוט דאַטאַסעט (ד"ה אַ סאַבסעט פון דער אָריגינעל דאַטאַסעט)
  3. אַן אַנאָנימייזד דאַטאַבייס (אַנאַנימיזעד דאַטן פון די באַן דאַטאַסעט, אָריגינעל דאַטאַסעט מינוס די האָלדאַוט דאַטאַסעט)
  4. א סינטעטיש דאַטאַסעט (סינטאַסייזד דאַטן פון די באַן דאַטאַסעט, אָריגינעל דאַטאַסעט מינוס די האָלדאַוט דאַטאַסעט)

דאַטאַסעטס 1, 3 און 4 זענען געניצט צו באַן יעדער קלאַסאַפאַקיישאַן מאָדעל, ריזאַלטינג אין 12 (3 קס 4) טריינד מאָדעלס. SAS דערנאָך געוויינט די האָלדאַוט דאַטאַסעט צו מעסטן די אַקיעראַסי פון יעדער מאָדעל אין די פאָרויסזאָגן פון קונה טשורן.

SAS קאַנדאַקץ פאַרשידן גרונטיק יוואַליויישאַנז אויף דאַטן-פּינטלעכקייַט, פּריוואַטקייט שוץ און וסאַביליטי פון Syntho ס אַי-דזשענערייטאַד סינטעטיש דאַטן אין פאַרגלייַך מיט די אָריגינעל דאַטן. ווי מסקנא, SAS אַססעססעד און באוויליקט סינטהאָ ס סינטעטיש דאַטן ווי פּינטלעך, זיכער און ניצלעך אין פאַרגלייַך מיט די אָריגינעל דאַטן.

צי איר האָבן קיין פראגעס?

רעדן צו איינער פון אונדזער עקספּערץ

ערשט רעזולטאַטן פון די דאַטן אַסעסמאַנט דורך SAS

מאָדעלס טריינד אויף סינטעטיש דאַטן כעזשבן זייער ענלעך אין פאַרגלייַך צו מאָדעלס טריינד אויף אָריגינעל דאַטן

סינטעטיש דאַטן פון Syntho האלט ניט בלויז פֿאַר יקערדיק פּאַטערנז, עס אויך קאַפּטשערז טיף 'פאַרבאָרגן' סטאַטיסטיש פּאַטערנז פארלאנגט פֿאַר אַוואַנסירטע אַנאַליטיקס טאַסקס. די יענער איז דעמאַנסטרייטיד אין די באַר טשאַרט, וואָס ינדיקייץ אַז די אַקיעראַסי פון מאָדעלס טריינד אויף סינטעטיש דאַטן קעגן מאָדעלס טריינד אויף אָריגינעל דאַטן זענען ענלעך. דעריבער, סינטעטיש דאַטן קענען זיין געוויינט פֿאַר פאַקטיש טריינינג פון די מאָדעלס. די ינפּוץ און וועריאַבאַל וויכטיקייט אויסגעקליבן דורך די אַלגערידאַמז אויף סינטעטיש דאַטן קאַמפּערד מיט אָריגינעל דאַטן זענען זייער ענלעך. דערפאר, עס איז געפונען אַז דער מאָדעלינג פּראָצעס קענען זיין געטאן אויף סינטעטיש דאַטן, ווי אַן אָלטערנאַטיוו פֿאַר ניצן פאַקטיש שפּירעוודיק דאַטן.

פארוואס טאָן מאָדעלס טריינד אויף אַנאָנימייזד דאַטן כעזשבן ערגער?

קלאַסיש אַנאָנימיזאַטיאָן טעקניקס האָבן דער פּראָסט אַז זיי מאַניפּולירן אָריגינעל דאַטן אין סדר צו פאַרמייַדן טרייסינג צוריק מענטשן. זיי מאַניפּולירן דאַטן און דערמיט צעשטערן דאַטן אין דעם פּראָצעס. די מער איר אַנאָנימיזע, די בעסער דיין דאַטן זענען פּראָטעקטעד, אָבער אויך די מער דיין דאַטן זענען חרובֿ. דאָס איז ספּעציעל דעוואַסטייטינג פֿאַר אַי און מאָדעלינג טאַסקס ווו "פּרידיקטיוו מאַכט" איז יקערדיק, ווייַל שלעכט קוואַליטעט דאַטן וועט רעזולטאַט אין שלעכט ינסייץ פון די אַי מאָדעל. SAS דעמאַנסטרייטיד דעם, מיט אַ שטח אונטער די ויסבייג (AUC *) נאָענט צו 0.5, דעמאַנסטרייטינג אַז די מאָדעלס טריינד אויף אַנאָנימייזד דאַטן זענען די ערגסט.

נאָך רעזולטאַטן פון סינטעטיש דאַטן אַסעסמאַנץ דורך SAS

נאָך רעזולטאַטן פון סינטעטיש דאַטן אַסעסמאַנץ דורך SAS

די קאָראַליישאַנז און באציונגען צווישן וועריאַבאַלז זענען אַקיעראַטלי אפגעהיט אין סינטעטיש דאַטן.

די שטח אונטער די ויסבייג (AUC), אַ מעטריק פֿאַר מעסטן מאָדעל פאָרשטעלונג, פארבליבן קאָנסיסטענט.

דערצו, די וועריאַבאַל וויכטיקייט, וואָס ינדיקייץ די פּרידיקטיוו מאַכט פון וועריאַבאַלז אין אַ מאָדעל, פארבליבן בעשאָלעם ווען קאַמפּערינג סינטעטיש דאַטן צו דער אָריגינעל דאַטאַסעט.

באַזירט אויף די אַבזערוויישאַנז פון SAS און דורך ניצן SAS Viya, מיר קענען קאַנפאַדאַנטלי פאַרענדיקן אַז סינטעטיש דאַטן דזשענערייטאַד דורך די סינטהאָ ענגינע איז טאַקע ענלעך צו פאַקטיש דאַטן אין טערמינען פון קוואַליטעט. דאָס וואַלאַדייץ די נוצן פון סינטעטיש דאַטן פֿאַר מאָדעל אַנטוויקלונג, פּייווינג דעם וועג פֿאַר אַוואַנסירטע אַנאַליטיקס מיט סינטעטיש דאַטן.

קאַנקלוזשאַנז דורך די דאַטן עקספּערץ פון סאַס

סאַס לאָגאָ

אונדזער סינטעטיש דאַטן איז באוויליקט דורך די דאַטן עקספּערץ פון SAS

רעפֿערענץ אַרטיקלען

סינטהאָ פירער דעקן

היט דיין סינטעטיש דאַטן פירן איצט!