AI ס ומבאַמערקט קולפּריט: אַנראַוואַלינג די פאָרורטייל ין

פאָרורטייל בלאָג סעריע: טייל 1

הקדמה

אין אונדזער וועלט פון ינקריסינגלי קינסטלעך פארמען פון סייכל, מאשינען וואָס זענען טאַסקט צו מאַכן קאָמפּלעקס דיסיזשאַנז ווערן מער און מער פאַרשפּרייט. עס איז אַ גראָוינג גוף פון ליטעראַטור וואָס ינדיקייץ די נוצן פון אַי אין פאַרשידן דאָומיינז אַזאַ ווי געשעפט, הויך-פלעקל באַשלוס-מאכן און אין די לעצטע יאָרן אין די מעדיציניש סעקטאָר. מיט דעם גראָוינג פּרעוואַלאַנס, אָבער, מענטשן האָבן באמערקט וועגן טענדענץ אין געזאגט סיסטעמען; דאָס איז, כאָטש זיי זענען ינכעראַנטלי דיזיינד צו ריין נאָכפאָלגן פּאַטערנז אין די דאַטן, זיי האָבן געוויזן וואונדער פון פאָרורטל, אין דעם זינען אַז פאַרשידן סעקסיסט און דיסקרימינאַטאָרי נאַטור קענען זיין באמערקט. די לעצטע אייראפעישער אַי אקט, אויך דעקט גאַנץ ברייט דעם ענין פון אַזאַ פאָרורטל און שטעלן אַ יסוד פֿאַר טאַקלינג פּראָבלעמס פֿאַרבונדן מיט אים. 

איבער די יאָרן פון טעכניש דאַקיומענטיישאַן, מענטשן האָבן טענד צו נוצן דעם טערמין "פאָרורטייל" צו באַשרייַבן דעם סקיוד טיפּ פון נאַטור צו זיכער דעמאָגראַפיקס; א ווארט וואס די באדייטונג טוישט זיך, מאכט א צעמישעניש און קאמפליצירט די אויפגאבע פון ​​אדרעסירן עס.

דער אַרטיקל איז דער ערשטער אין אַ סעריע פון ​​​​בלאָג אַרטיקלען וואָס דעקן די טעמע פון ​​פאָרורטייל. אין דעם סעריע, מיר צילן צו געבן איר אַ קלאָר, דיידזשעסטאַבאַל פארשטאנד פון פאָרורטייל אין אַי. מיר וועלן באַקענען וועגן צו מעסטן און מינאַמייז פאָרורטייל און ויספאָרשן די ראָלע פון ​​סינטעטיש דאַטן אין דעם וועג צו מער שיין סיסטעמען. מיר וועלן אויך געבן אַ קוק אין ווי Syntho, אַ לידינג שפּילער אין סינטעטיש דאַטן דור, קענען ביישטייערן צו דעם מי. צי איר זענט אַ פּראַקטישנער וואָס זוכט פֿאַר אַקטיאָנאַבלע ינסייץ אָדער נאָר טשיקאַווע וועגן דעם טעמע, איר זענט אין די רעכט אָרט.

פאָרורטייל אין קאַמף: אַ פאַקטיש-וועלט בייַשפּיל

איר קען זיין וואַנדערינג, "די פאָרורטייל אין אַי איז אַלע וויכטיק, אָבער וואָס טוט עס מיינען פֿאַר מיר, פֿאַר פּראָסט מענטשן?" דער אמת איז, די פּראַל איז ווייַט-ריטשינג, אָפט ומזעיק אָבער שטאַרק. פאָרורטייל אין אַי איז נישט בלויז אַ אַקאַדעמיק באַגריף; עס איז אַ פאַקטיש-וועלט פּראָבלעם מיט ערנסט פאלגן.

נעמען די האָלענדיש קינד וועלפער סקאַנדאַל ווי אַ בייַשפּיל. די אָטאַמייטיד סיסטעם, סאַפּאָוזאַדלי אַ געצייַג באשאפן צו דזשענערייט שיין און עפעקטיוו רעזולטאַטן מיט מינימאַל מענטש ינטערווענטיאָן, איז געווען בייאַסט. עס ראָנגלי פלאַגד טויזנטער פון עלטערן פֿאַר שווינדל באזירט אויף פלאָד דאַטן און אַסאַמפּשאַנז. די רעזולטאטן? פאַמיליעס ארלנגעווארפן אין בעהאָלע, פּערזענלעך רעפּיאַטיישאַנז דאַמידזשד און פינאַנציעל נויט, אַלע רעכט צו בייאַסיז אין אַן אַי סיסטעם. עס זענען ביישפילן ווי די וואָס הויכפּונקט די ערדזשאַנסי פון אַדרעסינג פאָרורטייל אין אַי.

מענטשן פּראָטעסטירן

אבער לאָמיר נישט האַלטן דאָרט. דער אינצידענט איז נישט אַן אפגעזונדערט פאַל פון פאָרורטייל וואָס וואָרן כאַוואַק. די פּראַל פון פאָרורטייל אין אַי יקסטענדז צו אַלע עקן פון אונדזער לעבן. פון ווער עס ווערט כייערד פֿאַר אַ אַרבעט, ווער איז באוויליקט פֿאַר אַ אַנטלייַען, צו ווער עס באקומט וואָס סאָרט פון מעדיציניש באַהאַנדלונג - בייאַסט אַי סיסטעמען קענען פּערפּעטשאַווייט יגזיסטינג יניקוואַלאַטיז און שאַפֿן נייַע.

באַטראַכטן דעם: אַן אַי סיסטעם טריינד אויף בייאַסט היסטארישע דאַטן קען לייקענען אַ געזונט-קוואַלאַפייד קאַנדידאַט אַ אַרבעט נאָר ווייַל פון זייער דזשענדער אָדער עטהניסיטי. אָדער אַ בייאַסט אַי סיסטעם קען לייקענען אַ אַנטלייַען צו אַ דיזערווינג קאַנדידאַט ווייַל פון זייער פּאָסטקאָדע. דאס זענען נישט בלויז כייפּאַטעטיקאַל סינעריאָוז; זיי זענען געשעעניש רעכט איצט.

די ספּעציפיש טייפּס פון בייאַסאַז, אַזאַ ווי היסטאָריש פאָרורטייל און מעאַסורעמענט פאָרורטייל, פירן צו אַזאַ פלאָד דיסיזשאַנז. זיי זענען טאָכיק אין די דאַטן, דיפּלי איינגעווארצלט אין סאציאל בייאַסאַז, און שפיגלט אין די אַניקוואַל אַוטקאַמז צווישן פאַרשידענע דעמאָגראַפיק גרופּעס. זיי קענען סקיינדזש די דיסיזשאַנז פון פּרידיקטיוו מאָדעלס און רעזולטאַט אין ומיוישערדיק באַהאַנדלונג.

אין די גרויס סכעמע פון ​​​​טינגז, פאָרורטייל אין אַי קענען שפּילן ווי אַ שטיל ינפלואַנסער, סאַטאַלי פאָרעם אונדזער געזעלשאַפט און אונדזער לעבן, אָפט אין וועגן וואָס מיר טאָן ניט אפילו פאַרשטיין. אַלע די אויבן-דערמאנט פונקטן קען פירן איר צו פרעגן וואָס זענען נישט גענומען אַקשאַנז צו האַלטן, און צי עס איז אפילו מעגלעך.

טאַקע, מיט נייַע טעקנאַלאַדזשיקאַל אַדוואַנסיז עס ווערט ינקריסינגלי מער צוטריטלעך צו מאַכנ אַזאַ פּראָבלעם. דער ערשטער שריט צו אַדרעס דעם פּראָבלעם, אָבער, איז צו פֿאַרשטיין און באַשטעטיקן זייַן עקזיסטענץ און פּראַל. דערווייל איז באשאפן געווארן די אנערקענונג פון איר עקזיסטענץ, לאזנדיג די ענין פון "פארשטאנד" נאך גאר ווייג. 

פֿאַרשטיין פאָרורטייל

בשעת דער אָריגינעל דעפֿיניציע פון ​​פאָרורטייל ווי דערלאנגט דורך די קיימברידזש ווערטערבוך עס איז נישט צו ווייַט אַוועק פון די הויפּט ציל פון דעם וואָרט ווי עס שייך צו AI, פילע פאַרשידענע ינטערפּריטיישאַנז זאָל זיין געמאכט פון אפילו דעם יינציק דעפֿיניציע. טאַקסאָנאָמיעס, אַזאַ ווי די דערלאנגט דורך ריסערטשערז אַזאַ ווי Hellström et al (2020) און קליגר (2021), צושטעלן דיפּער ינסייץ אין די דעפֿיניציע פון ​​פאָרורטייל. א פּשוט בליק אין די צייטונגען וועט אַנטדעקן, אָבער, אַז אַ גרויס נעראָוינג פון די דעפֿיניציע פון ​​​​דעם טערמין איז פארלאנגט צו יפעקטיוולי מאַכנ די פּראָבלעם. 

כאָטש עס איז אַ ענדערונג פון געשעענישן, צו אָפּטימאַל דעפינירן און קאַנוויי די טייַטש פון פאָרורטייל קענען בעסער דעפינירן די פאַרקערט, דאָס איז יושר. 

דיפיינינג יוישער 

ווי עס איז דיפיינד אין פאַרשידן פריש ליטעראַטור ווי קאַסטעלנאָוואָ עט על. (2022), יוישער קענען זיין ילאַברייטיד אויף געגעבן אַ פארשטאנד פון דעם טערמין פּאָטענציעל פּלאַץ. ווי עס יגזיסץ, פּאָטענציעל פּלאַץ (PS) רעפערס צו די מאָס פון קייפּאַבילאַטיז און וויסן פון אַ יחיד ראַגאַרדלאַס פון זייער בילאָנגינג צו אַ זיכער דעמאָגראַפיק גרופּע. געגעבן דעם דעפֿיניציע פון ​​דעם באַגריף פון פּס, איינער קענען לייכט דעפינירן יוישער צו זיין די יקוואַלאַטי פון באַהאַנדלונג צווישן צוויי מענטשן פון גלייַך פּס, ראַגאַרדלאַס פון זייער אַבזערוואַבאַל און פאַרבאָרגן דיפעראַנסיז אין פאָרורטייל ינדוסינג פּאַראַמעטערס (אַזאַ ווי ראַסע, עלטער אָדער דזשענדער). יעדער דייווערזשאַן פון דעם דעפֿיניציע, אויך גערופן יקוואַלאַטי פון אַפּערטונאַטיז, איז אַ קלאָר אָנווייַז פון פאָרורטייל און מעריץ ווייַטער ויספאָרשונג.  

די פּראַקטישנערז צווישן די לייענער קען באַמערקן אַז דערגרייכן עפּעס ווי דיפיינד דאָ קען זיין גאָר אוממעגלעך ווייַל פון די טאָכיק בייאַסיז וואָס זענען אין אונדזער וועלט. דאס איז אמת! די וועלט אין וואָס מיר לעבן, צוזאַמען מיט אַלע דאַטן געזאמלט פון געשעענישן אין דער וועלט, איז אונטערטעניק צו פיל היסטארישע און סטאַטיסטיש פאָרורטייל. דאָס, טאַקע, פאַרמינערן די בטחון פון איין טאָג גאָר מיטאַגייטינג די ימפּאַקץ פון פאָרורטייל אויף פּרידיקטיוו מאָדעלס טריינד אויף אַזאַ "בייאַסט" דאַטן. אָבער, דורך די נוצן פון פאַרשידן מעטהאָדס, איר קענען פּרובירן צו מינאַמייז די ימפּאַקץ פון פאָרורטייל. דאָס איז דער פאַל, די טערמינאָלאָגיע געניצט אין די רעשט פון דעם בלאָג פּאָסטן (s) וועט יבעררוק צו דער געדאַנק פון מינאַמייזינג די פּראַל פון פאָרורטייל אלא ווי גאָר מיטאַגייטינג עס.

אקעי! אזוי יעצט אז מען האט ארויסגעברענגט א געדאנק פון וואס איז פארפארדונג און וויאזוי מען קען מעגליך אפשאצן איר עקזיסטענץ; אויב מיר ווילן צו מאַכנ די פּראָבלעם רעכט, אָבער, מיר דאַרפֿן צו וויסן ווו אַלע די בייאַסיז קומען פון.

פֿאַרשטיין די מקורים און טייפּס

עקסיסטינג פאָרשונג גיט ווערטפול ינסייץ אין די פאַרשידענע טייפּס פון בייאַסאַז אין מאַשין לערנען. ווי מהראבי עט. על. (2019) האָבן פּראַסידאַד צו צעטיילן בייאַסיז אין מאַשין לערנען, מען קענען טיילן בייאַסיז אין 3 הויפּט קאַטעגאָריעס. דהיינו די פון:

  • דאַטן צו אַלגערידאַם: אַ קאַטעגאָריע ענקאַמפּסינג בייאַסאַז וואָס קומען פֿון די דאַטן זיך. קען דאָס זיין געפֿירט דורך נעבעך דאַטן זאַמלונג, טאָכיק בייאַסיז וואָס זענען אין דער וועלט, אאז"ו ו.
  • אַלגערידאַם צו באַניצער: אַ קאַטעגאָריע פאָוקיסינג אויף בייאַסיז וואָס שטאַמען פון די פּלאַן און פאַנגקשאַנאַליטי פון די אַלגערידאַמז. עס כולל ווי אַלגערידאַמז קען טייַטשן, וועגן אָדער באַטראַכטן זיכער דאַטן ווייזט איבער אנדערע, וואָס קענען פירן צו בייאַסט רעזולטאַטן.
  • באַניצער צו דאַטאַ: פּערטאַנז צו בייאַסיז וואָס שטייען פֿון באַניצער ינטעראַקשאַן מיט די סיסטעם. דער שטייגער ווי די באַניצער אַרייַנשרייַב דאַטן, זייער טאָכיק בייאַסאַז אָדער אפילו זייער צוטרוי אין סיסטעם אַוטפּוץ קענען ימפּלאַמענאַד אַוטקאַמז.
גראַפיק

פיגורע 1: א וויזשוואַלאַזיישאַן פון די CRISP-DM פריימווערק פֿאַר דאַטן מיינינג; קאַמאַנלי געניצט אין דאַטן מיינינג און באַטייַטיק צו דעם פּראָצעס פון ידענטיפיצירן די סטאַגעס אין וואָס פאָרורטייל קענען קומען אין עקזיסטענץ.

כאָטש די נעמען זענען ינדיקאַטיוו פון די פאָרעם פון פאָרורטייל, איר קען נאָך האָבן פֿראגן וועגן די טייפּס פון בייאַסיז וואָס מען קען קאַטאַגערייז אונטער די שירעם טערמינען. פֿאַר די ענטוזיאַסץ צווישן אונדזער לייענער, מיר האָבן צוגעשטעלט פֿאַרבינדונגען צו עטלעכע ליטעראַטור שייַכות צו דעם טערמינאָלאָגיע און קלאַסאַפאַקיישאַן. פֿאַר די פּאַשטעס פון דעם בלאָג פּאָסטן, מיר וועלן דעקן אַ ביסל סעלעקטעד בייאַסיז וואָס זענען באַטייַטיק צו די סיטואַציע (כּמעט אַלע וואָס זענען פון די קאַטעגאָריע דאַטן צו אַלגערידאַם). די ספּעציפיש טייפּס פון בייאַסאַז זענען ווי גייט:

  • היסטאָריש פאָרורטייל: א טיפּ פון פאָרורטייל טאָכיק צו די דאַטן געפֿירט דורך די נאַטירלעך בייאַסיז וואָס זענען אין דער וועלט אין פאַרשידענע געזעלשאַפטלעך גרופּעס און געזעלשאַפט אין אַלגעמיין. עס איז ווייַל פון די ינכעראַנס פון די דאַטן אין דער וועלט אַז עס קענען ניט זיין מיטאַגייטיד דורך פאַרשידן מיטלען פון מוסטערונג און שטריך סעלעקציע.
  • מעאַסורעמענט פאָרורטייל און פאַרטרעטונג פאָרורטייל: די צוויי ענג פֿאַרבונדענע בייאַסאַז פאַלן ווען די פאַרשידענע סאַבגרופּס פון די דאַטאַסעט אַנטהאַלטן אַניקוואַל אַמאַונץ פון "גינציק" רעזולטאטן. דער טיפּ פון פאָרורטייל קענען דעריבער סקיינדזש די אַוטקאַם פון פּרידיקטיוו מאָדעלס
  • אַלגערידאַמיק פאָרורטייל: פאָרורטייל בלויז שייך צו די אַלגערידאַם אין נוצן. ווי אויך באמערקט אין די דורכגעקאָכט טעסץ (עלאַבאָרייטיד ווייַטער אין דעם פּאָסטן), דעם טיפּ פון פאָרורטייל קענען האָבן אַ ריזיק ווירקונג אויף די יוישער פון אַ געגעבן אַלגערידאַם.

די פונדאַמענטאַל פארשטאנד פון פאָרורטייל אין מאַשין לערנען וועט זיין יוטאַלייזד צו מאַכנ די פּראָבלעם מער יפעקטיוולי אין שפּעטער אַרטיקלען.

לעצט טאָץ

אין דעם ויספאָרשונג פון פאָרורטייל אין קינסטלעך סייכל, מיר האָבן ילומאַנייטאַד די טיף ימפּלאַקיישאַנז עס האלט אין אונדזער ינקריסינגלי אַי-געטריבן וועלט. פֿון פאַקטיש-וועלט ביישפילן ווי די האָלענדיש קינד וועלפער סקאַנדאַל צו די ינטראַקאַט נואַנסיז פון פאָרורטייל קאַטעגאָריעס און טייפּס, עס איז קענטיק אַז דערקענען און פֿאַרשטיין פאָרורטייל איז העכסט.

כאָטש די טשאַלאַנדזשיז געשטעלט דורך בייאַסיז - צי זיי זענען היסטאָריש, אַלגערידאַמיק אָדער באַניצער-ינדוסט - זענען באַטייטיק, זיי זענען נישט ינסערמאַונטאַבאַל. מיט אַ פעסט אָנכאַפּן אויף די אָריגינס און מאַנאַפעסטיישאַנז פון פאָרורטייל, מיר זענען בעסער יקוויפּט צו אַדרעס זיי. אָבער, דערקענונג און פארשטאנד זענען בלויז די סטאַרטינג פונקטן.

ווען מיר מאַך פאָרויס אין דעם סעריע, אונדזער ווייַטער פאָקוס וועט זיין אויף די מאַמאָשעסדיק מכשירים און פראַמעוואָרקס אין אונדזער באַזייַטיקונג. ווי טאָן מיר מעסטן די מאָס פון פאָרורטייל אין אַי מאָדעלס? און מער ימפּאָרטאַנטלי, ווי טאָן מיר מינאַמייז די פּראַל? דאָס זענען די דרינגלעך פֿראגן וואָס מיר וועלן דעלוו אין ווייַטער, ינשורינג אַז ווי אַי האלט צו יוואַלוו, עס טוט דאָס אין אַ ריכטונג וואָס איז ביידע שיין און פּערפאָרמינג.

גרופּע פון ​​מענטשן סמיילינג

דאַטן זענען סינטעטיש, אָבער אונדזער מאַנשאַפֿט איז פאַקטיש!

קאָנטאַקט סינטהאָ און איינער פון אונדזער עקספּערץ וועט קאָנטאַקט איר מיט די גיכקייַט פון ליכט צו ויספאָרשן די ווערט פון סינטעטיש דאַטן!