AI को नदेखेको अपराधी: भित्र पूर्वाग्रह खोल्दै

पूर्वाग्रह ब्लग श्रृंखला: भाग 1

परिचय

हाम्रो बौद्धिकताको बढ्दो कृत्रिम रूपको संसारमा, जटिल निर्णयहरू लिने काम गर्ने मेसिनहरू अधिक र अधिक प्रचलित हुँदै गइरहेका छन्। व्यापार, उच्च-दायित्व निर्णय लिने, र चिकित्सा क्षेत्रमा विगत केही वर्षहरूमा विभिन्न डोमेनहरूमा AI को प्रयोगलाई संकेत गर्ने साहित्यको बढ्दो निकाय छ। यो बढ्दो व्यापकता संग, तथापि, मानिसहरूले उक्त प्रणालीहरूमा प्रवृत्तिहरूको बारेमा याद गरेका छन्; त्यो हो, तथ्याङ्कमा विशुद्ध रूपमा ढाँचाहरू पछ्याउनको लागि अन्तर्निहित रूपमा डिजाइन गरिएको हुँदा, तिनीहरूले पूर्वाग्रहका लक्षणहरू देखाएका छन्, यस अर्थमा कि विभिन्न लिंगवादी र भेदभावपूर्ण व्यवहार अवलोकन गर्न सकिन्छ। हालैको युरोपेली एआई ऐन, त्यस्ता पूर्वाग्रहको विषयलाई बरु व्यापक रूपमा समेट्छ र यससँग सम्बन्धित समस्याहरूको समाधानको लागि आधार तयार गर्दछ।

प्राविधिक कागजातका वर्षहरूमा, मानिसहरूले निश्चित जनसांख्यिकीहरूप्रतिको यस विकृत प्रकारको व्यवहारलाई वर्णन गर्न "पूर्वाग्रह" शब्द प्रयोग गर्ने झुकाव राखेका छन्; एक शब्द जसको अर्थ भिन्न हुन्छ, भ्रम पैदा गर्दछ र यसलाई सम्बोधन गर्ने कार्यलाई जटिल बनाउँछ।

यो लेख पूर्वाग्रहको विषयलाई कभर गर्ने ब्लग पोष्टहरूको श्रृंखलामा पहिलो हो। यस शृङ्खलामा, हामी तपाईंलाई AI मा पूर्वाग्रहको स्पष्ट, पचनीय बुझाइ दिने लक्ष्य राख्नेछौं। हामी पूर्वाग्रह मापन र न्यूनीकरण गर्ने तरिकाहरू प्रस्तुत गर्नेछौं र थप निष्पक्ष प्रणालीहरूमा यस मार्गमा सिंथेटिक डेटाको भूमिका अन्वेषण गर्नेछौं। सिन्थेटिक डाटा उत्पादनमा अग्रणी खेलाडी सिन्थोले यस प्रयासमा कसरी योगदान दिन सक्छ भन्ने बारेमा पनि हामी तपाईंलाई झलक दिनेछौं। त्यसोभए, तपाईं कार्ययोग्य अन्तर्दृष्टिहरू खोज्ने एक व्यवसायी हुनुहुन्छ वा यस विषयमा मात्र उत्सुक हुनुहुन्छ, तपाईं सही ठाउँमा हुनुहुन्छ।

कार्यमा पूर्वाग्रह: एक वास्तविक-विश्व उदाहरण

तपाईं सोच्दै हुनुहुन्छ, "AI मा यो पूर्वाग्रह सबै महत्त्वपूर्ण छ, तर यसले मेरो लागि, साधारण मानिसहरूको लागि के अर्थ राख्छ?" सत्य यो हो, प्रभाव दूरगामी छ, अक्सर अदृश्य तर शक्तिशाली। AI मा पूर्वाग्रह एक शैक्षिक अवधारणा मात्र होइन; यो गम्भीर परिणामहरूको साथ एक वास्तविक-विश्व समस्या हो।

डच बाल कल्याण घोटालालाई उदाहरणको रूपमा लिनुहोस्। स्वचालित प्रणाली, न्यूनतम मानव हस्तक्षेप संग निष्पक्ष र कुशल परिणाम उत्पन्न गर्न को लागी एक उपकरण माना जाता, पक्षपाती थियो। यसले त्रुटिपूर्ण डाटा र अनुमानहरूमा आधारित ठगीको लागि हजारौं अभिभावकहरूलाई गलत रूपमा फ्ल्याग गर्‍यो। नतिजा? एआई प्रणालीको पूर्वाग्रहका कारण परिवारहरू अशान्तिमा फसेका, व्यक्तिगत प्रतिष्ठामा क्षति पुगेको र आर्थिक कठिनाइहरू। यो यस्ता उदाहरणहरू हुन् जसले AI मा पूर्वाग्रहलाई सम्बोधन गर्ने जरुरीतालाई हाइलाइट गर्दछ।

मुहान: "क्षतिपूर्ति ouders toeslagenaffair kan zomaar tot 2030 duren”, ४. अमेरिका

तर त्यहाँ नरोकौं। यो घटना पूर्वाग्रह फैलाउने विनाशको पृथक मामला होइन। AI मा पूर्वाग्रहको प्रभाव हाम्रो जीवनको सबै कुनाहरूमा फैलिएको छ। कसलाई कामको लागि राखिन्छ, कसले ऋणको लागि स्वीकृत हुन्छ, कसले कस्तो प्रकारको चिकित्सा उपचार पाउँछ - पक्षपाती एआई प्रणालीले विद्यमान असमानताहरूलाई कायम राख्न र नयाँहरू सिर्जना गर्न सक्छ।

यसलाई विचार गर्नुहोस्: पक्षपातपूर्ण ऐतिहासिक डेटामा प्रशिक्षित एआई प्रणालीले राम्रो योग्य उम्मेद्वारलाई तिनीहरूको लिंग वा जातिको कारणले मात्र काम गर्न अस्वीकार गर्न सक्छ। वा एक पक्षपाती एआई प्रणालीले योग्य उम्मेद्वारलाई उनीहरूको पोष्टकोडको कारणले ऋण अस्वीकार गर्न सक्छ। यी केवल काल्पनिक परिदृश्यहरू होइनन्; तिनीहरू अहिले भइरहेका छन्।

विशिष्ट प्रकारका पूर्वाग्रहहरू, जस्तै ऐतिहासिक पूर्वाग्रह र मापन पूर्वाग्रहले त्यस्ता त्रुटिपूर्ण निर्णयहरू निम्त्याउँछ। तिनीहरू डेटामा अन्तर्निहित छन्, सामाजिक पूर्वाग्रहहरूमा गहिरो जरा गाडिएका छन्, र विभिन्न जनसांख्यिकीय समूहहरू बीचको असमान परिणामहरूमा प्रतिबिम्बित छन्। तिनीहरूले भविष्यवाणी मोडेलको निर्णयहरू तिरस्कार गर्न सक्छन् र परिणाम अनुचित व्यवहार गर्न सक्छन्।

चीजहरूको ठूलो योजनामा, AI मा पूर्वाग्रहले मौन प्रभावकारीको रूपमा काम गर्न सक्छ, सूक्ष्म रूपमा हाम्रो समाज र हाम्रो जीवनलाई आकार दिन सक्छ, प्राय: जसरी हामीले बुझ्दैनौं। यी सबै माथि उल्लिखित बुँदाहरूले तपाईंलाई प्रश्न गर्न नेतृत्व गर्न सक्छ किन रोक्नको लागि कार्यहरू लिइएनन्, र यो सम्भव पनि छ कि छैन।

निस्सन्देह, नयाँ प्राविधिक विकासको साथ यो समस्या समाधान गर्न थप पहुँचयोग्य हुन्छ। तथापि, यस समस्यालाई सम्बोधन गर्ने पहिलो चरण यसको अस्तित्व र प्रभावलाई बुझ्न र स्वीकार गर्नु हो। अहिलेको लागि, यसको अस्तित्वको स्वीकृति सिर्जना गरिएको छ, "बुझ्ने" को कुरा अझै अस्पष्ट हुन छोडेर।

पूर्वाग्रह बुझ्दै

जबकि द्वारा प्रस्तुत पूर्वाग्रह को मूल परिभाषा क्याम्ब्रिज शब्दकोश शब्दको मुख्य उद्देश्यबाट धेरै टाढा भटक्दैन किनकि यो AI सँग सम्बन्धित छ, यो एकल परिभाषाको पनि धेरै फरक व्याख्याहरू गर्नुपर्दछ। वर्गीकरण, जस्तै शोधकर्ताहरु द्वारा प्रस्तुत ती जस्तै Hellström et al (२०२०) र Kliegr (2021)पूर्वाग्रहको परिभाषामा गहिरो अन्तर्दृष्टि प्रदान गर्नुहोस्। यी कागजातहरूमा एक साधारण नजरले प्रकट गर्नेछ, तथापि, समस्यालाई प्रभावकारी रूपमा समाधान गर्न शब्दको परिभाषाको ठूलो संकुचन आवश्यक छ।

घटनाहरूको परिवर्तन भएको बेला, पूर्वाग्रहको अर्थलाई इष्टतम रूपमा परिभाषित गर्न र व्यक्त गर्नको लागि विपरीतलाई राम्रोसँग परिभाषित गर्न सकिन्छ, त्यो हो निष्पक्षता।

निष्पक्षता को परिभाषा 

जसरी हालैका विभिन्न साहित्यमा यसलाई परिभाषित गरिएको छ Castelnovo et al। (२०२२), निष्पक्षता शब्द सम्भाव्य स्थान को बुझाइ दिएमा विस्तार गर्न सकिन्छ। जसरी यो अवस्थित छ, सम्भावित ठाउँ (PS) ले कुनै निश्चित जनसांख्यिकीय समूहसँग सम्बन्धित भएता पनि व्यक्तिको क्षमता र ज्ञानको सीमालाई जनाउँछ। PS को अवधारणाको यो परिभाषालाई ध्यानमा राख्दै, एकले समान PS का दुई व्यक्तिहरू बीचको व्यवहारको समानता हो भनेर सजिलै परिभाषित गर्न सक्छ, पूर्वाग्रह उत्पन्न गर्ने मापदण्डहरू (जस्तै जाति, उमेर, वा लिङ्ग) मा तिनीहरूको अवलोकनयोग्य र लुकेका भिन्नताहरू भएता पनि। यस परिभाषाबाट कुनै पनि विचलन, जसलाई अवसरको समानता पनि भनिन्छ, पूर्वाग्रहको स्पष्ट संकेत हो र थप अनुसन्धानको योग्यता हो।

हाम्रो संसारमा अवस्थित अन्तर्निहित पूर्वाग्रहहरूलाई ध्यानमा राख्दै यहाँ परिभाषित गरिए अनुसार केही हासिल गर्न पूर्ण रूपमा असम्भव हुन सक्छ भन्ने कुरा पाठकहरूका बीचका अभ्यासीहरूले याद गर्न सक्छन्। त्यो सत्य हो! हामी बस्ने संसार, यस संसारका घटनाहरूबाट सङ्कलन गरिएका सबै तथ्याङ्कहरू सहित, धेरै ऐतिहासिक र सांख्यिकीय पूर्वाग्रहको अधीनमा छ। यसले, वास्तवमा, यस्तो "पक्षपाती" डेटामा प्रशिक्षित भविष्यवाणी मोडेलहरूमा पूर्वाग्रहको प्रभावहरूलाई पूर्ण रूपमा कम गर्ने एक दिनको आत्मविश्वासलाई कम गर्छ। यद्यपि, विभिन्न विधिहरू प्रयोग गरेर, कसैले पूर्वाग्रहको प्रभावहरूलाई कम गर्न प्रयास गर्न सक्छ। यो मामला हो, यस ब्लग पोस्ट(हरू) को बाँकी भागमा प्रयोग गरिएको शब्दावलीले यसलाई पूर्ण रूपमा कम गर्नुको सट्टा पूर्वाग्रहको प्रभावलाई कम गर्ने विचारमा परिवर्तन गर्नेछ।

ल! त्यसोभए अब जब पूर्वाग्रह भनेको के हो र कसरी यसको अस्तित्वको सम्भावित मूल्याङ्कन गर्न सकिन्छ भन्ने बारे एउटा विचार ल्याइएको छ; यदि हामी समस्यालाई राम्ररी समाधान गर्न चाहन्छौं, तथापि, यी सबै पूर्वाग्रहहरू कहाँबाट उत्पन्न हुन्छन् भनेर हामीले जान्न आवश्यक छ।

स्रोत र प्रकारहरू बुझ्दै

अवस्थित अनुसन्धानले मेसिन लर्निङमा विभिन्न प्रकारका पूर्वाग्रहहरूमा बहुमूल्य अन्तर्दृष्टि प्रदान गर्दछ। जस्तै मेहराबी आदि। al (२०१९) मेशिन लर्निङमा पूर्वाग्रहहरू विभाजन गर्न अगाडि बढेको छ, कसैले 3 प्रमुख कोटिहरूमा पूर्वाग्रहहरू विभाजन गर्न सक्छ। अर्थात् ती मध्ये:

एल्गोरिदममा डेटा: डेटाबाटै उत्पन्न हुने पूर्वाग्रहहरू समावेश गर्ने श्रेणी। यो खराब डाटा सङ्कलन, संसारमा अवस्थित अन्तर्निहित पूर्वाग्रहहरू, इत्यादिको कारणले हुन सक्छ।
एल्गोरिदमदेखि प्रयोगकर्ता: एल्गोरिदमको डिजाइन र कार्यक्षमताबाट उत्पन्न हुने पूर्वाग्रहहरूमा केन्द्रित वर्ग। यसमा समावेश छ कि एल्गोरिदमले कसरी व्याख्या गर्न सक्छ, तौल गर्न सक्छ, वा अरूको तुलनामा निश्चित डेटा बिन्दुहरूलाई विचार गर्न सक्छ, जसले पक्षपाती परिणामहरू निम्त्याउन सक्छ।
प्रयोगकर्तालाई डाटा: प्रणालीसँग प्रयोगकर्ताको अन्तरक्रियाबाट उत्पन्न हुने पूर्वाग्रहहरूसँग सम्बन्धित छ। प्रयोगकर्ताहरूले डेटा इनपुट गर्ने तरिका, तिनीहरूको अन्तर्निहित पूर्वाग्रहहरू, वा प्रणाली आउटपुटहरूमा उनीहरूको विश्वासले परिणामहरूलाई प्रभाव पार्न सक्छ।

चित्र १: डाटा माइनिङको लागि CRISP-DM फ्रेमवर्कको दृश्य; सामान्यतया डाटा माइनिङमा प्रयोग गरिन्छ र पूर्वाग्रह अस्तित्वमा आउन सक्ने चरणहरू पहिचान गर्ने प्रक्रियासँग सान्दर्भिक हुन्छ।

नामहरू पूर्वाग्रहको रूपको सङ्केत भए तापनि, यी छाता सर्तहरू अन्तर्गत वर्गीकरण गर्न सक्ने पूर्वाग्रहका प्रकारहरूका बारेमा कसैसँग अझै प्रश्नहरू हुन सक्छन्। हाम्रा पाठकहरूका लागि उत्साहीहरूका लागि, हामीले यस शब्दावली र वर्गीकरणसँग सम्बन्धित केही साहित्यहरूको लिङ्कहरू प्रदान गरेका छौं। यस ब्लग पोस्टमा सरलताको खातिर, हामी परिस्थितिसँग सान्दर्भिक केही चयन पूर्वाग्रहहरू कभर गर्नेछौं (लगभग सबै एल्गोरिथ्मको श्रेणी डेटाको हो)। विशेष प्रकारका पूर्वाग्रहहरू निम्नानुसार छन्:

ऐतिहासिक पूर्वाग्रह: विश्वमा विभिन्न सामाजिक समूह र सामान्यतया समाजमा विद्यमान प्राकृतिक पूर्वाग्रहहरूका कारण तथ्याङ्कमा निहित पूर्वाग्रहको एक प्रकार। यो संसारमा यस डाटाको अन्तरनिहित कारणले गर्दा यसलाई नमूना र सुविधा चयनका विभिन्न माध्यमहरू मार्फत कम गर्न सकिँदैन।
मापन पूर्वाग्रह र प्रतिनिधित्व पूर्वाग्रह: यी दुई नजिकबाट सम्बन्धित पूर्वाग्रहहरू तब हुन्छन् जब डेटासेटका विभिन्न उपसमूहहरूमा "अनुकूल" परिणामहरूको असमान मात्रा हुन्छ। यस प्रकारको पूर्वाग्रहले भविष्यवाणी गर्ने मोडेलहरूको नतिजालाई तिरस्कार गर्न सक्छ
एल्गोरिदमिक पूर्वाग्रह: पूर्वाग्रह विशुद्ध रूपमा प्रयोगमा रहेको एल्गोरिदमसँग सम्बन्धित छ। परीक्षणहरू दौडमा पनि अवलोकन गरिएझैं (पोस्टमा थप विस्तार गरिएको छ), यस प्रकारको पूर्वाग्रहले दिइएको एल्गोरिदमको निष्पक्षतामा ठूलो प्रभाव पार्न सक्छ।

मेसिन लर्निङमा पूर्वाग्रहको यी आधारभूत बुझाइहरू पछिका पोस्टहरूमा समस्यालाई अझ प्रभावकारी रूपमा समाधान गर्न प्रयोग गरिनेछ।

अन्तिम विचार

आर्टिफिसियल इन्टेलिजेन्स भित्रको पूर्वाग्रहको यस अन्वेषणमा, हामीले हाम्रो बढ्दो एआई-संचालित संसारमा यसको गहिरो प्रभावहरूलाई प्रकाश पारेका छौं। डच बाल कल्याण घोटाला जस्ता वास्तविक-विश्व उदाहरणहरूदेखि लिएर पूर्वाग्रहका वर्गहरू र प्रकारहरूको जटिल सूक्ष्मताहरूसम्म, यो स्पष्ट छ कि पूर्वाग्रहलाई पहिचान र बुझ्नु सर्वोपरि छ।

जबकि पूर्वाग्रहहरू द्वारा खडा गरिएका चुनौतीहरू - चाहे तिनीहरू ऐतिहासिक, एल्गोरिदमिक, वा प्रयोगकर्ता-प्रेरित - महत्त्वपूर्ण छन्, तिनीहरू दुर्गम छैनन्। पूर्वाग्रहको उत्पत्ति र अभिव्यक्तिहरूमा दृढताको साथ, हामी तिनीहरूलाई सम्बोधन गर्न अझ राम्रोसँग सुसज्जित छौं। यद्यपि, पहिचान र बुझाइ केवल सुरुवात बिन्दुहरू हुन्।

हामी यस शृङ्खलामा अगाडि बढ्दै जाँदा, हाम्रो अर्को फोकस हाम्रो निपटानमा मूर्त उपकरणहरू र फ्रेमवर्कहरूमा हुनेछ। हामी AI मोडेलहरूमा पूर्वाग्रहको हद कसरी मापन गर्छौं? र अझ महत्त्वपूर्ण कुरा, हामीले यसको प्रभावलाई कसरी कम गर्ने? यी अत्यावश्यक प्रश्नहरू हुन् जसलाई हामी अर्कोमा खोज्नेछौं, यो सुनिश्चित गर्दै कि AI विकसित हुँदै गइरहेको छ, यसले निष्पक्ष र प्रदर्शनकारी दुवै दिशामा गर्छ।

डाटा सिंथेटिक छ, तर हाम्रो टोली वास्तविक छ!

Syntho लाई सम्पर्क गर्नुहोस् र हाम्रा विशेषज्ञहरू मध्ये एकले सिंथेटिक डाटाको मूल्य अन्वेषण गर्न प्रकाशको गतिमा तपाईंसँग सम्पर्कमा आउनेछन्!

सिंथेटिक डाटा के हो?

गुणस्तर आश्वासन रिपोर्ट

SAS द्वारा बाह्य मूल्याङ्कन

समय श्रृंखला सिंथेटिक डाटा

PII स्क्यानर

सिंथेटिक नक्कली डाटा

लगातार म्यापिङ

डि-पहिचान र संश्लेषण

नियम-आधारित सिंथेटिक डेटा

सबसेटिङ

परिनियोजन र एकीकरण

connectors

विस्तारित सुविधाहरू

समर्थित डाटा

प्रयोगकर्ता कागजात

डेमो अनुसूची गर्नुहोस्

मूल्य निर्धारण

परीक्षण डाटा

विश्लेषण

डाटा साझेदारी

उत्पादन डेमो

डाटा मुद्रीकरण

स्वास्थ्य

वित्त

सार्वजनिक संस्थाहरू

प्रयोगकर्ता कागजात

श्वेतपत्र र गाइडहरू

ब्लग

webinars

मामला अध्ययन

मूल्य निर्धारण

हाम्रोबारे

करियर

AI को नदेखेको अपराधी: भित्र पूर्वाग्रह खोल्दै

पूर्वाग्रह ब्लग श्रृंखला: भाग 1

परिचय

कार्यमा पूर्वाग्रह: एक वास्तविक-विश्व उदाहरण

पूर्वाग्रह बुझ्दै

निष्पक्षता को परिभाषा

स्रोत र प्रकारहरू बुझ्दै

अन्तिम विचार

डाटा सिंथेटिक छ, तर हाम्रो टोली वास्तविक छ!

मुख्य मेनु

निष्पक्षता को परिभाषा