एआई का अदृश्य अपराधी: भीतर के पूर्वाग्रह को उजागर करना

पूर्वाग्रह ब्लॉग श्रृंखला: भाग 1

परिचय

बुद्धिमत्ता के बढ़ते कृत्रिम रूपों की हमारी दुनिया में, जटिल निर्णय लेने का काम करने वाली मशीनें अधिक से अधिक प्रचलित हो रही हैं। व्यवसाय, उच्च-स्तरीय निर्णय लेने और पिछले कुछ वर्षों में चिकित्सा क्षेत्र जैसे विभिन्न क्षेत्रों में एआई के उपयोग का संकेत देने वाला साहित्य बढ़ रहा है। हालाँकि, इस बढ़ते प्रचलन के साथ, लोगों ने उक्त प्रणालियों में संबंधित प्रवृत्तियों पर ध्यान दिया है; यानी, स्वाभाविक रूप से डेटा में पैटर्न का पालन करने के लिए डिज़ाइन किए जाने के बावजूद, उन्होंने पूर्वाग्रह के संकेत दिखाए हैं, इस अर्थ में कि विभिन्न लिंगवादी और भेदभावपूर्ण व्यवहार देखे जा सकते हैं। हाल का यूरोपीय एआई अधिनियम, इस तरह के पूर्वाग्रह के मामले को भी बड़े पैमाने पर कवर करता है और इससे जुड़ी समस्याओं से निपटने के लिए एक आधार तैयार करता है। 

तकनीकी दस्तावेज़ीकरण के वर्षों के दौरान, लोगों ने कुछ जनसांख्यिकी के प्रति इस विषम प्रकार के व्यवहार का वर्णन करने के लिए "पूर्वाग्रह" शब्द का उपयोग किया है; एक शब्द जिसका अर्थ अलग-अलग होता है, जिससे भ्रम पैदा होता है और उसे संबोधित करने का कार्य जटिल हो जाता है।

यह लेख पूर्वाग्रह के विषय को कवर करने वाले ब्लॉग पोस्टों की श्रृंखला में पहला है। इस श्रृंखला में, हमारा लक्ष्य आपको एआई में पूर्वाग्रह की स्पष्ट, सुपाच्य समझ प्रदान करना होगा। हम पूर्वाग्रह को मापने और कम करने के तरीके पेश करेंगे और अधिक निष्पक्ष प्रणालियों के लिए इस पथ में सिंथेटिक डेटा की भूमिका का पता लगाएंगे। हम आपको यह भी बताएंगे कि सिंथेटिक डेटा जेनरेशन में अग्रणी खिलाड़ी सिंथो इस प्रयास में कैसे योगदान दे सकता है। तो, चाहे आप एक व्यवसायी हों जो कार्रवाई योग्य अंतर्दृष्टि की तलाश में हैं या सिर्फ इस विषय के बारे में उत्सुक हैं, आप सही जगह पर हैं।

कार्रवाई में पूर्वाग्रह: एक वास्तविक दुनिया का उदाहरण

आप सोच रहे होंगे, "एआई में यह पूर्वाग्रह बहुत महत्वपूर्ण है, लेकिन मेरे लिए, आम लोगों के लिए इसका क्या मतलब है?" सच तो यह है कि प्रभाव दूरगामी होता है, अक्सर अदृश्य लेकिन शक्तिशाली होता है। एआई में पूर्वाग्रह महज एक अकादमिक अवधारणा नहीं है; यह गंभीर परिणामों वाली वास्तविक दुनिया की समस्या है।

उदाहरण के तौर पर डच बाल कल्याण घोटाले को लें। स्वचालित प्रणाली, माना जाता है कि न्यूनतम मानवीय हस्तक्षेप के साथ निष्पक्ष और कुशल परिणाम उत्पन्न करने के लिए बनाया गया एक उपकरण पक्षपातपूर्ण था। इसने त्रुटिपूर्ण डेटा और धारणाओं के आधार पर हजारों अभिभावकों को धोखाधड़ी के लिए गलत तरीके से चिह्नित किया। परिणाम? एआई सिस्टम में पक्षपात के कारण परिवार अशांति में फंस गए, व्यक्तिगत प्रतिष्ठा को नुकसान पहुंचा और वित्तीय कठिनाई हुई। यह ऐसे उदाहरण हैं जो एआई में पूर्वाग्रह को संबोधित करने की तात्कालिकता को उजागर करते हैं।

लोग विरोध प्रदर्शन कर रहे हैं

लेकिन चलिए यहीं नहीं रुकते। यह घटना पूर्वाग्रह के कहर का कोई अकेला मामला नहीं है। एआई में पूर्वाग्रह का प्रभाव हमारे जीवन के सभी कोनों तक फैला हुआ है। नौकरी के लिए किसे नियुक्त किया जाता है, किसे ऋण स्वीकृत किया जाता है, किसे किस प्रकार का चिकित्सा उपचार मिलता है - पक्षपाती एआई सिस्टम मौजूदा असमानताओं को कायम रख सकते हैं और नई असमानताएं पैदा कर सकते हैं।

इस पर विचार करें: पक्षपातपूर्ण ऐतिहासिक डेटा पर प्रशिक्षित एक एआई प्रणाली किसी योग्य उम्मीदवार को केवल उनके लिंग या जातीयता के कारण नौकरी से वंचित कर सकती है। या एक पक्षपाती एआई प्रणाली किसी योग्य उम्मीदवार को उनके पोस्टकोड के कारण ऋण देने से इनकार कर सकती है। ये केवल काल्पनिक परिदृश्य नहीं हैं; वे अभी हो रहे हैं.

विशिष्ट प्रकार के पूर्वाग्रह, जैसे ऐतिहासिक पूर्वाग्रह और मापन पूर्वाग्रह, ऐसे त्रुटिपूर्ण निर्णयों को जन्म देते हैं। वे डेटा में अंतर्निहित हैं, सामाजिक पूर्वाग्रहों में गहराई से निहित हैं, और विभिन्न जनसांख्यिकीय समूहों के बीच असमान परिणामों में परिलक्षित होते हैं। वे पूर्वानुमानित मॉडलों के निर्णयों को विकृत कर सकते हैं और परिणामस्वरूप अनुचित व्यवहार कर सकते हैं।

चीजों की भव्य योजना में, एआई में पूर्वाग्रह एक मूक प्रभावक के रूप में कार्य कर सकता है, जो हमारे समाज और हमारे जीवन को सूक्ष्मता से आकार दे सकता है, अक्सर उन तरीकों से जिनका हमें एहसास भी नहीं होता है। उपर्युक्त सभी बिंदु आपको यह प्रश्न करने के लिए प्रेरित कर सकते हैं कि रोकने के लिए कार्रवाई क्यों नहीं की गई, और क्या यह संभव भी है।

दरअसल, नई तकनीकी प्रगति के साथ ऐसी समस्या से निपटना और अधिक सुलभ हो गया है। हालाँकि, इस समस्या के समाधान के लिए पहला कदम इसके अस्तित्व और प्रभाव को समझना और स्वीकार करना है। फिलहाल, इसके अस्तित्व की स्वीकार्यता पैदा हो गई है, जिससे "समझ" का मामला अभी भी काफी अस्पष्ट है। 

पूर्वाग्रह को समझना

जबकि पूर्वाग्रह की मूल परिभाषा जैसा कि प्रस्तुत किया गया है कैंब्रिज शब्दकोश शब्द के मुख्य उद्देश्य से बहुत दूर नहीं जाता क्योंकि यह एआई से संबंधित है, यहां तक ​​कि इस एकल परिभाषा की भी कई अलग-अलग व्याख्याएं की जानी हैं। वर्गीकरण, जैसे कि शोधकर्ताओं द्वारा प्रस्तुत किए गए हेलस्ट्रॉम एट अल (2020) और क्लिगर (2021), पूर्वाग्रह की परिभाषा में गहरी अंतर्दृष्टि प्रदान करें। हालाँकि, इन दस्तावेज़ों पर एक साधारण नज़र डालने से पता चलेगा कि समस्या से प्रभावी ढंग से निपटने के लिए शब्द की परिभाषा को बहुत सीमित करने की आवश्यकता है। 

घटनाओं में बदलाव होते हुए भी, पूर्वाग्रह के अर्थ को बेहतर ढंग से परिभाषित करने और व्यक्त करने के लिए कोई इसके विपरीत को बेहतर ढंग से परिभाषित कर सकता है, वह है निष्पक्षता। 

निष्पक्षता को परिभाषित करना 

जैसा कि इसे विभिन्न हालिया साहित्य में परिभाषित किया गया है कैस्टेलनोवो एट अल। (2022)संभावित स्थान शब्द की समझ को देखते हुए निष्पक्षता को विस्तृत किया जा सकता है। जैसा कि यह मौजूद है, संभावित स्थान (पीएस) किसी व्यक्ति की क्षमताओं और ज्ञान की सीमा को संदर्भित करता है, भले ही वह किसी निश्चित जनसांख्यिकीय समूह से संबंधित हो। पीएस की अवधारणा की इस परिभाषा को देखते हुए, निष्पक्षता को समान पीएस के दो व्यक्तियों के बीच उपचार की समानता के रूप में आसानी से परिभाषित किया जा सकता है, भले ही पूर्वाग्रह उत्प्रेरण मापदंडों (जैसे जाति, आयु या लिंग) में उनके देखने योग्य और छिपे हुए अंतर कुछ भी हों। इस परिभाषा से कोई भी विचलन, जिसे अवसरों की समानता भी कहा जाता है, पूर्वाग्रह का स्पष्ट संकेत है और आगे की जांच की आवश्यकता है।  

पाठकों के बीच अभ्यासकर्ता यह देख सकते हैं कि यहां परिभाषित कुछ हासिल करना हमारी दुनिया में मौजूद अंतर्निहित पूर्वाग्रहों को देखते हुए पूरी तरह से असंभव हो सकता है। यह सच है! जिस दुनिया में हम रहते हैं, इस दुनिया में होने वाली घटनाओं से एकत्र किए गए सभी डेटा सहित, बहुत ऐतिहासिक और सांख्यिकीय पूर्वाग्रह के अधीन है। यह, वास्तव में, ऐसे "पक्षपाती" डेटा पर प्रशिक्षित पूर्वानुमान मॉडल पर पूर्वाग्रह के प्रभावों को एक दिन पूरी तरह से कम करने के आत्मविश्वास को कम करता है। हालाँकि, विभिन्न तरीकों के उपयोग के माध्यम से, पूर्वाग्रह के प्रभावों को कम करने का प्रयास किया जा सकता है। ऐसा होने पर, इस ब्लॉग पोस्ट के बाकी हिस्सों में इस्तेमाल की गई शब्दावली पूर्वाग्रह के प्रभाव को पूरी तरह से कम करने के बजाय इसे कम करने के विचार की ओर स्थानांतरित हो जाएगी।

ठीक है! तो अब यह विचार सामने आ गया है कि पूर्वाग्रह क्या है और कोई इसके अस्तित्व का संभावित मूल्यांकन कैसे कर सकता है; हालाँकि, यदि हम समस्या से ठीक से निपटना चाहते हैं, तो हमें यह जानना होगा कि ये सभी पूर्वाग्रह कहाँ से उत्पन्न होते हैं।

स्रोतों और प्रकारों को समझना

मौजूदा शोध मशीन लर्निंग में विभिन्न प्रकार के पूर्वाग्रहों के बारे में बहुमूल्य अंतर्दृष्टि प्रदान करता है। जैसा मेहराबी एट. अल. (2019) मशीन लर्निंग में पूर्वाग्रहों को विभाजित करने के लिए आगे बढ़े हैं, पूर्वाग्रहों को 3 प्रमुख श्रेणियों में विभाजित किया जा सकता है। अर्थात् उनमें से:

  • डेटा से एल्गोरिथम: पूर्वाग्रहों को शामिल करने वाली एक श्रेणी जो डेटा से ही उत्पन्न होती है। हो सकता है कि इसका कारण खराब डेटा संग्रह, दुनिया में मौजूद अंतर्निहित पूर्वाग्रह आदि हों।
  • उपयोगकर्ता के लिए एल्गोरिदम: एक श्रेणी जो पूर्वाग्रहों पर ध्यान केंद्रित करती है जो एल्गोरिदम के डिजाइन और कार्यक्षमता से उत्पन्न होती है। इसमें शामिल है कि एल्गोरिदम कैसे कुछ डेटा बिंदुओं की व्याख्या, वजन, या दूसरों पर विचार कर सकते हैं, जिससे पक्षपाती परिणाम हो सकते हैं।
  • उपयोगकर्ता से डेटा: सिस्टम के साथ उपयोगकर्ता की बातचीत से उत्पन्न होने वाले पूर्वाग्रहों से संबंधित है। जिस तरह से उपयोगकर्ता डेटा इनपुट करते हैं, उनके अंतर्निहित पूर्वाग्रह, या यहां तक ​​कि सिस्टम आउटपुट में उनका भरोसा भी परिणामों को प्रभावित कर सकता है।
ग्राफ

चित्र 1: डेटा माइनिंग के लिए सीआरआईएसपी-डीएम ढांचे का एक दृश्य; आमतौर पर डेटा माइनिंग में उपयोग किया जाता है और उन चरणों की पहचान करने की प्रक्रिया के लिए प्रासंगिक है जिनमें पूर्वाग्रह अस्तित्व में आ सकता है।

हालाँकि नाम पूर्वाग्रह के रूप का संकेत देते हैं, फिर भी किसी के मन में यह सवाल हो सकता है कि इन व्यापक शब्दों के तहत किस प्रकार के पूर्वाग्रहों को वर्गीकृत किया जा सकता है। हमारे पाठकों के बीच उत्साही लोगों के लिए, हमने इस शब्दावली और वर्गीकरण से संबंधित कुछ साहित्य के लिंक प्रदान किए हैं। इस ब्लॉग पोस्ट में सरलता के लिए, हम कुछ चुनिंदा पूर्वाग्रहों को कवर करेंगे जो स्थिति के लिए प्रासंगिक हैं (जिनमें से लगभग सभी डेटा से एल्गोरिदम की श्रेणी के हैं)। विशिष्ट प्रकार के पूर्वाग्रह इस प्रकार हैं:

  • ऐतिहासिक पूर्वाग्रह: दुनिया में विभिन्न सामाजिक समूहों और सामान्य रूप से समाज में मौजूद प्राकृतिक पूर्वाग्रहों के कारण डेटा में निहित एक प्रकार का पूर्वाग्रह। यह दुनिया में इस डेटा की अंतर्निहितता के कारण है कि इसे नमूने और फीचर चयन के विभिन्न माध्यमों से कम नहीं किया जा सकता है।
  • माप पूर्वाग्रह और प्रतिनिधित्व पूर्वाग्रह: ये दो निकट से संबंधित पूर्वाग्रह तब होते हैं जब डेटासेट के विभिन्न उपसमूहों में असमान मात्रा में "अनुकूल" परिणाम होते हैं। इसलिए इस प्रकार का पूर्वाग्रह पूर्वानुमानित मॉडल के परिणाम को ख़राब कर सकता है
  • एल्गोरिथम पूर्वाग्रह: पूर्वाग्रह पूरी तरह से उपयोग में आने वाले एल्गोरिथम से संबंधित है। जैसा कि चलाए गए परीक्षणों में भी देखा गया (पोस्ट में आगे विस्तार से बताया गया है), इस प्रकार का पूर्वाग्रह किसी दिए गए एल्गोरिदम की निष्पक्षता पर जबरदस्त प्रभाव डाल सकता है।

मशीन लर्निंग में पूर्वाग्रह की इन मूलभूत समझ का उपयोग बाद के पोस्टों में समस्या से अधिक प्रभावी ढंग से निपटने के लिए किया जाएगा।

निष्कर्ष

कृत्रिम बुद्धिमत्ता के भीतर पूर्वाग्रह की इस खोज में, हमने हमारी बढ़ती एआई-संचालित दुनिया में इसके गहरे निहितार्थों पर प्रकाश डाला है। डच बाल कल्याण घोटाले जैसे वास्तविक दुनिया के उदाहरणों से लेकर पूर्वाग्रह श्रेणियों और प्रकारों की जटिल बारीकियों तक, यह स्पष्ट है कि पूर्वाग्रह को पहचानना और समझना सर्वोपरि है।

हालाँकि पूर्वाग्रहों से उत्पन्न चुनौतियाँ - चाहे वे ऐतिहासिक, एल्गोरिथम, या उपयोगकर्ता-प्रेरित हों - महत्वपूर्ण हैं, लेकिन वे दुर्जेय नहीं हैं। पूर्वाग्रह की उत्पत्ति और अभिव्यक्तियों पर दृढ़ पकड़ के साथ, हम उन्हें संबोधित करने के लिए बेहतर ढंग से सुसज्जित हैं। हालाँकि, पहचान और समझ केवल शुरुआती बिंदु हैं।

जैसे-जैसे हम इस श्रृंखला में आगे बढ़ेंगे, हमारा अगला ध्यान हमारे पास उपलब्ध मूर्त उपकरणों और रूपरेखाओं पर होगा। हम एआई मॉडल में पूर्वाग्रह की सीमा कैसे मापते हैं? और इससे भी महत्वपूर्ण बात यह है कि हम इसके प्रभाव को कैसे कम करें? ये महत्वपूर्ण प्रश्न हैं जिन पर हम आगे चर्चा करेंगे, यह सुनिश्चित करते हुए कि जैसे-जैसे एआई विकसित होता जा रहा है, यह एक ऐसी दिशा में काम करता है जो निष्पक्ष और प्रदर्शनकारी दोनों है।

मुस्कुराते हुए लोगों का समूह

डेटा कृत्रिम है, लेकिन हमारी टीम वास्तविक है!

संपर्क सिंथो और हमारे विशेषज्ञों में से एक सिंथेटिक डेटा के मूल्य का पता लगाने के लिए प्रकाश की गति से आपसे संपर्क करेगा!