Pelaku AI yang Tak Terlihat: Mengungkap Bias di Dalam

Seri blog bias: bagian 1

Pengantar

Di dunia yang semakin banyak menggunakan kecerdasan buatan, mesin yang bertugas membuat keputusan kompleks menjadi semakin lazim. Semakin banyak literatur yang menunjukkan penggunaan AI di berbagai bidang seperti Bisnis, pengambilan keputusan berisiko tinggi, dan selama beberapa tahun terakhir di sektor medis. Namun, dengan meningkatnya prevalensi ini, masyarakat telah memperhatikan adanya kecenderungan yang mengkhawatirkan dalam sistem tersebut; Artinya, meskipun secara inheren dirancang untuk mengikuti pola data, data tersebut menunjukkan tanda-tanda prasangka, dalam arti bahwa berbagai perilaku seksis dan diskriminatif dapat diamati. Yang terbaru Undang-Undang AI Eropa, juga membahas masalah prasangka tersebut secara cukup luas dan memberikan landasan untuk mengatasi masalah-masalah yang terkait dengannya. 

Selama bertahun-tahun dokumentasi teknis, orang cenderung menggunakan istilah “bias” untuk menggambarkan jenis perilaku yang menyimpang terhadap demografi tertentu; sebuah kata yang maknanya bervariasi, menyebabkan kebingungan dan mempersulit tugas untuk mengatasinya.

Artikel ini adalah yang pertama dari serangkaian postingan blog yang membahas topik bias. Dalam seri ini, kami bertujuan memberi Anda pemahaman yang jelas dan mudah dipahami tentang bias dalam AI. Kami akan memperkenalkan cara untuk mengukur dan meminimalkan bias serta mengeksplorasi peran data sintetis dalam jalur menuju sistem yang lebih adil. Kami juga akan memberi Anda gambaran tentang bagaimana Syntho, pemain terkemuka dalam pembuatan data sintetis, dapat berkontribusi pada upaya ini. Jadi, apakah Anda seorang praktisi yang mencari wawasan yang dapat ditindaklanjuti atau sekadar ingin tahu tentang topik ini, Anda berada di tempat yang tepat.

Bias dalam Tindakan: Contoh Dunia Nyata

Anda mungkin bertanya-tanya, “Bias dalam AI ini penting, tapi apa artinya bagi saya, bagi orang-orang biasa?” Faktanya adalah, dampaknya sangat luas, sering kali tidak terlihat namun sangat kuat. Bias dalam AI bukan sekedar konsep akademis; ini adalah masalah dunia nyata dengan konsekuensi serius.

Ambil contoh skandal kesejahteraan anak di Belanda. Sistem otomatis, yang seharusnya merupakan alat yang diciptakan untuk memberikan hasil yang adil dan efisien dengan intervensi manusia yang minimal, ternyata bias. Mereka secara keliru menandai ribuan orang tua karena melakukan penipuan berdasarkan data dan asumsi yang salah. Hasil? Keluarga-keluarga dilanda kekacauan, rusaknya reputasi pribadi, dan kesulitan keuangan, semuanya disebabkan oleh bias dalam Sistem AI. Contoh-contoh seperti inilah yang menyoroti pentingnya mengatasi bias dalam AI.

orang memprotes

Tapi jangan berhenti di situ. Insiden ini bukanlah satu-satunya kasus bias yang menimbulkan kekacauan. Dampak bias pada AI meluas ke seluruh penjuru kehidupan kita. Mulai dari siapa yang mendapatkan pekerjaan, siapa yang mendapatkan persetujuan pinjaman, hingga siapa yang menerima jenis perawatan medis – sistem AI yang bias dapat melanggengkan kesenjangan yang ada dan menciptakan kesenjangan baru.

Pertimbangkan ini: sistem AI yang dilatih berdasarkan data historis yang bias dapat menolak pekerjaan bagi kandidat yang berkualifikasi baik hanya karena gender atau etnis mereka. Atau sistem AI yang bias mungkin menolak pinjaman kepada kandidat yang berhak karena kode pos mereka. Ini bukan sekedar skenario hipotetis; itu sedang terjadi saat ini.

Jenis bias tertentu, seperti Bias Historis dan Bias Pengukuran, menyebabkan pengambilan keputusan yang salah. Hal ini melekat dalam data, berakar kuat pada bias masyarakat, dan tercermin dalam hasil yang tidak setara di antara kelompok demografi yang berbeda. Hal ini dapat merusak keputusan model prediktif dan mengakibatkan perlakuan tidak adil.

Secara umum, bias dalam AI dapat bertindak sebagai pemberi pengaruh secara diam-diam, yang secara halus membentuk masyarakat dan kehidupan kita, seringkali dengan cara yang tidak kita sadari. Semua poin yang disebutkan di atas mungkin membuat Anda bertanya-tanya mengapa belum ada tindakan yang diambil untuk menghentikannya, dan apakah hal itu mungkin dilakukan.

Memang benar, dengan kemajuan teknologi baru, mengatasi masalah tersebut menjadi semakin mudah. Namun, langkah pertama untuk mengatasi masalah ini adalah memahami dan mengakui keberadaan dan dampaknya. Untuk saat ini, pengakuan akan keberadaannya telah tercipta, sehingga persoalan “pemahaman” masih belum jelas. 

Memahami Bias

Sedangkan definisi awal bias seperti yang disampaikan oleh kamus Cambridge tidak menyimpang terlalu jauh dari tujuan utama kata tersebut dalam kaitannya dengan AI, banyak interpretasi berbeda yang harus dibuat bahkan untuk definisi tunggal ini. Taksonomi, seperti yang dikemukakan oleh peneliti seperti Hellström dkk (2020) dan Kliegr (2021), memberikan wawasan yang lebih mendalam tentang definisi bias. Namun, jika kita melihat sekilas makalah-makalah ini, kita akan melihat bahwa diperlukan penyempitan definisi istilah ini untuk mengatasi masalah ini secara efektif. 

Meskipun merupakan perubahan peristiwa, untuk dapat mendefinisikan dan menyampaikan makna bias secara optimal, kita dapat mendefinisikan kebalikannya dengan lebih baik, yaitu Kewajaran. 

Mendefinisikan Keadilan 

Sebagaimana didefinisikan dalam berbagai literatur terkini seperti Castelnovo dkk. (2022), keadilan dapat dijabarkan setelah diberikan pemahaman tentang istilah ruang potensial. Ruang potensial (PS) mengacu pada sejauh mana kemampuan dan pengetahuan seseorang terlepas dari apakah mereka termasuk dalam kelompok demografi tertentu. Dengan adanya definisi konsep PS ini, seseorang dapat dengan mudah mendefinisikan keadilan sebagai kesetaraan perlakuan antara dua individu dengan PS yang setara, terlepas dari perbedaan yang terlihat dan tersembunyi dalam parameter pemicu bias (seperti ras, usia, atau jenis kelamin). Setiap penyimpangan dari definisi ini, yang juga disebut Kesetaraan Peluang, merupakan indikasi jelas adanya bias dan perlu diselidiki lebih lanjut.  

Para praktisi di antara para pembaca mungkin memperhatikan bahwa mencapai sesuatu seperti yang didefinisikan di sini mungkin sepenuhnya mustahil mengingat bias yang ada di dunia kita. Itu benar! Dunia tempat kita tinggal, beserta semua data yang dikumpulkan dari kejadian-kejadian di dunia ini, mempunyai banyak bias sejarah dan statistik. Hal ini tentu saja mengurangi keyakinan bahwa suatu saat nanti akan dapat sepenuhnya memitigasi dampak bias pada model prediktif yang dilatih berdasarkan data yang “bias” tersebut. Namun, melalui penggunaan berbagai metode, dampak bias dapat diminimalkan. Oleh karena itu, terminologi yang digunakan dalam postingan blog ini akan beralih ke gagasan untuk meminimalkan dampak bias dibandingkan memitigasinya sepenuhnya.

Oke! Kini, setelah muncul gagasan tentang apa itu bias dan bagaimana seseorang dapat mengevaluasi keberadaannya; Namun, jika kita ingin mengatasi masalah ini dengan baik, kita perlu mengetahui dari mana semua bias ini berasal.

Pengertian Sumber dan Jenisnya

Penelitian yang ada memberikan wawasan berharga tentang berbagai jenis bias dalam pembelajaran mesin. Sebagai Mehrabi dkk. Al. (2019) telah membagi bias dalam pembelajaran mesin, kita dapat membagi bias menjadi 3 kategori utama. Yaitu dari:

  • Data ke Algoritma: kategori yang mencakup bias yang berasal dari data itu sendiri. Mungkin hal ini disebabkan oleh pengumpulan data yang buruk, bias yang ada di dunia, dan lain-lain.
  • Algoritma untuk Pengguna: kategori yang berfokus pada bias yang berasal dari desain dan fungsionalitas algoritme. Hal ini mencakup bagaimana algoritme dapat menafsirkan, menimbang, atau mempertimbangkan titik data tertentu dibandingkan titik data lainnya, yang dapat menyebabkan hasil yang bias.
  • Pengguna ke Data: berkaitan dengan bias yang timbul dari interaksi pengguna dengan sistem. Cara pengguna memasukkan data, bias yang melekat pada mereka, atau bahkan kepercayaan mereka terhadap keluaran sistem dapat memengaruhi hasil.
grafik

Gambar 1: Visualisasi kerangka CRISP-DM untuk penambangan data; umum digunakan dalam penambangan data dan relevan dengan proses mengidentifikasi tahapan di mana bias dapat muncul.

Meskipun nama-nama tersebut menunjukkan bentuk bias, kita mungkin masih memiliki pertanyaan mengenai jenis bias yang dapat dikategorikan berdasarkan istilah-istilah umum ini. Bagi para pembaca kami yang antusias, kami telah menyediakan tautan ke beberapa literatur yang berkaitan dengan terminologi dan klasifikasi ini. Demi kesederhanaan dalam postingan blog ini, kami akan membahas beberapa bias pilihan yang relevan dengan situasi (Hampir semuanya termasuk dalam kategori data hingga algoritma). Jenis bias spesifiknya adalah sebagai berikut:

  • Bias Historis: Suatu jenis bias yang melekat pada data yang disebabkan oleh bias alami yang ada di berbagai kelompok sosial dan masyarakat pada umumnya. Karena data ini melekat di dunia, data tersebut tidak dapat dimitigasi melalui berbagai cara pengambilan sampel dan pemilihan fitur.
  • Bias Pengukuran & Bias Representasi: Kedua bias yang terkait erat ini terjadi ketika subkelompok yang berbeda dalam kumpulan data berisi jumlah hasil yang “menguntungkan” yang tidak sama. Oleh karena itu, jenis bias ini dapat merusak hasil model prediktif
  • Bias Algoritmik: Bias murni terkait dengan algoritma yang digunakan. Seperti yang juga diamati dalam pengujian yang dijalankan (diuraikan lebih lanjut di postingan), jenis bias ini dapat berdampak besar pada keadilan algoritme tertentu.

Pemahaman dasar tentang bias dalam pembelajaran mesin akan digunakan untuk mengatasi masalah ini dengan lebih efektif di postingan selanjutnya.

Final Thoughts

Dalam eksplorasi bias dalam kecerdasan buatan ini, kami telah menyoroti implikasi mendalam yang dimilikinya dalam dunia yang semakin didorong oleh AI. Dari contoh nyata seperti skandal kesejahteraan anak di Belanda hingga berbagai kategori dan jenis bias yang rumit, jelas bahwa mengenali dan memahami bias adalah hal yang sangat penting.

Meskipun tantangan yang ditimbulkan oleh bias – baik yang bersifat historis, algoritmik, atau yang disebabkan oleh pengguna – sangatlah signifikan, namun hal tersebut bukannya tidak dapat diatasi. Dengan pemahaman yang kuat tentang asal usul dan manifestasi bias, kita akan lebih siap untuk mengatasinya. Namun, pengakuan dan pemahaman hanyalah titik awal.

Seiring dengan kemajuan kami dalam seri ini, fokus kami berikutnya adalah pada alat dan kerangka kerja nyata yang kami miliki. Bagaimana kita mengukur tingkat bias dalam model AI? Dan yang lebih penting lagi, bagaimana kita meminimalkan dampaknya? Ini adalah pertanyaan-pertanyaan mendesak yang akan kita bahas selanjutnya, untuk memastikan bahwa seiring dengan terus berkembangnya AI, AI bergerak ke arah yang adil dan berkinerja baik.

sekelompok orang tersenyum

Data itu sintetis, tapi tim kami nyata!

Hubungi Syntho dan salah satu pakar kami akan menghubungi Anda secepat cahaya untuk menjelajahi nilai data sintetis!