ความพยายามอันทะเยอทะยานของ Amsterdam ในการสร้างระบบปัญญาประดิษฐ์ที่ยุติธรรมสำหรับตรวจจับการฉ้อโกงสวัสดิการสังคมได้จบลงด้วยความล้มเหลว ซึ่งเน้นย้ำถึงความท้าทายที่ซับซ้อนในการกำจัดอคติในระบบ AI เมืองหลวงของเนเธอร์แลนด์ใช้เวลาหลายปีในการพัฒนาสิ่งที่หวังว่าจะเป็นโมเดลแมชชีนเลิร์นนิงที่ปราศจากอคติ แต่กลับค้นพบว่าการแก้ไขการเลือกปฏิบัติต่อกลุ่มหนึ่งมักจะสร้างปัญหาใหม่ให้กับกลุ่มอื่น
หน่วยงานประกันสังคมของเมือง Dienst ได้ออกแบบระบบเพื่อทำนายว่าใบสมัครสวัสดิการใดควรได้รับการตรวจสอบเพิ่มเติม แตกต่างจากระบบ AI ของรัฐบาลหลายระบบที่ดำเนินการอย่างลับๆ Amsterdam ได้พยายามอย่างจริงจังในการแก้ไขข้อกังวลเรื่องความยุติธรรม และยังแบ่งปันโค้ดและวิธีการของพวกเขากับผู้ตรวจสอบด้วย
ปัญหาความจริงพื้นฐานทำให้ AI ที่ยุติธรรมเป็นไปได้ยาก
การอภิปรายในชุมชนเผยให้เห็นความท้าทายพื้นฐานที่ทำให้ระบบ AI ที่ยุติธรรมอย่างแท้จริงเป็นไปได้ยากมาก ประเด็นหลักคือสิ่งที่ผู้เชี่ยวชาญเรียกว่าปัญหาความจริงพื้นฐาน - เราไม่ทราบอัตราการฉ้อโกงที่แท้จริงในกลุ่มประชากรที่แตกต่างกัน เนื่องจากการตรวจสอบที่นำโดยมนุษย์ในอดีตอาจมีอคติอยู่แล้ว
ส่วนใหญ่ของความยากลำบากในความพยายามดังกล่าวคือเราไม่ทราบความจริงพื้นฐาน โมเดลจะยุติธรรมหรือปราศจากอคติหากประสิทธิภาพของมันดีเท่าเทียมกันสำหรับทุกกลุ่ม
สิ่งนี้สร้างปัญหาวงจรอุบาทว์ ในการสร้างระบบที่ปราศจากอคติ คุณต้องมีข้อมูลการฝึกที่ปราศจากอคติ แต่หากข้อมูลประวัติศาสตร์ของคุณมาจากการตัดสินใจของมนุษย์ที่มีอคติ AI ของคุณจะเรียนรู้และขยายอคติเดียวกันนั้น Amsterdam พยายามแก้ไขปัญหานี้โดยการปรับน้ำหนักของโมเดล แต่วิธีการนี้นำไปสู่ผลที่ไม่คาดคิด
คุณสมบัติของโมเดลที่ใช้โดยระบบของ Amsterdam :
- เปอร์เซ็นต์การเข้าร่วมกิจกรรมสวัสดิการในปีที่ผ่านมา
- สถานะความบกพร่องทางจิตใจล่าสุด
- การนัดหมายสัมภาษณ์โดยเจ้าหน้าที่คุมประพฤติ
- ผลรวมของค้างชำระและสถานะความช่วยเหลือหนี้สิน
- ระยะเวลาการรับสวัสดิการ
- ประวัติการรับสวัสดิการในอดีตและสถานะการจ่ายเงินไม่เพียงพอ
- การลงโทษเฉลี่ยสำหรับการละเมิดกฎสวัสดิการ
การปรับน้ำหนักสร้างปัญหาใหม่ขณะแก้ปัญหาเก่า
วิธีแก้ไขของ Amsterdam เกี่ยวข้องกับเทคนิคที่เรียกว่าการปรับน้ำหนักเพื่อลดอคติต่อผู้สมัครที่ไม่ใช่ชาวดัตช์ ในตอนแรก โมเดลตั้งค่าสถานะผู้ที่มีพื้นเพมาจากผู้อพยพในอัตราที่สูงกว่ามาก - 55.36% เทียบกับ 34.53% สำหรับผู้สมัครชาวดัตช์ กระบวนการปรับน้ำหนักลดความแตกต่างนี้ได้สำเร็จ
อย่างไรก็ตาม เมื่อนำไปใช้ในโลกแห่งความเป็นจริงในระหว่างการทดลองสามเดือน อคติไม่ได้หายไป - แต่กลับกลับทิศทาง โมเดลที่ปรับแล้วเริ่มตั้งค่าสถานะชาวดัตช์และผู้หญิงในอัตราที่สูงกว่ากลุ่มที่ออกแบบมาเพื่อปกป้องในตอนแรก ผู้หญิงมีแนวโน้มที่จะถูกตั้งค่าสถานะผิดพลาดมากกว่าผู้ชาย 12%
ผลลัพธ์นี้แสดงให้เห็นความจริงทางคณิตศาสตร์ที่ผู้สนับสนุนความยุติธรรมหลายคนมองข้าม: การปรับปรุงความยุติธรรมสำหรับกลุ่มหนึ่งมักต้องการการแลกเปลี่ยนที่ส่งผลต่อกลุ่มอื่น คุณไม่สามารถเพิ่มประสิทธิภาพสำหรับคำนิยามความยุติธรรมทั้งหมดพร้อมกันได้
ตัวชี้วัดความลำเอียงก่อนและหลังการปรับน้ำหนักใหม่:
- โมเดลเดิม: ผู้สมัครที่ไม่ใช่ชาว Dutch ถูกตั้งค่าสถานะเตือนที่ 55.36% เทียบกับชาว Dutch ที่ 34.53%
- หลังการปรับน้ำหนักใหม่: ความลำเอียงลดลงสำหรับผู้ที่ไม่ใช่ชาว Dutch แต่เปลี่ยนไปยังกลุ่มอื่น
- ผลการทดลองนำร่อง: ผู้หญิงมีโอกาสถูกตั้งค่าสถานะเตือนผิดพลาดสูงกว่าผู้ชาย 12%
- ประสิทธิภาพ: ความสามารถในการตรวจจับโดยรวมลดลงในขณะที่ปริมาณการสอบสวนเพิ่มขึ้น
การลดลงของประสิทธิภาพทำลายโครงการ
นอกเหนือจากปัญหาอคติแล้ว ประสิทธิภาพโดยรวมของโมเดลยังเสื่อมลงอย่างมีนัยสำคัญในระหว่างการทดสอบในโลกแห่งความเป็นจริง แทนที่จะลดการตรวจสอบตามที่ตั้งใจไว้ ระบบกลับเพิ่มปริมาณงานในขณะที่แทบไม่ปรับปรุงการตรวจจับกรณีฉ้อโกงที่แท้จริง
การทดลองตั้งค่าสถานะผู้คน 3,510 คนสำหรับการตรวจสอบในช่วงสามเดือน แต่พบหลักฐานการจ่ายเงินต่ำกว่าที่ควรเพียง 526 กรณี น่ากังวลมากกว่านั้นคือ การตรวจสอบ 626 ครั้งต้องปิดโดยไม่พบหลักฐานเพียงพอ และผู้สมัครสวัสดิการ 17 คนอุทธรณ์การตรวจสอบของพวกเขาว่าถูกกำหนดอย่างผิดพลาดได้สำเร็จ
ผู้สังเกตการณ์ในชุมชนสังเกตว่าบทความมุ่งเน้นไปที่เมตริกความยุติธรรมอย่างหนัก แต่ให้หลักฐานเพียงเล็กน้อยเกี่ยวกับประสิทธิผลของระบบในการจับการฉ้อโกงจริงๆ หรือการประหยัดเงินภาษี สิ่งนี้เน้นย้ำปัญหาทั่วไปกับโครงการความยุติธรรม AI - พวกเขามักจะให้ความสำคัญกับการดูยุติธรรมมากกว่าการมีประโยชน์
ผลลัพธ์การทดลอง (ระยะเวลา 3 เดือน):
- จำนวนที่ถูกตั้งข้อสังเกตทั้งหมด: 3,510 คน
- พบกรณีที่มีหลักฐานถูกต้อง: 526 กรณีการจ่ายเงินไม่เพียงพอ
- ปิดคดีโดยไม่มีหลักฐาน: 626 การสอบสวน
- ยุติการสอบสวน: 11 กรณี
- อุทธรณ์สำเร็จ: 17 กรณี (การสอบสวนที่ผิดพลาด)
บทเรียนสำหรับการพัฒนา AI ในอนาคต
ประสบการณ์ของ Amsterdam นำเสนอบทเรียนที่มีค่าสำหรับรัฐบาลและองค์กรอื่นๆ ที่พยายามสร้างระบบ AI ที่ยุติธรรม โครงการแสดงให้เห็นว่าเจตนาดีและความโปร่งใสไม่เพียงพอที่จะเอาชนะความท้าทายพื้นฐานทางคณิตศาสตร์และปรัชญาของความยุติธรรมอัลกอริทึม
เมืองในที่สุดได้ตัดสินใจที่ถูกต้องในการยกเลิกโครงการแทนที่จะปรับใช้ระบบที่ทำงานได้แย่กว่าผู้ตรวจสอบมนุษย์ขณะที่ยังคงแสดงอคติ การยอมรับความล้มเหลวอย่างซื่อสัตย์นี้ แม้จะน่าผิดหวัง แต่แสดงความซื่อสัตย์มากกว่าองค์กรหลายแห่งที่ปรับใช้ระบบที่มีอคติโดยไม่มีการประเมินที่เหมาะสม
กรณีนี้ยังเผยให้เห็นว่าทำไมการกำหนดความยุติธรรมจึงเป็นเรื่องที่ถกเถียงกัน คำนิยามทางคณิตศาสตร์ของความยุติธรรมที่แตกต่างกันสามารถขัดแย้งกัน บังคับให้นักพัฒนาต้องตัดสินใจเรื่องคุณค่าว่ากลุ่มใดสมควรได้รับการปกป้องและการแลกเปลี่ยนใดที่ยอมรับได้ การตัดสินใจเหล่านี้เป็นเรื่องการเมืองโดยธรรมชาติและไม่สามารถแก้ไขได้ด้วยวิธีการทางเทคนิคเพียงอย่างเดียว
การทดลองที่ล้มเหลวของ Amsterdam ทำหน้าที่เป็นเรื่องเล่าเตือนใจเกี่ยวกับข้อจำกัดของเทคโนโลยี AI ปัจจุบันในการใช้งานที่ละเอียดอ่อน จนกว่าเราจะพัฒนาวิธีการที่ดีกว่าสำหรับการจัดการอคติและปรับปรุงข้อมูลความจริงพื้นฐาน ระบบ AI ที่ยุติธรรมอย่างแท้จริงอาจยังคงเป็นเป้าหมายที่เข้าถึงยากมากกว่าความเป็นจริงที่บรรลุได้
อ้างอิง: Here we investigated Amsterdam's attempt to build a 'fair' fraud detection model