ระบบประเมิน AI agent ซึ่งเป็นเครื่องมือที่ใช้วัดประสิทธิภาพของระบบปัญญาประดิษฐ์ในการทำงานในโลกจริงนั้นมีปัญหาพื้นฐานที่ร้ายแรง ตามการวิจัยใหม่ล่าสุด ระบบประเมินเหล่านี้ควรจะเป็นแนวทางสำหรับการพัฒนาทั้งในด้านการวิจัยและอุตสาหกรรม ขณะที่ AI กำลังเปลี่ยนจากการสาธิตในห้องแล็บไปสู่การใช้งานที่สำคัญ อย่างไรก็ตาม การศึกษาอย่างครอบคลุมได้เปิดเผยปัญหาร้ายแรงที่ทำให้ระบบประเมินปัจจุบันไม่น่าเชื่อถือสำหรับการวัดความสามารถของ AI
ปัญหาเหล่านี้ไม่ใช่แค่ความผิดพลาดง่ายๆ นักวิจัยพบว่าระบบประเมินยอดนิยมหลายระบบมีข้อผิดพลาดพื้นฐานที่มนุษย์ทุกคนจะสังเกตเห็นได้ชัดเจน แต่ระบบอัตโนมัติกลับมองข้ามไป
สстатิสติกความล้มเหลวของ Benchmark:
- 8 จาก 10 benchmark ยอดนิยมมีปัญหาร้ายแรง
- การประเมินความสามารถของ agent ผิดพลาดสูงสุดถึง 100%
- 7 จาก 10 benchmark มีช่องทางลัดหรืองานที่เป็นไปไม่ได้
- 7 จาก 10 benchmark ล้มเหลวในความถูกต้องของผลลัพธ์
- Agent ที่ไม่ทำอะไรเลยสามารถทำคะแนนได้ 38% ในงานสายการบินบางอย่าง
ข้อผิดพลาดทางคณิตศาสตร์ที่ไม่มีใครสังเกต
ตัวอย่างที่โดดเด่นที่สุดตัวหนึ่งมาจาก WebArena ซึ่งเป็นระบบประเมินที่บริษัทใหญ่ๆ รวมถึง OpenAI ใช้งาน เมื่อ AI agent ถูกขอให้คำนวณระยะเวลาของเส้นทางและตอบว่า 45 + 8 นาที ระบบก็ให้คะแนนว่าถูกต้อง ทั้งที่คำตอบที่แท้จริงควรจะเป็น 63 นาที ข้อผิดพลาดทางคณิตศาสตร์พื้นฐานแบบนี้แสดงให้เห็นว่าระบบประเมินอัตโนมัติสามารถล้มเหลวในงานที่ดูเหมือนจะตรงไปตรงมา
ปัญหานี้ไม่ได้จำกัดอยู่แค่กรณีเดียว ในบรรดาระบบประเมิน AI agent ยอดนิยม 10 ระบบที่ได้รับการตรวจสอบ นักวิจัยพบปัญหาร้ายแรงใน 8 ระบบ ซึ่งนำไปสู่การประเมินประสิทธิภาพที่ผิดพลาดสูงถึง 100% ตัวเลขเหล่านี้เผยให้เห็นปัญหาเชิงระบบมากกว่าเหตุการณ์ที่เกิดขึ้นเป็นครั้งคราว
เบนช์มาร์กหลักที่ได้รับผลกระทบ:
- WebArena (ใช้โดย OpenAI และบริษัทอื่นๆ)
- SWE-Bench และ SWE-Bench Verified
- OSWorld
- t-bench
- อื่นๆ อีกหลายตัวที่มีการเปลี่ยนแปลงอันดับส่งผลกระทบต่อตำแหน่งในลีดเดอร์บอร์ดร้อยละ 24-41
ปัญหาหลักของการใช้ AI ตัดสิน AI
แหล่งที่มาหลักของความล้มเหลวเหล่านี้เกิดจากการใช้โมเดลภาษาขนาดใหญ่ (LLMs) ในการประเมินผลลัพธ์ของ LLMs อื่นๆ วิธีการนี้สร้างปัญหาการตรวจสอบความถูกต้องขั้นพื้นฐาน เพราะทั้งระบบที่ถูกทดสอบและระบบที่ทำการทดสอบมีจุดบอดทางสถาปัตยกรรมเดียวกัน
การใช้ผู้ตัดสินที่มีสถาปัตยกรรมเดียวกันกับสิ่งที่ถูกตัดสิน ทำให้เกิดความเป็นไปได้สูงสุดของความล้มเหลวพื้นฐานของระบบประเมินในการมีความถูกต้อง เนื่องจากผู้ตัดสินมีจุดบอดเดียวกันกับสิ่งที่อยู่ภายใต้การทดสอบ
ชุมชนนักวิจัยได้เปรียบเทียบกับสาขาอื่นๆ ที่ได้เรียนรู้บทเรียนนี้อย่างยากลำบาก ในการพัฒนาการบีบอัดเสียง วิศวกรค้นพบว่าตัวชี้วัดอัตโนมัติใดๆ ก็สามารถถูกเล่นงานได้ ทำให้เกิดสิ่งผิดปกติเมื่อระบบถูกปรับให้เหมาะสมโดยตรงสำหรับตัวชี้วัดเหล่านั้น วิธีแก้ปัญหาคือการต้องใช้การประเมินโดยมนุษย์สำหรับผลลัพธ์สุดท้ายเสมอ แม้จะมีต้นทุนและความซับซ้อนเพิ่มขึ้น
Agent ที่ไม่ทำอะไรเลยได้คะแนนสูงอย่างน่าตกใจ
การค้นพบที่น่าตกใจอีกประการหนึ่งเกี่ยวข้องกับ do-nothing agents ซึ่งเป็นระบบที่ไม่ทำงานจริงๆ เลย ในระบบประเมินบางระบบ agent เล็กๆ น้อยๆ เหล่านี้ได้คะแนนถูกต้อง 38% ของงาน ทั้งที่พวกมันไม่แสดงความเข้าใจในปัญหาที่ควรจะแก้ไขเลย สิ่งนี้บ่งชี้ว่างานในระบบประเมินหลายอย่างถูกออกแบบมาไม่ดี หรือมีทางลัดที่ทำให้ระบบดูเหมือนประสบความสำเร็จโดยไม่ต้องทำงานที่ตั้งใจไว้จริงๆ
สภาพแวดล้อมการทดสอบที่ล้าสมัยและเปราะบาง
การศึกษายังเปิดเผยปัญหาของสภาพแวดล้อมระบบประเมินเอง การทดสอบบางอย่างอาศัยเว็บไซต์ที่ล้าสมัยหรือการจำลองที่เปราะบางซึ่งเสียหายเมื่อสภาวะภายนอกเปลี่ยนแปลง ตัวอย่างเช่น ระบบประเมินของ OSWorld พึ่พาเว็บไซต์ที่ล้าสมัยบางส่วน ทำให้ agent ล้มเหลวเมื่อ CSS classes หรือองค์ประกอบเว็บอื่นๆ ถูกอัปเดต สิ่งนี้สร้างเป้าหมายที่เคลื่อนไหวซึ่งทำให้การประเมินที่สม่ำเสมอเป็นไปไม่ได้
ปัญหาหลักที่ระบุได้:
- ระบบ LLM-as-Judge ทำข้อผิดพลาดทางคณิตศาสตร์เบื้องต้น (45+8≠63)
- สภาพแวดล้อมการจำลองที่เปราะบางเสียหายเมื่อมีการเปลี่ยนแปลงจากภายนอก
- การพึ่งพาเว็บไซต์ที่ล้าสมัยทำให้การประเมินผลล้มเหลว
- ปัญหาความถูกต้องของงานที่มีการทดสอบที่แก้ไม่ได้หรือมีช่องทางลัด
- ปัญหาความถูกต้องของการประเมินผลที่มีการประเมินประสิทธิภาพผิดพลาดสัมบูรณ์ 1.6-5.2%
การตอบสนองของอุตสาหกรรมและแนวทางแก้ไข
ทีมวิจัยได้พัฒนา AI Agent Benchmark Checklist (ABC) ซึ่งเป็นกรอบงานที่ออกแบบมาเพื่อช่วยนักพัฒนาระบุและแก้ไขปัญหาเหล่านี้ รายการตรวจสอบมุ่งเน้นไปที่สามพื้นที่หลัก: ความถูกต้องของงาน (ว่างานนั้นทดสอบความสามารถที่ตั้งใจไว้จริงหรือไม่) ความถูกต้องของผลลัพธ์ (ว่าการประเมินระบุความสำเร็จได้อย่างถูกต้องหรือไม่) และแนวทางการรายงานที่เหมาะสม
อย่างไรก็ตาม ความท้าทายพื้นฐานยังคงซับซ้อน คุณสมบัติเดียวกันที่ทำให้ระบบ AI มีพลัง ซึ่งก็คือความสามารถในการจัดการกับข้อมูลนำเข้าที่คลุมเครือและสร้างผลลัพธ์ที่หลากหลาย ก็ทำให้พวกมันประเมินอย่างเป็นระบบได้ยากมาก วิธีการประเมินแบบดั้งเดิมที่ทำงานได้ดีกับระบบที่มีความแน่นอนมากกว่านั้น ดิ้นรนกับลักษณะที่ละเอียดอ่อนและขึ้นอยู่กับบริบทของงาน AI agent
การค้นพบนี้บ่งชี้ว่าอุตสาหกรรม AI อาจต้องคิดใหม่อย่างพื้นฐานเกี่ยวกับวิธีการวัดความก้าวหน้า ซึ่งอาจต้องใช้กระบวนการประเมินโดยมนุษย์ที่มีค่าใช้จ่ายสูงกว่า หรือวิธีการตรวจสอบความถูกต้องแบบใหม่ทั้งหมด จนกว่าปัญหาเหล่านี้จะได้รับการแก้ไข การอ้างเกี่ยวกับความสามารถของ AI agent ควรได้รับการมองด้วยความสงสัยอย่างมาก
อ้างอิง: Al Agent Benchmarks are Broken