การศึกษาพบว่าระบบประเมิน AI Agent มีข้อบกพร่องร้ายแรง ประเมินประสิทธิภาพผิดพลาด 100%

ทีมชุมชน BigGo
การศึกษาพบว่าระบบประเมิน AI Agent มีข้อบกพร่องร้ายแรง ประเมินประสิทธิภาพผิดพลาด 100%

ระบบประเมิน AI agent ซึ่งเป็นเครื่องมือที่ใช้วัดประสิทธิภาพของระบบปัญญาประดิษฐ์ในการทำงานในโลกจริงนั้นมีปัญหาพื้นฐานที่ร้ายแรง ตามการวิจัยใหม่ล่าสุด ระบบประเมินเหล่านี้ควรจะเป็นแนวทางสำหรับการพัฒนาทั้งในด้านการวิจัยและอุตสาหกรรม ขณะที่ AI กำลังเปลี่ยนจากการสาธิตในห้องแล็บไปสู่การใช้งานที่สำคัญ อย่างไรก็ตาม การศึกษาอย่างครอบคลุมได้เปิดเผยปัญหาร้ายแรงที่ทำให้ระบบประเมินปัจจุบันไม่น่าเชื่อถือสำหรับการวัดความสามารถของ AI

ปัญหาเหล่านี้ไม่ใช่แค่ความผิดพลาดง่ายๆ นักวิจัยพบว่าระบบประเมินยอดนิยมหลายระบบมีข้อผิดพลาดพื้นฐานที่มนุษย์ทุกคนจะสังเกตเห็นได้ชัดเจน แต่ระบบอัตโนมัติกลับมองข้ามไป

สстатิสติกความล้มเหลวของ Benchmark:

  • 8 จาก 10 benchmark ยอดนิยมมีปัญหาร้ายแรง
  • การประเมินความสามารถของ agent ผิดพลาดสูงสุดถึง 100%
  • 7 จาก 10 benchmark มีช่องทางลัดหรืองานที่เป็นไปไม่ได้
  • 7 จาก 10 benchmark ล้มเหลวในความถูกต้องของผลลัพธ์
  • Agent ที่ไม่ทำอะไรเลยสามารถทำคะแนนได้ 38% ในงานสายการบินบางอย่าง

ข้อผิดพลาดทางคณิตศาสตร์ที่ไม่มีใครสังเกต

ตัวอย่างที่โดดเด่นที่สุดตัวหนึ่งมาจาก WebArena ซึ่งเป็นระบบประเมินที่บริษัทใหญ่ๆ รวมถึง OpenAI ใช้งาน เมื่อ AI agent ถูกขอให้คำนวณระยะเวลาของเส้นทางและตอบว่า 45 + 8 นาที ระบบก็ให้คะแนนว่าถูกต้อง ทั้งที่คำตอบที่แท้จริงควรจะเป็น 63 นาที ข้อผิดพลาดทางคณิตศาสตร์พื้นฐานแบบนี้แสดงให้เห็นว่าระบบประเมินอัตโนมัติสามารถล้มเหลวในงานที่ดูเหมือนจะตรงไปตรงมา

ปัญหานี้ไม่ได้จำกัดอยู่แค่กรณีเดียว ในบรรดาระบบประเมิน AI agent ยอดนิยม 10 ระบบที่ได้รับการตรวจสอบ นักวิจัยพบปัญหาร้ายแรงใน 8 ระบบ ซึ่งนำไปสู่การประเมินประสิทธิภาพที่ผิดพลาดสูงถึง 100% ตัวเลขเหล่านี้เผยให้เห็นปัญหาเชิงระบบมากกว่าเหตุการณ์ที่เกิดขึ้นเป็นครั้งคราว

เบนช์มาร์กหลักที่ได้รับผลกระทบ:

  • WebArena (ใช้โดย OpenAI และบริษัทอื่นๆ)
  • SWE-Bench และ SWE-Bench Verified
  • OSWorld
  • t-bench
  • อื่นๆ อีกหลายตัวที่มีการเปลี่ยนแปลงอันดับส่งผลกระทบต่อตำแหน่งในลีดเดอร์บอร์ดร้อยละ 24-41

ปัญหาหลักของการใช้ AI ตัดสิน AI

แหล่งที่มาหลักของความล้มเหลวเหล่านี้เกิดจากการใช้โมเดลภาษาขนาดใหญ่ (LLMs) ในการประเมินผลลัพธ์ของ LLMs อื่นๆ วิธีการนี้สร้างปัญหาการตรวจสอบความถูกต้องขั้นพื้นฐาน เพราะทั้งระบบที่ถูกทดสอบและระบบที่ทำการทดสอบมีจุดบอดทางสถาปัตยกรรมเดียวกัน

การใช้ผู้ตัดสินที่มีสถาปัตยกรรมเดียวกันกับสิ่งที่ถูกตัดสิน ทำให้เกิดความเป็นไปได้สูงสุดของความล้มเหลวพื้นฐานของระบบประเมินในการมีความถูกต้อง เนื่องจากผู้ตัดสินมีจุดบอดเดียวกันกับสิ่งที่อยู่ภายใต้การทดสอบ

ชุมชนนักวิจัยได้เปรียบเทียบกับสาขาอื่นๆ ที่ได้เรียนรู้บทเรียนนี้อย่างยากลำบาก ในการพัฒนาการบีบอัดเสียง วิศวกรค้นพบว่าตัวชี้วัดอัตโนมัติใดๆ ก็สามารถถูกเล่นงานได้ ทำให้เกิดสิ่งผิดปกติเมื่อระบบถูกปรับให้เหมาะสมโดยตรงสำหรับตัวชี้วัดเหล่านั้น วิธีแก้ปัญหาคือการต้องใช้การประเมินโดยมนุษย์สำหรับผลลัพธ์สุดท้ายเสมอ แม้จะมีต้นทุนและความซับซ้อนเพิ่มขึ้น

Agent ที่ไม่ทำอะไรเลยได้คะแนนสูงอย่างน่าตกใจ

การค้นพบที่น่าตกใจอีกประการหนึ่งเกี่ยวข้องกับ do-nothing agents ซึ่งเป็นระบบที่ไม่ทำงานจริงๆ เลย ในระบบประเมินบางระบบ agent เล็กๆ น้อยๆ เหล่านี้ได้คะแนนถูกต้อง 38% ของงาน ทั้งที่พวกมันไม่แสดงความเข้าใจในปัญหาที่ควรจะแก้ไขเลย สิ่งนี้บ่งชี้ว่างานในระบบประเมินหลายอย่างถูกออกแบบมาไม่ดี หรือมีทางลัดที่ทำให้ระบบดูเหมือนประสบความสำเร็จโดยไม่ต้องทำงานที่ตั้งใจไว้จริงๆ

สภาพแวดล้อมการทดสอบที่ล้าสมัยและเปราะบาง

การศึกษายังเปิดเผยปัญหาของสภาพแวดล้อมระบบประเมินเอง การทดสอบบางอย่างอาศัยเว็บไซต์ที่ล้าสมัยหรือการจำลองที่เปราะบางซึ่งเสียหายเมื่อสภาวะภายนอกเปลี่ยนแปลง ตัวอย่างเช่น ระบบประเมินของ OSWorld พึ่พาเว็บไซต์ที่ล้าสมัยบางส่วน ทำให้ agent ล้มเหลวเมื่อ CSS classes หรือองค์ประกอบเว็บอื่นๆ ถูกอัปเดต สิ่งนี้สร้างเป้าหมายที่เคลื่อนไหวซึ่งทำให้การประเมินที่สม่ำเสมอเป็นไปไม่ได้

ปัญหาหลักที่ระบุได้:

  • ระบบ LLM-as-Judge ทำข้อผิดพลาดทางคณิตศาสตร์เบื้องต้น (45+8≠63)
  • สภาพแวดล้อมการจำลองที่เปราะบางเสียหายเมื่อมีการเปลี่ยนแปลงจากภายนอก
  • การพึ่งพาเว็บไซต์ที่ล้าสมัยทำให้การประเมินผลล้มเหลว
  • ปัญหาความถูกต้องของงานที่มีการทดสอบที่แก้ไม่ได้หรือมีช่องทางลัด
  • ปัญหาความถูกต้องของการประเมินผลที่มีการประเมินประสิทธิภาพผิดพลาดสัมบูรณ์ 1.6-5.2%

การตอบสนองของอุตสาหกรรมและแนวทางแก้ไข

ทีมวิจัยได้พัฒนา AI Agent Benchmark Checklist (ABC) ซึ่งเป็นกรอบงานที่ออกแบบมาเพื่อช่วยนักพัฒนาระบุและแก้ไขปัญหาเหล่านี้ รายการตรวจสอบมุ่งเน้นไปที่สามพื้นที่หลัก: ความถูกต้องของงาน (ว่างานนั้นทดสอบความสามารถที่ตั้งใจไว้จริงหรือไม่) ความถูกต้องของผลลัพธ์ (ว่าการประเมินระบุความสำเร็จได้อย่างถูกต้องหรือไม่) และแนวทางการรายงานที่เหมาะสม

อย่างไรก็ตาม ความท้าทายพื้นฐานยังคงซับซ้อน คุณสมบัติเดียวกันที่ทำให้ระบบ AI มีพลัง ซึ่งก็คือความสามารถในการจัดการกับข้อมูลนำเข้าที่คลุมเครือและสร้างผลลัพธ์ที่หลากหลาย ก็ทำให้พวกมันประเมินอย่างเป็นระบบได้ยากมาก วิธีการประเมินแบบดั้งเดิมที่ทำงานได้ดีกับระบบที่มีความแน่นอนมากกว่านั้น ดิ้นรนกับลักษณะที่ละเอียดอ่อนและขึ้นอยู่กับบริบทของงาน AI agent

การค้นพบนี้บ่งชี้ว่าอุตสาหกรรม AI อาจต้องคิดใหม่อย่างพื้นฐานเกี่ยวกับวิธีการวัดความก้าวหน้า ซึ่งอาจต้องใช้กระบวนการประเมินโดยมนุษย์ที่มีค่าใช้จ่ายสูงกว่า หรือวิธีการตรวจสอบความถูกต้องแบบใหม่ทั้งหมด จนกว่าปัญหาเหล่านี้จะได้รับการแก้ไข การอ้างเกี่ยวกับความสามารถของ AI agent ควรได้รับการมองด้วยความสงสัยอย่างมาก

อ้างอิง: Al Agent Benchmarks are Broken