ชุมชนปัญญาประดิษฐ์กำลังต่อสู้กับปัญหาพื้นฐานในการประเมินโมเดล นั่นคือ ในขณะที่ benchmark กลายเป็นสาธารณะ มันมีแนวโน้มที่จะไปอยู่ในชุดข้อมูลฝึกอบรม ทำให้เป็นเครื่องมือวัดความสามารถที่แท้จริงของ AI ที่ไม่น่าเชื่อถือ
ปัญหาการปนเปื้อนนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นในหมู่นักพัฒนาและนักวิจัยที่พึ่งพา benchmark ในการวัดความก้าวหน้าของระบบ AI ความท้าทายนี้ขยายไปเกินกว่าคะแนนทดสอบง่าย ๆ ไปสู่คำถามหลักเกี่ยวกับวิธีที่เราสามารถประเมินได้อย่างมีความหมายว่าโมเดล AI กำลังพัฒนาขึ้นจริง ๆ หรือแค่เก่งขึ้นในการเล่นเกมกับการทดสอบเฉพาะ
ปัญหาการปนเปื้อนของ Benchmark
ชุมชนได้ระบุข้อบกพร่องที่สำคัญในวิธีการประเมินปัจจุบัน Benchmark สาธารณะเมื่อถูกเผยแพร่แล้ว จะกลายเป็นส่วนหนึ่งของชุดข้อมูลขนาดใหญ่ที่ใช้ในการฝึกอบรมโมเดล AI ใหม่ สิ่งนี้สร้างปัญหาแบบวงกลมที่โมเดลดูเหมือนจะทำงานได้ดีขึ้น ไม่ใช่เพราะมีความสามารถมากขึ้น แต่เพราะพวกมันเคยเห็นคำถามทดสอบมาก่อน
ปัญหานี้ส่งผลต่อทุกอย่างตั้งแต่การทดสอบความรู้พื้นฐานอย่าง MMLU ไปจนถึง benchmark การใช้เหตุผลที่ซับซ้อน แม้แต่การประเมินใหม่ ๆ ที่ควรจะยากกว่า ก็กำลังไปถึงสิ่งที่นักวิจัยเรียกว่า saturation อย่างรวดเร็ว ซึ่งเป็นจุดที่โมเดลชั้นนำได้คะแนนใกล้เคียงกับคะแนนเต็ม ทำให้ไม่สามารถแยกแยะระหว่างระบบที่เหนือกว่าอย่างแท้จริงได้
หมวดหมู่เกณฑ์มาตรฐานหลักและตัวอย่าง:
- ความรู้: MMLU-Pro , QAPGA , HumanEval variants
- คณิตศาสตร์: GSM8K , MATH-500 , AIME , Math-Arena
- การเขียนโค้ด: LiveCodeBench , SweBench , AiderBench
- บริบทยาว: NIAH (Needle in Haystack) , Ruler , InfinityBench
- การเรียกใช้เครื่องมือ: ToolBench , MCBench , MCP-Universe
- งานผู้ช่วย: QA4IA , BrowseComps , SciCode
- เกม: ARC-AGI , Town of Salem , TextQuests
ประสิทธิภาพในโลกจริง เทียบกับ คะแนน Benchmark
ผู้ปฏิบัติงานจำนวนมากขึ้นโต้แย้งว่า benchmark มาตรฐานพลาดประเด็นไปโดยสิ้นเชิง ควรมุ่งเน้นไปที่การสร้างระบบที่ทำงานได้ดีสำหรับผู้ใช้จริง ไม่ใช่การได้คะแนนสูงในการทดสอบนามธรรม
ประสิทธิภาพที่แท้จริงขึ้นอยู่กับวิธีการสร้างระบบ มากกว่า LLM พื้นฐาน การประเมินระบบที่คุณสร้างด้วยข้อมูลนำเข้าที่เกี่ยวข้องเป็นสิ่งสำคัญที่สุด
มุมมองนี้เน้นย้ำถึงความแตกต่างระหว่างประสิทธิภาพในห้องปฏิบัติการและประโยชน์ใช้สอยในทางปฏิบัติ โมเดลอาจเก่งในการทดสอบการใช้เหตุผลทางคณิตศาสตร์ แต่ล้มเหลวเมื่อการใช้เหตุผลนั้นต้องรวมกับการใช้เครื่องมือและความเข้าใจบริบทยาวในแอปพลิเคชันจริง
ปัจจัยด้านต้นทุนในการประเมิน
แง่มุมที่มักถูกมองข้ามในการประเมิน AI คือความคุ้มค่าในด้านต้นทุน ประสิทธิภาพของโมเดลสามารถแตกต่างกันอย่างมากเมื่อพิจารณาข้อจำกัดด้านง예산 โมเดลที่มีความสามารถน้อยกว่าเล็กน้อยแต่มีต้นทุนการใช้งานต่ำกว่ามาก อาจเป็นตัวเลือกที่ดีกว่าสำหรับแอปพลิเคชันหลายประเภท แต่ benchmark แบบดั้งเดิมไม่ได้จับความแลกเปลี่ยนนี้
นักพัฒนาบางคนกำลังสร้างเครื่องมือที่รวมเมตริกต้นทุนและ latency เข้ากับคะแนนความแม่นยำ เพื่อให้ภาพรวมที่สมบูรณ์กว่าของประโยชน์ใช้สอยของโมเดลในสภาพแวดล้อมการผลิต
กรอบการประเมินที่แนะนำ (2025):
- ความสามารถหลัก: MMLU , Math-Arena , LiveCodeBench , MCP-Universe
- ประสิทธิภาพในโลกแห่งความจริง: QA4IA , DABStep , SciCode , การประเมินเฉพาะด้าน
- การทดสอบความสามารถในการปรับตัว: ARC-AGI , TextQuests , Town of Salem
- การพิจารณาต้นทุน: รวมข้อจำกัดด้านง예산และเมตริกความล่าช้าในการประเมินทั้งหมด
เคลื่อนไปสู่การทดสอบแบบส่วนตัวและไดนามิก
วิธีแก้ไขที่เกิดขึ้นจากชุมชนเกี่ยวข้องกับการเปลี่ยนไปสู่การประเมินแบบส่วนตัวและเฉพาะโดเมนที่ไม่สามารถเล่นเกมผ่านการรวมข้อมูลฝึกอบรมได้ องค์กรบางแห่งกำลังพัฒนา benchmark ภายในที่อิงตามกรณีการใช้งานเฉพาะของพวกเขา ในขณะที่บางแห่งกำลังสำรวจสภาพแวดล้อมการทดสอบแบบไดนามิกที่สามารถปรับตัวและทำให้โมเดลประหลาดใจได้แบบเรียลไทม์
การประเมินแบบเกมและงานพยากรณ์เป็นทิศทางที่มีแนวโน้มดี เนื่องจากเกี่ยวข้องกับสถานการณ์ที่ยากต่อการทำนายหรือปนเปื้อนโดยธรรมชาติ แนวทางเหล่านี้ทดสอบไม่เพียงการจำความรู้ แต่ยังรวมถึงความสามารถในการใช้เหตุผลและการปรับตัวที่แท้จริง
วิกฤตการประเมินสะท้อนถึงการเติบโตที่กว้างขึ้นในสาขา AI เมื่อโมเดลมีความสามารถมากขึ้น วิธีการวัดความสามารถนั้นต้องพัฒนาไปเกินกว่าคะแนน benchmark ง่าย ๆ ไปสู่การประเมินประโยชน์ใช้สอยในโลกจริงที่มีความละเอียดและปฏิบัติได้มากขึ้น
อ้างอิง: Evals in 2025: going beyond simple benchmarks to build models people can actually use