นักวิจัยได้นำเกมปริศนายอดนิยม Baba is You มาพัฒนาเป็นมาตรฐานการทดสอบ AI ที่เรียกว่า Baba is Eval เพื่อทดสอบว่าโมเดลภาษาขนาดใหญ่สามารถจัดการกับงานการใช้เหตุผลเชิงพื้นที่ที่ซับซ้อนได้ดีเพียงใด ผลลัพธ์เผยให้เห็นข้อจำกัดที่สำคัญในระบบ AI ปัจจุบัน แม้แต่โมเดลขั้นสูงอย่าง Claude เมื่อต้องจัดการกับการแก้ปริศนาบนตาราง
โครงการนี้แสดงให้เห็นถึงความท้าทายพื้นฐานที่ AI สมัยใหม่เผชิญ: แม้ว่าระบบเหล่านี้จะเก่งในงานด้านภาษาและสามารถสร้างโค้ดได้ แต่กลับมีปัญหาอย่างมากกับปัญหาการใช้เหตุผลเชิงพื้นที่ที่มนุษย์รู้สึกว่าเป็นเรื่องธรรมชาติ ข้อจำกัดนี้เห็นได้ชัดเจนโดยเฉพาะในเกมปริศนาที่การเข้าใจความสัมพันธ์แบบ 2 มิติและการวางแผนการแก้ปัญหาหลายขั้นตอนเป็นสิ่งจำเป็น
ผลการทดสอบประสิทธิภาพของ Claude:
- แก้ปัญหา Level 0 ได้สำเร็จ (8 การเคลื่อนไหวไปทางขวา)
- ล้มเหลวในทุกระดับที่ตามมา
- ไม่สามารถติดตามกฎของเกมได้อย่างน่าเชื่อถือ
- มีปัญหาในการระบุเส้นทางที่ถูกบล็อก
- การวางแผนหลายขั้นตอนไม่ดี
- มีความยากลำบากในการจดจำเงื่อนไขชนะ/แพ้
ปัญหาการแสดงตารางข้อความ
หนึ่งในประเด็นที่ถูกพูดถึงมากที่สุดในชุมชนคือวิธีที่ LLMs ประมวลผลข้อมูลเชิงพื้นที่ที่นำเสนอในรูปแบบตารางข้อความ วิธีการปัจจุบันในการแสดงสถานะของเกมเป็นตาราง ASCII ดูเหมือนจะสร้างอุปสรรคสำคัญสำหรับความเข้าใจของ AI โมเดลต่างๆ ดูเหมือนจะมีปัญหาเฉพาะในการตรวจจับคอลัมน์เมื่อเปรียบเทียบกับแถว ซึ่งน่าจะเป็นเพราะการฝึกของพวกมันถือว่าทุกอย่างเป็นข้อความต่อเนื่องมากกว่าการจัดเรียงเชิงพื้นที่
ข้อจำกัดทางสถาปัตยกรรมนี้บ่งชี้ว่าโมเดล transformer มาตรฐานที่ประมวลผลข้อมูลแบบเชิงเส้นอาจไม่เหมาะสมโดยพื้นฐานสำหรับงานที่ต้องการความเข้าใจเชิงพื้นที่อย่างแท้จริง นักวิจัยบางคนเสนอแนวทางแก้ไขอย่างการฝังข้อความแบบ 2 มิติที่เพิ่มข้อมูลตำแหน่งสำหรับทั้งพิกัด X และ Y แม้ว่าจะยังคงเป็นการทดลองเป็นส่วนใหญ่
โซลูชันที่เสนอสำหรับการใช้เหตุผลเชิงพื้นที่:
- การฝังข้อความแบบ 2D (การเพิ่มการเข้ารหัสตำแหน่ง X,Y)
- โครงสร้างพิกัดแบบ JSON
- การแสดงข้อมูลแบบกราฟ
- การอธิบายพิกัดเชิงความหมาย
- การแบ่งโทเค็นเฉพาะสำหรับข้อมูลเชิงพื้นที่
- เครื่องมือสำหรับการแยกการเคลื่อนไหว (เช่น ฟังก์ชัน move_to())
การถกเถียงระหว่างการจำกับการใช้เหตุผล
ความกังวลสำคัญที่ชุมชนยกขึ้นเกี่ยวข้องกับว่า LLMs กำลังแก้ปริศนาผ่านการใช้เหตุผลจริงๆ หรือเพียงแค่เรียกคืนคำตอบจากข้อมูลการฝึก เนื่องจากคำตอบของ Baba is You มีอยู่อย่างแพร่หลายออนไลน์ จึงมีความกังวลอย่างสมเหตุสมผลว่าความสำเร็จที่ปรากฏอาจสะท้อนถึงการจำมากกว่าความสามารถในการแก้ปัญหาอย่างแท้จริง
อย่างไรก็ตาม แม้เมื่อทดสอบกับระดับที่มีคำตอบที่ทราบแล้ว โมเดลปัจจุบันอย่าง Claude ก็ล้มเหลวในการแก้ปริศนาพื้นฐานเกินกว่าระดับบทช่วยสอนที่ง่ายที่สุด สิ่งนี้บ่งชี้ว่าแม้แต่การจำก็ไม่ได้ผลอย่างมีประสิทธิภาพ ซึ่งเน้นย้ำถึงปัญหาที่ลึกซึ้งกว่าในวิธีที่ระบบเหล่านี้ประมวลผลและประยุกต์ใช้การใช้เหตุผลเชิงพื้นที่
การเปรียบเทียบกับระบบ AI เฉพาะเกม
การอภิปรายเผยให้เห็นความแตกต่างที่น่าสนใจระหว่าง LLMs อเนกประสงค์และระบบ AI เฉพาะทาง แม้ว่าเครือข่ายประสาทเทียมเฉพาะที่ฝึกมาโดยเฉพาะกับเกมปริศนาน่าจะสามารถทำได้ดีกว่า Claude อย่างมีนัยสำคัญ แต่เป้าหมายไม่ได้อยู่ที่การแก้เกมเท่านั้น แต่เพื่อทดสอบความสามารถด้านปัญญาทั่วไป
เครือข่ายประสาทเทียมแบบ feed-forward ธรรมดาที่มีการฝึกเพียงพอสามารถแก้ระดับได้ดีกว่า Claude มาก
ข้อสังเกตนี้เน้นย้ำประเด็นสำคัญ: ความท้าทายไม่ได้อยู่ที่การสร้าง AI ที่สามารถเอาชนะเกมปริศนา แต่การพัฒนาระบบที่แสดงให้เห็นถึงปัญญาทั่วไปอย่างแท้จริงโดยการจัดการกับงานที่หลากหลายโดยไม่ต้องฝึกเฉพาะทาง
รายละเอียดการใช้งานทางเทคนิค:
- ดึงข้อมูลสถานะเกมผ่าน Lua mod hooks
- ประมวลผลคำสั่งด้วยความหน่วงเวลา 50-150ms
- ใช้เซิร์ฟเวอร์ MCP (Model Context Protocol)
- การแสดงข้อมูลเชิงพื้นที่ในรูปแบบตารางข้อความ
- การนำทางในเลเวลผ่านการจำลองการกดปุ่ม
- ขนาดไฟล์เกม: 8MB พร้อมสคริปต์ Lua
ผลกระทบต่อการสร้างมาตรฐานการทดสอบ AI
โครงการ Baba is Eval เข้าร่วมกับชุดมาตรฐานการทดสอบที่เพิ่มขึ้นซึ่งออกแบบมาเพื่อทดสอบความสามารถของ AI นอกเหนือจากงานภาษาแบบดั้งเดิม ไม่เหมือนกับมาตรฐานการทดสอบที่มีอยู่บางตัว เกมปริศนามีข้อได้เปรียบในการมีกฎที่ชัดเจนและเกณฑ์ความสำเร็จที่ชัดเจน ทำให้เป็นเครื่องมือที่มีค่าสำหรับการวัดความก้าหน้าของ AI
การอภิปรายในชุมชนบ่งชี้ว่าความท้าทายด้านการใช้เหตุผลเชิงพื้นที่เหล่านี้อาจเป็นการทดสอบปัญญาที่พื้นฐานกว่ามาตรฐานการทดสอบปัจจุบัน ความสามารถในการเข้าใจและจัดการความสัมพันธ์เชิงพื้นที่ วางแผนการแก้ปัญหาหลายขั้นตอน และปรับตัวกับชุดกฎที่เปลี่ยนแปลงสะท้อนถึงสถานการณ์การแก้ปัญหาในโลกจริงหลายอย่าง
การวิจัยนี้เน้นย้ำถึงช่องว่างสำคัญระหว่างความสามารถของ AI ปัจจุบันและการใช้เหตุผลแบบมนุษย์ แม้ว่า LLMs จะยังคงพัฒนาในงานที่เกี่ยวกับภาษา แต่การที่พวกมันมีปัญหากับการใช้เหตุผลเชิงพื้นที่บ่งชี้ว่าการบรรลุปัญญาประดิษฐ์ทั่วไปอย่างแท้จริงอาจต้องการการเปลี่ยนแปลงทางสถาปัตยกรรมพื้นฐานมากกว่าการขยายขนาดวิธีการที่มีอยู่
อ้างอิง: Baba is Eval