LLMs ประสบปัญหาในการใช้เหตุผลเชิงพื้นที่ในเกมปริศนาแม้จะมีความสามารถขั้นสูง

ทีมชุมชน BigGo
LLMs ประสบปัญหาในการใช้เหตุผลเชิงพื้นที่ในเกมปริศนาแม้จะมีความสามารถขั้นสูง

นักวิจัยได้นำเกมปริศนายอดนิยม Baba is You มาพัฒนาเป็นมาตรฐานการทดสอบ AI ที่เรียกว่า Baba is Eval เพื่อทดสอบว่าโมเดลภาษาขนาดใหญ่สามารถจัดการกับงานการใช้เหตุผลเชิงพื้นที่ที่ซับซ้อนได้ดีเพียงใด ผลลัพธ์เผยให้เห็นข้อจำกัดที่สำคัญในระบบ AI ปัจจุบัน แม้แต่โมเดลขั้นสูงอย่าง Claude เมื่อต้องจัดการกับการแก้ปริศนาบนตาราง

โครงการนี้แสดงให้เห็นถึงความท้าทายพื้นฐานที่ AI สมัยใหม่เผชิญ: แม้ว่าระบบเหล่านี้จะเก่งในงานด้านภาษาและสามารถสร้างโค้ดได้ แต่กลับมีปัญหาอย่างมากกับปัญหาการใช้เหตุผลเชิงพื้นที่ที่มนุษย์รู้สึกว่าเป็นเรื่องธรรมชาติ ข้อจำกัดนี้เห็นได้ชัดเจนโดยเฉพาะในเกมปริศนาที่การเข้าใจความสัมพันธ์แบบ 2 มิติและการวางแผนการแก้ปัญหาหลายขั้นตอนเป็นสิ่งจำเป็น

ผลการทดสอบประสิทธิภาพของ Claude:

  • แก้ปัญหา Level 0 ได้สำเร็จ (8 การเคลื่อนไหวไปทางขวา)
  • ล้มเหลวในทุกระดับที่ตามมา
  • ไม่สามารถติดตามกฎของเกมได้อย่างน่าเชื่อถือ
  • มีปัญหาในการระบุเส้นทางที่ถูกบล็อก
  • การวางแผนหลายขั้นตอนไม่ดี
  • มีความยากลำบากในการจดจำเงื่อนไขชนะ/แพ้

ปัญหาการแสดงตารางข้อความ

หนึ่งในประเด็นที่ถูกพูดถึงมากที่สุดในชุมชนคือวิธีที่ LLMs ประมวลผลข้อมูลเชิงพื้นที่ที่นำเสนอในรูปแบบตารางข้อความ วิธีการปัจจุบันในการแสดงสถานะของเกมเป็นตาราง ASCII ดูเหมือนจะสร้างอุปสรรคสำคัญสำหรับความเข้าใจของ AI โมเดลต่างๆ ดูเหมือนจะมีปัญหาเฉพาะในการตรวจจับคอลัมน์เมื่อเปรียบเทียบกับแถว ซึ่งน่าจะเป็นเพราะการฝึกของพวกมันถือว่าทุกอย่างเป็นข้อความต่อเนื่องมากกว่าการจัดเรียงเชิงพื้นที่

ข้อจำกัดทางสถาปัตยกรรมนี้บ่งชี้ว่าโมเดล transformer มาตรฐานที่ประมวลผลข้อมูลแบบเชิงเส้นอาจไม่เหมาะสมโดยพื้นฐานสำหรับงานที่ต้องการความเข้าใจเชิงพื้นที่อย่างแท้จริง นักวิจัยบางคนเสนอแนวทางแก้ไขอย่างการฝังข้อความแบบ 2 มิติที่เพิ่มข้อมูลตำแหน่งสำหรับทั้งพิกัด X และ Y แม้ว่าจะยังคงเป็นการทดลองเป็นส่วนใหญ่

โซลูชันที่เสนอสำหรับการใช้เหตุผลเชิงพื้นที่:

  • การฝังข้อความแบบ 2D (การเพิ่มการเข้ารหัสตำแหน่ง X,Y)
  • โครงสร้างพิกัดแบบ JSON
  • การแสดงข้อมูลแบบกราฟ
  • การอธิบายพิกัดเชิงความหมาย
  • การแบ่งโทเค็นเฉพาะสำหรับข้อมูลเชิงพื้นที่
  • เครื่องมือสำหรับการแยกการเคลื่อนไหว (เช่น ฟังก์ชัน move_to())

การถกเถียงระหว่างการจำกับการใช้เหตุผล

ความกังวลสำคัญที่ชุมชนยกขึ้นเกี่ยวข้องกับว่า LLMs กำลังแก้ปริศนาผ่านการใช้เหตุผลจริงๆ หรือเพียงแค่เรียกคืนคำตอบจากข้อมูลการฝึก เนื่องจากคำตอบของ Baba is You มีอยู่อย่างแพร่หลายออนไลน์ จึงมีความกังวลอย่างสมเหตุสมผลว่าความสำเร็จที่ปรากฏอาจสะท้อนถึงการจำมากกว่าความสามารถในการแก้ปัญหาอย่างแท้จริง

อย่างไรก็ตาม แม้เมื่อทดสอบกับระดับที่มีคำตอบที่ทราบแล้ว โมเดลปัจจุบันอย่าง Claude ก็ล้มเหลวในการแก้ปริศนาพื้นฐานเกินกว่าระดับบทช่วยสอนที่ง่ายที่สุด สิ่งนี้บ่งชี้ว่าแม้แต่การจำก็ไม่ได้ผลอย่างมีประสิทธิภาพ ซึ่งเน้นย้ำถึงปัญหาที่ลึกซึ้งกว่าในวิธีที่ระบบเหล่านี้ประมวลผลและประยุกต์ใช้การใช้เหตุผลเชิงพื้นที่

การเปรียบเทียบกับระบบ AI เฉพาะเกม

การอภิปรายเผยให้เห็นความแตกต่างที่น่าสนใจระหว่าง LLMs อเนกประสงค์และระบบ AI เฉพาะทาง แม้ว่าเครือข่ายประสาทเทียมเฉพาะที่ฝึกมาโดยเฉพาะกับเกมปริศนาน่าจะสามารถทำได้ดีกว่า Claude อย่างมีนัยสำคัญ แต่เป้าหมายไม่ได้อยู่ที่การแก้เกมเท่านั้น แต่เพื่อทดสอบความสามารถด้านปัญญาทั่วไป

เครือข่ายประสาทเทียมแบบ feed-forward ธรรมดาที่มีการฝึกเพียงพอสามารถแก้ระดับได้ดีกว่า Claude มาก

ข้อสังเกตนี้เน้นย้ำประเด็นสำคัญ: ความท้าทายไม่ได้อยู่ที่การสร้าง AI ที่สามารถเอาชนะเกมปริศนา แต่การพัฒนาระบบที่แสดงให้เห็นถึงปัญญาทั่วไปอย่างแท้จริงโดยการจัดการกับงานที่หลากหลายโดยไม่ต้องฝึกเฉพาะทาง

รายละเอียดการใช้งานทางเทคนิค:

  • ดึงข้อมูลสถานะเกมผ่าน Lua mod hooks
  • ประมวลผลคำสั่งด้วยความหน่วงเวลา 50-150ms
  • ใช้เซิร์ฟเวอร์ MCP (Model Context Protocol)
  • การแสดงข้อมูลเชิงพื้นที่ในรูปแบบตารางข้อความ
  • การนำทางในเลเวลผ่านการจำลองการกดปุ่ม
  • ขนาดไฟล์เกม: 8MB พร้อมสคริปต์ Lua

ผลกระทบต่อการสร้างมาตรฐานการทดสอบ AI

โครงการ Baba is Eval เข้าร่วมกับชุดมาตรฐานการทดสอบที่เพิ่มขึ้นซึ่งออกแบบมาเพื่อทดสอบความสามารถของ AI นอกเหนือจากงานภาษาแบบดั้งเดิม ไม่เหมือนกับมาตรฐานการทดสอบที่มีอยู่บางตัว เกมปริศนามีข้อได้เปรียบในการมีกฎที่ชัดเจนและเกณฑ์ความสำเร็จที่ชัดเจน ทำให้เป็นเครื่องมือที่มีค่าสำหรับการวัดความก้าหน้าของ AI

การอภิปรายในชุมชนบ่งชี้ว่าความท้าทายด้านการใช้เหตุผลเชิงพื้นที่เหล่านี้อาจเป็นการทดสอบปัญญาที่พื้นฐานกว่ามาตรฐานการทดสอบปัจจุบัน ความสามารถในการเข้าใจและจัดการความสัมพันธ์เชิงพื้นที่ วางแผนการแก้ปัญหาหลายขั้นตอน และปรับตัวกับชุดกฎที่เปลี่ยนแปลงสะท้อนถึงสถานการณ์การแก้ปัญหาในโลกจริงหลายอย่าง

การวิจัยนี้เน้นย้ำถึงช่องว่างสำคัญระหว่างความสามารถของ AI ปัจจุบันและการใช้เหตุผลแบบมนุษย์ แม้ว่า LLMs จะยังคงพัฒนาในงานที่เกี่ยวกับภาษา แต่การที่พวกมันมีปัญหากับการใช้เหตุผลเชิงพื้นที่บ่งชี้ว่าการบรรลุปัญญาประดิษฐ์ทั่วไปอย่างแท้จริงอาจต้องการการเปลี่ยนแปลงทางสถาปัตยกรรมพื้นฐานมากกว่าการขยายขนาดวิธีการที่มีอยู่

อ้างอิง: Baba is Eval