การประเมินใหม่เผยให้เห็นว่าแม้แต่โมเดลภาษาขนาดใหญ่ที่ทันสมัยที่สุดก็ยังมีประสิทธิภาพที่น่าผิดหวังในเกมผจญภัยแบบข้อความ แม้ว่าจะมีแนวโน้มที่จะเข้าถึงคู่มือการเล่นและวิธีการผ่านเกมในข้อมูลการฝึกฝนของพวกเขาแล้วก็ตาม งานวิจัยนี้ทดสอบโมเดลยอดนิยมอย่าง GPT-5 , Claude และ Gemini ในเกมนิยายโต้ตอบคลาสสิก พบว่าไม่มีโมเดลใดที่ประสบความสำเร็จที่น่าประทับใจ
วิธีการประเมินผล
- เซสชันการเล่นเกมที่จำกัดจำนวนเทิร์นพร้อมความสำเร็จที่กำหนดไว้ล่วงหน้า
- การให้คะแนนความสำเร็จที่จัดกลุ่มรอบการพัฒนาในช่วงต้นเกม
- การปรับแต่งด้วย Linear regression สำหรับความแปรผันของความยากของเกม
- การทดสอบใน interactive fiction คลาสสิก 7 เกม รวมถึง " Lost Pig ", " Plundered Hearts " และ " 9:05 "
ช่องว่างพื้นฐานด้านความฉลาด
ประสิทธิภาพที่ไม่ดีนี้เน้นย้ำถึงความแตกต่างที่สำคัญระหว่างการประมวลผลภาษาและความสามารถในการใช้เหตุผลที่แท้จริง LLMs ปัจจุบันทำงานเป็นระบบจับคู่รูปแบบที่ซับซ้อนมากกว่าที่จะเป็นเครื่องมือสร้างแบบจำลองโลกที่สามารถเข้าใจความสัมพันธ์เชิงพื้นที่ ลูกโซ่เหตุและผล และกลไกของเกม ข้อจำกัดนี้กลายเป็นสิ่งที่ชัดเจนเมื่อโมเดลพบกับสภาพแวดล้อมแบบโต้ตอบที่ต้องการการวางแผนหลายขั้นตอนและการติดตามสถานะ
เมื่อดูการประเมินนี้ มันน่าสนใจมากที่โมเดลเหล่านี้มีประสิทธิภาพที่แย่มากแม้กระทั่งในเกมที่มีอายุหลายทศวรรษซึ่งเกือบแน่นอนว่ามีคู่มือการเล่นกระจัดกระจายอยู่ทั่วข้อมูลการฝึกฝนของพวกเขา
งานวิจัยใช้ระบบการให้คะแนนแบบอิงผลสำเร็จ โดยกำหนดขั้นจำกัดของเทิร์นและวัดจำนวนเป้าหมายที่กำหนดไว้ล่วงหน้าที่แต่ละโมเดลสามารถบรรลุได้ เกมอย่าง Lost Pig และ Plundered Hearts พิสูจน์แล้วว่าเหมาะสมกว่าสำหรับการประเมินเนื่องจากลำดับการเปิดที่เป็นเส้นตรง ในขณะที่เกมที่มีตัวเลือกการสำรวจที่กว้างขวางแสดงความแปรปรวนสูงระหว่างการเล่นแต่ละครั้ง
ข้อมูลเชิงลึกด้านประสิทธิภาพหลัก
- คะแนนมีความแปรปรวนสูงในเกมที่เน้นการสำรวจอย่าง " So Far "
- เกมเปิดแบบเชิงเส้นอย่าง " Lost Pig " ให้ตัวชี้วัดการประเมินผลที่สม่ำเสมอมากกว่า
- ไม่มีโมเดลใดที่ประสบความสำเร็จอย่างน่าประทับใจอย่างสม่ำเสมอในทุกเกมที่ทดสอบ
- นัยสำคัญทางสtatistical มีข้อจำกัดเนื่องจากขนาดตัวอย่างเล็กในหลายโมเดล
การวิเคราะห์ต้นทุน-ประสิทธิภาพเผยให้เห็นผู้ชนะที่ชัดเจน
ในบรรดาโมเดลที่ทดสอบ Gemini 2.5 Flash กลายเป็นผู้มีประสิทธิภาพโดดเด่นเมื่อพิจารณาทั้งความสามารถและประสิทธิภาพด้านต้นทุน โมเดลนี้เทียบเท่าหรือเกินกว่าประสิทธิภาพของทางเลือกที่แพงกว่ามากในขณะที่รักษาเวลาตอบสนองที่เร็วกว่า การค้นพบนี้ท้าทายสมมติฐานที่ว่าโมเดลระดับพรีเมียมจะให้ผลลัพธ์ที่เหนือกว่าโดยอัตโนมัติสำหรับงานแบบโต้ตอบ
วิธีการประเมินปรับให้เข้ากับความยากของเกมโดยใช้การถดถอยเชิงเส้น โดยให้สัมประสิทธิ์ที่คำนึงถึงระดับความท้าทายที่แตกต่างกันในเกมต่างๆ ความแตกต่างของประสิทธิภาพของโมเดลส่วนใหญ่ขาดนัยสำคัญทางสtatisticsเนื่องจากขนาดตัวอย่างที่จำกัด แต่ผลลัพธ์ให้ข้อมูลเชิงทิศทางที่มีค่าสำหรับการเลือกโมเดล
โมเดลที่มีประสิทธิภาพสูงสุด (ปรับตามต้นทุน)
- Gemini 2.5 Flash : อัตราส่วนประสิทธิภาพต่อต้นทุนที่ดีที่สุด
- Claude 4 Sonnet : ประสิทธิภาพที่แข็งแกร่งแต่ต้นทุนสูงกว่า
- GPT-5 Chat : อ้างอิงประสิทธิภาพพื้นฐาน
- โมเดลพรีเมียมส่วนใหญ่ไม่แสดงข้อได้เปรียบที่สำคัญเมื่อเทียบกับทางเลือกที่ราคาถูกกว่า
ผลกระทบต่อการพัฒนา AI
การประเมินเกมผจญภัยแบบข้อความเผยให้เห็นข้อจำกัดที่สำคัญในความสามารถของระบบ AI ปัจจุบันในการรักษาแบบจำลองโลกที่สอดคล้องกันและดำเนินงานใช้เหตุผลแบบต่อเนื่อง ไม่เหมือนกับเกณฑ์มาตรฐานแบบคงที่ที่โมเดลอาจจำได้ เกมแบบโต้ตอบต้องการการปรับตัวแบบเรียลไทม์กับสถานะที่เปลี่ยนแปลงและสถานการณ์ใหม่
งานวิจัยนี้เพิ่มหลักฐานที่เพิ่มขึ้นว่าการบรรลุปัญญาประดิษฐ์ทั่วไปต้องการมากกว่าการขยายขนาดโมเดลภาษา ความไม่สามารถที่จะเก่งในเกมที่ออกแบบมาเพื่อความบันเทิงของมนุษย์ - แม้จะมีการเข้าถึงวิธีการแก้ปัญหาที่เป็นไปได้ระหว่างการฝึกฝน - บ่งบอกถึงช่องว่างพื้นฐานในวิธีที่ระบบเหล่านี้ประมวลผลและใช้ความรู้ในบริบทที่เปลี่ยนแปลงได้
การค้นพบนี้มีผลกระทบในทางปฏิบัติสำหรับการนำ LLMs ไปใช้ในแอปพลิเคชันที่ต้องการการใช้เหตุผลอย่างต่อเนื่องในหลายรอบการโต้ตอบ เช่น การบริการลูกค้า การแก้ไขปัญหาทางเทคนิค หรือสถานการณ์การสอนพิเศษทางการศึกษา