บทความล่าสุดที่โต้แย้งว่าโมเดลภาษาขนาดใหญ่ ( LLMs ) ขาดแบบจำลองโลกที่แท้จริงได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI การถกเถียงมุ่งเน้นไปที่ว่าระบบ AI ปัจจุบันเข้าใจโลกรอบตัวอย่างแท้จริงหรือเพียงแค่เก่งในการจับคู่รูปแบบและการสร้างข้อความ
ความขัดแย้งเริ่มต้นขึ้นเมื่อนักพัฒนาคนหนึ่งแบ่งปันประสบการณ์ของ LLMs ที่ล้มเหลวในการเล่นหมากรุกพื้นฐาน โดยสูญเสียการติดตามตำแหน่งหมากรุกในตาที่ 9 และเดินหมากที่ผิดกฎ สิ่งนี้กระตุ้นคำถามที่กว้างขึ้นเกี่ยวกับสิ่งที่เป็นแบบจำลองโลกและว่า LLMs มีความเข้าใจที่แท้จริงในโดเมนที่พวกมันทำงานหรือไม่
ความท้าทายของหมากรุกเผยให้เห็นข้อจำกัดพื้นฐาน
ตัวอย่างหมากรุกได้กลายเป็นจุดสำคัญของการถกเถียง นักวิจารณ์ชี้ให้เห็นว่า LLMs ประสบปัญหากับกฎหมากรุกพื้นฐาน ล้มเหลวในการติดตามตำแหน่งหมากรุกและสร้างการเดินหมากที่ถูกต้องอย่างสม่ำเสมอ อย่างไรก็ตาม งานวิจัยล่าสุดชี้ให้เห็นว่าเรื่องเล่านี้อาจล้าสมัยแล้ว การศึกษาแสดงให้เห็นว่าโมเดลที่ล้ำสมัยสามารถบรรลุประสิทธิภาพหมากรุกระดับมืออาชีพ โดยมีการปรับปรุงอย่างมีนัยสำคัญเมื่อความแม่นยำของการเดินหมากที่ถูกกฎหมายถึง 99.8%
ความแตกต่างนี้เน้นย้ำประเด็นสำคัญ โมเดลเก่าและโมเดลที่ไม่มีการฝึกอบรมเฉพาะทางมักล้มเหลวในงานที่ต้องใช้การใช้เหตุผลเชิงพื้นที่และการติดตามสถานะ แต่ระบบใหม่กว่าแสดงให้เห็นการปรับปรุงอย่างมาก ทำให้เกิดคำถามว่าข้อจำกัดเหล่านี้เป็นพื้นฐานหรือเป็นเพียงผลพลอยได้จากแนวทางการฝึกอบรม
ตัวชี้วัดประสิทธิภาพการเล่นหมากรุก:
- เกณฑ์คะแนนระดับมืออาชีพ: น้อยกว่า 1800 ELO
- จุดก้าวกระโดดของความแม่นยำในการเดินที่ถูกกฎหมาย: 99.8%
- การปรับปรุงคะแนน ELO อย่างมีนัยสำคัญเกิดขึ้นหลังจากบรรลุความแม่นยำในการเดินที่ถูกกฎหมายในระดับสูง
นอกเหนือจากเกม แอปพลิเคชันในโลกแห่งความจริงแสดงผลลัพธ์ที่หลากหลาย
การถกเถียงขยายไปนอกเหนือจากหมากรุกไปสู่การใช้งานจริง ตัวอย่างรวมถึง LLMs ที่อธิบาย alpha blending ในซอฟต์แวร์แก้ไขภาพอย่างไม่ถูกต้อง โดยอ้างว่าการผสมสีไม่เกี่ยวข้องกับการคำนวณทางคณิตศาสตร์ ข้อผิดพลาดดังกล่าวเผยให้เห็นช่องว่างในความเข้าใจแนวคิดพื้นฐานเกี่ยวกับวิธีที่คอมพิวเตอร์ประมวลผลข้อมูลภาพ
อย่างไรก็ตาม สมาชิกในชุมชนสังเกตว่าความล้มเหลวเหล่านี้มักขึ้นอยู่กับว่าโมเดลใดที่ใช้และคำถามถูกกำหนดอย่างไร โมเดลที่เปิดใช้งานการใช้เหตุผลสมัยใหม่เช่น GPT-5 Thinking และ Claude with Extended Thinking แสดงประสิทธิภาพที่ดีขึ้นอย่างมากในงานที่คล้ายกัน ซึ่งชี้ให้เห็นว่าภูมิทัศน์กำลังพัฒนาอย่างรวดเร็ว
โมเดล LLM ที่อ้างอิงในการอภิปราย:
- ChatGPT (เวอร์ชันต่าง ๆ รวมถึง GPT-5 Thinking )
- Claude (พร้อมความสามารถ Extended Thinking )
- Grok
- Google AI Overviews
- Gemini 2.5 Flash และ Pro variants
ปัจจัย Tokenization และบริบททางประวัติศาสตร์
แง่มุมที่น่าสนใจของการอภิปรายเกี่ยวข้องกับ tokenization ซึ่งเป็นวิธีที่โมเดลแบ่งข้อความออกเป็นชิ้นส่วนที่ประมวลผลได้ ความล้มเหลวบางอย่าง เช่น การนับตัวอักษรในคำ เกิดจากข้อจำกัดทางเทคนิคนี้มากกว่าการขาดความเข้าใจ สมาชิกในชุมชนสังเกตว่าสิ่งที่เคยเป็นกรณีความล้มเหลวที่เชื่อถือได้ เช่น การนับ B ใน blueberry ไม่ทำให้โมเดลปัจจุบันสะดุดอีกต่อไป
มันถูกพูดถึงและทำซ้ำบน GPT-5 บน HN เมื่อสองสามวันที่แล้ว... โพสเตอร์พี่น้องอาจคิดผิดเกี่ยวกับปัญหา strawberry จาก 2024 บนโมเดล LLM เก่า
รอบการปรับปรุงที่รวดเร็วนี้ทำให้เป็นเรื่องท้าทายในการสรุปข้อสรุปที่ยั่งยืนเกี่ยวกับข้อจำกัดพื้นฐานเทียบกับอุปสรรคทางเทคนิคชั่วคราว
ตัวอย่างความล้มเหลวทั่วไปของ LLM :
- หมากรุก: สูญเสียการติดตามตำแหน่งหมากรุกภายในการเดิน 9 ครั้ง
- Alpha blending: อ้างอย่างผิดพลาดว่าการผสมสีไม่ได้ใช้สูตรทางคณิตศาสตร์
- การนับตัวอักษร: ปัญหาในอดีตเกี่ยวกับการนับตัวอักษรเฉพาะในคำ (ได้รับการแก้ไขส่วนใหญ่ในโมเดลที่ใหม่กว่า)
- Thread safety: ความสับสนเกี่ยวกับการดำเนินการ list ของ Python และพฤติกรรม GIL
ปัญหาข้อจำกัดการเรียนรู้
บางทีข้อจำกัดที่สำคัญที่สุดที่ระบุได้คือการไร้ความสามารถของ LLMs ในการเรียนรู้ระหว่างการอนุมาน ไม่เหมือนมนุษย์ที่สามารถสร้างความเข้าใจเกี่ยวกับฐานโค้ดใหม่หรือโดเมนผ่านการโต้ตอบ โมเดลปัจจุบันไม่สามารถอัปเดตความรู้ของพวกมันแบบเรียลไทม์ ข้อจำกัดนี้ส่งผลต่อความสามารถในการพัฒนาความเข้าใจที่ละเอียดอ่อนของสถานการณ์ใหม่หรือโดเมนเฉพาะทาง
การอภิปรายเผยให้เห็นชุมชนที่ต่อสู้กับความสามารถที่พัฒนาอย่างรวดเร็ว ในขณะที่ผู้ที่สงสัยชี้ไปที่ข้อจำกัดพื้นฐานในวิธีที่ LLMs ประมวลผลข้อมูล คนอื่นโต้แย้งว่าความก้าวหน้าล่าสุดในการใช้เหตุผลทางคณิตศาสตร์และการแก้ปัญหาแสดงให้เห็นความสามารถในการสร้างแบบจำลองโลกที่แท้จริง ความจริงน่าจะอยู่ที่ไหนสักแห่งระหว่างตำแหน่งเหล่านี้ โดยระบบปัจจุบันแสดงความสามารถที่น่าทึ่งในบางโดเมนในขณะที่ยังคงมีจุดบอดที่สำคัญในโดเมนอื่น ๆ
ขณะที่ความสามารถของ AI ยังคงก้าวหน้าด้วยความเร็วที่น่าตื่นตาตื่นใจ การถกเถียงเกี่ยวกับแบบจำลองโลกสะท้อนคำถามที่กว้างขึ้นเกี่ยวกับธรรมชาติของสติปัญญาและความเข้าใจในระบบประดิษฐ์
อ้างอิง: LLMs aren't world models