ชุมชน AI กำลังมีการถกเถียงกันอย่างเข้มข้นเกี่ยวกับว่า chain-of-thought reasoning ในโมเดลภาษาขนาดใหญ่นั้นแสดงถึงการใช้เหตุผลที่แท้จริงหรือเป็นเพียงการจับรูปแบบที่ซับซ้อน การอภิปรายนี้ทวีความรุนแรงขึ้นหลังจากงานวิจัยล่าสุดที่ตั้งคำถามต่อธรรมชาติพื้นฐานของความสามารถในการใช้เหตุผลของ AI
ความขัดแย้งหลัก: อะไรคือการใช้เหตุผลที่แท้จริง?
การถกเถียงมีจุดศูนย์กลางอยู่ที่คำถามพื้นฐานที่ทำให้นักวิจัยและผู้ปฏิบัติงานแตกแยกกัน งานวิจัยล่าสุดจาก Arizona State University ได้ฝึกโมเดลขนาดเล็ก 600,000 พารามิเตอร์ในงานการแปลงตัวอักษรแบบง่าย พบว่าโมเดลมีปัญหาเมื่อเผชิญกับการดำเนินการที่อยู่นอกเหนือจากข้อมูลการฝึก นักวิจัยสรุปว่า chain-of-thought reasoning อาจเป็นเพียงภาพลวงตา - ดูเหมือนจริงแต่จริงๆ แล้วเป็นเพียงรูปแบบที่จำมาได้
อย่างไรก็ตาม นักวิจารณ์โต้แย้งว่าข้อสรุปนี้มีข้อบกพร่อง พวกเขาชี้ให้เห็นว่าการศึกษานี้ใช้งานที่เป็นการคำนวณมากกว่าการใช้เหตุผล การใช้เหตุผลที่แท้จริงต้องการความสามารถในการเปลี่ยนทิศทาง ย้อนกลับ และพิจารณาแนวทางหลายแนวทาง ซึ่งเป็นความสามารถที่การแปลงตัวอักษรแบบง่ายไม่สามารถทดสอบได้
พารามิเตอร์การศึกษาของ Arizona State University :
- ขนาดโมเดล: ประมาณ 600,000 พารามิเตอร์ (4 ชั้น)
- ประเภทงาน: การดำเนินการแปลงตัวอักษร (เช่น "A B C D [M1]" → "B C D E")
- ข้อมูลการฝึก: ประเภทการดำเนินการหลายแบบพร้อมตัวอย่าง chain-of-thought
- ผลการค้นพบสำคัญ: ประสิทธิภาพลดลงอย่างมีนัยสำคัญเมื่อพบการรวมกันของการดำเนินการที่ไม่เคยเห็นหรือการเปลี่ยนแปลงรูปแบบ
ปัญหาการเปรียบเทียบกับมนุษย์
หนึ่งในการโต้แย้งที่น่าสนใจที่สุดมุ่งเน้นไปที่วิธีการใช้เหตุผลของมนุษย์ในทางปฏิบัติ นักวิจารณ์สังเกตว่ามนุษย์ก็พึ่งพารูปแบบที่เรียนรู้มาเป็นอย่างมาก รวมรายละเอียดที่ไม่เกี่ยวข้องในการใช้เหตุผล และมีปัญหาเมื่อทำงานนอกเหนือจากพื้นที่ความเชี่ยวชาญของตน ผู้ใช้เหตุผลตามหลักการในอุดมคติที่บางงานวิจัยเปรียบเทียบโมเดล AI ด้วยนั้นไม่มีอยู่จริงในความเป็นจริง
LLMs สร้างห่วงโซ่ตรรกะผิวเผินโดยอิงจากการเชื่อมโยง token ที่เรียนรู้มา มักล้มเหลวในงานที่เบี่ยงเบนจากฮิวริสติกส์ที่สมเหตุสมผลหรือเทมเพลตที่คุ้นเคย
การวิจารณ์นี้ใช้ได้กับผู้ใช้เหตุผลที่เป็นมนุษย์เช่นกัน ทำให้เกิดคำถามว่าเรากำลังกำหนดมาตรฐานที่เป็นไปไม่ได้ให้กับ AI หรือไม่
ข้อจำกัดทางเทคนิคของการศึกษาปัจจุบัน
ชุมชนได้ระบุปัญหาทางเทคนิคหลายประการในการศึกษาการใช้เหตุผลล่าสุด งานวิจัยของ Arizona State ใช้โมเดลที่เล็กมากที่ขาดความสามารถในการใช้เหตุผลที่ซับซ้อน ความสามารถในการใช้เหตุผลสมัยใหม่ดูเหมือนจะเป็นคุณสมบัติที่เกิดขึ้นเองซึ่งปรากฏเฉพาะในโมเดลที่ใหญ่กว่ามาก
นอกจากนี้ งานที่ใช้ในการศึกษาหลายชิ้นไม่ต้องการการใช้เหตุผลจริง การแปลงแบบง่ายเช่นการเลื่อนตัวอักษรแต่ละตัวไปหนึ่งตำแหน่งเป็นงานการคำนวณที่มีเส้นทางที่ถูกต้องเพียงเส้นทางเดียว ไม่เหมือนกับปัญหาการใช้เหตุผลที่แท้จริงซึ่งเกี่ยวข้องกับการสำรวจแนวทางแก้ไขที่เป็นไปได้หลายแนวทาง
ข้อจำกัดของการศึกษาที่ชุมชนระบุ:
- โมเดลมีขนาดเล็กเกินไปสำหรับความสามารถในการใช้เหตุผลเชิงซับซ้อน
- งานเป็นการคำนวณมากกว่าการใช้เหตุผล
- ไม่มีการเปรียบเทียบกับประสิทธิภาพการใช้เหตุผลของมนุษย์
- ขาดกลไกในการย้อนกลับหรือเปลี่ยนทิศทาง
- ไม่มีคำนิยามทางปรัชญาที่ชัดเจนของการใช้เหตุผล "แท้จริง"
ความแตกแยงระหว่างปรัชญาและการปฏิบัติ
การอภิปรายเผยให้เห็นความตึงเครียดที่ลึกซึ้งยิ่งขึ้นระหว่างคำจำกัดความทางปรัชญาของการใช้เหตุผลและการประยุกต์ใช้ในทางปฏิบัติ สมาชิกชุมชนบางคนโต้แย้งให้มุ่งเน้นไปที่การใช้เหตุผลเชิงสาเหตุมากกว่าความสัมพันธ์ทางสถิติ ในขณะที่คนอื่นตั้งคำถามว่าความแตกต่างดังกล่าวมีความสำคัญหรือไม่หากผลลัพธ์มีประโยชน์
การถกเถียงยังสัมผัสกับคำถามพื้นฐานเกี่ยวกับจิตสำนึกและสติปัญญาที่ปรัชญาได้ต่อสู้มาเป็นเวลาหลายศตวรรษ หากไม่มีคำจำกัดความที่ชัดเจนว่าอะไรคือการใช้เหตุผลที่แท้จริง การตอบคำถามอย่างแน่ชัดว่าระบบ AI มีความสามารถนี้หรือไม่จึงเป็นไปได้ยาก
ข้อเสนอแนะสำหรับการปรับปรุงงานวิจัยในอนาคต:
- ใช้โมเดลที่มีขนาดใหญ่ขึ้น (พารามิเตอร์ 1B+ ขึ้นไป) ที่ความสามารถในการใช้เหตุผลเริ่มปรากฏขึ้น
- ออกแบบงานที่ต้องการเส้นทางการแก้ปัญหาหลายแนวทางและความสามารถในการย้อนกลับ
- รวมการเปรียบเทียบกับมาตรฐานของมนุษย์สำหรับงานการใช้เหตุผล
- มุ่งเน้นไปที่ปัญหาที่ต้องการการสำรวจทางเลือกต่างๆ แทนที่จะเป็นการคำนวณแบบเส้นทางเดียว
- บูรณาการแบบจำลองทางคณิตศาสตร์ที่อิงจากงานวิจัยด้านวิทยาศาสตร์การรู้คิด
ทิศทางการวิจัยในอนาคต
ชุมชนเรียกร้องให้มีแนวทางที่ซับซ้อนมากขึ้นในการศึกษาการใช้เหตุผลของ AI ข้อเสนอแนะรวมถึงการพัฒนาโมเดลที่สามารถประมวลผลข้อมูลตลอดเวลาใน latent space แทนที่จะถูกจำกัดให้สร้าง token ทีละตัว และการสร้างเกณฑ์มาตรฐานที่ดีกว่าซึ่งต้องการการใช้เหตุผลจริงแทนที่จะเป็นการคำนวณ
นอกจากนี้ยังมีความสนใจที่เพิ่มขึ้นในแบบจำลองทางคณิตศาสตร์ของการใช้เหตุผลที่อิงจากวิทยาศาสตร์การรู้คิด ซึ่งสามารถให้กรอบงานที่เข้มงวดมากขึ้นสำหรับการทำความเข้าใจและปรับปรุงความสามารถในการใช้เหตุผลของ AI
การถกเถียงนี้เน้นย้ำให้เห็นว่าการพัฒนา AI กำลังบังคับให้เราพิจารณาสมมติฐานพื้นฐานเกี่ยวกับสติปัญญา การใช้เหตุผล และจิตสำนึกใหม่ - คำถามที่อาจต้องการทั้งนวัตกรรมทางเทคนิคและความชัดเจนทางปรัชญาเพื่อแก้ไข