นักวิจัย AI ถกเถียงกันว่า Chain-of-Thought Reasoning เป็นการใช้เหตุผลจริงหรือเป็นแค่การจับรูปแบบ

ทีมชุมชน BigGo
นักวิจัย AI ถกเถียงกันว่า Chain-of-Thought Reasoning เป็นการใช้เหตุผลจริงหรือเป็นแค่การจับรูปแบบ

ชุมชน AI กำลังมีการถกเถียงกันอย่างเข้มข้นเกี่ยวกับว่า chain-of-thought reasoning ในโมเดลภาษาขนาดใหญ่นั้นแสดงถึงการใช้เหตุผลที่แท้จริงหรือเป็นเพียงการจับรูปแบบที่ซับซ้อน การอภิปรายนี้ทวีความรุนแรงขึ้นหลังจากงานวิจัยล่าสุดที่ตั้งคำถามต่อธรรมชาติพื้นฐานของความสามารถในการใช้เหตุผลของ AI

ความขัดแย้งหลัก: อะไรคือการใช้เหตุผลที่แท้จริง?

การถกเถียงมีจุดศูนย์กลางอยู่ที่คำถามพื้นฐานที่ทำให้นักวิจัยและผู้ปฏิบัติงานแตกแยกกัน งานวิจัยล่าสุดจาก Arizona State University ได้ฝึกโมเดลขนาดเล็ก 600,000 พารามิเตอร์ในงานการแปลงตัวอักษรแบบง่าย พบว่าโมเดลมีปัญหาเมื่อเผชิญกับการดำเนินการที่อยู่นอกเหนือจากข้อมูลการฝึก นักวิจัยสรุปว่า chain-of-thought reasoning อาจเป็นเพียงภาพลวงตา - ดูเหมือนจริงแต่จริงๆ แล้วเป็นเพียงรูปแบบที่จำมาได้

อย่างไรก็ตาม นักวิจารณ์โต้แย้งว่าข้อสรุปนี้มีข้อบกพร่อง พวกเขาชี้ให้เห็นว่าการศึกษานี้ใช้งานที่เป็นการคำนวณมากกว่าการใช้เหตุผล การใช้เหตุผลที่แท้จริงต้องการความสามารถในการเปลี่ยนทิศทาง ย้อนกลับ และพิจารณาแนวทางหลายแนวทาง ซึ่งเป็นความสามารถที่การแปลงตัวอักษรแบบง่ายไม่สามารถทดสอบได้

พารามิเตอร์การศึกษาของ Arizona State University :

  • ขนาดโมเดล: ประมาณ 600,000 พารามิเตอร์ (4 ชั้น)
  • ประเภทงาน: การดำเนินการแปลงตัวอักษร (เช่น "A B C D [M1]" → "B C D E")
  • ข้อมูลการฝึก: ประเภทการดำเนินการหลายแบบพร้อมตัวอย่าง chain-of-thought
  • ผลการค้นพบสำคัญ: ประสิทธิภาพลดลงอย่างมีนัยสำคัญเมื่อพบการรวมกันของการดำเนินการที่ไม่เคยเห็นหรือการเปลี่ยนแปลงรูปแบบ

ปัญหาการเปรียบเทียบกับมนุษย์

หนึ่งในการโต้แย้งที่น่าสนใจที่สุดมุ่งเน้นไปที่วิธีการใช้เหตุผลของมนุษย์ในทางปฏิบัติ นักวิจารณ์สังเกตว่ามนุษย์ก็พึ่งพารูปแบบที่เรียนรู้มาเป็นอย่างมาก รวมรายละเอียดที่ไม่เกี่ยวข้องในการใช้เหตุผล และมีปัญหาเมื่อทำงานนอกเหนือจากพื้นที่ความเชี่ยวชาญของตน ผู้ใช้เหตุผลตามหลักการในอุดมคติที่บางงานวิจัยเปรียบเทียบโมเดล AI ด้วยนั้นไม่มีอยู่จริงในความเป็นจริง

LLMs สร้างห่วงโซ่ตรรกะผิวเผินโดยอิงจากการเชื่อมโยง token ที่เรียนรู้มา มักล้มเหลวในงานที่เบี่ยงเบนจากฮิวริสติกส์ที่สมเหตุสมผลหรือเทมเพลตที่คุ้นเคย

การวิจารณ์นี้ใช้ได้กับผู้ใช้เหตุผลที่เป็นมนุษย์เช่นกัน ทำให้เกิดคำถามว่าเรากำลังกำหนดมาตรฐานที่เป็นไปไม่ได้ให้กับ AI หรือไม่

ข้อจำกัดทางเทคนิคของการศึกษาปัจจุบัน

ชุมชนได้ระบุปัญหาทางเทคนิคหลายประการในการศึกษาการใช้เหตุผลล่าสุด งานวิจัยของ Arizona State ใช้โมเดลที่เล็กมากที่ขาดความสามารถในการใช้เหตุผลที่ซับซ้อน ความสามารถในการใช้เหตุผลสมัยใหม่ดูเหมือนจะเป็นคุณสมบัติที่เกิดขึ้นเองซึ่งปรากฏเฉพาะในโมเดลที่ใหญ่กว่ามาก

นอกจากนี้ งานที่ใช้ในการศึกษาหลายชิ้นไม่ต้องการการใช้เหตุผลจริง การแปลงแบบง่ายเช่นการเลื่อนตัวอักษรแต่ละตัวไปหนึ่งตำแหน่งเป็นงานการคำนวณที่มีเส้นทางที่ถูกต้องเพียงเส้นทางเดียว ไม่เหมือนกับปัญหาการใช้เหตุผลที่แท้จริงซึ่งเกี่ยวข้องกับการสำรวจแนวทางแก้ไขที่เป็นไปได้หลายแนวทาง

ข้อจำกัดของการศึกษาที่ชุมชนระบุ:

  • โมเดลมีขนาดเล็กเกินไปสำหรับความสามารถในการใช้เหตุผลเชิงซับซ้อน
  • งานเป็นการคำนวณมากกว่าการใช้เหตุผล
  • ไม่มีการเปรียบเทียบกับประสิทธิภาพการใช้เหตุผลของมนุษย์
  • ขาดกลไกในการย้อนกลับหรือเปลี่ยนทิศทาง
  • ไม่มีคำนิยามทางปรัชญาที่ชัดเจนของการใช้เหตุผล "แท้จริง"

ความแตกแยงระหว่างปรัชญาและการปฏิบัติ

การอภิปรายเผยให้เห็นความตึงเครียดที่ลึกซึ้งยิ่งขึ้นระหว่างคำจำกัดความทางปรัชญาของการใช้เหตุผลและการประยุกต์ใช้ในทางปฏิบัติ สมาชิกชุมชนบางคนโต้แย้งให้มุ่งเน้นไปที่การใช้เหตุผลเชิงสาเหตุมากกว่าความสัมพันธ์ทางสถิติ ในขณะที่คนอื่นตั้งคำถามว่าความแตกต่างดังกล่าวมีความสำคัญหรือไม่หากผลลัพธ์มีประโยชน์

การถกเถียงยังสัมผัสกับคำถามพื้นฐานเกี่ยวกับจิตสำนึกและสติปัญญาที่ปรัชญาได้ต่อสู้มาเป็นเวลาหลายศตวรรษ หากไม่มีคำจำกัดความที่ชัดเจนว่าอะไรคือการใช้เหตุผลที่แท้จริง การตอบคำถามอย่างแน่ชัดว่าระบบ AI มีความสามารถนี้หรือไม่จึงเป็นไปได้ยาก

ข้อเสนอแนะสำหรับการปรับปรุงงานวิจัยในอนาคต:

  • ใช้โมเดลที่มีขนาดใหญ่ขึ้น (พารามิเตอร์ 1B+ ขึ้นไป) ที่ความสามารถในการใช้เหตุผลเริ่มปรากฏขึ้น
  • ออกแบบงานที่ต้องการเส้นทางการแก้ปัญหาหลายแนวทางและความสามารถในการย้อนกลับ
  • รวมการเปรียบเทียบกับมาตรฐานของมนุษย์สำหรับงานการใช้เหตุผล
  • มุ่งเน้นไปที่ปัญหาที่ต้องการการสำรวจทางเลือกต่างๆ แทนที่จะเป็นการคำนวณแบบเส้นทางเดียว
  • บูรณาการแบบจำลองทางคณิตศาสตร์ที่อิงจากงานวิจัยด้านวิทยาศาสตร์การรู้คิด

ทิศทางการวิจัยในอนาคต

ชุมชนเรียกร้องให้มีแนวทางที่ซับซ้อนมากขึ้นในการศึกษาการใช้เหตุผลของ AI ข้อเสนอแนะรวมถึงการพัฒนาโมเดลที่สามารถประมวลผลข้อมูลตลอดเวลาใน latent space แทนที่จะถูกจำกัดให้สร้าง token ทีละตัว และการสร้างเกณฑ์มาตรฐานที่ดีกว่าซึ่งต้องการการใช้เหตุผลจริงแทนที่จะเป็นการคำนวณ

นอกจากนี้ยังมีความสนใจที่เพิ่มขึ้นในแบบจำลองทางคณิตศาสตร์ของการใช้เหตุผลที่อิงจากวิทยาศาสตร์การรู้คิด ซึ่งสามารถให้กรอบงานที่เข้มงวดมากขึ้นสำหรับการทำความเข้าใจและปรับปรุงความสามารถในการใช้เหตุผลของ AI

การถกเถียงนี้เน้นย้ำให้เห็นว่าการพัฒนา AI กำลังบังคับให้เราพิจารณาสมมติฐานพื้นฐานเกี่ยวกับสติปัญญา การใช้เหตุผล และจิตสำนึกใหม่ - คำถามที่อาจต้องการทั้งนวัตกรรมทางเทคนิคและความชัดเจนทางปรัชญาเพื่อแก้ไข

อ้างอิง: Is chain-of-thought AI reasoning a mirage?