นักวิจัยท้าทายการอ้างสิทธิ์ "การใช้เหตุผล" ของ AI ด้วยการทดสอบโมเดลขนาดเล็ก ก่อให้เกิดการถกเถียงเรื่องความถูกต้องของการศึกษา

ทีมชุมชน BigGo
นักวิจัยท้าทายการอ้างสิทธิ์ "การใช้เหตุผล" ของ AI ด้วยการทดสอบโมเดลขนาดเล็ก ก่อให้เกิดการถกเถียงเรื่องความถูกต้องของการศึกษา

งานวิจัยใหม่ที่อ้างว่าโมเดล AI เพียงจำลองการใช้เหตุผลมากกว่าที่จะเข้าใจตรรกะอย่างแท้จริง ได้จุดประกายการถกเถียงอย่างรุนแรงในชุมชนเทคโนโลジี แม้ว่านักวิจัยจาก University of Arizona จะสรุปว่าการใช้เหตุผลแบบ chain-of-thought เป็นเพียงภาพลวงตาที่เปราะบาง แต่ผู้เชี่ยวชาญหลายคนกำลังตั้งคำถามว่าการค้นพบของพวกเขาที่อิงจากโมเดลทดลองขนาดเล็กจะสามารถบอกอะไรที่มีความหมายเกี่ยวกับระบบ AI ที่ทรงพลังในปัจจุบันได้หรือไม่

ปัญหาโมเดลจำลองทำให้ผู้เชี่ยวชาญแตกแยก

การวิจัยใช้โมเดลขนาดเล็กมากที่มีเพียง 4 ชั้นและ 32 มิติที่ซ่อนอยู่ ซึ่งเป็นเพียงส่วนเล็กๆ ของระบบ AI ที่ใช้ในการผลิต สิ่งนี้ได้จุดประกายการวิพากษ์วิจารณ์อย่างรุนแรงจากชุมชน โดยหลายคนโต้แย้งว่าการสรุปเกี่ยวกับความสามารถของ AI สมัยใหม่จากการทดลองที่จำกัดเช่นนี้เป็นการทำให้เข้าใจผิด นักวิจัยทดสอบโมเดลขนาดเล็กเหล่านี้กับการแปลงข้อความง่ายๆ เช่น การหมุนตัวอักษรและการเลื่อนแบบวงจร จากนั้นวัดว่าพวกมันสามารถนำไปใช้กับงานที่แตกต่างเล็กน้อยได้ดีแค่ไหน

นักวิพากษ์ชี้ให้เห็นว่าแนวทางนี้มีข้อบกพร่องพื้นฐาน โมเดลขนาดเล็กเป็นที่รู้จักกันดีว่าทำงานแตกต่างจากโมเดลขนาดใหญ่มาก และงานเฉพาะที่เลือก เช่น การหมุนตัวอักษรในข้อความ เป็นพื้นที่จุดอ่อนที่รู้จักกันดีสำหรับโมเดลภาษาที่อิงจาก token สมาชิกชุมชนบางคนสังเกตว่าความกังวลที่คล้ายกันเกิดขึ้นกับการวิจัยก่อนหน้านี้เกี่ยวกับการฝึกโมเดล AI จากผลลัพธ์ของตัวเอง ซึ่งหัวข้อข่าวที่น่าตกใจเกี่ยวกับการล่มสลายอย่างหายนะภายหลังแสดงให้เห็นว่าไม่สามารถนำไปใช้กับระบบในโลกจริงได้

ข้อมูลจำเพาะของโมเดลวิจัย:

  • สถาปัตยกรรม: โมเดล GPT-2 แบบ decoder-only
  • ชั้น: 4 ชั้น (เมื่อเทียบกับโมเดลที่ใช้ในการผลิตจริงที่มีหลายร้อยชั้น)
  • มิติที่ซ่อนอยู่: 32
  • หัวความสนใจ: 4
  • งานการฝึก: รหัส ROT และการเลื่อนแบบวัฏจักร

ประสิทธิภาพในโลกจริงขัดแย้งกับการค้นพบในห้องปฏิบัติการ

ความไม่สอดคล้องกันระหว่างผลลัพธ์ในห้องปฏิบัติการและประสบการณ์ในทางปฏิบัติได้กลายเป็นจุดขัดแย้งสำคัญ นักพัฒนาหลายคนรายงานว่าใช้โมเดล AI สำหรับงานการใช้เหตุผลที่ซับซ้อนซึ่งไปไกลกว่าการจับรูปแบบง่ายๆ สิ่งเหล่านี้รวมถึงการสร้างโค้ดสำหรับเฟรมเวิร์กแบบกำหนดเองที่โมเดลไม่เคยพบมาก่อน และการแก้ปัญหาใหม่ที่ต้องการการสังเคราะห์แนวคิดที่ไม่คุ้นเคยหลายแนวคิด

ผมได้ใช้ LLM ในการสร้างโค้ดสำหรับเฟรมเวิร์ก serverless แบบกำหนดเองที่ผมเขียนขึ้นมาเองตั้งแต่เริ่มต้นซึ่งมันไม่เคยเห็นมาก่อน... ผมรู้แน่ชัดว่าพวกมันสามารถสังเคราะห์และผสานแนวคิดที่ไม่คุ้นเคยต่างๆ ในรูปแบบตรรกะที่ซับซ้อนเพื่อส่งมอบความสามารถใหม่ๆ ได้

ความสำเร็จในทางปฏิบัตินี้ขัดแย้งอย่างชัดเจนกับการค้นพบจากการวิจัย ทำให้บางคนตั้งคำถามว่าสภาพแวดล้อมในห้องปฏิบัติการที่ควบคุมได้จับความสามารถที่แท้จริงของระบบ AI สมัยใหม่ได้หรือไม่

คำถามเรื่องขนาดและการเกิดขึ้น

ความไม่เห็นด้วยพื้นฐานได้เกิดขึ้นเกี่ยวกับว่าขนาดของโมเดลเป็นเพียงการเปลี่ยนแปลงพารามิเตอร์เล็กน้อยหรือเป็นการก้าวกระโดดเชิงคุณภาพในความสามารถ บางคนโต้แย้งว่าความสามารถในการใช้เหตุผลของระบบ AI เกิดขึ้นเฉพาะในขนาดบางขนาดเท่านั้น ทำให้การวิจัยโมเดลขนาดเล็กไม่เกี่ยวข้องสำหรับการเข้าใจระบบการผลิต คนอื่นๆ โต้แย้งว่าข้อจำกัดพื้นฐานควรจะสอดคล้องกันในทุกขนาดของโมเดล และการอ้างเรื่องผลกระทบของเกณฑ์วิเศษนั้นไม่มีมูลความจริง

การถกเถียงสัมผัสกับคำถามที่ลึกกว่าเกี่ยวกับวิธีการทำงานของระบบ AI การวิจัยล่าสุดแสดงให้เห็นว่าโมเดล transformer ที่มีชั้นน้อยเกินไปเมื่อเทียบกับความยาวของลำดับจะเผชิญกับข้อจำกัดพื้นฐาน โดยงานบางอย่างจะเป็นไปไม่ได้เมื่อจำนวนชั้นไม่เพียงพอ สิ่งนี้ทำให้เกิดคำถามว่าโมเดล 4 ชั้นที่ใช้ในการศึกษาสามารถทำงานการใช้เหตุผลที่ถูกขอให้ทำได้หรือไม่

ผลกระทบต่ออุตสาหกรรมและทิศทางในอนาคต

แม้จะมีการถกเถียงทางวิชาการ แต่ผลกระทบในทางปฏิบัติยังคงมีความสำคัญ การวิจัยเน้นย้ำคำถามสำคัญเกี่ยวกับความน่าเชื่อถือของ AI โดยเฉพาะในการใช้งานที่มีความเสี่ยงสูง เช่น การแพทย์และการเงิน อย่างไรก็ตาม ฉันทามติของชุมชนดูเหมือนจะเปลี่ยนไปสู่แนวทางที่มีความละเอียดอ่อนมากขึ้นที่รวมเครือข่ายประสาทเทียมกับระบบการใช้เหตุผลเชิงสัญลักษณ์

ความขัดแย้งยังสะท้อนความตึงเครียดที่กว้างขึ้นในการวิจัย AI ระหว่างการศึกษาในห้องปฏิบัติการที่ควบคุมได้และการใช้งานในโลกจริง แม้ว่าการทดลองที่ควบคุมอย่างระมัดระวังจะให้ข้อมูลเชิงลึกที่มีค่า แต่อาจไม่จับความซับซ้อนทั้งหมดของวิธีที่ระบบเหล่านี้ทำงานในทางปฏิบัติ ขณะที่สาขานี้ยังคงพัฒนาอย่างรวดเร็ว นักวิจัยเผชิญกับความท้าทายในการพัฒนาวิธีการประเมินที่สามารถตามทันความสามารถที่ก้าวหน้าไปพร้อมกับการให้ข้อมูลเชิงลึกที่มีความหมายสำหรับทั้งนักพัฒนาและผู้ใช้

อ้างอิง: LLMs' simulated reasoning abilities are a brittle mirage, researchers find