ชุมชนปัญญาประดิษฐ์กำลังต่อสู้กับคำถามที่น่าปวดหัว: การใช้พลังคอมพิวต์จำนวนมหาศาลกับ reinforcement learning จริงๆ แล้วได้ผลหรือไม่? การถกเถียงนี้ทวีความรุนแรงขึ้นหลังจากรายงานเกี่ยวกับประสิทธิภาพของ Grok 4 ซึ่งดูเหมือนจะแสดงการปรับปรุงเพียงเล็กน้อยแม้จะมีความพยายามในการขยายขนาดอย่างมีนัยสำคัญ
การสนทนามุ่งเน้นไปที่ความท้าทายพื้นฐานในการพัฒนา AI - ว่าการขยาย reinforcement learning ไปสู่ระดับพลังคอมพิวต์ที่ไม่เคยมีมาก่อน โดยเฉพาะ 10^26 FLOPs สามารถส่งมอบความก้าวหน้าที่มีความหมายได้หรือไม่ FLOPs หรือ floating-point operations per second ทำหน้าที่เป็นมาตรฐานในการวัดความเข้มข้นของการคำนวณในโมเดล machine learning
ข้อมูลอ้างอิงเกี่ยวกับขนาดการคำนวณ:
- ขนาดเป้าหมาย: 10^26 FLOPs (การดำเนินการจุดทศนิยม)
- โมเดลที่น่าตื่นเต้นในปัจจุบัน: อยู่ในช่วง 10-20K FLOPs
- การเพิ่มขนาด: ต้องการการเพิ่มขึ้นหลายลำดับขนาด
- การวัด: FLOPs ทำหน้าที่เป็นมาตรฐานในการวัดขนาดของโมเดล
ผลลัพธ์ในโลกจริงท้าทายทฤษฎีการขยายขนาด
หลักฐานที่โดดเด่นที่สุดมาจากข้อมูลประสิทธิภาพของ Grok 4 ตามการสนทนาในชุมชน Grok 4 แสดงถึงการขยาย reinforcement learning อย่างมหาศาลเมื่อเปรียบเทียบกับรุ่นก่อนหน้า Grok 3 อย่างไรก็ตาม การปรับปรุงในมาตรฐานเกณฑ์มาตรฐานมีขนาดเล็กน่าผิดหวัง และผู้ใช้รายงานความแตกต่างในประสบการณ์เพียงเล็กน้อย
สิ่งนี้ทำให้เกิดคำถามร้ายแรงเกี่ยวกับว่าประโยชน์เชิงทฤษฎีของการขยายขนาดสามารถแปลงเป็นการปรับปรุงในทางปฏิบัติได้หรือไม่ ช่องว่างระหว่างการลงทุนด้านการคำนวณและผลตอบแทนด้านประสิทธิภาพที่แท้จริงชี้ให้เห็นว่าการเพิ่มพลังการประมวลผลมากขึ้นอาจไม่ใช่วิธีแก้ปัญหาที่หลายคนหวังไว้
การเปรียบเทียบโมเดล Grok :
- Grok 3: โมเดลพื้นฐานที่ใช้การใช้งาน RL แบบมาตรฐาน
- Grok 4: เวอร์ชัน RL ที่ขยายขนาดอย่างมหาศาลของ Grok 3
- ช่องว่างด้านประสิทธิภาพ: การปรับปรุงขั้นต่ำในเบนช์มาร์กแม้จะมีการขยายขนาดอย่างมีนัยสำคัญ
- ประสบการณ์ผู้ใช้: มีรายงานความแตกต่างทางประสบการณ์ที่ไม่มีนัยสำคัญ
แนวทางเทคนิคถูกตรวจสอบอย่างละเอียด
ชุมชนวิจัย AI กำลังสำรวจแนวทางเทคนิคต่างๆ เพื่อทำให้การขยายขนาด RL มีประสิทธิภาพมากขึ้น แนวทางหนึ่งที่มีแนวโน้มดีคือการอนุญาตให้โมเดลคิดก่อนที่จะทำการทำนายในระหว่างการฝึก วิธีนี้จะให้โมเดลใช้ computational tokens เพิ่มเติมสำหรับการใช้เหตุผลภายใน โดยมีการใช้บทลงโทษเพื่อป้องกันการใช้ทรัพยากรการคิดเหล่านี้มากเกินไป
วิธีที่ยาวมากในการบอกว่าในระหว่าง pretraining ให้โมเดลคิดก่อนที่จะทำการทำนาย next-token ต่อไป แล้วนำ losses เหล่านั้นไปใช้กับ thinking token gradients ด้วย
เทคนิคนี้สามารถช่วยให้โมเดลใช้งบประมาณการคำนวณได้ดีขึ้น ซึ่งอาจนำไปสู่การปรับปรุงที่มีความหมายมากขึ้นเมื่อขยายขนาด
ปัญหาคอขวดด้านข้อมูลเป็นความท้าทายหลัก
นอกเหนือจากการขยายขนาดด้านการคำนวณแล้ว นักวิจัยยังเผชิญกับปัญหาที่พื้นฐานกว่า: จะหาข้อมูลการฝึกคุณภาพสูงเพียงพอได้ที่ไหน แนวทางดั้งเดิมของการสร้างสภาพแวดล้อมการฝึกแบบกำหนดเอง ไม่ว่าจะสร้างด้วยตนเองหรือสร้างโดยอัตโนมัติ ได้พิสูจน์แล้วว่าไม่เพียงพอสำหรับความต้องการข้อมูลมหาศาลของระบบ RL ที่ขยายขนาด
ปัญหาการขาดแคลนข้อมูลนี้กลายเป็นสิ่งสำคัญมากขึ้นเมื่อโมเดลมีขนาดใหญ่ขึ้น หากไม่มีข้อมูลการฝึกที่เพียงพอ แม้แต่ทรัพยากรการคำนวณที่ทรงพลังที่สุดอาจล้มเหลวในการส่งมอบการปรับปรุงที่คาดหวัง
ความท้าทายทางเทคนิคที่ระบุได้:
- การขาดแคลนข้อมูลสำหรับการฝึกอบรมในระดับใหญ่
- ประสิทธิภาพที่จำกัดของการสร้างสภาพแวดล้อม (แบบแมนนวลและอัตโนมัติ)
- ช่องว่างระหว่างการลงทุนด้านการคำนวณและผลตอบแทนด้านประสิทธิภาพ
- ความจำเป็นในการพัฒนาอัลกอริธึมที่ดีกว่าการขยายขนาดแบบดิบ
ชุมชนแสวงหาความชัดเจนเกี่ยวกับความแตกต่างของโมเดล
การถกเถียงเรื่องการขยายขนาดยังเน้นให้เห็นว่าสาธารณชนรู้เพียงเล็กน้อยเกี่ยวกับความแตกต่างทางเทคนิคระหว่างโมเดล AI หลักๆ สมาชิกชุมชนกำลังขอความโปร่งใสมากขึ้นเกี่ยวกับวิธีที่โมเดลต่างๆ แตกต่างกันในแนวทางการขยายขนาดและเทคนิคเฉพาะที่แต่ละโมเดลใช้
การขาดข้อมูลที่ชัดเจนทำให้ยากต่อการประเมินว่าความล้มเหลวในการขยายขนาดเกิดจากข้อจำกัดเชิงทฤษฎีหรือปัญหาการนำไปใช้ ความไม่แน่นอนนี้ทำให้ความพยายามในการกำหนดเส้นทางที่ดีที่สุดสำหรับการพัฒนา RL ซับซ้อนขึ้น
สถานการณ์ปัจจุบันชี้ให้เห็นว่าสาขา AI อาจต้องคิดใหม่เกี่ยวกับแนวทางการขยายขนาด แทนที่จะเพิ่มพลังการคำนวณเพียงอย่างเดียว นักวิจัยอาจต้องมุ่งเน้นไปที่อัลกอริทึมที่มีประสิทธิภาพมากขึ้น การใช้ข้อมูลที่ดีขึ้น และเทคนิคการฝึกใหม่ๆ ที่สามารถส่งมอบการปรับปรุงที่มีความหมายโดยไม่ต้องใช้ทรัพยากรมากขึ้นแบบทวีคูณ
อ้างอิง: How to scale RL to 10^26 FLOPs