ชุมชน AI ตั้งคำถามเรื่องการขยายขนาด RL อย่างมหาศาล หลัง Grok 4 แสดงการปรับปรุงเพียงเล็กน้อยแม้จะลงทุนด้านคอมพิวต์อย่างมหาศาล

ทีมชุมชน BigGo

ชุมชน AI ตั้งคำถามเรื่องการขยายขนาด RL อย่างมหาศาล หลัง Grok 4 แสดงการปรับปรุงเพียงเล็กน้อยแม้จะลงทุนด้านคอมพิวต์อย่างมหาศาล

ชุมชนปัญญาประดิษฐ์กำลังต่อสู้กับคำถามที่น่าปวดหัว: การใช้พลังคอมพิวต์จำนวนมหาศาลกับ reinforcement learning จริงๆ แล้วได้ผลหรือไม่? การถกเถียงนี้ทวีความรุนแรงขึ้นหลังจากรายงานเกี่ยวกับประสิทธิภาพของ Grok 4 ซึ่งดูเหมือนจะแสดงการปรับปรุงเพียงเล็กน้อยแม้จะมีความพยายามในการขยายขนาดอย่างมีนัยสำคัญ

การสนทนามุ่งเน้นไปที่ความท้าทายพื้นฐานในการพัฒนา AI - ว่าการขยาย reinforcement learning ไปสู่ระดับพลังคอมพิวต์ที่ไม่เคยมีมาก่อน โดยเฉพาะ 10^26 FLOPs สามารถส่งมอบความก้าวหน้าที่มีความหมายได้หรือไม่ FLOPs หรือ floating-point operations per second ทำหน้าที่เป็นมาตรฐานในการวัดความเข้มข้นของการคำนวณในโมเดล machine learning

ข้อมูลอ้างอิงเกี่ยวกับขนาดการคำนวณ:

ขนาดเป้าหมาย: 10^26 FLOPs (การดำเนินการจุดทศนิยม)
โมเดลที่น่าตื่นเต้นในปัจจุบัน: อยู่ในช่วง 10-20K FLOPs
การเพิ่มขนาด: ต้องการการเพิ่มขึ้นหลายลำดับขนาด
การวัด: FLOPs ทำหน้าที่เป็นมาตรฐานในการวัดขนาดของโมเดล

ผลลัพธ์ในโลกจริงท้าทายทฤษฎีการขยายขนาด

หลักฐานที่โดดเด่นที่สุดมาจากข้อมูลประสิทธิภาพของ Grok 4 ตามการสนทนาในชุมชน Grok 4 แสดงถึงการขยาย reinforcement learning อย่างมหาศาลเมื่อเปรียบเทียบกับรุ่นก่อนหน้า Grok 3 อย่างไรก็ตาม การปรับปรุงในมาตรฐานเกณฑ์มาตรฐานมีขนาดเล็กน่าผิดหวัง และผู้ใช้รายงานความแตกต่างในประสบการณ์เพียงเล็กน้อย

สิ่งนี้ทำให้เกิดคำถามร้ายแรงเกี่ยวกับว่าประโยชน์เชิงทฤษฎีของการขยายขนาดสามารถแปลงเป็นการปรับปรุงในทางปฏิบัติได้หรือไม่ ช่องว่างระหว่างการลงทุนด้านการคำนวณและผลตอบแทนด้านประสิทธิภาพที่แท้จริงชี้ให้เห็นว่าการเพิ่มพลังการประมวลผลมากขึ้นอาจไม่ใช่วิธีแก้ปัญหาที่หลายคนหวังไว้

การเปรียบเทียบโมเดล Grok :

Grok 3: โมเดลพื้นฐานที่ใช้การใช้งาน RL แบบมาตรฐาน
Grok 4: เวอร์ชัน RL ที่ขยายขนาดอย่างมหาศาลของ Grok 3
ช่องว่างด้านประสิทธิภาพ: การปรับปรุงขั้นต่ำในเบนช์มาร์กแม้จะมีการขยายขนาดอย่างมีนัยสำคัญ
ประสบการณ์ผู้ใช้: มีรายงานความแตกต่างทางประสบการณ์ที่ไม่มีนัยสำคัญ

แนวทางเทคนิคถูกตรวจสอบอย่างละเอียด

ชุมชนวิจัย AI กำลังสำรวจแนวทางเทคนิคต่างๆ เพื่อทำให้การขยายขนาด RL มีประสิทธิภาพมากขึ้น แนวทางหนึ่งที่มีแนวโน้มดีคือการอนุญาตให้โมเดลคิดก่อนที่จะทำการทำนายในระหว่างการฝึก วิธีนี้จะให้โมเดลใช้ computational tokens เพิ่มเติมสำหรับการใช้เหตุผลภายใน โดยมีการใช้บทลงโทษเพื่อป้องกันการใช้ทรัพยากรการคิดเหล่านี้มากเกินไป

วิธีที่ยาวมากในการบอกว่าในระหว่าง pretraining ให้โมเดลคิดก่อนที่จะทำการทำนาย next-token ต่อไป แล้วนำ losses เหล่านั้นไปใช้กับ thinking token gradients ด้วย

เทคนิคนี้สามารถช่วยให้โมเดลใช้งบประมาณการคำนวณได้ดีขึ้น ซึ่งอาจนำไปสู่การปรับปรุงที่มีความหมายมากขึ้นเมื่อขยายขนาด

ปัญหาคอขวดด้านข้อมูลเป็นความท้าทายหลัก

นอกเหนือจากการขยายขนาดด้านการคำนวณแล้ว นักวิจัยยังเผชิญกับปัญหาที่พื้นฐานกว่า: จะหาข้อมูลการฝึกคุณภาพสูงเพียงพอได้ที่ไหน แนวทางดั้งเดิมของการสร้างสภาพแวดล้อมการฝึกแบบกำหนดเอง ไม่ว่าจะสร้างด้วยตนเองหรือสร้างโดยอัตโนมัติ ได้พิสูจน์แล้วว่าไม่เพียงพอสำหรับความต้องการข้อมูลมหาศาลของระบบ RL ที่ขยายขนาด

ปัญหาการขาดแคลนข้อมูลนี้กลายเป็นสิ่งสำคัญมากขึ้นเมื่อโมเดลมีขนาดใหญ่ขึ้น หากไม่มีข้อมูลการฝึกที่เพียงพอ แม้แต่ทรัพยากรการคำนวณที่ทรงพลังที่สุดอาจล้มเหลวในการส่งมอบการปรับปรุงที่คาดหวัง

ความท้าทายทางเทคนิคที่ระบุได้:

การขาดแคลนข้อมูลสำหรับการฝึกอบรมในระดับใหญ่
ประสิทธิภาพที่จำกัดของการสร้างสภาพแวดล้อม (แบบแมนนวลและอัตโนมัติ)
ช่องว่างระหว่างการลงทุนด้านการคำนวณและผลตอบแทนด้านประสิทธิภาพ
ความจำเป็นในการพัฒนาอัลกอริธึมที่ดีกว่าการขยายขนาดแบบดิบ

ชุมชนแสวงหาความชัดเจนเกี่ยวกับความแตกต่างของโมเดล

การถกเถียงเรื่องการขยายขนาดยังเน้นให้เห็นว่าสาธารณชนรู้เพียงเล็กน้อยเกี่ยวกับความแตกต่างทางเทคนิคระหว่างโมเดล AI หลักๆ สมาชิกชุมชนกำลังขอความโปร่งใสมากขึ้นเกี่ยวกับวิธีที่โมเดลต่างๆ แตกต่างกันในแนวทางการขยายขนาดและเทคนิคเฉพาะที่แต่ละโมเดลใช้

การขาดข้อมูลที่ชัดเจนทำให้ยากต่อการประเมินว่าความล้มเหลวในการขยายขนาดเกิดจากข้อจำกัดเชิงทฤษฎีหรือปัญหาการนำไปใช้ ความไม่แน่นอนนี้ทำให้ความพยายามในการกำหนดเส้นทางที่ดีที่สุดสำหรับการพัฒนา RL ซับซ้อนขึ้น

สถานการณ์ปัจจุบันชี้ให้เห็นว่าสาขา AI อาจต้องคิดใหม่เกี่ยวกับแนวทางการขยายขนาด แทนที่จะเพิ่มพลังการคำนวณเพียงอย่างเดียว นักวิจัยอาจต้องมุ่งเน้นไปที่อัลกอริทึมที่มีประสิทธิภาพมากขึ้น การใช้ข้อมูลที่ดีขึ้น และเทคนิคการฝึกใหม่ๆ ที่สามารถส่งมอบการปรับปรุงที่มีความหมายโดยไม่ต้องใช้ทรัพยากรมากขึ้นแบบทวีคูณ

อ้างอิง: How to scale RL to 10^26 FLOPs

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌