การฝึกอบรม Reinforcement Learning ของ GPT-OSS จุดประกายการถ่ายเทเรื่องคุณภาพโมเดลและความจำเป็นของ Fine-Tuning

ทีมชุมชน BigGo
การฝึกอบรม Reinforcement Learning ของ GPT-OSS จุดประกายการถ่ายเทเรื่องคุณภาพโมเดลและความจำเป็นของ Fine-Tuning

การประกาศล่าสุดของ Unsloth เกี่ยวกับการสนับสนุน reinforcement learning ที่ปรับปรุงแล้วสำหรับโมเดล GPT-OSS ได้จุดประกายการอภิปรายที่ร้อนแรงในชุมชนเกี่ยวกับคุณค่าของ fine-tuning และคุณภาพของโมเดลโอเพนซอร์สของ OpenAI แม้ว่าความสำเร็จทางเทคนิคจะช่วยให้สามารถฝึกอบรม GPT-OSS-20B ด้วย GRPO โดยใช้ VRAM เพียง 15GB แต่ชุมชนยังคงแบ่งแยกกันเกี่ยวกับว่าความสามารถดังกล่าวตอบสนองความต้องการในโลกแห่งความเป็นจริงหรือไม่

ข้ออ้างการปรับปรุงประสิทธิภาพของ Unsloth

  • ความเร็วในการประมวลผลเพิ่มขึ้น 3 เท่า
  • การใช้ VRAM ลดลง 50%
  • รองรับบริบทที่ยาวขึ้น 8 เท่า
  • รองรับการฝึก RL แบบ 4-bit (คุณสมบัติเฉพาะ)
  • สามารถฝึก GPT-OSS-20B ได้ด้วย VRAM เพียง 15GB

การอ้างสิทธิ์เรื่องประสิทธิภาพพบกับความสงสัย

การตอบสนองของชุมชนต่อ GPT-OSS มีลักษณะแบ่งขั้วอย่างเห็นได้ชัด ผู้ใช้บางส่วนรายงานความสามารถในการปฏิบัติตามคำสั่งที่น่าประทับใจ โดยเฉพาะการชื่นชมความสามารถของโมเดล 20B ในการจัดการงาน tool calling และ reasoning อย่างมีประสิทธิภาพ อย่างไรก็ตาม นักวิจารณ์ชี้ไปที่การจัดอันดับเบนช์มาร์กที่ GPT-OSS-120B อยู่ในตำแหน่งที่ 53 บนลีดเดอร์บอร์ด LLMarena ซึ่งอยู่ห่างจาก DeepSeek V3.1 ในตำแหน่งที่ 9 อย่างมาก โมเดล 20B มีอันดับที่ต่ำกว่าที่ตำแหน่งที่ 69 ทำให้เกิดคำถามเกี่ยวกับความสามารถในการแข่งขันกับโมเดลใหม่ๆ เช่น Qwen 3 32B

การนำไปใช้ทางเทคนิคก็ได้รับการตรวจสอบอย่างใกล้ชิดเช่นกัน ปัญหาความเข้ากันได้ของ Flash Attention 3 กับ attention sinks ของ GPT-OSS บังคับให้นักพัฒนาต้องปิดการใช้งานการปรับปรุงบางอย่าง ซึ่งอาจส่งผลกระทบต่อประสิทธิภาพการฝึกอบรม โซลูชัน Flex Attention แบบกำหนดเองของ Unsloth มีเป้าหมายเพื่อแก้ไขข้อจำกัดเหล่านี้ แต่การแก้ไขชั่วคราวเหล่านี้เน้นย้ำถึงความท้าทายด้านสถาปัตยกรรมพื้นฐาน

การเปรียบเทียบประสิทธิภาพ

  • GPT-OSS 120B : อันดับที่ 53 ใน LLMarena leaderboard
  • GPT-OSS 20B : อันดับที่ 69 ใน LLMarena leaderboard
  • DeepSeek V3.1 : อันดับที่ 9 ใน LLMarena leaderboard
  • Qwen 3 32B : อันดับสูงกว่า GPT-OSS variants

การถกเถียงเรื่องความจำเป็นของ Fine-Tuning

ส่วนสำคัญของการอภิปรายมุ่งเน้นไปที่ว่า fine-tuning ยังคงมีความเกี่ยวข้องสำหรับผู้ใช้ส่วนใหญ่หรือไม่ นักวิจารณ์โต้แย้งว่าแอปพลิเคชันส่วนใหญ่จะได้รับประโยชน์มากกว่าจากการปรับปรุงระบบ retrieval-augmented generation (RAG) มากกว่าการปรับแต่งโมเดล พวกเขาโต้แย้งว่า fine-tuning มักนำไปสู่ catastrophic forgetting และลดความฉลาดทั่วไป แม้จะใช้เทคนิคเช่น LoRA ที่ปรับเปลี่ยนพารามิเตอร์เพียงเล็กน้อย

อย่างไรก็ตาม ผู้สนับสนุนนำเสนอข้อโต้แย้งที่น่าสนใจ โดยอ้างถึงกรณีการใช้งานเฉพาะที่ fine-tuning พิสูจน์ว่าจำเป็น แอปพลิเคชัน multi-modal งานโดเมนเฉพาะทาง และการสนับสนุนภาษาที่ไม่ใช่ภาษาอังกฤษ เป็นพื้นที่ที่ context engineering เพียงอย่างเดียวไม่เพียงพอ สมาชิกชุมชนคนหนึ่งเน้นถึงความท้าทายในการทำงานกับข้อความภาษา Latvian ที่โมเดลที่มีอยู่ขาดเครื่องหมายกำกับเสียงและความละเอียดอ่อนของภาษาที่มีเพียงการฝึกอบรมเฉพาะทางเท่านั้นที่สามารถแก้ไขได้

การนำไปใช้ในองค์กรและการพิจารณาเชิงปฏิบัติ

ความน่าสนใจของ GPT-OSS สำหรับองค์กรดูเหมือนจะเกิดจากต้นกำเนิดจาก OpenAI มากกว่าคุณค่าทางเทคนิคอย่างแท้จริง การตัดสินใจทางธุรกิจมักจะชอบโมเดลจากผู้ให้บริการที่มีชื่อเสียง โดยไม่คำนึงถึงประสิทธิภาพเบนช์มาร์ก ความชอบนี้ร่วมกับความสามารถด้าน reasoning ของ GPT-OSS และฟีเจอร์ tool calling ในตัว ทำให้มันน่าสนใจสำหรับการใช้งานในองค์กรแม้จะมีข้อจำกัด

ฉันคุยกับลูกค้า 5 รายเมื่อสัปดาห์ที่แล้วที่ต้องการ fine tuning อย่างแท้จริง ฉันเข้าใจถ้าคุณแค่ทำ RAG พื้นฐานกับข้อความ โดยทั่วไปคุณไม่ต้องการ แต่นั่นเป็นเพียงส่วนหนึ่งของระบบนิเวศ

ปัญหาการเซ็นเซอร์เป็นอุปสรรคเชิงปฏิบัติอีกประการหนึ่ง ผู้ใช้รายงานการกรองเนื้อหาที่มากเกินไปซึ่งรบกวนการใช้งานที่ถูกต้อง แม้ว่าตัวแปรที่ไม่ถูกเซ็นเซอร์ที่พัฒนาโดยชุมชนจะเสนอทางเลือกแต่ก็มีความเสี่ยงต่อการแลกเปลี่ยนประสิทธิภาพ

ข้อจำกัดทางเทคนิค

  • Flash Attention 3 ไม่สามารถใช้งานร่วมกับ attention sinks ของ GPT-OSS ได้
  • ปัญหาในขั้นตอน backward pass ทำให้เกิด training loss ที่ไม่ถูกต้อง
  • VLLM ขาดการสนับสนุน RL สำหรับ GPT-OSS เนื่องจากไม่มีการสนับสนุน bf16 training และ LoRA
  • จำเป็นต้องใช้การใช้งาน Custom Flex Attention เป็นทางเลือกในการแก้ไขปัญหา

นวัตกรรมทางเทคนิคเทียบกับความเป็นจริงของตลาด

ความสำเร็จทางเทคนิคของ Unsloth ในการปรับปรุงการฝึกอบรม GPT-OSS แสดงถึงนวัตกรรมที่แท้จริง การปรับปรุงความเร็วการอนุมาน 3 เท่า การลด VRAM 50% และการนำ 4-bit quantization มาใช้สำหรับการฝึกอบรม reinforcement learning ได้สำเร็จ แสดงให้เห็นถึงความก้าวหน้าทางวิศวกรรมที่สำคัญ เทคนิคการลดการ reward hacking ที่แสดงในโน้ตบุ๊กของพวกเขาแก้ไขความท้าทายที่แท้จริงในการใช้งาน RL

แต่คำถามที่กว้างขึ้นยังคงอยู่ว่าการปรับปรุงเหล่านี้ให้บริการโมเดลที่คุ้มค่าต่อการปรับปรุงหรือไม่ การตอบรับที่หลากหลายของชุมชนชี้ให้เห็นว่าแม้ความสามารถทางเทคนิคจะน่าประทับใจ แต่โมเดลพื้นฐานอาจไม่สมควรได้รับการลงทุนสำหรับกรณีการใช้งานหลายๆ กรณี ปัจจัยด้านเวลาก็มีบทบาทเช่นกัน เนื่องจากโมเดลใหม่ๆ เช่น Qwen 3 ได้รับประโยชน์จากเดือนการพัฒนาเพิ่มเติมและเทคนิคการฝึกอบรมที่ปรับปรุงแล้ว

การถกเถียงสุดท้ายสะท้อนความตึงเครียดที่ใหญ่กว่าในชุมชน AI ระหว่างความสามารถทางเทคนิคและประโยชน์ใช้สอยเชิงปฏิบัติ แม้ว่าการทำให้การเข้าถึงการฝึกอบรมโมเดลชั้นนำเป็นประชาธิปไตยจะเป็นความสำเร็จที่สำคัญ แต่ข้อเสนอคุณค่าขึ้นอยู่กับกรณีการใช้งานเฉพาะและความต้องการที่แตกต่างกันอย่างมากในแอปพลิเคชันและองค์กรต่างๆ

อ้างอิง: gpt-oss Reinforcement Learning