การเปิดตัว GPT-OSS ได้จุดประกายการถกเถียงอย่างรุนแรงในชุมชน AI เกี่ยวกับว่าความก้าวหน้าทางสถาปัตยกรรมหรือคุณภาพข้อมูลการฝึกสอนมีความสำคัญมากกว่ากันสำหรับประสิทธิภาพของโมเดล แม้ว่า GPT-OSS จะมีคะแนนเบนช์มาร์กที่น่าประทับใจและการใช้ทรัพยากรที่มีประสิทธิภาพ แต่การทดสอบในโลกแห่งความเป็นจริงโดยนักพัฒนาเผยให้เห็นภาพที่ซับซ้อนกว่าเมื่อเปรียบเทียบกับโมเดลคู่แข่งอย่าง Qwen3
ประสิทธิภาพเบนช์มาร์กเทียบกับการใช้งานจริง
การทดสอบชุมชนได้เปิดเผยช่องว่างที่สำคัญระหว่างความสำเร็จของเบนช์มาร์ก GPT-OSS กับการประยุกต์ใช้ในทางปฏิบัติ ผู้ใช้รายงานว่า GPT-OSS ดูเหมือนจะถูกปรับให้เหมาะสมเฉพาะสำหรับเบนช์มาร์กการใช้เหตุผล ทำให้ได้คะแนนสูงในการทดสอบมาตรฐานแต่ประสิทธิภาพต่ำในงานประจำวัน นักพัฒนาคนหนึ่งสังเกตว่าเมื่อขอให้สร้างปริศนาง่ายๆ GPT-OSS ให้คำตอบที่ไร้สาระและให้คำตอบสำหรับคำถามของตัวเองทันที
ในทางตรงกันข้าม โมเดล Qwen3 แสดงให้เห็นอย่างสม่ำเสมอถึงการปฏิบัติตามพรอมต์ที่ดีกว่าและการตอบสนองที่ฟังดูเป็นธรรมชาติมากกว่าในงานต่างๆ โมเดล Qwen3 ขนาด 32 พันล้านพารามิเตอร์โดยเฉพาะเป็นเลิศในการปฏิบัติตามคำสั่งอย่างแม่นยำ ในขณะที่ GPT-OSS มักจะดิ้นรนกับงานการสนทนาพื้นฐานแม้จะมีตัวแปรขนาด 120 พันล้านพารามิเตอร์
ประสิทธิภาพทรัพยากรและข้อกำหนดฮาร์ดแวร์
GPT-OSS นำเสนอการปรับปรุงประสิทธิภาพที่น่าสังเกตผ่านสถาปัตยกรรม Mixture of Experts (MoE) และการควอนไทเซชัน MXFP4 โมเดล 120 พันล้านพารามิเตอร์เปิดใช้งานเพียง 5.1 พันล้านพารามิเตอร์ต่อโทเค็น ทำให้ทำงานได้เร็วกว่าโมเดลหนาแน่นที่มีความสามารถคล้ายกัน สิ่งนี้ทำให้โมเดลสามารถทำงานบนฮาร์ดแวร์ผู้บริโภคที่จะดิ้นรนกับโมเดลขนาดใหญ่เช่นนี้
อย่างไรก็ตาม ประสิทธิภาพในโลกแห่งความเป็นจริงแตกต่างกันอย่างมากขึ้นอยู่กับข้อจำกัดของฮาร์ดแวร์ บน GPU ผู้บริโภคที่มี VRAM จำกัด โมเดลหนาแน่นอย่าง Qwen3 32B มักจะมีประสิทธิภาพเหนือกว่า GPT-OSS 120B ทั้งในด้านความเร็วและความแม่นยำ ผู้ใช้ที่มีการ์ดกราฟิก RTX 5090 รายงานว่า Qwen3 32B บรรลุ 65 โทเค็นต่อวินาทีเทียบกับ GPT-OSS 120B ที่ 37 โทเค็นต่อวินาทีเมื่อต้องใช้การออฟโหลด CPU
MoE (Mixture of Experts): สถาปัตยกรรมที่มีเพียงส่วนย่อยของพารามิเตอร์ของโมเดลที่ทำงานสำหรับอินพุตแต่ละตัว ปรับปรุงประสิทธิภาพMXFP4: วิธีการควอนไทเซชันที่ใช้ความแม่นยำ 4 บิตสำหรับน้ำหนักในขณะที่รักษาความแม่นยำที่สูงกว่าสำหรับส่วนประกอบอื่นๆ
การเปรียบเทียบประสิทธิภาพบน RTX 5090 (4-bit quantization):
- GPT-OSS 120B : 37 tokens/sec (พร้อม CPU offloading )
- Qwen3 32B : 65 tokens/sec
- Qwen3 30B-A3B : 150 tokens/sec
ข้อกังวลเกี่ยวกับกลยุทธ์การฝึกสอน
ชุมชนได้ตั้งคำถามเกี่ยวกับวิธีการฝึกสอนของ GPT-OSS โดยหลายคนสงสัยว่าใช้แนวทางข้อมูลสังเคราะห์คล้ายกับโมเดล Phi ของ Microsoft กลยุทธ์นี้มุ่งเน้นไปที่การเล่นเกมเบนช์มาร์กเฉพาะแทนที่จะพัฒนาความสามารถทั่วไป ส่งผลให้โมเดลเป็นเลิศในการทดสอบแต่ล้มเหลวในการประยุกต์ใช้จริง
สิ่งนี้ได้รับการฝึกฝนอย่างชัดเจนผ่าน RL เพื่อคิดและแก้ไขงานสำหรับเบนช์มาร์กการใช้เหตุผลเฉพาะ ไม่มีอะไรอื่น
นักพัฒนารายงานว่า GPT-OSS ต้องการบริบทและการพรอมต์ที่มีรายละเอียดมากกว่าอย่างมากเพื่อให้ผลลัพธ์ที่มีประโยชน์ ซึ่งบ่งบอกว่าการฝึกสอนให้ความสำคัญกับประสิทธิภาพเบนช์มาร์กแคบๆ มากกว่าการประยุกต์ใช้ในวงกว้าง สิ่งนี้ตรงกันข้ามอย่างรุนแรงกับแนวทางที่สมดุลมากกว่าของ Qwen3 ซึ่งรักษาประสิทธิภาพที่แข็งแกร่งในสถานการณ์โลกแห่งความเป็นจริงที่หลากหลาย
การเขียนโค้ดและงานเทคนิค
สำหรับการประยุกต์ใช้การเขียนโปรแกรม ช่องว่างประสิทธิภาพกลายเป็นที่เด่นชัดยิ่งขึ้น โมเดล Qwen3-Coder แสดงความสามารถในการเรียกใช้เครื่องมือที่เหนือกว่าและการปฏิบัติตามข้อกำหนดการจัดรูปแบบโค้ดที่ดีกว่า ผู้ใช้ที่ทดสอบรูปแบบการแก้ไขโค้ดต่างๆ รายงานว่า Qwen3 ไม่ค่อยล้มเหลวกับการแก้ไขที่ใช้ diff ในขณะที่ GPT-OSS ดิ้นรนกับงานที่คล้ายกัน
โมเดล Qwen3-Coder 30B ได้สร้างความประทับใจให้กับนักพัฒนาโดยเฉพาะด้วยความสามารถในการจัดการเวิร์กโฟลว์ที่ซับซ้อน รวมถึงการจดจำกระบวนการที่กำลังทำงาน การจัดการอินสแตนซ์เซิร์ฟเวอร์ และการให้ความช่วยเหลือตามบริบทที่เทียบเท่ากับโมเดลเชิงพาณิชย์ ประโยชน์ใช้สอยในทางปฏิบัตินี้ทำให้เป็นตัวเลือกที่ต้องการสำหรับสภาพแวดล้อมการพัฒนาในเครื่อง
ความต้องการด้านฮาร์ดแวร์:
- GPT-OSS 20B: ใช้ RAM ประมาณ 13GB ( Ollama ), ไม่สามารถใช้งานได้ใน VRAM 10GB
- Qwen3-Coder 30B-A3B: ใช้ RAM ประมาณ 20GB บน Mac 32GB
- Qwen3 4B: เหมาะสำหรับการติดตั้งใช้งานในเครื่องบนฮาร์ดแวร์สำหรับผู้บริโภคทั่วไป
ผลกระทบต่อตลาด
การค้นพบเหล่านี้เน้นย้ำถึงความแตกแยกที่เพิ่มขึ้นในการพัฒนาโมเดล AI ระหว่างการปรับให้เหมาะสมกับเบนช์มาร์กและประโยชน์ใช้สอยในทางปฏิบัติ ในขณะที่ GPT-OSS แสดงให้เห็นว่าคะแนนที่น่าประทับใจไม่จำเป็นต้องแปลเป็นความพึงพอใจของผู้ใช้ ความสำเร็จของ Qwen3 บ่งบอกว่าแนวทางการฝึกสอนที่สมดุลอาจมีค่ามากกว่าสำหรับการประยุกต์ใช้ในโลกแห่งความเป็นจริง
การที่ชุมชนชอบ Qwen3 แม้จะมีจำนวนพารามิเตอร์ที่มากกว่าและความสำเร็จของเบนช์มาร์กของ GPT-OSS บ่งบอกว่าผู้ใช้ให้ความสำคัญกับความน่าเชื่อถือและความสามารถทั่วไปมากกว่าเมตริกประสิทธิภาพดิบ แนวโน้มนี้อาจมีอิทธิพลต่อกลยุทธ์การพัฒนาโมเดลในอนาคตเมื่อบริษัทต่างๆ สร้างสมดุลระหว่างการสาธิตที่น่าประทับใจและประโยชน์ใช้สอยในทางปฏิบัติ
อ้างอิง: From GPT-2 to GPT-NeoX: Analyzing the Architectural Advances