GPT-OSS vs Qwen3: การทดสอบชุมชนเผยช่องว่างประสิทธิภาพในการใช้งานจริง

ทีมชุมชน BigGo

GPT-OSS vs Qwen3: การทดสอบชุมชนเผยช่องว่างประสิทธิภาพในการใช้งานจริง

การเปิดตัว GPT-OSS ได้จุดประกายการถกเถียงอย่างรุนแรงในชุมชน AI เกี่ยวกับว่าความก้าวหน้าทางสถาปัตยกรรมหรือคุณภาพข้อมูลการฝึกสอนมีความสำคัญมากกว่ากันสำหรับประสิทธิภาพของโมเดล แม้ว่า GPT-OSS จะมีคะแนนเบนช์มาร์กที่น่าประทับใจและการใช้ทรัพยากรที่มีประสิทธิภาพ แต่การทดสอบในโลกแห่งความเป็นจริงโดยนักพัฒนาเผยให้เห็นภาพที่ซับซ้อนกว่าเมื่อเปรียบเทียบกับโมเดลคู่แข่งอย่าง Qwen3

ประสิทธิภาพเบนช์มาร์กเทียบกับการใช้งานจริง

การทดสอบชุมชนได้เปิดเผยช่องว่างที่สำคัญระหว่างความสำเร็จของเบนช์มาร์ก GPT-OSS กับการประยุกต์ใช้ในทางปฏิบัติ ผู้ใช้รายงานว่า GPT-OSS ดูเหมือนจะถูกปรับให้เหมาะสมเฉพาะสำหรับเบนช์มาร์กการใช้เหตุผล ทำให้ได้คะแนนสูงในการทดสอบมาตรฐานแต่ประสิทธิภาพต่ำในงานประจำวัน นักพัฒนาคนหนึ่งสังเกตว่าเมื่อขอให้สร้างปริศนาง่ายๆ GPT-OSS ให้คำตอบที่ไร้สาระและให้คำตอบสำหรับคำถามของตัวเองทันที

ในทางตรงกันข้าม โมเดล Qwen3 แสดงให้เห็นอย่างสม่ำเสมอถึงการปฏิบัติตามพรอมต์ที่ดีกว่าและการตอบสนองที่ฟังดูเป็นธรรมชาติมากกว่าในงานต่างๆ โมเดล Qwen3 ขนาด 32 พันล้านพารามิเตอร์โดยเฉพาะเป็นเลิศในการปฏิบัติตามคำสั่งอย่างแม่นยำ ในขณะที่ GPT-OSS มักจะดิ้นรนกับงานการสนทนาพื้นฐานแม้จะมีตัวแปรขนาด 120 พันล้านพารามิเตอร์

ประสิทธิภาพทรัพยากรและข้อกำหนดฮาร์ดแวร์

GPT-OSS นำเสนอการปรับปรุงประสิทธิภาพที่น่าสังเกตผ่านสถาปัตยกรรม Mixture of Experts (MoE) และการควอนไทเซชัน MXFP4 โมเดล 120 พันล้านพารามิเตอร์เปิดใช้งานเพียง 5.1 พันล้านพารามิเตอร์ต่อโทเค็น ทำให้ทำงานได้เร็วกว่าโมเดลหนาแน่นที่มีความสามารถคล้ายกัน สิ่งนี้ทำให้โมเดลสามารถทำงานบนฮาร์ดแวร์ผู้บริโภคที่จะดิ้นรนกับโมเดลขนาดใหญ่เช่นนี้

อย่างไรก็ตาม ประสิทธิภาพในโลกแห่งความเป็นจริงแตกต่างกันอย่างมากขึ้นอยู่กับข้อจำกัดของฮาร์ดแวร์ บน GPU ผู้บริโภคที่มี VRAM จำกัด โมเดลหนาแน่นอย่าง Qwen3 32B มักจะมีประสิทธิภาพเหนือกว่า GPT-OSS 120B ทั้งในด้านความเร็วและความแม่นยำ ผู้ใช้ที่มีการ์ดกราฟิก RTX 5090 รายงานว่า Qwen3 32B บรรลุ 65 โทเค็นต่อวินาทีเทียบกับ GPT-OSS 120B ที่ 37 โทเค็นต่อวินาทีเมื่อต้องใช้การออฟโหลด CPU

MoE (Mixture of Experts): สถาปัตยกรรมที่มีเพียงส่วนย่อยของพารามิเตอร์ของโมเดลที่ทำงานสำหรับอินพุตแต่ละตัว ปรับปรุงประสิทธิภาพMXFP4: วิธีการควอนไทเซชันที่ใช้ความแม่นยำ 4 บิตสำหรับน้ำหนักในขณะที่รักษาความแม่นยำที่สูงกว่าสำหรับส่วนประกอบอื่นๆ

การเปรียบเทียบประสิทธิภาพบน RTX 5090 (4-bit quantization):

GPT-OSS 120B : 37 tokens/sec (พร้อม CPU offloading )
Qwen3 32B : 65 tokens/sec
Qwen3 30B-A3B : 150 tokens/sec

ข้อกังวลเกี่ยวกับกลยุทธ์การฝึกสอน

ชุมชนได้ตั้งคำถามเกี่ยวกับวิธีการฝึกสอนของ GPT-OSS โดยหลายคนสงสัยว่าใช้แนวทางข้อมูลสังเคราะห์คล้ายกับโมเดล Phi ของ Microsoft กลยุทธ์นี้มุ่งเน้นไปที่การเล่นเกมเบนช์มาร์กเฉพาะแทนที่จะพัฒนาความสามารถทั่วไป ส่งผลให้โมเดลเป็นเลิศในการทดสอบแต่ล้มเหลวในการประยุกต์ใช้จริง

สิ่งนี้ได้รับการฝึกฝนอย่างชัดเจนผ่าน RL เพื่อคิดและแก้ไขงานสำหรับเบนช์มาร์กการใช้เหตุผลเฉพาะ ไม่มีอะไรอื่น

นักพัฒนารายงานว่า GPT-OSS ต้องการบริบทและการพรอมต์ที่มีรายละเอียดมากกว่าอย่างมากเพื่อให้ผลลัพธ์ที่มีประโยชน์ ซึ่งบ่งบอกว่าการฝึกสอนให้ความสำคัญกับประสิทธิภาพเบนช์มาร์กแคบๆ มากกว่าการประยุกต์ใช้ในวงกว้าง สิ่งนี้ตรงกันข้ามอย่างรุนแรงกับแนวทางที่สมดุลมากกว่าของ Qwen3 ซึ่งรักษาประสิทธิภาพที่แข็งแกร่งในสถานการณ์โลกแห่งความเป็นจริงที่หลากหลาย

การเขียนโค้ดและงานเทคนิค

สำหรับการประยุกต์ใช้การเขียนโปรแกรม ช่องว่างประสิทธิภาพกลายเป็นที่เด่นชัดยิ่งขึ้น โมเดล Qwen3-Coder แสดงความสามารถในการเรียกใช้เครื่องมือที่เหนือกว่าและการปฏิบัติตามข้อกำหนดการจัดรูปแบบโค้ดที่ดีกว่า ผู้ใช้ที่ทดสอบรูปแบบการแก้ไขโค้ดต่างๆ รายงานว่า Qwen3 ไม่ค่อยล้มเหลวกับการแก้ไขที่ใช้ diff ในขณะที่ GPT-OSS ดิ้นรนกับงานที่คล้ายกัน

โมเดล Qwen3-Coder 30B ได้สร้างความประทับใจให้กับนักพัฒนาโดยเฉพาะด้วยความสามารถในการจัดการเวิร์กโฟลว์ที่ซับซ้อน รวมถึงการจดจำกระบวนการที่กำลังทำงาน การจัดการอินสแตนซ์เซิร์ฟเวอร์ และการให้ความช่วยเหลือตามบริบทที่เทียบเท่ากับโมเดลเชิงพาณิชย์ ประโยชน์ใช้สอยในทางปฏิบัตินี้ทำให้เป็นตัวเลือกที่ต้องการสำหรับสภาพแวดล้อมการพัฒนาในเครื่อง

ความต้องการด้านฮาร์ดแวร์:

GPT-OSS 20B: ใช้ RAM ประมาณ 13GB ( Ollama ), ไม่สามารถใช้งานได้ใน VRAM 10GB
Qwen3-Coder 30B-A3B: ใช้ RAM ประมาณ 20GB บน Mac 32GB
Qwen3 4B: เหมาะสำหรับการติดตั้งใช้งานในเครื่องบนฮาร์ดแวร์สำหรับผู้บริโภคทั่วไป

ผลกระทบต่อตลาด

การค้นพบเหล่านี้เน้นย้ำถึงความแตกแยกที่เพิ่มขึ้นในการพัฒนาโมเดล AI ระหว่างการปรับให้เหมาะสมกับเบนช์มาร์กและประโยชน์ใช้สอยในทางปฏิบัติ ในขณะที่ GPT-OSS แสดงให้เห็นว่าคะแนนที่น่าประทับใจไม่จำเป็นต้องแปลเป็นความพึงพอใจของผู้ใช้ ความสำเร็จของ Qwen3 บ่งบอกว่าแนวทางการฝึกสอนที่สมดุลอาจมีค่ามากกว่าสำหรับการประยุกต์ใช้ในโลกแห่งความเป็นจริง

การที่ชุมชนชอบ Qwen3 แม้จะมีจำนวนพารามิเตอร์ที่มากกว่าและความสำเร็จของเบนช์มาร์กของ GPT-OSS บ่งบอกว่าผู้ใช้ให้ความสำคัญกับความน่าเชื่อถือและความสามารถทั่วไปมากกว่าเมตริกประสิทธิภาพดิบ แนวโน้มนี้อาจมีอิทธิพลต่อกลยุทธ์การพัฒนาโมเดลในอนาคตเมื่อบริษัทต่างๆ สร้างสมดุลระหว่างการสาธิตที่น่าประทับใจและประโยชน์ใช้สอยในทางปฏิบัติ

อ้างอิง: From GPT-2 to GPT-NeoX: Analyzing the Architectural Advances

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌