OpenAI ได้เปิดตัวโมเดล open-weight รุ่นแรกอย่างเป็นทางการ ชื่อ GPT-OSS ซึ่งถือเป็นการเปลี่ยนแปลงครั้งสำคัญสำหรับบริษัทที่เคยเก็บโมเดลของตนไว้เป็นความลับ การเปิดตัวครั้งนี้รวมถึงโมเดล mixture-of-experts (MoE) สองตัว และแนะนำรูปแบบการตอบสนองแบบมีโครงสร้างใหม่ที่เรียกว่า Harmony ซึ่งออกแบบมาเพื่อให้การโต้ตอบกับ AI มีความซับซ้อนมากขึ้น
สถาปัตยกรรมการสื่อสารแบบหลายช่องทาง
รูปแบบ Harmony แสดงถึงความก้าวหน้าครั้งสำคัญในวิธีที่โมเดล AI จัดโครงสร้างการตอบสนอง แตกต่างจากการแสดงผลข้อความแบบสตรีมเดียวแบบเดิม ระบบนี้ช่วยให้โมเดลสามารถสื่อสารผ่านหลายช่องทางพร้อมกัน รวมถึงช่องทางการวิเคราะห์ การแสดงความคิดเห็น และการตอบสนองขั้นสุดท้าย สิ่งนี้สะท้อนถึงวิธีที่มนุษย์สื่อสารตามธรรมชาติผ่านวิธีการต่างๆ เช่น คำพูด น้ำเสียง และภาษากายในเวลาเดียวกัน
รูปแบบนี้ช่วยให้โมเดลสามารถแยกการใช้เหตุผลแบบ chain-of-thought ออกจากฟังก์ชันการเรียกใช้เครื่องมือและการตอบสนองทั่วไป วิธีการที่มีโครงสร้างนี้ให้นักพัฒนาควบคุมระบบ AI ในการประมวลผลและนำเสนอข้อมูลได้มากขึ้น ซึ่งอาจนำไปสู่พฤติกรรม AI ที่เชื่อถือได้และตีความได้มากขึ้น
Mixture-of-experts (MoE): สถาปัตยกรรม AI ที่ส่วนต่างๆ ของโมเดลเชี่ยวชาญในงานที่แตกต่างกัน โดยมีตัวจัดเส้นทางที่ตัดสินใจว่าจะใช้ผู้เชี่ยวชาญคนไหนสำหรับข้อมูลนำเข้าแต่ละรายการ
ช่องทางของรูปแบบ Harmony
- ช่องทางการวิเคราะห์: สำหรับการใช้เหตุผลแบบลูกโซ่ความคิด
- ช่องทางความเห็น: สำหรับคำนำการเรียกใช้เครื่องมือ
- ช่องทางสุดท้าย: สำหรับการตอบสนองปกติที่หันหน้าไปหาผู้ใช้
- เนมสเปซเครื่องมือ: การเรียกใช้ฟังก์ชันที่มีโครงสร้างพร้อมลำดับชั้นที่ชัดเจน
ข้อมูลจำเพาะของโมเดลและการเข้าถึง
การเปิดตัว GPT-OSS รวมถึงโมเดลสองตัวที่มีความสามารถและความต้องการฮาร์ดแวร์ที่แตกต่างกัน โมเดลขนาดใหญ่มีพารามิเตอร์ 117 พันล้านตัว (วางตลาดในชื่อ gpt-oss-120b) ในขณะที่เวอร์ชันขนาดเล็กมีพารามิเตอร์ 21 พันล้านตัว (gpt-oss-20b) ทั้งสองใช้เทคโนโลยี 4-bit quantization ที่เรียกว่า MXFP4 ซึ่งช่วยลดความต้องการหน่วยความจำอย่างมากในขณะที่รักษาประสิทธิภาพไว้
การเข้าถึงฮาร์ดแวร์เป็นสิ่งที่น่าสนใจเป็นพิเศษ โมเดลขนาดใหญ่สามารถทำงานบน GPU H100 เพียงตัวเดียว ในขณะที่โมเดลขนาดเล็กทำงานภายในหน่วยความจำเพียง 16GB ทำให้เหมาะสำหรับฮาร์ดแวร์ผู้บริโภคและแอปพลิเคชันบนอุปกรณ์ สิ่งนี้ช่วยให้การเข้าถึงความสามารถ AI ที่ทรงพลังซึ่งก่อนหน้านี้มีให้ผ่าน cloud API เท่านั้นเป็นแบบประชาธิปไตยมากขึ้น
4-bit quantization: เทคนิคที่ลดความแม่นยำของน้ำหนักโมเดลเพื่อใช้หน่วยความจำน้อยลงในขณะที่พยายามรักษาประสิทธิภาพไว้
ข้อมูลจำเพาะของโมเดล GPT-OSS
- โมเดลขนาดใหญ่ (gpt-oss-120b): มีพารามิเตอร์ 117B ตัว สามารถทำงานบน GPU H100 เครื่องเดียว
- โมเดลขนาดเล็ก (gpt-oss-20b): มีพารามิเตอร์ 21B ตัว สามารถทำงานในหน่วยความจำ 16GB
- สถาปัตยกรรม: Mixture-of-experts (MoE) พร้อมการบีบอัดแบบ 4-bit quantization (MXFP4)
- ความพร้อมใช้งาน: Hugging Face , Ollama , vLLM และดาวน์โหลดโดยตรง
ชุมชนสำรวจแนวทางคอนซอร์เซียม
ชุมชนนักพัฒนา AI แสดงความสนใจอย่างมากในการใช้โมเดลเปิดเหล่านี้สำหรับแนวทางการทดลองเช่นคอนซอร์เซียมโมเดล ซึ่งเกี่ยวข้องกับการรันโมเดล AI หลายตัวแบบขนานเพื่อแก้ปัญหาที่โมเดลแต่ละตัวอาจมีปัญหา การทดสอบเบื้องต้นแสดงให้เห็นว่ากลุ่มของโมเดลขนาดเล็กที่ทำงานร่วมกันบางครั้งสามารถทำงานได้ดีกว่าโมเดลขนาดใหญ่ตัวเดียวในงานเฉพาะ
ฉันทดสอบคอนซอร์เซียมของ qwens ในการทดสอบ brainfuck และมันแก้ได้ ในขณะที่โมเดลเดี่ยวล้มเหลว
แนวทางนี้อาจมีค่าเป็นพิเศษเมื่อพิจารณาจากต้นทุนที่ค่อนข้างต่ำในการรันโมเดล open-weight เมื่อเปรียบเทียบกับการเรียกใช้ API แบบกรรมสิทธิ์ นักพัฒนาสามารถทดลองกับสถาปัตยกรรมแบบหลายโมเดลที่ซับซ้อนโดยไม่มีค่าใช้จ่ายที่เคยทำให้การวิจัยดังกล่าวเป็นเรื่องยาก
เครื่องมือสำหรับการพัฒนา
- ไลบรารี Python:
pip install openai-harmony
พร้อมด้วย typed stubs และการทดสอบครอบคลุม 100% - ไลบรารี Rust: มีให้บริการผ่าน GitHub พร้วมกับ core ที่ปรับแต่งประสิทธิภาพแล้ว
- ความเข้ากันได้ของ API: ออกแบบมาให้เลียนแบบรูปแบบ OpenAI Response API
- การผสานรวม: รองรับ HuggingFace , Ollama , vLLM อย่างเต็มรูปแบบ
การใช้งานทางเทคนิคและเครื่องมือนักพัฒนา
OpenAI ได้เปิดตัวเครื่องมือที่ครอบคลุมเพื่อสนับสนุนรูปแบบ Harmony รวมถึงไลบรารีสำหรับภาษาโปรแกรม Python และ Rust การใช้งานให้ความสำคัญกับประสิทธิภาพ โดยมีตรรกะหลักของการเรนเดอร์และการแยกวิเคราะห์ที่สร้างใน Rust และเปิดเผยให้ Python ผ่าน binding ที่ปรับให้เหมาะสม
รูปแบบนี้ใช้แท็ก pseudo-XML เพื่อจัดโครงสร้างเนื้อหาประเภทต่างๆ คล้ายกับมาตรฐานอื่นๆ ที่เกิดขึ้นใหม่ในสาขานี้ แม้ว่าแนวทางนี้อาจดูแปลกใหม่ แต่ชุมชนได้สังเกตเห็นประสิทธิผลในการเปิดใช้งานพฤติกรรมที่ซับซ้อน เช่น การเลือกเครื่องมือเฉพาะและการใช้เหตุผลแบบมีโครงสร้าง
การเปิดตัวประสบปัญหาการประสานงานเบื้องต้นบางอย่าง โดยลิงก์เอกสารหลายรายการส่งคืนข้อผิดพลาดหรือต้องการการรับรองความถูกต้องในตอนแรก สิ่งนี้ดูเหมือนจะเกิดขึ้นพร้อมกับการขัดข้องของ GitHub ซึ่งเน้นย้ำถึงความซับซ้อนของการประสานงานการเปิดตัวแบบหลายแพลตฟอร์มในระบบนิเวศการพัฒนาสมัยใหม่
ความพร้อมใช้งานของโมเดล open-weight อย่างแท้จริงจาก OpenAI แสดงถึงเหตุการณ์สำคัญสำหรับชุมชน AI โดยเปิดโอกาสใหม่สำหรับการวิจัย การทดลอง และการนำไปใช้ที่เคยถูกจำกัดด้วยต้นทุน API และข้อจำกัดในการเข้าถึง
อ้างอิง: OpenAI Harmony