OpenAI เปิดตัวโมเดล Open-Weight GPT-OSS พร้อมรูปแบบการตอบสนอง Harmony แบบใหม่

ทีมชุมชน BigGo
OpenAI เปิดตัวโมเดล Open-Weight GPT-OSS พร้อมรูปแบบการตอบสนอง Harmony แบบใหม่

OpenAI ได้เปิดตัวโมเดล open-weight รุ่นแรกอย่างเป็นทางการ ชื่อ GPT-OSS ซึ่งถือเป็นการเปลี่ยนแปลงครั้งสำคัญสำหรับบริษัทที่เคยเก็บโมเดลของตนไว้เป็นความลับ การเปิดตัวครั้งนี้รวมถึงโมเดล mixture-of-experts (MoE) สองตัว และแนะนำรูปแบบการตอบสนองแบบมีโครงสร้างใหม่ที่เรียกว่า Harmony ซึ่งออกแบบมาเพื่อให้การโต้ตอบกับ AI มีความซับซ้อนมากขึ้น

สถาปัตยกรรมการสื่อสารแบบหลายช่องทาง

รูปแบบ Harmony แสดงถึงความก้าวหน้าครั้งสำคัญในวิธีที่โมเดล AI จัดโครงสร้างการตอบสนอง แตกต่างจากการแสดงผลข้อความแบบสตรีมเดียวแบบเดิม ระบบนี้ช่วยให้โมเดลสามารถสื่อสารผ่านหลายช่องทางพร้อมกัน รวมถึงช่องทางการวิเคราะห์ การแสดงความคิดเห็น และการตอบสนองขั้นสุดท้าย สิ่งนี้สะท้อนถึงวิธีที่มนุษย์สื่อสารตามธรรมชาติผ่านวิธีการต่างๆ เช่น คำพูด น้ำเสียง และภาษากายในเวลาเดียวกัน

รูปแบบนี้ช่วยให้โมเดลสามารถแยกการใช้เหตุผลแบบ chain-of-thought ออกจากฟังก์ชันการเรียกใช้เครื่องมือและการตอบสนองทั่วไป วิธีการที่มีโครงสร้างนี้ให้นักพัฒนาควบคุมระบบ AI ในการประมวลผลและนำเสนอข้อมูลได้มากขึ้น ซึ่งอาจนำไปสู่พฤติกรรม AI ที่เชื่อถือได้และตีความได้มากขึ้น

Mixture-of-experts (MoE): สถาปัตยกรรม AI ที่ส่วนต่างๆ ของโมเดลเชี่ยวชาญในงานที่แตกต่างกัน โดยมีตัวจัดเส้นทางที่ตัดสินใจว่าจะใช้ผู้เชี่ยวชาญคนไหนสำหรับข้อมูลนำเข้าแต่ละรายการ

ช่องทางของรูปแบบ Harmony

  • ช่องทางการวิเคราะห์: สำหรับการใช้เหตุผลแบบลูกโซ่ความคิด
  • ช่องทางความเห็น: สำหรับคำนำการเรียกใช้เครื่องมือ
  • ช่องทางสุดท้าย: สำหรับการตอบสนองปกติที่หันหน้าไปหาผู้ใช้
  • เนมสเปซเครื่องมือ: การเรียกใช้ฟังก์ชันที่มีโครงสร้างพร้อมลำดับชั้นที่ชัดเจน

ข้อมูลจำเพาะของโมเดลและการเข้าถึง

การเปิดตัว GPT-OSS รวมถึงโมเดลสองตัวที่มีความสามารถและความต้องการฮาร์ดแวร์ที่แตกต่างกัน โมเดลขนาดใหญ่มีพารามิเตอร์ 117 พันล้านตัว (วางตลาดในชื่อ gpt-oss-120b) ในขณะที่เวอร์ชันขนาดเล็กมีพารามิเตอร์ 21 พันล้านตัว (gpt-oss-20b) ทั้งสองใช้เทคโนโลยี 4-bit quantization ที่เรียกว่า MXFP4 ซึ่งช่วยลดความต้องการหน่วยความจำอย่างมากในขณะที่รักษาประสิทธิภาพไว้

การเข้าถึงฮาร์ดแวร์เป็นสิ่งที่น่าสนใจเป็นพิเศษ โมเดลขนาดใหญ่สามารถทำงานบน GPU H100 เพียงตัวเดียว ในขณะที่โมเดลขนาดเล็กทำงานภายในหน่วยความจำเพียง 16GB ทำให้เหมาะสำหรับฮาร์ดแวร์ผู้บริโภคและแอปพลิเคชันบนอุปกรณ์ สิ่งนี้ช่วยให้การเข้าถึงความสามารถ AI ที่ทรงพลังซึ่งก่อนหน้านี้มีให้ผ่าน cloud API เท่านั้นเป็นแบบประชาธิปไตยมากขึ้น

4-bit quantization: เทคนิคที่ลดความแม่นยำของน้ำหนักโมเดลเพื่อใช้หน่วยความจำน้อยลงในขณะที่พยายามรักษาประสิทธิภาพไว้

ข้อมูลจำเพาะของโมเดล GPT-OSS

  • โมเดลขนาดใหญ่ (gpt-oss-120b): มีพารามิเตอร์ 117B ตัว สามารถทำงานบน GPU H100 เครื่องเดียว
  • โมเดลขนาดเล็ก (gpt-oss-20b): มีพารามิเตอร์ 21B ตัว สามารถทำงานในหน่วยความจำ 16GB
  • สถาปัตยกรรม: Mixture-of-experts (MoE) พร้อมการบีบอัดแบบ 4-bit quantization (MXFP4)
  • ความพร้อมใช้งาน: Hugging Face , Ollama , vLLM และดาวน์โหลดโดยตรง

ชุมชนสำรวจแนวทางคอนซอร์เซียม

ชุมชนนักพัฒนา AI แสดงความสนใจอย่างมากในการใช้โมเดลเปิดเหล่านี้สำหรับแนวทางการทดลองเช่นคอนซอร์เซียมโมเดล ซึ่งเกี่ยวข้องกับการรันโมเดล AI หลายตัวแบบขนานเพื่อแก้ปัญหาที่โมเดลแต่ละตัวอาจมีปัญหา การทดสอบเบื้องต้นแสดงให้เห็นว่ากลุ่มของโมเดลขนาดเล็กที่ทำงานร่วมกันบางครั้งสามารถทำงานได้ดีกว่าโมเดลขนาดใหญ่ตัวเดียวในงานเฉพาะ

ฉันทดสอบคอนซอร์เซียมของ qwens ในการทดสอบ brainfuck และมันแก้ได้ ในขณะที่โมเดลเดี่ยวล้มเหลว

แนวทางนี้อาจมีค่าเป็นพิเศษเมื่อพิจารณาจากต้นทุนที่ค่อนข้างต่ำในการรันโมเดล open-weight เมื่อเปรียบเทียบกับการเรียกใช้ API แบบกรรมสิทธิ์ นักพัฒนาสามารถทดลองกับสถาปัตยกรรมแบบหลายโมเดลที่ซับซ้อนโดยไม่มีค่าใช้จ่ายที่เคยทำให้การวิจัยดังกล่าวเป็นเรื่องยาก

เครื่องมือสำหรับการพัฒนา

  • ไลบรารี Python: pip install openai-harmony พร้อมด้วย typed stubs และการทดสอบครอบคลุม 100%
  • ไลบรารี Rust: มีให้บริการผ่าน GitHub พร้วมกับ core ที่ปรับแต่งประสิทธิภาพแล้ว
  • ความเข้ากันได้ของ API: ออกแบบมาให้เลียนแบบรูปแบบ OpenAI Response API
  • การผสานรวม: รองรับ HuggingFace , Ollama , vLLM อย่างเต็มรูปแบบ

การใช้งานทางเทคนิคและเครื่องมือนักพัฒนา

OpenAI ได้เปิดตัวเครื่องมือที่ครอบคลุมเพื่อสนับสนุนรูปแบบ Harmony รวมถึงไลบรารีสำหรับภาษาโปรแกรม Python และ Rust การใช้งานให้ความสำคัญกับประสิทธิภาพ โดยมีตรรกะหลักของการเรนเดอร์และการแยกวิเคราะห์ที่สร้างใน Rust และเปิดเผยให้ Python ผ่าน binding ที่ปรับให้เหมาะสม

รูปแบบนี้ใช้แท็ก pseudo-XML เพื่อจัดโครงสร้างเนื้อหาประเภทต่างๆ คล้ายกับมาตรฐานอื่นๆ ที่เกิดขึ้นใหม่ในสาขานี้ แม้ว่าแนวทางนี้อาจดูแปลกใหม่ แต่ชุมชนได้สังเกตเห็นประสิทธิผลในการเปิดใช้งานพฤติกรรมที่ซับซ้อน เช่น การเลือกเครื่องมือเฉพาะและการใช้เหตุผลแบบมีโครงสร้าง

การเปิดตัวประสบปัญหาการประสานงานเบื้องต้นบางอย่าง โดยลิงก์เอกสารหลายรายการส่งคืนข้อผิดพลาดหรือต้องการการรับรองความถูกต้องในตอนแรก สิ่งนี้ดูเหมือนจะเกิดขึ้นพร้อมกับการขัดข้องของ GitHub ซึ่งเน้นย้ำถึงความซับซ้อนของการประสานงานการเปิดตัวแบบหลายแพลตฟอร์มในระบบนิเวศการพัฒนาสมัยใหม่

ความพร้อมใช้งานของโมเดล open-weight อย่างแท้จริงจาก OpenAI แสดงถึงเหตุการณ์สำคัญสำหรับชุมชน AI โดยเปิดโอกาสใหม่สำหรับการวิจัย การทดลอง และการนำไปใช้ที่เคยถูกจำกัดด้วยต้นทุน API และข้อจำกัดในการเข้าถึง

อ้างอิง: OpenAI Harmony