OpenAI เปิดตัวโมเดลแบบ Open-Weight รุ่นแรก: GPT-OSS-120B และ GPT-OSS-20B ท้าทาย AI ในระดับท้องถิ่น

ทีมชุมชน BigGo
OpenAI เปิดตัวโมเดลแบบ Open-Weight รุ่นแรก: GPT-OSS-120B และ GPT-OSS-20B ท้าทาย AI ในระดับท้องถิ่น

ในการเคลื่อนไหวที่น่าประหลาดใจซึ่งทำให้ชุมชนเทคโนโลยีต้องตกใจ OpenAI ได้เปิดตัวโมเดลแบบ open-weight รุ่นแรก ซึ่งเป็นการเปลี่ยนแปลงครั้งสำคัญสำหรับบริษัทที่เคยเป็นสัญลักษณ์ของระบบ AI แบบปิดและเป็นกรรมสิทธิ์ การเปิดตัวครั้งนี้ประกอบด้วยโมเดลสองตัว คือ GPT-OSS-120B และ GPT-OSS-20B ซึ่งทั้งคู่มีให้บริการภายใต้ใบอนุญาต Apache 2.0 และออกแบบมาให้ทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ผู้บริโภค

การประกาศนี้แสดงถึงการเปลี่ยนแปลงครั้งใหญ่จากกลยุทธ์เดิมของ OpenAI บริษัทที่เคยลบคำว่า Open ออกจากแถลงการณ์พันธกิจเมื่อหลายปีก่อน ตอนนี้กำลังแข่งขันโดยตรงกับห้องปฏิบัติการ AI ของจีนอย่าง Alibaba (Qwen) และ DeepSeek ที่ครองตลาดโมเดล open-weight มาก่อน จังหวะเวลาดูเหมือนจะมีเหตุผลเชิงกลยุทธ์ โดยหลายคนคาดเดาว่าการเปิดตัวนี้มีจุดประสงค์เพื่อเคลียร์พื้นที่ก่อนการประกาศ GPT-5 ที่กำลังจะมาถึง

อินเทอร์เฟซสำหรับ " gpt-oss playground " ที่ผู้ใช้สามารถทดลองใช้โมเดลแบบ open-weight ที่เพิ่งเปิดตัวใหม่ของ OpenAI
อินเทอร์เฟซสำหรับ " gpt-oss playground " ที่ผู้ใช้สามารถทดลองใช้โมเดลแบบ open-weight ที่เพิ่งเปิดตัวใหม่ของ OpenAI

ประสิทธิภาพที่เทียบเท่าโมเดลกรรมสิทธิ์

การตอบสนองของชุมชนมีความกระตือรือร้นอย่างเห็นได้ชัด โดยเฉพาะประสิทธิภาพของโมเดล 20B บนฮาร์ดแวร์ผู้บริโภค การทดสอบเบื้องต้นแสดงให้เห็นว่าโมเดลขนาดเล็กกว่าสามารถบรรลุผลลัพธ์ที่แข่งขันได้กับระบบกรรมสิทธิ์ขนาดใหญ่กว่ามาก ในขณะที่ทำงานได้อย่างราบรื่นบนอุปกรณ์อย่าง MacBook Air M3 ที่มี RAM 24GB ผู้ใช้รายงานความเร็วในการสร้าง token อยู่ที่ 40-70 token ต่อวินาทีบนการกำหนดค่าฮาร์ดแวร์ต่างๆ ทำให้สามารถใช้งานได้จริงสำหรับแอปพลิเคชันแบบเรียลไทม์

โมเดล 120B แสดงความสามารถที่น่าประทับใจยิ่งขึ้น โดยมีคะแนนเบนช์มาร์กใกล้เคียงกับโมเดล o4 ของ OpenAI เองในการประเมินหลายรายการ อย่างไรก็ตาม โมเดลเหล่านี้ใช้สถาปัตยกรรม Mixture of Experts (MoE) หมายความว่ามีเพียงพารามิเตอร์ 3.6B เท่านั้นที่ทำงานในโมเดล 20B และ 5.1B ในเวอร์ชัน 120B ซึ่งช่วยอธิบายประสิทธิภาพของมัน

MoE (Mixture of Experts): สถาปัตยกรรมที่ใช้เพียงส่วนย่อยของพารามิเตอร์ของโมเดลสำหรับอินพุตแต่ละตัว ปรับปรุงประสิทธิภาพในขณะที่รักษาประสิทธิภาพไว้

เกณฑ์มาตรฐานประสิทธิภาพ (ผลลัพธ์ที่คัดเลือก)

  • GPQA Diamond: GPT-OSS-120B: 80.1% เทียบกับ Qwen3-235B: 81.1%
  • Humanity's Last Exam: GPT-OSS-120B: 19.0% (ใช้เครื่องมือ), 14.9% (ไม่ใช้เครื่องมือ)
  • MMLU: GPT-OSS-20B อยู่ใน 10 อันดับแรก แต่ยังตามหลัง Gemini-2.5-Pro
  • ความเร็วในการสร้าง Token: 40-70 tokens ต่อวินาทีบนฮาร์ดแวร์สำหรับผู้บริโภค (แตกต่างกันไปตามการกำหนดค่า)

ความต้องการฮาร์ดแวร์และการเข้าถึงได้

หนึ่งในแง่มุมที่ถูกพูดถึงมากที่สุดคือการเข้าถึงฮาร์ดแวร์ของโมเดล โมเดล 20B ต้องการ RAM ประมาณ 15GB และสามารถทำงานบนฮาร์ดแวร์ผู้บริโภคระดับกลาง ในขณะที่โมเดล 120B ต้องการหน่วยความจำแบบรวม หรือ VRAM ประมาณ 60GB สิ่งนี้ทำให้ความสามารถ AI ระดับแนวหน้าอยู่ในระยะที่นักพัฒนาและนักวิจัยหลายคนสามารถเข้าถึงได้ ซึ่งก่อนหน้านี้ต้องพึ่งพาบริการคลาวด์ที่มีราคาแพง

โมเดลเหล่านี้ใช้การ quantization แบบ MXFP4 ดั้งเดิม ซึ่งเป็นรูปแบบ 4-bit ที่ลดความต้องการหน่วยความจำลงอย่างมีนัยสำคัญในขณะที่รักษาคุณภาพไว้ ความสำเร็จทางเทคนิคนี้ทำให้โมเดล 120B สามารถใส่ลงใน GPU 80GB เพียงตัวเดียว ทำให้องค์กรขนาดเล็กและนักวิจัยรายบุคคลสามารถเข้าถึงได้

MXFP4: รูปแบบจุดทศนิยม 4-bit ที่ใช้เพียง 4.25 บิตต่อพารามิเตอร์ ลดการใช้หน่วยความจำลงอย่างมากเมื่อเทียบกับรูปแบบ 16-bit แบบดั้งเดิม

ข้อมูลจำเพาะของโมเดล

โมเดล พารามิเตอร์ทั้งหมด พารามิเตอร์ที่ใช้งาน ความต้องการหน่วยความจำ ใบอนุญาต
GPT-OSS-120B 116.8B 5.1B ~60GB VRAM/RAM Apache 2.0
GPT-OSS-20B 20B 3.6B ~15GB VRAM/RAM Apache 2.0

โมเดลทั้งสองใช้สถาปัตยกรรม MoE (Mixture of Experts) พร้อมการบีบอัดแบบ MXFP4 ดั้งเดิม และรองรับหน้าต่างบริบทขนาด 131K

การตอบรับที่หลากหลายต่อประสิทธิภาพการใช้งานจริง

แม้จะมีความตื่นเต้น แต่การทดสอบของชุมชนเผยให้เห็นข้อจำกัดบางประการ ในขณะที่โมเดลเหล่านี้เก่งในงานการใช้เหตุผลและคณิตศาสตร์ ผู้ใช้รายงานจุดอ่อนที่สำคัญในการเขียนเชิงสร้างสรรค์ การแปล และความรู้ทั่วไปเมื่อเทียบกับทางเลือก open-weight ที่มีชื่อเสียงอย่าง Qwen3 และ GLM-4.5 โมเดลเหล่านี้ยังดูเหมือนจะถูกกรองเพื่อความปลอดภัยอย่างหนัก บางครั้งปฏิเสธที่จะตอบคำถามที่ไม่เป็นอันตราย

โมเดล 20b ยังคงเลือกคำตอบของปริศนาเดิม แม้หลังจากอธิบายข้อมูลเพิ่มเติมให้แล้ว

ประสิทธิภาพการเขียนโค้ด ซึ่งเป็นจุดแข็งแบบดั้งเดิมสำหรับโมเดล OpenAI แสดงผลลัพธ์ที่หลากหลาย ผู้ใช้บางคนพบว่ามันเทียบเท่ากับ GPT-4.1 สำหรับงานบางอย่าง ในขณะที่คนอื่นรายงานว่ามันทำงานได้แย่กว่าโมเดลเขียนโค้ดเฉพาะทางอย่าง Qwen3-Coder-30B

ผลกระทบเชิงกลยุทธ์และผลกระทบต่ออุตสาหกรรม

การเปิดตัวนี้มีผลกระทบที่สำคัญต่ออุตสาหกรรม AI ด้วยการเสนอโมเดล open-weight ที่แข่งขันได้ OpenAI กำลังทำให้ความสามารถ AI ระดับล่างกลายเป็นสินค้าโภคภัณฑ์ ในขณะที่คาดว่าจะเก็บเทคโนโลยีที่ทันสมัยที่สุดไว้เป็นกรรมสิทธิ์ กลยุทธ์นี้คล้ายกับแนวทางของ Meta กับ Llama แต่มาในช่วงเวลาที่บริษัทจีนเป็นผู้นำในพื้นที่ open-weight

การเคลื่อนไหวนี้ยังตอบสนองความต้องการที่เพิ่มขึ้นขององค์กรสำหรับโซลูชัน AI ภายในองค์กร องค์กรหลายแห่งในด้านการเงิน สุขภาพ และรัฐบาลไม่สามารถใช้บริการ AI บนคลาวด์ได้เนื่องจากข้อกำหนดด้านกฎระเบียบหรือความปลอดภัย โมเดล open-weight เหล่านี้ให้ทางเลือกที่เป็นไปได้สำหรับกรณีการใช้งานดังกล่าว

ความต้องการด้านฮาร์ดแวร์และความเข้ากันได้

ความต้องการขั้นต่ำ:

  • GPT-OSS-20B : RAM 16GB ทำงานได้บน MacBook Air M3 , RTX 3090 , RTX 4060 Ti
  • GPT-OSS-120B : unified memory/VRAM 60GB+ เหมาะสมที่สุดบน Mac Studio , RTX 6000 Pro

แพลตฟอร์มที่รองรับ:

  • Ollama , LM Studio , llama.cpp
  • ผู้ให้บริการคลาวด์: Groq (1000+ tok/s), Cerebras (3815 tok/s), Fireworks
  • ราคาบน OpenRouter : $0.15M input / $0.6-0.75M output tokens (USD)

มองไปข้างหน้า

ความเห็นพ้องของชุมชนแสดงให้เห็นว่าโมเดลเหล่านี้แสดงถึงประสิทธิภาพระดับกลางที่มั่นคงซึ่งเข้าถึงได้สำหรับผู้ชมที่กว้างขึ้นกว่าที่เคย แม้ว่าอาจไม่เทียบเท่ากับขอบแนวหน้าสุดของโมเดลกรรมสิทธิ์ แต่ก็เสนอข้อเสนอคุณค่าที่น่าสนใจสำหรับแอปพลิเคชันหลายอย่าง การเปิดตัวยังส่งสัญญาณว่ายุคของความสามารถ AI ที่ถูกล็อกไว้หลัง API ที่มีราคาแพงอาจกำลังจะสิ้นสุดลง อย่างน้อยสำหรับระดับประสิทธิภาพบางระดับ

ไม่ว่าสิ่งนี้จะเป็นการเปลี่ยนแปลงถาวรในกลยุทธ์ของ OpenAI หรือการเคลื่อนไหวเชิงยุทธวิธีก่อน GPT-5 ยังคงต้องติดตาม สิ่งที่ชัดเจนคือภูมิทัศน์ของ AI ที่เข้าถึงได้เพิ่งกลายเป็นการแข่งขันที่มีนัยสำคัญมากขึ้น พร้อมประโยชน์ที่อาจเกิดขึ้นสำหรับนักพัฒนา นักวิจัย และในที่สุดผู้ใช้ปลายทางทั่วโลก

อ้างอิง: Open models by OpenAI