บริษัท AI จีน MiniMax ได้เปิดตัวสิ่งที่อ้างว่าเป็นโมเดลการใช้เหตุผลแบบสถาปัตยกรรมผสมขนาดใหญ่แบบโอเพนซอร์สรายแรกของโลก ซึ่งอาจส่งผลกระทบต่อเศรษฐศาสตร์ของการพัฒนาปัญญาประดิษฐ์ โมเดล M1 นี้เป็นการท้าทายที่สำคัญต่อผู้เล่นหลักอย่าง OpenAI และ Anthropic โดยสัญญาว่าจะให้ประสิทธิภาพที่เทียบเคียงได้ด้วยต้นทุนที่ลดลงอย่างมากมาย
![]() |
---|
การเปรียบเทียบประสิทธิภาพเบนช์มาร์กของ MiniMax M1 เทียบกับโมเดล AI ชั้นนำอื่นๆ |
เศรษฐศาสตร์การฝึกที่ปฏิวัติวงการ
การอ้างที่น่าประทับใจที่สุดของ MiniMax เน้นไปที่ประสิทธิภาพการฝึก บริษัทรายงานว่าใช้เงินเพียง 534,700 ดอลลาร์สหรัฐ ในทรัพยากรการคำนวณของศูนย์ข้อมูลเพื่อฝึก M1 โดยใช้ GPU H800 จำนวน 512 ตัวเป็นเวลาสามสัปดาห์ ตัวเลขนี้แสดงถึงต้นทุนที่ต่ำกว่าประมาณ 200 เท่าเมื่อเทียบกับต้นทุนการฝึกที่ประมาณการของ GPT-4 ของ OpenAI ซึ่งผู้เชี่ยวชาญในอุตสาหกรรมเชื่อว่าเกิน 100 ล้านดอลลาร์สหรัฐ หากได้รับการยืนยัน เศรษฐศาสตร์เหล่านี้อาจเปลี่ยนแปลงภูมิทัศน์การแข่งขันสำหรับการพัฒนา AI อย่างพื้นฐาน โดยเฉพาะอย่างยิ่งจะส่งผลกระทบต่อบริษัทที่ได้รับเงินทุนมากมายที่ได้ลงทุนหลายร้อยพันล้านในการพัฒนาโมเดล
ข้อมูลจำเพาะของโมเดล MiniMax M1
- พารามิเตอร์: รวม 456 พันล้าน เปิดใช้งาน 45.9 พันล้านต่อโทเคน
- สถาปัตยกรรม: Mixture-of-Experts (MoE) พร้อม Lightning Attention
- หน้าต่างบริบท: อินพุต 1 ล้านโทเคน เอาต์พุต 80,000 โทเคน
- ต้นทุนการฝึก: 534,700 ดอลลาร์สหรัฐ (GPU H800 จำนวน 512 ตัว ใช้เวลา 3 สัปดาห์)
- ประสิทธิภาพการฝึก: ถูกกว่าประมาณ 200 เท่าเมื่อเทียบกับการประเมิน GPT-4
ข้อมูลจำเพาะทางเทคนิคและสถาปัตยกรรม
โมเดล M1 มีพารามิเตอร์ 456 พันล้านตัวด้วยสถาปัตยกรรมแบบ mixture-of-experts (MoE) ที่เปิดใช้งานพารามิเตอร์ 45.9 พันล้านตัวต่อโทเค็น ความสามารถที่โดดเด่นรวมถึงการรองรับแบบเนทีฟสำหรับการป้อนข้อมูลบริบท 1 ล้านโทเค็น ซึ่งเทียบเท่ากับ Gemini 2.5 Pro ของ Google และแสดงถึงความจุที่มากกว่า DeepSeek-R1 ถึงแปดเท่า โมเดลยังรองรับการส่งออกการใช้เหตุผลที่ยาวที่สุดในอุตสาหกรรมที่ 80,000 โทเค็น ซึ่งเป็นไปได้ด้วยกลไก Lightning Attention ที่เป็นกรรมสิทธิ์ของ MiniMax
เกณฑ์มาตรฐานประสิทธิภาพและการวางตำแหน่งการแข่งขัน
ในชุดข้อมูลการประเมินมาตรฐานอุตสาหกรรม 17 ชุด M1 แสดงจุดแข็งเฉพาะในวิศวกรรมซอฟต์แวร์ การประมวลผลบริบทยาว และสถานการณ์การใช้เครื่องมือ ในการทดสอบ SWE-bench Verified, MiniMax-M1-40k และ M1-80k ทำคะแนนได้ 55.6% และ 56.0% ตามลำดับ ซึ่งตามหลัง 57.6% ของ DeepSeek-R1 เล็กน้อย แต่มีประสิทธิภาพดีกว่าโมเดลโอเพนซอร์สอื่นๆ อย่างมีนัยสำคัญ โมเดลมีความเป็นเลิศในการใช้เครื่องมือตัวแทน โดยนำหน้าโมเดลโอเพนซอร์สทั้งหมดในการทดสอบ TAU-bench ของอุตสาหกรรมสายการบิน และเทียบเท่ากับ DeepSeek-R1 ในสถานการณ์ค้าปลีก
การเปรียบเทียบผลการทดสอบประสิทธิภาพ
โมเดล | SWE-bench Verified | Context Window | ต้นทุนการฝึกอบรม |
---|---|---|---|
MiniMax M1-40k | 55.6% | 1M tokens | USD $534,700 |
MiniMax M1-80k | 56.0% | 1M tokens | USD $534,700 |
DeepSeek-R1 | 57.6% | 64k tokens | ไม่เปิดเผย |
GPT-4 | ไม่ระบุ | 200k tokens | >USD $100M (ประมาณการ) |
ข้อได้เปรียบด้านประสิทธิภาพการคำนวณ
กลไก Lightning Attention ให้การประหยัดการคำนวณที่มากมายระหว่างการอนุมาน เมื่อสร้าง 80,000 โทเค็น M1 ต้องการเพียงประมาณ 30% ของทรัพยากรการคำนวณที่ DeepSeek-R1 ต้องการ ประสิทธิภาพนี้ขยายไปถึงการประมวลผลบริบทยาว ซึ่ง M1 ใช้เพียง 25% ของการดำเนินการจุดลอยตัวที่โมเดลคู่แข่งต้องการสำหรับงานการสร้าง 100,000 โทเค็น
กลยุทธ์การกำหนดราคาและการเข้าถึงตลาด
MiniMax เสนอ M1 ผ่านโครงสร้างราคาแบบขั้นบันไดที่ตัดราคาคู่แข่งในส่วนเฉพาะ สำหรับความยาวการป้อนข้อมูล 0-32k บริษัทเรียกเก็บ 0.8 หยวนจีนต่อล้านโทเค็นป้อนเข้าและ 8 หยวนจีนต่อล้านโทเค็นส่งออก ระดับ 32k-128k มีค่าใช้จ่าย 1.2 และ 16 หยวนจีนตามลำดับ ในขณะที่ระดับพรีเมียม 128k-1M เรียกเก็บ 2.4 และ 24 หยวนจีนต่อล้านโทเค็น โมเดลยังคงฟรีสำหรับการใช้งานไม่จำกัดผ่านแอปและแพลตฟอร์มเว็บของ MiniMax
โครงสร้างราคา MiniMax M1 API
ความยาว Input | ราคา Input | ราคา Output |
---|---|---|
0-32k tokens | CNY ¥0.8/M tokens | CNY ¥8/M tokens |
32k-128k tokens | CNY ¥1.2/M tokens | CNY ¥16/M tokens |
128k-1M tokens | CNY ¥2.4/M tokens | CNY ¥24/M tokens |
มีบริการใช้งานฟรีไม่จำกัดผ่านแอป MiniMax และแพลตฟอร์มเว็บ
![]() |
---|
โครงสร้างราคาสำหรับโมเดลสร้างข้อความ MiniMax M1 |
นวัตกรรมทางเทคนิคและวิธีการฝึก
MiniMax ได้พัฒนาอัลกอริทึม CISPO (Clipped Importance Sampling Policy Optimization) ซึ่งบริษัทอ้างว่าบรรจบเร็วกว่าแนวทางการเรียนรู้เสริมแรงของคู่แข่งถึงสองเท่า รวมถึง DAPO ของ ByteDance และ GRPO ของ DeepSeek ความก้าวหน้าทางอัลกอริทึมนี้ ร่วมกับการออกแบบสถาปัตยกรรมผสม ทำให้เกิดกระบวนการฝึกที่มีประสิทธิภาพอย่างน่าทึ่งที่เกินความคาดหวังเริ่มต้นของบริษัทถึงหนึ่งลำดับขนาด
ข้อพิจารณาด้านภูมิรัฐศาสตร์และความปลอดภัย
เช่นเดียวกับโมเดล AI จีนอื่นๆ M1 เผชิญการตรวจสอบเกี่ยวกับความเป็นส่วนตัวของข้อมูลและการเซ็นเซอร์เนื้อหา โมเดลปฏิบัติตามข้อกำหนดการเซ็นเซอร์ของรัฐบาลจีน ซึ่งอาจสร้างการตอบสนองที่สอดคล้องกับตำแหน่งของพรรคคอมมิวนิสต์จีนในหัวข้อที่ละเอียดอ่อน เมื่อทดสอบกับคำถามเกี่ยวกับแรงงานบังคับของชาวอุยกูร์ใน Xinjiang โมเดลปฏิเสธว่าการปฏิบัติดังกล่าวมีอยู่ ซึ่งเน้นย้ำข้อจำกัดทางภูมิรัฐศาสตร์ที่ส่งผลต่อการพัฒนา AI ของจีน
ผลกระทบต่อตลาดและการตอบสนองของอุตสาหกรรม
การประกาศนี้เป็นไปตามรูปแบบของบริษัท AI จีนที่ท้าทายสมมติฐานของตะวันตกเกี่ยวกับต้นทุนการพัฒนา คล้ายกับการเปิดตัว R1 ของ DeepSeek ที่ทำให้หุ้น Nvidia ลดลง 17% ในวันเดียว อย่างไรก็ตาม ผลกระทบต่อตลาดของ M1 ยังคงต้องรอดู เนื่องจากการยืนยันอิสระของการอ้างประสิทธิภาพของ MiniMax ยังคงรอการพิสูจน์ ตารางการประกาศห้าวันของบริษัทแสดงให้เห็นว่าการพัฒนาเพิ่มเติมกำลังจะมาถึง ซึ่งอาจขยายแรงกดดันการแข่งขันต่อผู้ให้บริการ AI ที่มีชื่อเสียง