MiniMax ได้เปิดตัวโมเดล M1 ซึ่งเป็นโมเดลเหตุผลที่มีพารามิเตอร์ 456 พันล้านตัว ที่กำลังสร้างการถกเถียงอย่างร้อนแรงเกี่ยวกับสิ่งที่จำเป็นจริงๆ ในการรัน AI ขั้นสูงในเครื่องส่วนตัว แม้ว่าบริษัทจะอ้างว่าเป็นโมเดลเหตุผลแบบ hybrid-attention ที่เป็น open-weight แรกของโลก แต่ชุมชนกลับให้ความสนใจกับคำถามเชิงปฏิบัติมากกว่า: คุณจำเป็นต้องใช้ชุดอุปกรณ์ที่มีราคาหนึ่งในสี่ล้านดอลลาร์สหรัฐจริงหรือไม่?
ข้อมูลจำเพาะหลักของ MiniMax-M1
- พารามิเตอร์ทั้งหมด: 456 พันล้าน
- พารามิเตอร์ที่ใช้งาน: 45.9 พันล้านต่อโทเค็น (สถาปัตยกรรม MoE)
- ความยาว Context: 1 ล้านโทเค็น (ใหญ่กว่า DeepSeek R1 ถึง 8 เท่า)
- สถาปัตยกรรม: Hybrid attention (87.5% linear + 12.5% softmax)
- ต้นทุนการฝึก: $534,700 USD สำหรับส่วน RL (512 H800 GPUs, 3 สัปดาห์)
- การอ้างประสิทธิภาพ: 25% ของ FLOPs ของ DeepSeek R1 ในการสร้างโทเค็น 100K
การถกเถียง 250,000 ดอลลาร์สหรัฐ เทียบกับ 8,500 ดอลลาร์สหรัฐ
คำแนะนำฮาร์ดแวร์เริ่มต้นแนะนำให้ผู้ใช้ต้องการ GPU H200 8 ตัวที่มีหน่วยความจำ 141 GB รวมประมาณ 250,000 ดอลลาร์สหรัฐ ราคาที่สูงลิ่วนี้ดึงดูดความสนใจของชุมชนทันที แต่ไม่ใช่ทุกคนที่เห็นด้วยว่าจำเป็น ผู้ใช้บางคนโต้แย้งว่า Mac Studio ที่มีหน่วยความจำ 512 GB ซึ่งมีราคาประมาณ 8,500 ดอลลาร์สหรัฐ สามารถจัดการกับโมเดลได้ดีด้วยเทคนิค quantization ที่เหมาะสม
ความไม่เห็นด้วยมีจุดศูนย์กลางอยู่ที่ model quantization - เทคนิคที่ลดความแม่นยำของน้ำหนักโมเดลเพื่อประหยัดหน่วยความจำ ในขณะที่สมาชิกชุมชนบางคนรายงานว่า Q8 quantization รักษาประสิทธิภาพที่เหมือนเดิมเกือบทั้งหมด และ Q4 แสดงการลดลงของคุณภาพที่วัดได้แต่ยอมรับได้ คนอื่นๆ ยังคงสงสัยเกี่ยวกับโมเดลที่ quantize อย่างหนักที่จะทำงานได้ดีเท่ากับโมเดลที่มีความแม่นยำเต็ม
การเปรียบเทียบข้อกำหนดด้านฮาร์ดแวร์
การติดตั้ง | ต้นทุน (USD) | หน่วยความจำ | กรณีการใช้งาน |
---|---|---|---|
GPU H200 8 ตัว | $250,000 | 141GB ต่อตัว | การประมวลผลแบบความแม่นยำเต็ม |
Mac Studio | $8,500 | 512GB unified | การประมวลผลแบบ quantized |
ตัวเลือก Quantization | - | Q8: ~ไม่สูญเสียคุณภาพ, Q4: สูญเสียที่วัดได้แต่ยอมรับได้ | การใช้งานที่คุ้มค่า |
Lightning Attention และการอ้างสิทธิ์ด้านประสิทธิภาพ
แนวทางเทคนิคของ MiniMax รวมสิ่งที่พวกเขาเรียกว่า lightning attention เข้ากับสถาปัตยกรรม hybrid Mixture-of-Experts โมเดลใช้ linear attention 87.5% และ traditional softmax attention 12.5% ซึ่งบริษัทอ้างว่าช่วยให้สามารถขยายขนาดได้อย่างมีประสิทธิภาพระหว่างการ inference พวกเขารายงานว่าโมเดลของพวกเขาใช้เพียง 25% ของการดำเนินการคำนวณเมื่อเทียบกับ DeepSeek R1 เมื่อสร้าง 100,000 โทเค็น
โมเดลรองรับความยาวบริบท 1 ล้านโทเค็นที่น่าประทับใจ - ใหญ่กว่าหน้าต่างบริบทของ DeepSeek R1 แปดเท่า ความสามารถในการรองรับบริบทที่ขยายนี้ รวมกับกลไกความสนใจของพวกเขา ทำให้โมเดลมีตำแหน่งสำหรับงานที่ซับซ้อนที่ต้องการการประมวลผลอินพุตที่กว้างขวาง
Linear attention: กลไกความสนใจที่เรียบง่ายที่ใช้ memory banks ขนาดคงที่แทนการคำนวณความสนใจข้ามโทเค็นก่อนหน้าทั้งหมด ทำให้มีประสิทธิภาพมากขึ้นสำหรับลำดับที่ยาว
ต้นทุนการฝึกและคำถามทางภูมิศาสตร์
สิ่งที่น่าสนใจที่สุดคือการอ้างสิทธิ์ของ MiniMax ที่ฝึกส่วน reinforcement learning ด้วยเพียง 534,700 ดอลลาร์สหรัฐ โดยใช้ GPU H800 512 ตัวเป็นเวลาสามสัปดาห์ ต้นทุนการฝึกที่ค่อนข้างเจียมเนื้อเจียมตัวนี้ทำให้ชุมชนตกใจ โดยบางคนสงสัยเกี่ยวกับโครงสร้างพื้นฐานและวิธีการที่ใช้เพื่อให้ได้ประสิทธิภาพดังกล่าว
ตัวตนทางภูมิศาสตร์ของบริษัทก็กลายเป็นจุดถกเถียงเช่นกัน แม้ว่าโปรไฟล์ LinkedIn ของพวกเขาจะระบุ Singapore เป็นฐาน และพวกเขาดำเนินการระหว่างประเทศผ่านหน่วยงานใน Singapore แต่บริษัทหลักดูเหมือนจะตั้งอยู่ใน Shanghai ความคลุมเครือทางภูมิศาสตร์นี้ รวมกับความสำเร็จทางเทคนิคที่น่าประทับใจและแผน IPO ที่จะมาถึงใน Hong Kong ได้เพิ่มอีกชั้นของความน่าสนใจให้กับเรื่องราวของพวกเขา
ผลการดำเนินงานที่โดดเด่นเมื่อเทียบกับคู่แข่ง
หมวดหมู่ | MiniMax-M1-80K | DeepSeek-R1-0528 | Qwen3-235B |
---|---|---|---|
AIME 2024 | 86.0 | 91.4 | 85.7 |
SWE-bench Verified | 56.0 | 57.6 | 34.4 |
Long Context (128k) | 73.4 | 51.5 | 27.7 |
TAU-bench (airline) | 62.0 | 53.5 | 34.7 |
ตัวหนาแสดงถึงประสิทธิภาพที่ดีที่สุดในหมวดหมู่นั้น
การตรวจสอบประสิทธิภาพจริง
แม้จะมีการถกเถียงเรื่องต้นทุนฮาร์ดแวร์ แต่ประสิทธิภาพ benchmark ของ MiniMax-M1 บอกเล่าเรื่องราวที่หลากหลาย แม้ว่าจะเป็นเลิศในงานบริบทยาวและแสดงประสิทธิภาพที่แข็งแกร่งใน software engineering benchmarks เช่น SWE-bench Verified แต่ก็ตามหลังคู่แข่งอย่าง DeepSeek-R1-0528 ในหลายพื้นที่สำคัญรวมถึงคณิตศาสตร์และงานเหตุผลทั่วไป
จุดแข็งของโมเดลดูเหมือนจะอยู่ในการใช้งานเฉพาะทางมากกว่าการใช้เหตุผลทั่วไป ซึ่งอาจอธิบายได้ว่าทำไมการถกเถียงเรื่องข้อกำหนดฮาร์ดแวร์จึงสำคัญมาก - ผู้ใช้ต้องการทราบว่าการลงทุนคุ้มค่าสำหรับกรณีการใช้งานเฉพาะของพวกเขาหรือไม่
ขณะที่ชุมชน AI ยังคงผลักดันไปสู่การปรับใช้โมเดลในเครื่องส่วนตัว MiniMax-M1 แสดงถึงทั้งความหวังและความท้าทายเชิงปฏิบัติของการรันระบบ AI ที่ซับซ้อนนอกสภาพแวดล้อมคลาวด์ ไม่ว่าจะต้องการงบประมาณศูนย์ข้อมูลหรือสามารถรันบนฮาร์ดแวร์ระดับผู้บริโภคขั้นสูงได้ อาจเป็นตัวกำหนดการยอมรับในโลกจริงในท้ายที่สุด
อ้างอิง: MiniMax-M1