MiniMax-M1 ท้าทายข้อกำหนดฮาร์ดแวร์: ชุดอุปกรณ์ 250,000 ดอลลาร์สหรัฐ เทียบกับ Mac Studio 8,500 ดอลลาร์สหรัฐ

ทีมชุมชน BigGo
MiniMax-M1 ท้าทายข้อกำหนดฮาร์ดแวร์: ชุดอุปกรณ์ 250,000 ดอลลาร์สหรัฐ เทียบกับ Mac Studio 8,500 ดอลลาร์สหรัฐ

MiniMax ได้เปิดตัวโมเดล M1 ซึ่งเป็นโมเดลเหตุผลที่มีพารามิเตอร์ 456 พันล้านตัว ที่กำลังสร้างการถกเถียงอย่างร้อนแรงเกี่ยวกับสิ่งที่จำเป็นจริงๆ ในการรัน AI ขั้นสูงในเครื่องส่วนตัว แม้ว่าบริษัทจะอ้างว่าเป็นโมเดลเหตุผลแบบ hybrid-attention ที่เป็น open-weight แรกของโลก แต่ชุมชนกลับให้ความสนใจกับคำถามเชิงปฏิบัติมากกว่า: คุณจำเป็นต้องใช้ชุดอุปกรณ์ที่มีราคาหนึ่งในสี่ล้านดอลลาร์สหรัฐจริงหรือไม่?

ข้อมูลจำเพาะหลักของ MiniMax-M1

  • พารามิเตอร์ทั้งหมด: 456 พันล้าน
  • พารามิเตอร์ที่ใช้งาน: 45.9 พันล้านต่อโทเค็น (สถาปัตยกรรม MoE)
  • ความยาว Context: 1 ล้านโทเค็น (ใหญ่กว่า DeepSeek R1 ถึง 8 เท่า)
  • สถาปัตยกรรม: Hybrid attention (87.5% linear + 12.5% softmax)
  • ต้นทุนการฝึก: $534,700 USD สำหรับส่วน RL (512 H800 GPUs, 3 สัปดาห์)
  • การอ้างประสิทธิภาพ: 25% ของ FLOPs ของ DeepSeek R1 ในการสร้างโทเค็น 100K

การถกเถียง 250,000 ดอลลาร์สหรัฐ เทียบกับ 8,500 ดอลลาร์สหรัฐ

คำแนะนำฮาร์ดแวร์เริ่มต้นแนะนำให้ผู้ใช้ต้องการ GPU H200 8 ตัวที่มีหน่วยความจำ 141 GB รวมประมาณ 250,000 ดอลลาร์สหรัฐ ราคาที่สูงลิ่วนี้ดึงดูดความสนใจของชุมชนทันที แต่ไม่ใช่ทุกคนที่เห็นด้วยว่าจำเป็น ผู้ใช้บางคนโต้แย้งว่า Mac Studio ที่มีหน่วยความจำ 512 GB ซึ่งมีราคาประมาณ 8,500 ดอลลาร์สหรัฐ สามารถจัดการกับโมเดลได้ดีด้วยเทคนิค quantization ที่เหมาะสม

ความไม่เห็นด้วยมีจุดศูนย์กลางอยู่ที่ model quantization - เทคนิคที่ลดความแม่นยำของน้ำหนักโมเดลเพื่อประหยัดหน่วยความจำ ในขณะที่สมาชิกชุมชนบางคนรายงานว่า Q8 quantization รักษาประสิทธิภาพที่เหมือนเดิมเกือบทั้งหมด และ Q4 แสดงการลดลงของคุณภาพที่วัดได้แต่ยอมรับได้ คนอื่นๆ ยังคงสงสัยเกี่ยวกับโมเดลที่ quantize อย่างหนักที่จะทำงานได้ดีเท่ากับโมเดลที่มีความแม่นยำเต็ม

การเปรียบเทียบข้อกำหนดด้านฮาร์ดแวร์

การติดตั้ง ต้นทุน (USD) หน่วยความจำ กรณีการใช้งาน
GPU H200 8 ตัว $250,000 141GB ต่อตัว การประมวลผลแบบความแม่นยำเต็ม
Mac Studio $8,500 512GB unified การประมวลผลแบบ quantized
ตัวเลือก Quantization - Q8: ~ไม่สูญเสียคุณภาพ, Q4: สูญเสียที่วัดได้แต่ยอมรับได้ การใช้งานที่คุ้มค่า

Lightning Attention และการอ้างสิทธิ์ด้านประสิทธิภาพ

แนวทางเทคนิคของ MiniMax รวมสิ่งที่พวกเขาเรียกว่า lightning attention เข้ากับสถาปัตยกรรม hybrid Mixture-of-Experts โมเดลใช้ linear attention 87.5% และ traditional softmax attention 12.5% ซึ่งบริษัทอ้างว่าช่วยให้สามารถขยายขนาดได้อย่างมีประสิทธิภาพระหว่างการ inference พวกเขารายงานว่าโมเดลของพวกเขาใช้เพียง 25% ของการดำเนินการคำนวณเมื่อเทียบกับ DeepSeek R1 เมื่อสร้าง 100,000 โทเค็น

โมเดลรองรับความยาวบริบท 1 ล้านโทเค็นที่น่าประทับใจ - ใหญ่กว่าหน้าต่างบริบทของ DeepSeek R1 แปดเท่า ความสามารถในการรองรับบริบทที่ขยายนี้ รวมกับกลไกความสนใจของพวกเขา ทำให้โมเดลมีตำแหน่งสำหรับงานที่ซับซ้อนที่ต้องการการประมวลผลอินพุตที่กว้างขวาง

Linear attention: กลไกความสนใจที่เรียบง่ายที่ใช้ memory banks ขนาดคงที่แทนการคำนวณความสนใจข้ามโทเค็นก่อนหน้าทั้งหมด ทำให้มีประสิทธิภาพมากขึ้นสำหรับลำดับที่ยาว

ต้นทุนการฝึกและคำถามทางภูมิศาสตร์

สิ่งที่น่าสนใจที่สุดคือการอ้างสิทธิ์ของ MiniMax ที่ฝึกส่วน reinforcement learning ด้วยเพียง 534,700 ดอลลาร์สหรัฐ โดยใช้ GPU H800 512 ตัวเป็นเวลาสามสัปดาห์ ต้นทุนการฝึกที่ค่อนข้างเจียมเนื้อเจียมตัวนี้ทำให้ชุมชนตกใจ โดยบางคนสงสัยเกี่ยวกับโครงสร้างพื้นฐานและวิธีการที่ใช้เพื่อให้ได้ประสิทธิภาพดังกล่าว

ตัวตนทางภูมิศาสตร์ของบริษัทก็กลายเป็นจุดถกเถียงเช่นกัน แม้ว่าโปรไฟล์ LinkedIn ของพวกเขาจะระบุ Singapore เป็นฐาน และพวกเขาดำเนินการระหว่างประเทศผ่านหน่วยงานใน Singapore แต่บริษัทหลักดูเหมือนจะตั้งอยู่ใน Shanghai ความคลุมเครือทางภูมิศาสตร์นี้ รวมกับความสำเร็จทางเทคนิคที่น่าประทับใจและแผน IPO ที่จะมาถึงใน Hong Kong ได้เพิ่มอีกชั้นของความน่าสนใจให้กับเรื่องราวของพวกเขา

ผลการดำเนินงานที่โดดเด่นเมื่อเทียบกับคู่แข่ง

หมวดหมู่ MiniMax-M1-80K DeepSeek-R1-0528 Qwen3-235B
AIME 2024 86.0 91.4 85.7
SWE-bench Verified 56.0 57.6 34.4
Long Context (128k) 73.4 51.5 27.7
TAU-bench (airline) 62.0 53.5 34.7

ตัวหนาแสดงถึงประสิทธิภาพที่ดีที่สุดในหมวดหมู่นั้น

การตรวจสอบประสิทธิภาพจริง

แม้จะมีการถกเถียงเรื่องต้นทุนฮาร์ดแวร์ แต่ประสิทธิภาพ benchmark ของ MiniMax-M1 บอกเล่าเรื่องราวที่หลากหลาย แม้ว่าจะเป็นเลิศในงานบริบทยาวและแสดงประสิทธิภาพที่แข็งแกร่งใน software engineering benchmarks เช่น SWE-bench Verified แต่ก็ตามหลังคู่แข่งอย่าง DeepSeek-R1-0528 ในหลายพื้นที่สำคัญรวมถึงคณิตศาสตร์และงานเหตุผลทั่วไป

จุดแข็งของโมเดลดูเหมือนจะอยู่ในการใช้งานเฉพาะทางมากกว่าการใช้เหตุผลทั่วไป ซึ่งอาจอธิบายได้ว่าทำไมการถกเถียงเรื่องข้อกำหนดฮาร์ดแวร์จึงสำคัญมาก - ผู้ใช้ต้องการทราบว่าการลงทุนคุ้มค่าสำหรับกรณีการใช้งานเฉพาะของพวกเขาหรือไม่

ขณะที่ชุมชน AI ยังคงผลักดันไปสู่การปรับใช้โมเดลในเครื่องส่วนตัว MiniMax-M1 แสดงถึงทั้งความหวังและความท้าทายเชิงปฏิบัติของการรันระบบ AI ที่ซับซ้อนนอกสภาพแวดล้อมคลาวด์ ไม่ว่าจะต้องการงบประมาณศูนย์ข้อมูลหรือสามารถรันบนฮาร์ดแวร์ระดับผู้บริโภคขั้นสูงได้ อาจเป็นตัวกำหนดการยอมรับในโลกจริงในท้ายที่สุด

อ้างอิง: MiniMax-M1