NVIDIA DGX Spark ถูกจับตาจากชุมชน: ข้อสงสัยเรื่องประสิทธิภาพและราคาเริ่มปรากฏ

ทีมชุมชน BigGo
NVIDIA DGX Spark ถูกจับตาจากชุมชน: ข้อสงสัยเรื่องประสิทธิภาพและราคาเริ่มปรากฏ

NVIDIA DGX Spark เคยสัญญาว่าจะนำสมรรถนะ AI ระดับซูเปอร์คอมพิวเตอร์มาไว้ในเวิร์กสเตชันระดับเดสก์ท็อป แต่การทดสอบล่าสุดจากชุมชนได้เผยให้เห็นช่องว่างด้านประสิทธิภาพที่น่าประหลาดใจ และจุดประกายการถกเถียงอย่างหนักเกี่ยวกับมูลค่าของผลิตภัณฑ์ แม้ว่าระบบ AI ขนาดกะทัดรัดจาก NVIDIA จะมาพร้อมสเปกที่น่าประทับใจ รวมถึงหน่วยความจำแบบรวมขนาด 128GB และการเชื่อมต่อภายในระบบความเร็ว 200Gbps แต่การทดสอบโดยอิสระชี้ให้เห็นว่ามันอาจจะแข่งขันได้ยาก ทั้งกับ GPU ระดับผู้บริโภคและระบบทางเลือกอื่นๆ ในงานประมวลผล推断 (inference) แบบเรียลไทม์

บรรจุภัณฑ์ของ NVIDIA DGX Spark ซึ่งเป็นสัญลักษณ์ของความมุ่งมั่นของแบรนด์ในด้านประสิทธิภาพ AI ในเวิร์กสเตชันแบบเดสก์ท็อป
บรรจุภัณฑ์ของ NVIDIA DGX Spark ซึ่งเป็นสัญลักษณ์ของความมุ่งมั่นของแบรนด์ในด้านประสิทธิภาพ AI ในเวิร์กสเตชันแบบเดสก์ท็อป

แนวทางการวัดประสิทธิภาพจุดประกายความขัดแย้ง

แบนด์วิธหน่วยความจำของ DGX Spark ที่ 273 GB/s ถูกเปิดเผยจากการทดสอบของชุมชนว่าเป็นจุดบกพร่องสำคัญ ผู้แสดงความคิดเห็นหนึ่งรายระบุว่า RTX 5090 มีแบนด์วิธหน่วยความจำที่ 1792 GB/s ในขณะที่ DGX Spark มีเพียง 273 GB/s ซึ่งคิดเป็นประมาณ 1/6.5 เท่า ความแตกต่างอย่างมากนี้แสดงให้เห็นอย่างชัดเจนในผลการทดสอบมาตรฐาน โดย Spark ให้ผลเพียง 94.67 โทเคนต่อวินาทีสำหรับการเติมข้อมูลล่วงหน้า (prefill) และ 11.66 โทเคนต่อวินาทีสำหรับการถอดรหัส (decode) เมื่อรันโมเดล GPT-OSS 120B โดยใช้ Ollama ตัวเลขเหล่านี้ดูต่ำกว่าความคาดหมายเมื่อเปรียบเทียบกับระบบอื่นๆ อย่าง AMD Strix Halo ซึ่งรายงานว่าสามารถทำได้ถึง 420 โทเคนต่อวินาทีสำหรับ prefill และมากกว่า 40 โทเคนต่อวินาทีสำหรับ decode สำหรับโมเดลเดียวกัน

มีผลการทดสอบบน reddit: สรุปสั้นๆ คือมันถูก Strix Halo ทำลายอย่างราบคาบ ในราคาที่เพียงครึ่งเดียว

แม้แต่วิธีologyการทดสอบเองก็ถูกตั้งคำถาม โดยผู้เชี่ยวชาญหลายท่านแนะนำว่าการใช้ llama.cpp แทน Ollama อาจจะแสดงให้เห็นประสิทธิภาพที่ดีกว่าอย่างมีนัยสำคัญ ผู้แสดงความคิดเห็นที่ระบุตัวตนว่าเป็นผู้สร้าง llama.cpp ได้แชร์ผลการทดสอบตัวอย่าง ซึ่งแสดงให้เห็นว่าโมเดล GPT-OSS 120B บนระบบ Spark ของพวกเขาสามารถทำได้ที่ 1792.32 โทเคนต่อวินาทีสำหรับ prefill และ 38.54 โทเคนต่อวินาทีสำหรับ decode ซึ่งสูงกว่าตัวเลขที่รายงานในการรีวิวเดิมอย่างมาก

การเปรียบเทียบประสิทธิภาพ (GPT-OSS 120B)

  • DGX Spark (Ollama): 94.67 tps prefill / 11.66 tps decode
  • DGX Spark (llama.cpp): 1792.32 tps prefill / 38.54 tps decode
  • Strix Halo: ~420 tps prefill / >40 tps decode
  • RTX 5090: ~4100 tps prefill / ~40 tps decode

ราคาและมูลค่าถูกตั้งคำถาม

ในราคา 4,000 ดอลลาร์สหรัฐ DGX Spark อยู่ในกลุ่มราคาที่มีการแข่งขันสูง ซึ่งรวมถึง RTX 5090 ของ NVIDIA เองในราคาประมาณ 2,000 ดอลลาร์สหรัฐ และระบบ AMD Strix Halo ในช่วงราคา 1,800-2,000 ดอลลาร์สหรัฐ สมาชิกในชุมชนต่างตั้งข้อสังเกตอย่างรวดเร็วว่าระบบที่สร้างขึ้นรอบๆ RTX 5090 จะให้ประสิทธิภาพ GPU และแบนด์วิธหน่วยความจำที่สูงกว่าอย่างมาก แม้ว่าจะถูกจำกัดอยู่ที่ VRAM 32GB ก็ตาม หน่วยความจำแบบรวมขนาด 128GB ยังคงเป็นข้อได้เปรียบหลักของ Spark สำหรับการรันโมเดลขนาดใหญ่มากๆ ที่ไม่สามารถใส่ลงในหน่วยความจำของ GPU แบบไม่ต่อเนื่องได้

การเปรียบเทียบกับระบบนิเวศของ Apple ก็ก่อให้เกิดการอภิปรายอย่างมีนัยสำคัญเช่นกัน ในขณะที่ Mac Studio พร้อมหน่วยความจำแบบรวม 128GB มีราคา 3,499 ดอลลาร์สหรัฐ ผู้แสดงความคิดเห็นระบุว่าความเข้ากันได้กับ CUDA ทำให้ระบบ NVIDIA เข้าถึงระบบนิเวศของเครื่องมือและเฟรมเวิร์ก AI ที่กว้างกว่ามาก อย่างไรก็ตาม บางส่วนก็ตั้งคำถามว่าทำไมการทดสอบเดิมจึงไม่รวมเฟรมเวิร์ก MLX ของ Apple ซึ่งอาจจะแสดงประสิทธิภาพที่ดียิ่งขึ้นสำหรับระบบ Mac ในงานประมวลผล推断 AI

การเปรียบเทียบราคา

  • DGX Spark: $4,000 USD
  • RTX 5090: ~$2,000 USD
  • Strix Halo: $1,800-$2,000 USD
  • Mac Studio (128GB): $3,499 USD
ดีไซน์ที่กะทัดรัดและเรียบหรูของฮาร์ดแวร์ของ Apple ซึ่งทำหน้าที่เป็นมาตรฐานการแข่งขันเทียบกับข้อเสนอคุณค่าของ NVIDIA DGX Spark
ดีไซน์ที่กะทัดรัดและเรียบหรูของฮาร์ดแวร์ของ Apple ซึ่งทำหน้าที่เป็นมาตรฐานการแข่งขันเทียบกับข้อเสนอคุณค่าของ NVIDIA DGX Spark

ข้อมูลเชิงเทคนิคและมุมมองทางเลือก

เหนือกว่าแค่ตัวเลขประสิทธิภาพดิบๆ ชุมชนได้ระบุปัจจัยทางเทคนิคหลายประการที่อาจอธิบายลักษณะเฉพาะของ DGX Spark การใช้หน่วยความจำ LPDDR5x ในขณะที่ให้ความจุขนาดใหญ่ในฟอร์มแฟกเตอร์กะทัดรัด ก็จำกัดแบนด์วิธโดยธรรมชาติเมื่อเทียบกับหน่วยความจำ GDDR7 ที่ใช้ใน GPU แบบไม่ต่อเนื่อง ทางเลือกในการออกแบบนี้สะท้อนถึงตำแหน่งของ Spark ในฐานะแพลตฟอร์มสำหรับการพัฒนาและสร้างต้นแบบ มากกว่าที่จะเป็นเซิร์ฟเวอร์推断สำหรับการใช้งานจริง

ขีดความสามารถในการเชื่อมต่อภายในระบบได้รับคำชม โดยผู้แสดงความคิดเห็นหนึ่งรายระบุว่า Spark มีการเชื่อมต่อภายในที่เร็วมาก การเชื่อมต่อภายในแบบที่คุณอยากจะใช้ในศูนย์ข้อมูล AI จริงๆ ดังนั้นคุณจึงสามารถใช้ Spark มากกว่าหนึ่งตัวในเวลาเดียวกันได้ พอร์ต QSFP คู่ที่รองรับแบนด์วิธรวม 200Gbps ช่วยให้ Spark หลายตัวสามารถทำงานร่วมกันเป็นคลัสเตอร์ขนาดเล็กได้ ซึ่งมีศักยภาพที่จะเอาชนะข้อจำกัดของแต่ละหน่วยสำหรับเวิร์กโหลด推断แบบกระจาย

การเปรียบเทียบแบนด์วิดท์หน่วยความจำ

  • DGX Spark: 273 GB/s (LPDDR5x)
  • RTX 5090: 1792 GB/s (GDDR7)
  • Strix Halo: 256 GB/s (DDR5)

สรุป

DGX Spark เป็นตัวแทนของความสมดุลที่น่าสนใจระหว่างการเข้าถึงและประสิทธิภาพในแวดวงฮาร์ดแวร์ AI ในขณะที่การทดสอบจากชุมชนได้เปิดเผยข้อกังวลที่มีเหตุผลเกี่ยวกับประสิทธิภาพการ推断เมื่อเทียบกับระบบคู่แข่ง แต่การผสมผสานที่เป็นเอกลักษณ์ระหว่างหน่วยความจำแบบรวมขนาดใหญ่ การเชื่อมต่อภายในความเร็วสูง และฟอร์มแฟกเตอร์กะทัดรัดของแพลตฟอร์มนี้ อาจยังทำให้มันมีคุณค่าสำหรับกรณีใช้เฉพาะทาง เมื่อการสนับสนุนซอฟต์แวร์มีความสมบูรณ์มากขึ้นและวิธีologyการทดสอบดีขึ้น ความสามารถที่แท้จริงของระบบที่ไม่ธรรมดานี้ก็มีแนวโน้มที่จะชัดเจนขึ้น ในตอนนี้ ฉันทามติของชุมชนชี้ให้เห็นว่าผู้ซื้อที่มีศักยภาพควรประเมินความต้องการเวิร์กโหลดเฉพาะของพวกเขาอย่างรอบคอบ ก่อนที่จะเลือก Spark แทนที่ทางเลือกแบบดั้งเดิมอื่นๆ

อ้างอิง: NVIDIA DGX Spark In-Depth Review: A New Standard for Local AI Inference