รายงาน Nvidia DGX Spark AI Box ราคา 4,000 ดอลลาร์สหรัฐ เกิดปัญหาลดความเร็วเพราะความร้อน ให้ประสิทธิภาพเพียงครึ่งเดียวของที่สัญญาไว้

ทีมบรรณาธิการ BigGo
รายงาน Nvidia DGX Spark AI Box ราคา 4,000 ดอลลาร์สหรัฐ เกิดปัญหาลดความเร็วเพราะความร้อน ให้ประสิทธิภาพเพียงครึ่งเดียวของที่สัญญาไว้

การเปิดตัว Nvidia DGX Spark ชุดพัฒนาปัญญาประดิษฐ์ขนาดกะทัดรัดราคา 4,000 ดอลลาร์สหรัฐ ต้องเผชิญกับการตรวจสอบอย่างหนักหลังจากที่มีข้อกังวลเกี่ยวกับประสิทธิภาพจากบุคคลสำคัญในวงการ ผู้ใช้รุ่นแรกๆ รวมถึง John Carmack โปรแกรมเมอร์ในตำนาน รายงานว่าอุปกรณ์มีประสิทธิภาพต่ำกว่าที่คาดอย่างมาก โดยสันนิษฐานว่ามาจากปัญหาการลดความเร็วเพราะความร้อน สร้างความคลางแคลงใจในความสามารถและศักยภาพในการเป็นโปรเซสเซอร์สำหรับแล็ปท็อปในอนาคต

การ์ดจอ Nvidia RTX 5070 Founders Edition ตัวแทนของฮาร์ดแวร์ AI ของ Nvidia ที่กำลังเผชิญกับการตรวจสอบประสิทธิภาพ
การ์ดจอ Nvidia RTX 5070 Founders Edition ตัวแทนของฮาร์ดแวร์ AI ของ Nvidia ที่กำลังเผชิญกับการตรวจสอบประสิทธิภาพ

รายงานประสิทธิภาพที่น่าตกใจจาก John Carmack

John Carmack นักพัฒนาชื่อก้องผู้อยู่เบื้องหลังเกมดังอย่าง Doom และอดีต CTO ของ Oculus VR ได้เปิดเผยปัญหาด้านประสิทธิภาพอย่างมีนัยสำคัญของ DGX Spark ที่เขาได้รับ ในการโพสต์บนโซเชียลมีเดีย Carmack ระบุว่าอุปกรณ์ดูเหมือนจะใช้พลังงานสูงสุดเพียง 100 วัตต์เท่านั้น ตัวเลขนี้อยู่ในระดับวิกฤต โดยคิดเป็นน้อยกว่าครึ่งหนึ่งของค่ากำลังไฟฟ้า 240 วัตต์ที่ถูกอ้างอิงถึงอย่างกว้างขวางในระบบ ผลโดยตรงของข้อจำกัดด้านพลังงานนี้คือการขาดหายไปของประสิทธิภาพอย่างมาก Carmack ประมาณการว่าหน่วยที่เขาใช้กำลังให้ประสิทธิภาพเพียงประมาณครึ่งหนึ่งของที่อ้างอิง ซึ่งเป็นการคำนวณจากการแปลงค่า 1 petaflop ของ FP4 แบบ sparse ที่ Nvidia โฆษณา ไปเป็นค่า BF16 แบบ dense

ประสิทธิภาพ DGX Spark ที่รายงานเทียบกับที่คาดหวัง

เมตริก รายงานโดย Carmack ที่คาดหวัง/อ้างอิงกันอย่างแพร่หลาย
การใช้พลังงาน ~100 W 240 W
ประสิทธิภาพ ~50% ของที่ระบุไว้ 1 PF sparse FP4
พฤติกรรมความร้อน ร้อนมาก รีบูตเอง N/A
ความเสถียรของระบบ ขัดข้องภายใต้การใช้งานต่อเนื่อง ทำงานได้อย่างเสถียร

ปัญหาความร้อนสูงเกินและระบบไม่เสถียร

เหนือไปจากตัวเลขประสิทธิภาพดิบ DGX Spark ยังมีรายงานว่ามีปัญหาความร้อนร้ายแรงแม้ในสถานะการทำงานที่ลดลงแล้ว Carmack บันทึกไว้ว่าอุปกรณ์ยังคงร้อนมากแม้ในระดับนี้ และเขาได้เห็นรายงานว่ามันรีสตาร์ทตัวเองโดยฉับพลันระหว่างการทำงานต่อเนื่องเป็นเวลานาน สิ่งนี้ชี้ให้เห็นว่าการออกแบบระบบระบายความร้อนของตัวเครื่องขนาดกะทัดรัดนั้นไม่เพียงพอที่จะจัดการกับความร้อนที่สร้างขึ้นโดย GB10 superchip นำไปสู่การลดความเร็วเพื่อป้องกันความเสียหาย และในกรณีที่แย่ที่สุดคือการที่ระบบหยุดทำงานกะทันหันเพื่อป้องกันความเสียหาย รายงานจากผู้ใช้เกี่ยวกับความไม่เสถียรเหล่านี้สอดคล้องกับการอภิปรายที่เพิ่มขึ้นในฟอรัมสำหรับนักพัฒนาของ Nvidia ซึ่งผู้ใช้รุ่นแรกๆ คนอื่นๆ กำลังแบ่งปันประสบการณ์ที่คล้ายกันเกี่ยวกับการขัดข้องของ GPU และการปิดตัวลงอย่างไม่คาดคิดภายใต้โหลดการคำนวณต่อเนื่อง

หัวใจของข้อโต้แย้ง: ข้อมูลจำเพาะกับการใช้งานจริง

ข้อโต้แย้งนี้ถูกเติมเชื้อเพลิงโดยความคลุมเครือในข้อมูลจำเพาะอย่างเป็นทางการของ Nvidia ขณะที่ Carmack และคนอื่นๆ อ้างอิงค่าพลังงาน 240 วัตต์ ผู้วิจารณ์ในวงการบางคนเสนอว่าตัวเลขอย่างเป็นทางการอาจจะเป็น 170 วัตต์ โดยตัวเลข 240 วัตต์อาจมาจากความจุของแหล่งจ่ายไฟที่รวมมาด้วย ยิ่งไปกว่านั้น ตัวชี้วัดประสิทธิภาพหลักของ Nvidia ที่ 1 petaflop นั้นเป็นสำหรับการคำนวณ FP4 แบบ sparse ซึ่งเป็นรูปแบบความแม่นยำต่ำพิเศษที่ใช้การเร่งความเร็วด้วยฮาร์ดแวร์เฉพาะ ประสิทธิภาพในรูปแบบที่ใช้กันทั่วไปมากขึ้นสำหรับการฝึก AI เช่น BF16 หรือ FP8 นั้นต่ำกว่าอยู่แล้วตามธรรมชาติ แต่ช่องว่างที่ผู้ใช้ประสบพบว่ากว้างกว่าที่คาดไว้มาก ชี้ให้เห็นว่ามีข้อจำกัดทางฮาร์ดแวร์หรือเฟิร์มแวร์ แทนที่จะเป็นเพียงการเข้าใจผิดในเอกสารข้อมูลจำเพาะ

ผลกระทบต่อ APU GB10/N1 สำหรับแล็ปท็อปในอนาคต

ปัญหาประสิทธิภาพและความร้อนที่รบกวน DGX Spark ได้ก่อให้เกิดคำถามอย่างจริงจังเกี่ยวกับอนาคตของเทคโนโลยีหลักของมัน GB10 superchip ที่อยู่ภายใน Spark คาดว่าจะถูกเปลี่ยนชื่อเป็น N1 เพื่อใช้ในอุปกรณ์อื่นๆ ที่สำคัญที่สุดคือการเป็น APU ประสิทธิภาพสูงสำหรับแล็ปท็อประดับพรีเมียม หากชิปตัวนี้ยังต้องต่อสู้กับการจัดการความร้อนภายในกล่องเดสก์ท็อปเฉพาะทาง ความเป็นไปได้ของการใช้งานภายในตัวเครื่องแล็ปท็อปยุคใหม่ที่บางและมีข้อจำกัดด้านความร้อนจึงเป็นที่น่าสงสัย ด้วยการผลิตบนกระบวนการ N4 ของ TSMC ชิปนี้มีขนาดค่อนข้างใหญ่และใช้พลังงานสูงสำหรับการประยุกต์ใช้บนอุปกรณ์พกพา ทำให้การระบายความร้อนที่มีประสิทธิภาพเป็นความท้าทายสำคัญ ซึ่งเหตุการณ์นี้ชี้ให้เห็นว่าอาจยังไม่สามารถจัดการได้อย่างเต็มที่

ข้อมูลจำเพาะหลักของ Nvidia DGX Spark

  • ชิปหลัก: Grace Blackwell GB10 Superchip
  • CPU: 20-core Arm-based Nvidia Grace CPU
  • หน่วยความจำ: 128GB unified LPDDR5X
  • แบนด์วิดท์หน่วยความจำ: 273 GB/s
  • ประสิทธิภาพการคำนวณที่โฆษณา: 1 Petaflop (FP4 with sparsity)
  • ราคา: 4,000 ดอลลาร์สหรัฐ
  • ขนาดและรูปแบบ: mini-PC ขนาดกะทัดรัด 150mm

ปฏิกิริยาจากวงการและความเคลื่อนไหวของคู่แข่ง

การอภิปรายที่จุดประกายโดยโพสต์ของ Carmack ไม่ได้ถูกเพิกเฉยโดยคู่แข่งของ Nvidia ในการพัฒนาที่น่าสนใจ ตัวแทนจาก Framework และ AMD เข้ามามีส่วนร่วมในการสนทนาโดยตรง Framework เสนอที่จะจัดหาระบบพัฒนาที่ใช้พลังงานจาก APU Strix Halo ของ AMD ที่จะมาถึงให้แก่ Carmack เพื่อการเปรียบเทียบ Anush Elangovan ผู้บริหารระดับสูงของ AMD ยังได้ขยายผลนี้โดยการแถลงการณ์公開ว่าพวกเขาพร้อมที่จะสนับสนุนการสำรวจแพลตฟอร์ม Strix Halo ของ Carmack การตอบสนองที่รวดเร็วนี้เน้นย้ำถึงแรงกดดันในการแข่งขันในพื้นที่ฮาร์ดแวร์สำหรับ AI และนำเสนอทางเลือกที่เป็นไปได้สำหรับนักพัฒนาที่ผิดหวังกับประสิทธิภาพในยุคแรกของ DGX Spark

จุดเริ่มต้นที่ขรุขระสำหรับแพลตฟอร์มที่เต็มไปด้วยคำมั่นสัญญา

โดยสรุปแล้ว Nvidia DGX Spark กำลังเผชิญกับความท้าทายอย่างมีนัยสำคัญหลังจากการเปิดตัว การรวมกันของรายงานจากผู้พัฒนาที่มีชื่อเสียงเช่น John Carmack หลักฐานของการลดความเร็วเพราะความร้อน และกรณีที่เกิดขึ้นของความไม่เสถียรของระบบ วาดภาพของผลิตภัณฑ์ที่อาจถูกผลักดันให้ทำงานเกินขีดจำกัดด้านความร้อนที่ตั้งเป้าไว้ แม้ว่าแนวคิดของอุปกรณ์ในการเสนอพลังการคำนวณสำหรับ AI อย่างมากในรูปแบบ mini-PC จะน่าสนใจ แต่การดำเนินงานในปัจจุบันยังอยู่ภายใต้ความคลุมเครือ Nvidia ยังไม่ได้ออกมาแก้ไขข้อกังวลที่เพิ่มขึ้นนี้อย่างเป็นทางการ และวิธีการที่บริษัทตอบสนองจะเป็นสิ่งสำคัญสำหรับการฟื้นฟูความเชื่อมั่นของนักพัฒนา ไม่เพียงแต่สำหรับ DGX Spark เท่านั้น แต่สำหรับอนาคตบนอุปกรณ์พกพาของสถาปัตยกรรม GB10/N1 ในวงกว้างด้วย