Nvidia เปิดเผยรายละเอียดสถาปัตยกรรม Blackwell Ultra : เพิ่มประสิทธิภาพ NVFP4 50% และรองรับ PCIe 6.0

ทีมบรรณาธิการ BigGo
Nvidia เปิดเผยรายละเอียดสถาปัตยกรรม Blackwell Ultra : เพิ่มประสิทธิภาพ NVFP4 50% และรองรับ PCIe 6.0

ในงานประชุม Hot Chips 2025 , Nvidia ได้นำเสนอข้อมูลเชิงลึกเกี่ยวกับสถาปัตยกรรม Blackwell Ultra ของตน โดยเปิดเผยการปรับปรุงประสิทธิภาพที่สำคัญและความสามารถทางเทคโนโลยีใหม่ที่วาง GPU รุ่นล่าสุดของบริษัทไว้ในแนวหน้าของการคำนวณ AI การประกาศครั้งนี้เกิดขึ้นในขณะที่ Nvidia ยังคงครองตลาดฮาร์ดแวร์ AI แม้จะมีผลประกอบการล่าสุดที่แสดงให้เห็นความเชื่อมั่นของนักลงทุนที่หลากหลายเนื่องจากข้อจำกัดทางการค้ากับจีน

ไฮไลท์ทางการเงิน Nvidia ไตรมาสที่ 2 ปี 2025

  • รายได้รวม: 46.74 พันล้านดอลลาร์สหรัฐ (+56% เมื่อเทียบปีต่อปี)
  • รายได้จาก Datacenter: 41.1 พันล้านดอลลาร์สหรัฐ (+56% เมื่อเทียบปีต่อปี, +5% เมื่อเทียบไตรมาสก่อน)
  • กำไรสุทธิ: 26.4 พันล้านดอลลาร์สหรัฐ (+40.8% จากไตรมาสก่อนหน้า)
  • กำไรต่อหุ้น: 1.08 ดอลลาร์สหรัฐ (เทียบกับ 1.02 ดอลลาร์สหรัฐ ที่คาดการณ์ไว้)
  • อัตรากำไรขั้นต้น: 72.4% (เพิ่มขึ้นจาก 61% ในไตรมาสที่แล้ว)
  • ยอดขาย China H20: 0 ดอลลาร์สหรัฐ (เนื่องจากข้อจำกัดทางการค้า)
  • ตลาด China ที่มีศักยภาพ: 2-5 พันล้านดอลลาร์สหรัฐ หากปัญหาทางภูมิรัฐศาสตร์ได้รับการแก้ไข

การเพิ่มประสิทธิภาพ NVFP4 ด้วย Tensor Cores ที่ปรับปรุงแล้ว

GPU Blackwell Ultra B300-series มี Tensor cores ที่ปรับปรุงใหม่ซึ่งออกแบบมาเฉพาะสำหรับรูปแบบข้อมูล NVFP4 ที่เป็นกรรมสิทธิ์ของ Nvidia การปรับปรุงนี้ให้ประสิทธิภาพ NVFP4 PetaFLOPS เพิ่มขึ้นถึง 50% เมื่อเปรียบเทียบกับ Blackwell B100/B200 series มาตรฐาน อย่างไรก็ตาม การปรับปรุงนี้มาพร้อมกับการแลกเปลี่ยน เนื่องจากประสิทธิภาพ NVFP4 ที่เพิ่มขึ้นส่งผลให้ความสามารถในการคำนวณ INT8 และ FP64 ลดลง รูปแบบ NVFP4 แสดงถึงความก้าวหน้าที่สำคัญในประสิทธิภาพการประมวลผล AI โดยใช้เลย์เอาต์ E2M1 ที่กะทัดรัดพร้อมวิธีการปรับขนาดแบบคู่ที่รักษาความแม่นยำใกล้เคียงกับ BF16 ในขณะที่ลดความต้องการหน่วยความจำอย่างมาก

ข้อมูลจำเพาะทางเทคนิคของรูปแบบ NVFP4

  • โครงสร้างรูปแบบ: E2M1 (เครื่องหมาย 1 บิต, เลขชี้กำลัง 2 บิต, แมนทิสซา 1 บิต)
  • ช่วงตัวเลข: ประมาณ -6 ถึง +6
  • แนวทางการปรับขนาด: สองระดับ ( FP8 E4M3 สำหรับกลุ่มค่า 16 ค่า, ตัวคูณส่วนกลาง FP32 )
  • ประสิทธิภาพหน่วยความจำ: ต่ำกว่า FP8 1.8 เท่า, ต่ำกว่า FP16 3.5 เท่า
  • ความแม่นยำ: เบี่ยงเบนน้อยกว่า 1% เมื่อเปรียบเทียบกับ FP8 ในงานส่วนใหญ่
  • ความสามารถในการฝึกอบรม: เหมาะสมสำหรับการฝึกอบรมเบื้องต้นในระดับล้านล้านโทเค็น
การเปรียบเทียบประสิทธิภาพของ NVFP4 กับ BF16 สำหรับงาน AI แสดงให้เห็นการปรับปรุงด้านความแม่นยำและประสิทธิภาพ
การเปรียบเทียบประสิทธิภาพของ NVFP4 กับ BF16 สำหรับงาน AI แสดงให้เห็นการปรับปรุงด้านความแม่นยำและประสิทธิภาพ

การอัปเกรดหน่วยความจำและการเชื่อมต่ออย่างมีนัยสำคัญ

GPU Blackwell Ultra ขณะนี้มีหน่วยความจำ HBM3E 288 GB ซึ่งแสดงถึงการเพิ่มขึ้นอย่างมีนัยสำคัญจาก 186 GB ที่พบใน Blackwell implementations ก่อนหน้านี้ การขยายหน่วยความจำนี้ช่วยให้สามารถใช้ batch sizes ที่ใหญ่ขึ้นและลำดับที่ยาวขึ้นสำหรับ AI workloads นอกจากนี้ B300 series ยังกลายเป็น GPU ศูนย์ข้อมูลอย่างเป็นทางการรุ่นแรกที่รองรับการเชื่อมต่อ PCIe 6.0 โดยเสนอแบนด์วิดท์สองทิศทาง 128 GB/s ต่อสล็อต x16 ผ่านการส่งสัญญาณ PAM4 และการเข้ารหัสแบบ FLIT ปัจจุบันมีเพียง CPU Grace ของ Nvidia เท่านั้นที่รองรับความสามารถ PCIe 6.0 นี้ ทำให้เกิดระบบนิเวศที่บูรณาการอย่างแน่นแฟ้น

การเปรียบเทียบ Blackwell กับ Blackwell Ultra

รายละเอียด Blackwell (B100/B200) Blackwell Ultra (B300)
ประสิทธิภาพ NVFP4 มาตรฐาน เพิ่มขึ้น +50%
หน่วยความจำ HBM3E 186 GB 288 GB
การรองรับ PCIe 5.0 6.0
TDP 1,200W 1,400W
Tensor Cores มาตรฐาน ปรับแต่งสำหรับ NVFP4
ประสิทธิภาพ INT8/FP64 มาตรฐาน ลดลง

การแลกเปลี่ยนการใช้พลังงานเพื่อประสิทธิภาพที่เพิ่มขึ้น

ความสามารถที่เพิ่มขึ้นของ Blackwell Ultra มาพร้อมกับต้นทุนของการใช้พลังงานที่เพิ่มขึ้น B300 series ทำงานที่ TDP 1,400W ซึ่งแสดงถึงการเพิ่มขึ้น 200W จาก TDP 1,200W ของโปรเซสเซอร์ Blackwell มาตรฐาน การเพิ่มขึ้นของพลังงานนี้สะท้อนถึงทรัพยากรการคำนวณเพิ่มเติมและความจุหน่วยความจำที่รวมเข้าไว้ในสถาปัตยกรรม Ultra ซึ่งเน้นย้ำถึงความท้าทายที่ต่อเนื่องในการสร้างสมดุลระหว่างประสิทธิภาพกับประสิทธิภาพพลังงานในแอปพลิเคชันการคำนวณประสิทธิภาพสูง

รูปแบบ NVFP4 ที่เป็นกรรมสิทธิ์ขับเคลื่อนความได้เปรียบในการแข่งขัน

รูปแบบ NVFP4 ของ Nvidia ขยายเกินกว่าแอปพลิเคชัน inference ง่ายๆ เพื่อรองรับการ pretraining ในระดับ trillion-token การทดลองเบื้องต้นกับโมเดล 7-billion-parameter ที่ฝึกฝนด้วย 200 billion tokens แสดงผลลัพธ์ที่เทียบเคียงได้กับความแม่นยำ BF16 รูปแบบนี้บรรลุความต้องการหน่วยความจำที่ต่ำกว่า FP8 ประมาณ 1.8 เท่า และต่ำกว่า FP16 3.5 เท่า ลดค่าใช้จ่ายในการจัดเก็บและการเคลื่อนย้ายข้อมูลผ่าน NVLink และ NVSwitch fabrics อย่างมีนัยสำคัญ แม้จะเป็นกรรมสิทธิ์และจำกัดเฉพาะฮาร์ดแวร์ Nvidia แต่บริษัทกำลังบูรณาการการรองรับ NVFP4 เข้าไปในเฟรมเวิร์กโอเพนซอร์ส รวมถึง Cutclass , NCCL และ TensorRT Model Optimizer

การเปรียบเทียบคะแนนความแม่นยำที่แสดงให้เห็นประสิทธิภาพขั้นสูงของ NVFP4 เหนือ FP8 ในการประเมินโมเดลต่างๆ
การเปรียบเทียบคะแนนความแม่นยำที่แสดงให้เห็นประสิทธิภาพขั้นสูงของ NVFP4 เหนือ FP8 ในการประเมินโมเดลต่างๆ

ตำแหน่งทางการตลาดท่ามกลางความท้าทายทางการค้ากับจีน

การประกาศ Blackwell Ultra เกิดขึ้นพร้อมกับรายงานผลประกอบการล่าสุดของ Nvidia ซึ่งแสดงประสิทธิภาพที่แข็งแกร่งแต่ทำให้นักลงทุนบางรายผิดหวังเนื่องจากยอดขายชิป H20 เป็นศูนย์ให้กับลูกค้าในจีน รายได้ถึง 46.74 พันล้านดอลลาร์สหรัฐ เกินการคาดการณ์ของ Wall Street ที่ 46.52 พันล้านดอลลาร์สหรัฐ โดยรายได้จากศูนย์ข้อมูลเติบโต 56% เมื่อเทียบปีต่อปีเป็น 41.1 พันล้านดอลลาร์สหรัฐ CEO Jensen Huang เน้นย้ำว่าการผลิต Blackwell Ultra กำลังเพิ่มขึ้นด้วยความเร็วเต็มที่และความต้องการนั้นพิเศษมาก โดยวางตำแหน่งสถาปัตยกรรมใหม่เป็นศูนย์กลางของการแข่งขันโครงสร้างพื้นฐาน AI ที่กำลังดำเนินอยู่ แม้จะมีข้อจำกัดทางภูมิศาสตร์การเมืองที่ส่งผลกระทบต่อตลาดบางแห่ง