ในงานประชุม Hot Chips 2025 , Nvidia ได้นำเสนอข้อมูลเชิงลึกเกี่ยวกับสถาปัตยกรรม Blackwell Ultra ของตน โดยเปิดเผยการปรับปรุงประสิทธิภาพที่สำคัญและความสามารถทางเทคโนโลยีใหม่ที่วาง GPU รุ่นล่าสุดของบริษัทไว้ในแนวหน้าของการคำนวณ AI การประกาศครั้งนี้เกิดขึ้นในขณะที่ Nvidia ยังคงครองตลาดฮาร์ดแวร์ AI แม้จะมีผลประกอบการล่าสุดที่แสดงให้เห็นความเชื่อมั่นของนักลงทุนที่หลากหลายเนื่องจากข้อจำกัดทางการค้ากับจีน
ไฮไลท์ทางการเงิน Nvidia ไตรมาสที่ 2 ปี 2025
- รายได้รวม: 46.74 พันล้านดอลลาร์สหรัฐ (+56% เมื่อเทียบปีต่อปี)
- รายได้จาก Datacenter: 41.1 พันล้านดอลลาร์สหรัฐ (+56% เมื่อเทียบปีต่อปี, +5% เมื่อเทียบไตรมาสก่อน)
- กำไรสุทธิ: 26.4 พันล้านดอลลาร์สหรัฐ (+40.8% จากไตรมาสก่อนหน้า)
- กำไรต่อหุ้น: 1.08 ดอลลาร์สหรัฐ (เทียบกับ 1.02 ดอลลาร์สหรัฐ ที่คาดการณ์ไว้)
- อัตรากำไรขั้นต้น: 72.4% (เพิ่มขึ้นจาก 61% ในไตรมาสที่แล้ว)
- ยอดขาย China H20: 0 ดอลลาร์สหรัฐ (เนื่องจากข้อจำกัดทางการค้า)
- ตลาด China ที่มีศักยภาพ: 2-5 พันล้านดอลลาร์สหรัฐ หากปัญหาทางภูมิรัฐศาสตร์ได้รับการแก้ไข
การเพิ่มประสิทธิภาพ NVFP4 ด้วย Tensor Cores ที่ปรับปรุงแล้ว
GPU Blackwell Ultra B300-series มี Tensor cores ที่ปรับปรุงใหม่ซึ่งออกแบบมาเฉพาะสำหรับรูปแบบข้อมูล NVFP4 ที่เป็นกรรมสิทธิ์ของ Nvidia การปรับปรุงนี้ให้ประสิทธิภาพ NVFP4 PetaFLOPS เพิ่มขึ้นถึง 50% เมื่อเปรียบเทียบกับ Blackwell B100/B200 series มาตรฐาน อย่างไรก็ตาม การปรับปรุงนี้มาพร้อมกับการแลกเปลี่ยน เนื่องจากประสิทธิภาพ NVFP4 ที่เพิ่มขึ้นส่งผลให้ความสามารถในการคำนวณ INT8 และ FP64 ลดลง รูปแบบ NVFP4 แสดงถึงความก้าวหน้าที่สำคัญในประสิทธิภาพการประมวลผล AI โดยใช้เลย์เอาต์ E2M1 ที่กะทัดรัดพร้อมวิธีการปรับขนาดแบบคู่ที่รักษาความแม่นยำใกล้เคียงกับ BF16 ในขณะที่ลดความต้องการหน่วยความจำอย่างมาก
ข้อมูลจำเพาะทางเทคนิคของรูปแบบ NVFP4
- โครงสร้างรูปแบบ: E2M1 (เครื่องหมาย 1 บิต, เลขชี้กำลัง 2 บิต, แมนทิสซา 1 บิต)
- ช่วงตัวเลข: ประมาณ -6 ถึง +6
- แนวทางการปรับขนาด: สองระดับ ( FP8 E4M3 สำหรับกลุ่มค่า 16 ค่า, ตัวคูณส่วนกลาง FP32 )
- ประสิทธิภาพหน่วยความจำ: ต่ำกว่า FP8 1.8 เท่า, ต่ำกว่า FP16 3.5 เท่า
- ความแม่นยำ: เบี่ยงเบนน้อยกว่า 1% เมื่อเปรียบเทียบกับ FP8 ในงานส่วนใหญ่
- ความสามารถในการฝึกอบรม: เหมาะสมสำหรับการฝึกอบรมเบื้องต้นในระดับล้านล้านโทเค็น
![]() |
---|
การเปรียบเทียบประสิทธิภาพของ NVFP4 กับ BF16 สำหรับงาน AI แสดงให้เห็นการปรับปรุงด้านความแม่นยำและประสิทธิภาพ |
การอัปเกรดหน่วยความจำและการเชื่อมต่ออย่างมีนัยสำคัญ
GPU Blackwell Ultra ขณะนี้มีหน่วยความจำ HBM3E 288 GB ซึ่งแสดงถึงการเพิ่มขึ้นอย่างมีนัยสำคัญจาก 186 GB ที่พบใน Blackwell implementations ก่อนหน้านี้ การขยายหน่วยความจำนี้ช่วยให้สามารถใช้ batch sizes ที่ใหญ่ขึ้นและลำดับที่ยาวขึ้นสำหรับ AI workloads นอกจากนี้ B300 series ยังกลายเป็น GPU ศูนย์ข้อมูลอย่างเป็นทางการรุ่นแรกที่รองรับการเชื่อมต่อ PCIe 6.0 โดยเสนอแบนด์วิดท์สองทิศทาง 128 GB/s ต่อสล็อต x16 ผ่านการส่งสัญญาณ PAM4 และการเข้ารหัสแบบ FLIT ปัจจุบันมีเพียง CPU Grace ของ Nvidia เท่านั้นที่รองรับความสามารถ PCIe 6.0 นี้ ทำให้เกิดระบบนิเวศที่บูรณาการอย่างแน่นแฟ้น
การเปรียบเทียบ Blackwell กับ Blackwell Ultra
รายละเอียด | Blackwell (B100/B200) | Blackwell Ultra (B300) |
---|---|---|
ประสิทธิภาพ NVFP4 | มาตรฐาน | เพิ่มขึ้น +50% |
หน่วยความจำ HBM3E | 186 GB | 288 GB |
การรองรับ PCIe | 5.0 | 6.0 |
TDP | 1,200W | 1,400W |
Tensor Cores | มาตรฐาน | ปรับแต่งสำหรับ NVFP4 |
ประสิทธิภาพ INT8/FP64 | มาตรฐาน | ลดลง |
การแลกเปลี่ยนการใช้พลังงานเพื่อประสิทธิภาพที่เพิ่มขึ้น
ความสามารถที่เพิ่มขึ้นของ Blackwell Ultra มาพร้อมกับต้นทุนของการใช้พลังงานที่เพิ่มขึ้น B300 series ทำงานที่ TDP 1,400W ซึ่งแสดงถึงการเพิ่มขึ้น 200W จาก TDP 1,200W ของโปรเซสเซอร์ Blackwell มาตรฐาน การเพิ่มขึ้นของพลังงานนี้สะท้อนถึงทรัพยากรการคำนวณเพิ่มเติมและความจุหน่วยความจำที่รวมเข้าไว้ในสถาปัตยกรรม Ultra ซึ่งเน้นย้ำถึงความท้าทายที่ต่อเนื่องในการสร้างสมดุลระหว่างประสิทธิภาพกับประสิทธิภาพพลังงานในแอปพลิเคชันการคำนวณประสิทธิภาพสูง
รูปแบบ NVFP4 ที่เป็นกรรมสิทธิ์ขับเคลื่อนความได้เปรียบในการแข่งขัน
รูปแบบ NVFP4 ของ Nvidia ขยายเกินกว่าแอปพลิเคชัน inference ง่ายๆ เพื่อรองรับการ pretraining ในระดับ trillion-token การทดลองเบื้องต้นกับโมเดล 7-billion-parameter ที่ฝึกฝนด้วย 200 billion tokens แสดงผลลัพธ์ที่เทียบเคียงได้กับความแม่นยำ BF16 รูปแบบนี้บรรลุความต้องการหน่วยความจำที่ต่ำกว่า FP8 ประมาณ 1.8 เท่า และต่ำกว่า FP16 3.5 เท่า ลดค่าใช้จ่ายในการจัดเก็บและการเคลื่อนย้ายข้อมูลผ่าน NVLink และ NVSwitch fabrics อย่างมีนัยสำคัญ แม้จะเป็นกรรมสิทธิ์และจำกัดเฉพาะฮาร์ดแวร์ Nvidia แต่บริษัทกำลังบูรณาการการรองรับ NVFP4 เข้าไปในเฟรมเวิร์กโอเพนซอร์ส รวมถึง Cutclass , NCCL และ TensorRT Model Optimizer
![]() |
---|
การเปรียบเทียบคะแนนความแม่นยำที่แสดงให้เห็นประสิทธิภาพขั้นสูงของ NVFP4 เหนือ FP8 ในการประเมินโมเดลต่างๆ |
ตำแหน่งทางการตลาดท่ามกลางความท้าทายทางการค้ากับจีน
การประกาศ Blackwell Ultra เกิดขึ้นพร้อมกับรายงานผลประกอบการล่าสุดของ Nvidia ซึ่งแสดงประสิทธิภาพที่แข็งแกร่งแต่ทำให้นักลงทุนบางรายผิดหวังเนื่องจากยอดขายชิป H20 เป็นศูนย์ให้กับลูกค้าในจีน รายได้ถึง 46.74 พันล้านดอลลาร์สหรัฐ เกินการคาดการณ์ของ Wall Street ที่ 46.52 พันล้านดอลลาร์สหรัฐ โดยรายได้จากศูนย์ข้อมูลเติบโต 56% เมื่อเทียบปีต่อปีเป็น 41.1 พันล้านดอลลาร์สหรัฐ CEO Jensen Huang เน้นย้ำว่าการผลิต Blackwell Ultra กำลังเพิ่มขึ้นด้วยความเร็วเต็มที่และความต้องการนั้นพิเศษมาก โดยวางตำแหน่งสถาปัตยกรรมใหม่เป็นศูนย์กลางของการแข่งขันโครงสร้างพื้นฐาน AI ที่กำลังดำเนินอยู่ แม้จะมีข้อจำกัดทางภูมิศาสตร์การเมืองที่ส่งผลกระทบต่อตลาดบางแห่ง