GPU Blackwell ของ Nvidia ถูกตั้งคำถามเรื่องวิธีการทดสอบประสิทธิภาพและความท้าทายในการผลิต

ทีมชุมชน BigGo
GPU Blackwell ของ Nvidia ถูกตั้งคำถามเรื่องวิธีการทดสอบประสิทธิภาพและความท้าทายในการผลิต

สถาปัตยกรรม GPU Blackwell รุ่นล่าสุดของ Nvidia ได้จุดประกายการถกเถียงอย่างร้อนแรงในชุมชนเทคโนโลยี โดยผู้เชี่ยวชาญตั้งคำถามเกี่ยวกับความถูกต้องของแนวทางการทดสอบประสิทธิภาพในปัจจุบัน และแสดงความกังวลเกี่ยวกับความซับซ้อนในการผลิต GPU รุ่นเรือธงนี้สัญญาว่าจะมีการปรับปรุงที่สำคัญด้วย register file ขนาด 192KB และ instruction cache ขนาด 512KB แต่ผลกระทบในโลกแห่งความเป็นจริงยังคงเป็นที่ถกเถียงกัน

ข้อมูลจำเพาะหลักของ Nvidia Blackwell :

  • จำนวนทรานซิสเตอร์: 208 พันล้านตัว
  • ขนาดไดย์: 750mm²
  • กระบวนการผลิต: TSMC 4NP
  • ไฟล์รีจิสเตอร์: 192KB
  • แคช Instruction L1D: 512KB
  • ความจุแคช L2: 144MB
  • แบนด์วิดท์หน่วยความจำ: สูงสุด 5TB/s
  • ประมาณขนาดทรานซิสเตอร์: ~85nm x 85nm

การถกเถียงเรื่องการทดสอบประสิทธิภาพ OpenCL เทียบกับ CUDA

ประเด็นที่เป็นที่ถกเถียงหลักมุ่งเน้นไปที่วิธีการวัดประสิทธิภาพของ Blackwell นักวิเคราะห์เทคโนโลยีได้แสดงความกังวลว่าการประเมิน GPU หลายครั้งพึ่พาการทดสอบ OpenCL เป็นหลัก ซึ่งอาจไม่สะท้อนรูปแบบการใช้งานในโลกแห่งความเป็นจริง ปัญหานี้เกิดจากข้อเท็จจริงที่ว่าผู้เชี่ยวชาญส่วนใหญ่ที่ซื้อ GPU ของ Nvidia สำหรับงานคำนวณจริงๆ แล้วใช้เฟรมเวิร์ก CUDA หรือ HIP ซึ่งมีกระบวนการคอมไพล์ที่แตกต่างกัน

อย่างไรก็ตาม สมาชิกในชุมชนบางส่วนแย้งว่าสำหรับโค้ดการทดสอบประสิทธิภาพพื้นฐาน ความแตกต่างระหว่าง OpenCL, CUDA และ HIP นั้นน้อยมาก ความแตกต่างจะมีนัยสำคัญเฉพาะในแอปพลิเคชันที่ซับซ้อนที่เปิดใช้งานการประมวลผลหลายงานและย้ายข้อมูลจำนวนมากระหว่างงานเหล่านั้น สิ่งนี้ได้นำไปสู่การถกเถียงอย่างต่อเนื่องเกี่ยวกับว่าการวิเคราะห์ประสิทธิภาพในปัจจุบันแสดงถึงสิ่งที่ผู้ใช้สามารถคาดหวังจาก Blackwell ในการใช้งานจริงหรือไม่

OpenCL (Open Computing Language) เป็นเฟรมเวิร์กสำหรับเขียนโปรแกรมที่ทำงานบนโปรเซสเซอร์ประเภทต่างๆ ในขณะที่ CUDA เป็นแพลตฟอร์มการคำนวณแบบขนานของ Nvidia

ความซับซ้อนในการผลิตและความหนาแน่นของทรานซิสเตอร์

ข้อมูลจำเพาะทางเทคนิคของ Blackwell เผยให้เห็นตัวเลขที่น่าประทับใจ แต่ยังเน้นย้ำถึงความท้าทายในการผลิต ด้วยทรานซิสเตอร์ 208 พันล้านตัวที่บรรจุอยู่ในไดขนาด 750mm² โดยใช้กระบวนการ 4NP ของ TSMC ชิปนี้แสดงถึงความสำเร็จทางวิศวกรรมที่สำคัญ การคำนวณของชุมชนชี้ให้เห็นขนาดทรานซิสเตอร์ประมาณ 85nm x 85nm แม้ว่าผู้เชี่ยวชาญจะระบุว่าอัตราการใช้งานจริงมักจะถึงเพียง 70-75% เนื่องจากต้องมีช่องว่างที่จำเป็นสำหรับการเดินสายและข้อกำหนดในการผลิต

กระบวนการผลิตเกี่ยวข้องกับการเดินสายโลหะหลายชั้นที่ซ้อนกันเหนือทรานซิสเตอร์ สร้างโครงสร้างสามมิติที่ซับซ้อน กฎการออกแบบต้องการพื้นที่เพิ่มเติมสำหรับ antenna diode และองค์ประกอบป้องกันอื่นๆ เพื่อให้มั่นใจในการผลิตที่ประสบความสำเร็จและอัตราผลผลิตที่ดี ปัจจัยเหล่านี้มีส่วนทำให้ขนาดไดโดยรวมและต้นทุนการผลิตเพิ่มขึ้น

ห่วงโซ่อุปทานและการวางตำแหน่งในตลาด

ความพร้อมใช้งานสำหรับผู้บริโภคยังคงเป็นปัญหาที่ยืดเยื้อ โดยมีการขาดแคลนอย่างต่อเนื่องที่ส่งผลกระทบต่อตลาดเกม สาเหตุหลักดูเหมือนจะเป็นความต้องการอย่างมหาศาลจากบริษัท AI ที่เต็มใจจ่ายราคาพรีเมียมสำหรับการจัดสรรเวเฟอร์ สิ่งนี้ทำให้ GPU สำหรับผู้บริโภคมีความน่าสนใจน้อยลงในการผลิตจากมุมมองทางธุรกิจ นำไปสู่ราคาที่สูงขึ้นและความพร้อมใช้งานที่จำกัด

ความเข้าใจของฉันคือความต้องการ AI และความเต็มใจที่จะจ่ายเงินจำนวนมากสำหรับเวเฟอร์ทำให้ GPU สำหรับผู้บริโภคเป็นผลิตภัณฑ์ที่น่าสนใจน้อยลงอย่างมากในการผลิต

ปัญหาการควบคุมคุณภาพล่าสุด รวมถึง ROP (Render Output Units) ที่หายไปในการ์ดผู้บริโภคบางรุ่น ได้ทำให้สถานการณ์อุปทานซับซ้อนยิ่งขึ้น ข้อบกพร่องเหล่านี้บังคับให้มีการคืนสินค้าและแลกเปลี่ยน ทำให้เกิดความเครียดเพิ่มเติมต่อสินค้าคงคลังที่จำกัดอยู่แล้ว

ROP เป็นส่วนประกอบพิเศษใน GPU ที่รับผิดชอบการประมวลผลพิกเซลขั้นสุดท้ายและการส่งออกไปยังจอแสดงผล

การเปรียบเทียบตลาด GPU (ความหนาแน่นของพลังงาน):

  • Nvidia RTX 5090 : พลังงานสูงสุด 575W, ขนาดไดย์ 750mm²
  • Intel Core Ultra 285K : พลังงานสูงสุด 250W, ขนาดไดย์ 243mm²
  • พลังงานต่อพื้นที่: CPU ใช้พลังงานต่อ mm² มากกว่า GPU 25%
  • หมายเหตุ: CPU มีชั้นกระจายความร้อนเพิ่มเติม, GPU ใช้การระบายความร้อนแบบไดย์โดยตรง

การพิจารณาสถาปัตยกรรมในอนาคต

เมื่อมองไปข้างหน้า การถกเถียงได้เกิดขึ้นเกี่ยวกับว่า Nvidia ควรพัฒนาโปรเซสเซอร์เฉพาะทางมากขึ้นที่คล้ายกับ TPU (Tensor Processing Units) ของ Google หรือไม่ สิ่งเหล่านี้จะสามารถโปรแกรมได้น้อยกว่า แต่อาจมีประสิทธิภาพมากกว่าสำหรับงาน AI inference อย่างไรก็ตาม tensor core ปัจจุบันของ Nvidia ได้รวม systolic array ขนาดเล็กไว้แล้ว และการลงทุนในระบบนิเวศที่แข็งแกร่งของบริษัททำให้การเปลี่ยนแปลงสถาปัตยกรรมอย่างมากไม่น่าจะเกิดขึ้นในระยะใกล้

การถกเถียงสะท้อนคำถามที่กว้างขึ้นเกี่ยวกับอนาคตของการออกแบบ GPU เมื่อปริมาณงาน AI ยังคงครองตลาด ในขณะที่ Blackwell แสดงถึงวิวัฒนาการของสถาปัตยกรรม GPU แบบดั้งเดิม บางคนสงสัยว่าแนวทางเฉพาะทางมากขึ้นอาจให้บริการตลาด inference ที่เติบโตได้ดีกว่า

ฉันทามติของชุมชนชี้ให้เห็นว่าแม้ว่า Blackwell จะมีข้อมูลจำเพาะที่น่าประทับใจบนกระดาษ แต่การประเมินประสิทธิภาพในโลกแห่งความเป็นจริงยังคงท้าทายเนื่องจากข้อจำกัดในการทดสอบประสิทธิภาพและลักษณะที่ซับซ้อนของปริมาณงานการคำนวณสมัยใหม่ เมื่อสถาปัตยกรรมเติบโตและวิธีการทดสอบที่หลากหลายมากขึ้นเกิดขึ้น ภาพที่ชัดเจนกว่าของความสามารถที่แท้จริงของ Blackwell ควรจะพัฒนาขึ้น

อ้างอิง: Blackwell: Nvidia's Intensive GPU