ประสิทธิภาพ Flash Attention ของ NVIDIA RTX 5090 ต่ำกว่าที่คาดหวังแม้จะมีฮาร์ดแวร์ที่ล้ำหน้า

ทีมชุมชน BigGo

ประสิทธิภาพ Flash Attention ของ NVIDIA RTX 5090 ต่ำกว่าที่คาดหวังแม้จะมีฮาร์ดแวร์ที่ล้ำหน้า

ตลาด GPU สำหรับเกมกำลังเผชิญกับการเปลี่ยนแปลงที่น่าสนใจ เมื่อ RTX 5090 รุ่นล่าสุดของ NVIDIA เผชิญกับความท้าทายที่ไม่คาดคิดในงาน machine learning โดยเฉพาะการใช้งาน Flash Attention แม้ว่าการ์ดจะมีสเปกที่น่าประทับใจบนกระดาษ แต่ประสิทธิภาพในโลกแห่งความเป็นจริงกลับเล่าเรื่องราวที่แตกต่างออกไป ซึ่งดึงดูดความสนใจจากนักพัฒนาและนักวิจัย


การวิเคราะห์รูปแบบการเข้าถึงหน่วยความจำที่เน้นจุดคอขวดที่อาจเกิดขึ้นในงาน machine learning บน RTX 5090

ข้อจำกัดด้านประสิทธิภาพแม้จะมีฮาร์ดแวร์ขั้นสูง

ประสิทธิภาพ BF16 เชิงทฤษฎีของ RTX 5090 อยู่ที่ 209.5 TFLOPs แต่นี่คือน้อยกว่า 10% ของการ์ดระดับเซิร์ฟเวอร์ Blackwell เช่น B200 ที่ให้ประสิทธิภาพ 2,250 TFLOPs สิ่งที่น่ากังวลมากกว่าสำหรับนักพัฒนาคือประสิทธิภาพ Flash Attention บน 5090 ดูแย่กว่าการ์ดสถาปัตยกรรม Hopper รุ่นก่อนหน้า แม้จะสร้างด้วยเทคโนโลยี Blackwell ที่ใหม่กว่า

ช่องว่างด้านประสิทธิภาพนี้เกิดจากการจำกัดโดยเจตนาของ NVIDIA บนการ์ดเกม เริ่มตั้งแต่ RTX 4090 บริษัทจำกัดประสิทธิภาพ tensor core โดยเฉพาะสำหรับการฝึกอบรม machine learning การคูณเมทริกซ์ FP8 และ FP16 ทำงานด้วยความเร็วเต็มเฉพาะเมื่อสะสมใน FP16 แต่จะลดลงเหลือครึ่งความเร็วเมื่อสะสมด้วย FP32 ซึ่งเป็นข้อจำกัดที่ไม่มีในการ์ดระดับ workstation

TFLOPs: Trillion Floating Point Operations Per Second วัดประสิทธิภาพการคำนวณ Tensor Cores: หน่วยประมวลผลเฉพาะทางที่ออกแบบสำหรับการคำนวณ AI และ machine learning

การเปรียบเทียบประสิทธิภาพ: RTX 5090 vs B200

รายละเอียด	RTX 5090	B200
BF16 TFLOPs	209.5	2,250
ราคา (USD)	~$2,000	$30,000-40,000
TFLOPs ต่อ $1K	105	56
แบนด์วิดท์หน่วยความจำ	~2TB/s	ไม่ระบุ
รองรับ NVLink	ไม่รองรับ	รองรับ
FP32 Accumulation	ความเร็วครึ่งหนึ่ง	ความเร็วเต็ม

การวิเคราะห์ต้นทุน-ประสิทธิภาพเผยผลลัพธ์ที่น่าแปลกใจ

เมื่อพิจารณาประสิทธิภาพต่อดอลลาร์ เศรษฐศาสตร์จะซับซ้อนมากขึ้น RTX 5090 ให้ประสิทธิภาพประมาณ 105 TFLOPs ต่อ 1,000 ดอลลาร์สหรัฐ ในขณะที่ B200 ให้ 56 TFLOPs ต่อ 1,000 ดอลลาร์สหรัฐ โดยอิงจากราคา 30,000-40,000 ดอลลาร์สหรัฐ อย่างไรก็ตาม ข้อได้เปรียบที่ชัดเจนนี้หายไปเมื่อพิจารณาความท้าทายในการใช้งานจริง

การได้ FLOPs ต่อดอลลาร์เพียง 2 เท่าอาจไม่คุ้มค่ากับความยุ่งยากในการติดตั้ง GPU มากกว่า 10 เท่า โดยไม่มี NVLink

การขาด NVLink connectivity บนการ์ดผู้บริโภคสร้างคอขวดที่สำคัญสำหรับการตั้งค่า multi-GPU นอกจากนี้ การใช้พลังงานกลายเป็นปัจจัยสำคัญเมื่อเปรียบเทียบ B200 หนึ่งตัวกับ RTX 5090 สิบตัวที่ต้องการสำหรับพลังการคำนวณที่เทียบเท่า

NVLink: เทคโนโลยีการเชื่อมต่อความเร็วสูงของ NVIDIA สำหรับการสื่อสาร GPU-to-GPU


การแสดงภาพของการติดขัดประสิทธิภาพในสถาปัตยกรรม GPU โดยเน้นความท้าทายด้านประสิทธิภาพที่อาจเกิดขึ้นในการตั้งค่า multi-GPU

ความท้าทายในการใช้งานและวิธีแก้ไข

นักพัฒนาที่พยายามใช้งาน Flash Attention บนการ์ด RTX 5090 พบปัญหาความเข้ากันได้หลายประการ สถาปัตยกรรม Blackwell ใหม่ใช้การใช้งาน fake Blackwell โดยไม่มีการสนับสนุน tcgen05 ซึ่งจำกัดขนาดการคูณเมทริกซ์และ throughput ผ่าน tensor cores สิ่งนี้สร้างคอขวดด้านประสิทธิภาพที่ไม่คาดคิดแม้ว่าโค้ดจะคอมไพล์สำเร็จ

สถานการณ์ดีขึ้นบ้างกับการดำเนินการความแม่นยำต่ำ การคำนวณ MXFP4 สามารถทำงานด้วย throughput เต็มบน RTX 5090 แต่ต้องการเทคนิคที่ซับซ้อนมากขึ้นเพื่อรักษาเสถียรภาพการฝึกอบรม แนวโน้มปัจจุบันไปสู่การฝึกอบรมความแม่นยำต่ำอาจช่วยลดข้อจำกัดด้านประสิทธิภาพบางประการ แม้ว่าการสะสม FP32 ยังคงสำคัญสำหรับแอปพลิเคชันหลายตัว

ข้อจำกัดทางเทคนิคหลักของ RTX 5090

ข้อจำกัดของ Tensor Core: การดำเนินการ FP16/FP8 ทำงานด้วยความเร็วครึ่งหนึ่งเมื่อใช้การสะสม FP32
คุณสมบัติฮาร์ดแวร์ที่ขาดหายไป: ไม่มีการรองรับ tcgen05 ทำให้ความสามารถในการคูณเมทริกซ์มีข้อจำกัด
ไม่มี NVLink: ป้องกันการสื่อสารระหว่าง GPU หลายตัวอย่างมีประสิทธิภาพ
ปัญหา Flash Attention: ประสิทธิภาพแย่กว่าสถาปัตยกรรม Hopper รุ่นก่อนหน้า
การใช้งาน Blackwell: ใช้ Blackwell "ปลอม" โดยไม่มีชุดคุณสมบัติครบถ้วน

ผลกระทบต่อตลาดและแนวโน้มอนาคต

ลักษณะประสิทธิภาพเหล่านี้บ่งชี้ว่ากลยุทธ์ของ NVIDIA ในการแยกความแตกต่างระหว่างผลิตภัณฑ์เกมและดาต้าเซ็นเตอร์กำลังชัดเจนมากขึ้น ยุคที่การ์ดเกมเสนอทางเลือกที่คุ้มต้นทุนสำหรับงาน machine learning ดูเหมือนจะสิ้นสุดลง แม้ว่า RTX 5090 จะให้ memory bandwidth ที่เหลือเฟือใกล้ 2TB/s แต่ข้อจำกัดด้านการคำนวณทำให้มีความน่าสนใจน้อยลงสำหรับการพัฒนา AI อย่างจริงจัง

สถานการณ์นี้เน้นย้ำถึงความซับซ้อนที่เพิ่มขึ้นของการประเมินประสิทธิภาพ GPU นอกเหนือจากการนับ FLOP อย่างง่าย การคำนวณประสิทธิภาพสูงสมัยใหม่ต้องพิจารณา memory hierarchies ความสามารถ instruction dispatch และฟีเจอร์ฮาร์ดแวร์เฉพาะทางที่แตกต่างกันอย่างมากระหว่างสายผลิตภัณฑ์

สำหรับนักพัฒนาที่ทำงานกับ Flash Attention และงานที่คล้ายกัน การเลือกระหว่างฮาร์ดแวร์ผู้บริโภคและแบบมืออาชีพตอนนี้เกี่ยวข้องกับการแลกเปลี่ยนที่มีความแตกต่างมากกว่าที่การคำนวณ cost-per-FLOP อย่างง่ายอาจแนะนำ

อ้างอิง: Writing: Speed-of-Light Flash Attention for SD90 in CUDA C++

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌