ซอฟต์แวร์ ROCm ของ AMD ยังคงประสบปัญหาแม้จะมีความก้าวหน้าในฮาร์ดแวร์ MI300X

ทีมบรรณาธิการ BigGo
ซอฟต์แวร์ ROCm ของ AMD ยังคงประสบปัญหาแม้จะมีความก้าวหน้าในฮาร์ดแวร์ MI300X

AMD ยังคงเผชิญกับความท้าทายที่สำคัญในระบบนิเวศซอฟต์แวร์ แม้จะมีความก้าวหน้าที่น่าประทับใจในการพัฒนาฮาร์ดแวร์ AI ในขณะที่บริษัทได้เปิดตัวตัวเร่ง MI300X ที่มีประสิทธิภาพสูงและแพลตฟอร์ม ROCm 7 ใหม่ แต่ข้อเสนอแนะจากชุมชนเผยให้เห็นปัญหาการสนับสนุนซอฟต์แวร์ที่ยังคงมีอยู่ ซึ่งอาจขัดขวางความสามารถของ AMD ในการแข่งขันกับ NVIDIA ในตลาด AI อย่างมีประสิทธิภาพ

ข้อมูลจำเพาะหลักของ AMD MI300X:

  • หน่วยความจำ HBM3 สูงสุด 192GB (มากกว่าตัวเร่ง AI อื่นๆ)
  • แบนด์วิดท์หน่วยความจำสูงสุด 896 GB/s
  • ชิปเล็ตตัวเร่งแปดตัวที่ใช้ AMD CDNA 3 เป็นฐาน
  • อ้างว่าประสิทธิภาพ AI สูงกว่า MI250X ถึง 8 เท่า
  • อ้างว่าแบนด์วิดท์หน่วยความจำสูงกว่า NVIDIA H100 ถึง 2 เท่า
  • ความพร้อมใช้งาน: ไตรมาสที่ 4 ปี 2023

การสนับสนุนซอฟต์แวร์ยังคงไม่แน่นอน

ปัญหาหลักที่รบกวนความทะเยอทะยานด้าน AI ของ AMD มีจุดศูนย์กลางอยู่ที่ประสิทธิภาพซอฟต์แวร์ที่ไม่สม่ำเสมอ นักพัฒนาหลายคนรายงานว่าการสนับสนุน ROCm แตกต่างกันอย่างมากขึ้นอยู่กับกรณีการใช้งานเฉพาะ โดยแอปพลิเคชันบางตัวทำงานได้อย่างราบรื่น ในขณะที่อื่นๆ พบปัญหาที่สำคัญ ความไม่แน่นอนนี้ทำให้ผู้ใช้หลายคนละทิ้งโซลูชัน AMD เพื่อเลือกใช้ระบบนิเวศ CUDA ของ NVIDIA ที่เชื่อถือได้มากกว่า แม้จะมีประโยชน์ด้านประสิทธิภาพที่อาจได้จากฮาร์ดแวร์ AMD

สถานการณ์กลายเป็นที่น่ากังวลมากขึ้นเมื่อตรวจสอบการสนับสนุน GPU สำหรับผู้บริโภค AMD มีประวัติในการให้การสนับสนุนที่น่าสงสัยสำหรับการ์ดผู้บริโภคของพวกเขาในงาน AI ซึ่งสร้างอุปสรรคสำหรับนักเรียน นักวิจัย และนักพัฒนารายเล็กที่ไม่สามารถจ่ายสำหรับฮาร์ดแวร์ระดับดาต้าเซ็นเตอร์ แนวทางนี้ตรงข้ามกับกลยุทธ์ของ NVIDIA ที่มั่นใจว่า CUDA ทำงานได้ทั่วทั้งไลน์อัปผลิตภัณฑ์ของพวกเขา

คุณสมบัติของแพลตฟอร์ม ROCm 7:

  • HIP สำหรับการย้ายข้อมูลจาก CUDA ได้อย่างง่ายดาย
  • การรองรับ Python และเครื่องมือสร้างโมเดลใหม่
  • ชุดซอฟต์แวร์ Presidio พร้อมตัววิเคราะห์ประสิทธิภาพโมเดล
  • รวมคอมไพเลอร์และเอนจิ้นรันไทม์
  • ออกแบบมาเพื่อการเปลี่ยนไปใช้ฮาร์ดแวร์ AMD ได้ง่ายขึ้น
  • สัญญาว่าจะรองรับ GPU สำหรับผู้บริโภคในรุ่นที่จะออกมาในอนาคต

ปัญหาไปป์ไลน์ทางวิชาการ

จุดอ่อนที่สำคัญในกลยุทธ์ของ AMD ดูเหมือนจะเป็นการมุ่งเน้นที่จำกัดในการสร้างฐานผู้ใช้ทางวิชาการ มหาวิทยาลัยและสถาบันวิจัยมักพึ่งพาฮาร์ดแวร์เก่าที่ราคาไม่แพง ซึ่งสร้างโอกาสสำหรับ AMD ในการสร้างการรับรู้ในหมู่ผู้เชี่ยวชาญ AI ในอนาคต อย่างไรก็ตาม การเน้นของบริษัทที่โซลูชันดาต้าเซ็นเตอร์ระดับไฮเอนด์หมายความว่าพวกเขาพลาดโอกาสในการนำเครื่องมือของพวกเขาไปสู่มือของนักศึกษาปริญญาโทที่จะมีอิทธิพลต่อการตัดสินใจซื้อขององค์กรในที่สุด

ช่องว่างของระบบนิเวศซอฟต์แวร์ขยายไปเกินกว่าการทำงานพื้นฐาน ไลบรารี AI ที่ล้ำสมัยและเครื่องมือการปรับแต่งหลายตัวถูกพัฒนาในสภาพแวดล้อมทางวิชาการและสตาร์ทอัพ แต่สิ่งเหล่านี้มักจะให้ความสำคัญกับการสนับสนุน NVIDIA ก่อน สิ่งนี้สร้างวงจรที่ AMD ต้องไล่ตามอย่างต่อเนื่อง โดยการนำการสนับสนุนสำหรับนวัตกรรมที่ได้รับการยอมรับแล้วในระบบนิเวศ CUDA มาใช้

ความสำเร็จในดาต้าเซ็นเตอร์เทียบกับการละเลยผู้บริโภค

น่าสนใจที่ AMD ดูเหมือนจะทำงานได้ดีกว่ามากในการปรับใช้ดาต้าเซ็นเตอร์ขนาดใหญ่ที่พวกเขาสามารถให้การสนับสนุนทางวิศวกรรมโดยตรง การติดตั้งซูเปอร์คอมพิวเตอร์หลักแห่งใช้ตัวเร่ง AMD Instinct สำเร็จ ซึ่งแสดงให้เห็นว่าฮาร์ดแวร์และซอฟต์แวร์สามารถทำงานได้อย่างมีประสิทธิภาพเมื่อมีทรัพยากรเพียงพอที่อุทิศให้กับการนำไปใช้และการปรับแต่ง

Top500 เป็นการเปรียบเทียบที่ไม่เกี่ยวข้อง แน่นอนว่า AMD จะให้การสนับสนุนโดยตรงแก่สถาบันเดียวที่ให้เงินหลายร้อยล้านดอลลาร์และช่วยให้ผลิตภัณฑ์ของพวกเขาทำงานได้อย่างยอมรับได้

ความแตกต่างนี้เน้นคำถามเชิงกลยุทธ์พื้นฐานสำหรับ AMD ในขณะที่การมุ่งเน้นไปที่ลูกค้าดาต้าเซ็นเตอร์มูลค่าสูงอาจดูสมเหตุสมผลทางการเงินในระยะสั้น แต่อาจบ่อนทำลายการพัฒนาระบบนิเวศระยะยาวที่ต้องการการยอมรับอย่างกว้างขวางในกลุ่มผู้ใช้ต่างๆ

การมีอยู่ของ AMD ในซูเปอร์คอมพิวเตอร์ Top500:

  • 4 ระบบจากอันดับ 10 อันดับแรกทำงานบนการ์ด AMD Instinct (มิถุนายน 2025)
  • ระบบ El Capitan : ต้นทุนประมาณ 700 ล้านดอลลาร์สหรัฐ, GPU MI300 มากกว่า 50,000 ตัว
  • AMD แสดงประสิทธิภาพที่แข็งแกร่งในการติดตั้ง HPC ขนาดใหญ่
  • ตรงข้ามกับการครอบงำตลาดที่กว้างขวางของ NVIDIA ในระบบขนาดเล็กกว่า

เส้นทางข้างหน้า

การประกาศล่าสุดของ AMD เกี่ยวกับการสนับสนุน ROCm ในวันแรกสำหรับ GPU ผู้บริโภคใหม่แสดงให้เห็นว่าบริษัทอาจจะตระหนักถึงความท้าทายของระบบนิเวศเหล่านี้ อย่างไรก็ตาม เมื่อพิจารณาจากประวัติของ AMD ในปัญหาการสนับสนุนซอฟต์แวร์ หลายคนในชุมชนยังคงสงสัยว่าคำสัญญาเหล่านี้จะได้รับการปฏิบัติอย่างมีประสิทธิภาพหรือไม่

ความสำเร็จของบริษัทในพื้นที่อื่นๆ โดยเฉพาะกับ CPU Ryzen และโปรเซสเซอร์ EPYC แสดงให้เห็นว่าพวกเขาสามารถดำเนินการได้ดีในความท้าทายทางเทคนิคที่ซับซ้อน คำถามที่เหลืออยู่คือ AMD จะสามารถนำระดับการมุ่งเน้นและการลงทุนเดียวกันนี้ไปใช้กับซอฟต์แวร์สแต็ก GPU ของพวกเขาก่อนที่การนำหน้าของ NVIDIA จะกลายเป็นสิ่งที่ไม่สามารถเอาชนะได้หรือไม่

ในตอนนี้ นักพัฒนาและนักวิจัยยังคงเผชิญกับการเลือกที่ยากลำบากระหว่างประสิทธิภาพฮาร์ดแวร์ที่อาจเหนือกว่าของ AMD และระบบนิเวศซอฟต์แวร์ที่เป็นผู้ใหญ่และเชื่อถือได้มากกว่าของ NVIDIA จนกว่า AMD จะสามารถส่งมอบคุณภาพซอฟต์แวร์อย่างสม่ำเสมอทั่วทั้งช่วงผลิตภัณฑ์ของพวกเขา พวกเขาอาจต่อสู้เพื่อได้รับส่วนแบ่งตลาดที่สำคัญในภาคส่วน AI ที่เติบโตอย่างรวดเร็ว

อ้างอิง: AMD's AI Future Is Back Scale Yellow