เฟรมเวิร์ก MLX ของ Apple ได้รับการสนับสนุน CUDA Backend สำหรับการพัฒนาข้ามแพลตฟอร์ม

ทีมชุมชน BigGo

เฟรมเวิร์ก MLX ของ Apple ได้รับการสนับสนุน CUDA Backend สำหรับการพัฒนาข้ามแพลตฟอร์ม

เฟรมเวิร์กแมชชีนเลิร์นนิง MLX ของ Apple กำลังได้รับการอัปเกรดครั้งสำคัญด้วยการเพิ่มการสนับสนุน CUDA backend ซึ่งเปิดโอกาสใหม่ให้กับนักพัฒนาที่ทำงานข้ามแพลตฟอร์มฮาร์ดแวร์ต่างๆ การพัฒนานี้ช่วยให้โค้ดที่เขียนสำหรับเฟรมเวิร์ก MLX ของ Apple สามารถทำงานบนระบบที่ใช้ GPU ของ NVIDIA ได้ ซึ่งเป็นการเชื่อมช่องว่างระหว่าง Apple Silicon และสภาพแวดล้อมการคอมพิวติ้งแบบ CUDA ดั้งเดิม

การดำเนินการนี้แสดงถึงแนวทางการเขียนครั้งเดียวแล้วใช้งานได้ทุกที่ ซึ่งอาจเปลี่ยนแปลงวิธีที่นักพัฒนาเข้าถึงโปรเจกต์แมชชีนเลิร์นนิง แทนที่จะถูกจำกัดอยู่ในระบบนิเวศฮาร์ดแวร์เดียว นักพัฒนาสามารถเขียนโค้ด MLX บนอุปกรณ์ Apple และนำไปใช้งานบนเซิร์ฟเวอร์ที่มีพลัง NVIDIA หรือโครงสร้างพื้นฐานคลาวด์ได้

ประโยชน์ของการพัฒนาข้ามแพลตฟอร์ม

การรวม CUDA backend เข้าด้วยกันแก้ไขจุดเจ็บปวดทั่วไปในชุมชนแมชชีนเลิร์นนิง นักวิจัยและนักพัฒนาหลายคนชอบทำงานบน MacBook เนื่องจากความสะดวกในการพกพาและสถาปัตยกรรมหน่วยความจำแบบรวม แต่มักต้องนำโมเดลไปใช้งานบนฮาร์ดแวร์ NVIDIA ประสิทธิภาพสูงสำหรับการฝึกหรือการอนุมานในระดับใหญ่ ความสามารถใหม่นี้ช่วยขจัดความจำเป็นในการเขียนโค้ดใหม่เมื่อย้ายระหว่างแพลตฟอร์ม

การสนับสนุนหน่วยความจำแบบรวมมีความน่าสนใจเป็นพิเศษ เนื่องจากการดำเนินการของ CUDA จัดการการคัดลอกข้อมูลระหว่าง CPU และ GPU โดยอัตโนมัติเมื่อฮาร์ดแวร์ไม่มีหน่วยความจำแบบรวม ซึ่งหมายความว่านักพัฒนาสามารถรักษาโมเดลการเขียนโปรแกรมเดียวกันข้ามการกำหนดค่าฮาร์ดแวร์ต่างๆ แม้ว่าลักษณะประสิทธิภาพอาจแตกต่างกัน

หน่วยความจำแบบรวม: ระบบที่ CPU และ GPU ใช้พื้นที่หน่วยความจำเดียวกัน ช่วยขจัดความจำเป็นในการถ่ายโอนข้อมูลอย่างชัดเจนระหว่างโปรเซสเซอร์

คุณสมบัติของ MLX CUDA Backend

การรองรับ Unified Memory: การจัดการข้อมูลอัตโนมัติระหว่าง CPU และ GPU
การพัฒนาข้ามแพลตฟอร์ม: เขียนโค้ดบน Apple Silicon แล้วนำไปใช้งานบนฮาร์ดแวร์ NVIDIA
การดำเนินการพื้นฐาน: มีฟังก์ชัน copyto(), memset(), add(), mul() ที่ถูกพัฒนาแล้ว
ความเข้ากันได้กับ CUDA 12: รองรับสถาปัตยกรรม SM 7.0 ( Volta ) และรุ่นที่ใหม่กว่า
การรองรับแพลตฟอร์ม Linux: ช่วยให้สามารถนำ MLX ไปใช้งานบนระบบ Linux ที่มี CUDA

การดำเนินการทางเทคนิคและข้อพิจารณาด้านประสิทธิภาพ

CUDA backend ใช้ประโยชน์จาก unified memory API ของ NVIDIA เพื่อให้การจัดการข้อมูลแบบโปร่งใสข้ามขอบเขต CPU และ GPU อย่างไรก็ตาม การอภิปรายในชุมชนเผยให้เห็นข้อกังวลด้านประสิทธิภาพบางประการ โดยเฉพาะอย่างยิ่งเกี่ยวกับข้อจำกัดแบนด์วิดท์หน่วยความจำและการหยุดชะงักที่อาจเกิดขึ้นระหว่างการดำเนินการคัดลอกข้อมูลอัตโนมัติ

การหยุดชะงักของหน่วยความจำเกิดขึ้นทุกที่ ทำให้รู้สึกหงุดหงิดที่ไม่มีแม้แต่ prefetcher

การเปรียบเทียบประสิทธิภาพเน้นความแตกต่างที่สำคัญในแบนด์วิดท์หน่วยความจำระหว่างแพลตฟอร์ม ในขณะที่ M3 Ultra ของ Apple ให้แบนด์วิดท์หน่วยความจำ 800 GB/s GPU ล่าสุดของ NVIDIA เช่น RTX 5090 ให้แบนด์วิดท์สูงถึง 1,792 GB/s ความแตกต่างนี้หมายความว่าแอปพลิเคชันที่ใช้หน่วยความจำมาก เช่น การฝึกโมเดลภาษาขนาดใหญ่ อาจเห็นความแตกต่างด้านประสิทธิภาพอย่างมากระหว่างแพลตฟอร์ม

แบนด์วิดท์หน่วยความจำ: อัตราที่ข้อมูลสามารถอ่านจากหรือเขียนไปยังหน่วยความจำ วัดเป็นกิกะไบต์ต่อวินาที (GB/s)

การเปรียบเทียบแบนด์วิดท์หน่วยความจำ

แพลตฟอร์ม	แบนด์วิดท์หน่วยความจำ
NVIDIA RTX 5090	1,792 GB/s
Apple M3 Ultra	800 GB/s
AMD Strix Halo	200 GB/s

ผลกระทบเชิงกลยุทธ์ต่อระบบนิเวศ AI

การพัฒนานี้เกิดขึ้นในช่วงที่ความหลากหลายของฮาร์ดแวร์ในการคอมพิวติ้ง AI เพิ่มขึ้น โปรเซสเซอร์ Strix Halo ใหม่ของ AMD เสนอแบนด์วิดท์หน่วยความจำ 200 GB/s ในราคาระดับผู้บริโภค ในขณะที่ Apple ยังคงปรับปรุงซิลิคอนของตนสำหรับงาน AI ความสามารถในการเขียนโค้ด MLX แบบพกพาได้อาจเสริมสร้างตำแหน่งของ Apple ในระบบนิเวศการพัฒนา AI

การเคลื่อนไหวนี้ยังสะท้อนแนวโน้มในอุตสาหกรรมที่กว้างขึ้นไปสู่การแยกฮาร์ดแวร์ในเฟรมเวิร์กแมชชีนเลิร์นนิง ด้วยการสนับสนุน backend หลายตัว MLX เข้าร่วมกับเฟรมเวิร์กเช่น PyTorch และ TensorFlow ในการเสนอความยืดหยุ่นให้กับนักพัฒนาในการเลือกฮาร์ดแวร์โดยไม่ต้องเสียสละความสามารถในการพกพาโค้ด

การตอบรับจากชุมชนและแนวโน้มในอนาคต

ชุมชนแมชชีนเลิร์นนิงตอบสนองต่อการประกาศนี้ในแง่บวก โดยเฉพาะอย่างยิ่งชื่นชมศักยภาพสำหรับเวิร์กโฟลว์การพัฒนาที่ราบรื่น ความสามารถในการสร้างต้นแบบบนฮาร์ดแวร์ Apple ที่ประหยัดพลังงานในขณะที่นำไปใช้งานบนระบบ NVIDIA ประสิทธิภาพสูงแก้ไขความท้าทายเวิร์กโฟลว์ที่มีมายาวนาน

อย่างไรก็ตาม สมาชิกชุมชนบางคนแสดงความกังวลเกี่ยวกับการปรับปรุงประสิทธิภาพและว่าชั้นการแยกอาจแนะนำค่าใช้จ่ายเพิ่มเติมที่ส่งผลกระทบต่อประสิทธิภาพการฝึก ความสำเร็จของการดำเนินการนี้จะขึ้นอยู่กับว่ามันจัดการกับงานในโลกแห่งความเป็นจริงได้ดีเพียงใดและสามารถรักษาประสิทธิภาพที่แข่งขันได้ข้ามแพลตฟอร์มฮาร์ดแวร์ต่างๆ

เมื่อภูมิทัศน์ฮาร์ดแวร์ AI ยังคงพัฒนาต่อไป เครื่องมือความเข้ากันได้ข้ามแพลตฟอร์มเช่น CUDA backend สำหรับ MLX นี้อาจมีความสำคัญมากขึ้นสำหรับนักพัฒนาที่ต้องการเพิ่มความยืดหยุ่นให้สูงสุดในขณะที่ลดค่าใช้จ่ายการพัฒนาให้น้อยที่สุด

อ้างอิง: [WIP] CUDA backend #1963

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌