ภาษาโปรแกรม Gluon สำหรับ GPU เกิดขึ้นเป็นทางเลือกระดับต่ำกว่า Triton สำหรับเคอร์เนลประสิทธิภาพสูง

ทีมชุมชน BigGo

ภาษาโปรแกรม Gluon สำหรับ GPU เกิดขึ้นเป็นทางเลือกระดับต่ำกว่า Triton สำหรับเคอร์เนลประสิทธิภาพสูง

ภูมิทัศน์การเขียนโปรแกรม GPU กำลังเผชิญกับการพัฒนาที่สำคัญอีกครั้งด้วยการเปิดตัว Gluon ภาษาโปรแกรมใหม่ที่สัญญาว่าจะให้นักพัฒนาควบคุมการปรับแต่งเคอร์เนล GPU ได้ละเอียดยิ่งขึ้น สร้างขึ้นบนพื้นฐานคอมไพเลอร์เดียวกันกับ Triton โดย Gluon แสดงถึงการเปลี่ยนแปลงเชิงกลยุทธ์ไปสู่การเปิดเผยรายละเอียดฮาร์ดแวร์ระดับต่ำที่เคยถูกซ่อนไว้

การเปรียบเทียบ Gluon กับ Triton

ระดับการแยกแยะ (Abstraction Level): Gluon เปิดเผยรายละเอียดระดับต่ำ (การจัดวาง tile การจัดสรรหน่วยความจำ การเคลื่อนย้ายข้อมูล) ในขณะที่ Triton ซ่อนรายละเอียดเหล่านี้ไว้
รูปแบบการเขียนโปรแกรม: ทั้งคู่ใช้แนวทาง tile-based SPMD (Single Program, Multiple Data)
ไวยากรณ์: ทั้งคู่เป็น Python-based DSLs ที่มี decorator และ kernel launch interfaces ที่คล้ายกัน
การควบคุมประสิทธิภาพ: Gluon อนุญาตให้ปรับแต่งได้อย่างละเอียด ส่วน Triton พึ่งพาการทำงานอัตโนมัติของคอมไพเลอร์
เส้นโค้งการเรียนรู้: Gluon ต้องการความรู้เกี่ยวกับฮาร์ดแวร์ GPU ที่ลึกซึ้งกว่า Triton

ข้อจำกัดด้านประสิทธิภาพผลักดันความต้องการการควบคุมระดับต่ำ

ชุมชนนักพัฒนาได้ระบุความท้าทายด้านประสิทธิภาพที่เพิ่มขึ้นกับแนวทางการเขียนโปรแกรม GPU ระดับสูงที่มีอยู่ ในขณะที่ Triton สามารถแยกรายละเอียดที่ซับซ้อนหลายอย่างเช่นการจัดสรรหน่วยความจำและการเคลื่อนย้ายข้อมูลได้สำเร็จ แต่การแยกนี้มาพร้อมกับต้นทุน เมื่อการปรับแต่งอัตโนมัติของคอมไพเลอร์ไม่สามารถทำงานได้ดีเท่ากับโค้ดที่ปรับแต่งด้วยมือ นักพัฒนาพบว่าตัวเองมีตัวเลือกที่จำกัดสำหรับการปรับปรุง การอภิปรายของชุมชนเผยให้เห็นว่าการบรรลุประสิทธิภาพมากกว่า 80% ของความเร็วแสงบนฮาร์ดแวร์ใหม่อย่าง Blackwell กำลังกลายเป็นเรื่องยากขึ้นเรื่อยๆ ด้วยเทคโนโลยีคอมไพเลอร์ middle-end ปัจจุบัน

การตอบสนองเชิงกลยุทธ์ต่อแรงกดดันจากการแข่งขัน

ช่วงเวลาการเปิดตัว Gluon ดูเหมือนจะเชื่อมโยงอย่างใกล้ชิดกับพลวัตของอุตสาหกรรมในวงกว้าง ระบบนิเวศการเขียนโปรแกรม GPU เผชิญแรงกดดันที่เพิ่มขึ้นจากหลายทิศทาง รวมถึงโซลูชันเฉพาะผู้ขายอย่าง Tilus ของ NVIDIA และการนำแพลตฟอร์มทางเลือกมาใช้ที่เพิ่มขึ้น บริษัทเทคโนโลยีใหญ่ๆ กำลังพัฒนาชิป AI เฉพาะของตัวเอง ลดการพึ่งพาผู้ขาย GPU แบบดั้งเดิม ภูมิทัศน์การแข่งขันนี้สร้างความเร่งด่วนในการรักษาความเกี่ยวข้องของระบบนิเวศในขณะที่มอบเครื่องมือประสิทธิภาพที่นักพัฒนาต้องการ

สถาปัตยกรรมทางเทคนิคและประสบการณ์นักพัฒนา

Gluon รักษาไวยากรณ์ที่คุ้นเคยแบบ Python ในขณะที่เปิดเผยรายละเอียดการใช้งานที่เคยถูกซ่อนไว้ นักพัฒนาสามารถควบคุมเลย์เอาต์ไทล์ รูปแบบการจัดสรรหน่วยความจำ และการดำเนินการแบบอะซิงโครนัสได้โดยตรง ภาษานี้รองรับโมเดลการเขียนโปรแกรม tile-based SPMD เดียวกันที่ผู้ใช้ Triton รู้จัก แต่ต้องการความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับสถาปัตยกรรมฮาร์ดแวร์ GPU เบนช์มาร์กเบื้องต้นแสดงให้เห็นว่าการใช้งาน memcpy พื้นฐานบรรลุ 666 GB/s บนฮาร์ดแวร์ GB200 แม้ว่าจะยังไม่ถึงแบนด์วิดท์สูงสุดตามทฤษฎี 8 TB/s ซึ่งเน้นย้ำโอกาสในการปรับแต่งผ่านการควบคุมระดับต่ำที่เปิดเผย

ผลการทดสอบประสิทธิภาพ

ฮาร์ดแวร์: GPU GB200
การทดสอบ: การดำเนินการ Memcpy กับข้อมูล 8GB
ขนาด Block ที่เหมาะสมที่สุด: 2048 (กำหนดผ่านการปรับแต่งอัตโนมัติ)
อัตราความเร็วที่ได้: 666 GB/s
ค่าสูงสุดตามทฤษฎี: 8 TB/s
การใช้งาน: ประมาณ 8.3% ของแบนด์วิดท์สูงสุด

ความกังวลของชุมชนเกี่ยวกับการแยกส่วนของระบบนิเวศ

การเพิ่มจำนวนภาษาโปรแกรม GPU ได้จุดประกายการถกเถียงว่าแนวทางปัจจุบันของภาษาเฉพาะโดเมนแบบ Python แสดงถึงโซลูชันที่เหมาะสมที่สุดหรือไม่ นักพัฒนาบางคนตั้งคำถามว่าการเพิ่มแนวคิดที่ซับซ้อนให้กับภาษาที่คุ้นเคยจริงๆ แล้วให้ผลลัพธ์ที่ดีกว่าภาษาโปรแกรมที่สร้างขึ้นเฉพาะหรือไม่ การชนกันของชื่อกับโปรเจกต์ที่มีอยู่ รวมถึงไลบรารีแมชชีนเลิร์นนิงของ Amazon และเครื่องมืออื่นๆ ที่มีแบรนด์ Gluon เพิ่มความซับซ้อนอีกชั้นหนึ่งในการอภิปรายเรื่องการนำมาใช้

การเปิดตัว Gluon สะท้อนถึงวิวัฒนาการอย่างต่อเนื่องของการเขียนโปรแกรม GPU ที่ความสมดุลระหว่างความง่ายในการใช้งานและการปรับแต่งประสิทธิภาพยังคงเปลี่ยนแปลงตามความสามารถของฮาร์ดแวร์และความต้องการของนักพัฒนา

อ้างอิง: 01-Intro.py

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌