นักวิจัยได้สาธิตการใช้ปัญญาประดิษฐ์เพื่อสร้างเคอร์เนล Metal สำหรับอุปกรณ์ Apple โดยอัตโนมัติ โดยอ้างว่าสามารถปรับปรุงประสิทธิภาพการอนุมานของ PyTorch ได้ถึง 87% อย่างไรก็ตาม ชุมชนเทคโนโลยีกำลังตั้งคำถามสำคัญเกี่ยวกับวิธีการและผลกระทบในทางปฏิบัติของแนวทางนี้
งานวิจัยนี้สร้างขึ้นจาก KernelBench ซึ่งเป็นชุดข้อมูลที่เปิดตัวในเดือนพฤศจิกายน 2024 ที่มีโมดูล PyTorch ประมาณ 250 โมดูลสำหรับการทดสอบการสร้างเคอร์เนล ทีมงานใช้โมเดล AI หลายตัว รวมถึง GPT-5 เพื่อแปลงเคอร์เนล CUDA ที่มีอยู่ให้เป็นเคอร์เนล Metal ที่สามารถทำงานได้อย่างมีประสิทธิภาพบนระบบนิเวศฮาร์ดแวร์ของ Apple
การอ้างสิทธิ์ด้านประสิทธิภาพและระเบียบวิธี:
- การปรับปรุงที่รายงาน: เร็วขึ้นถึง 87% ใน PyTorch inference
- เกณฑ์อ้างอิง: PyTorch inference ที่ไม่ได้ปรับแต่งเทียบกับ custom Metal kernels
- ชุดข้อมูล: PyTorch modules ประมาณ 250 ตัวจาก KernelBench (เปิดตัวเดือนพฤศจิกายน 2024)
- ประโยชน์จาก offline compilation: การปรับปรุงเวลาการทำงานประมาณ 20%
- การปรับแต่ง GPU resource: ลดค่าใช้จ่ายและ agent latency ประมาณ 25%
![]() |
---|
ภาพรวมของเคอร์เนล Metal ที่สร้างโดย AI ซึ่งปรับปรุงประสิทธิภาพการอนุมาน PyTorch บนอุปกรณ์ Apple |
บริบทการปรับใช้งานจุดประกายการถกเถียง
จุดสำคัญของการอภิปรายมุ่งเน้นไปที่การเปรียบเทียบพื้นฐานที่ใช้ในงานวิจัย นักวิจารณ์โต้แย้งว่าการเปรียบเทียบการอนุมาน PyTorch ที่ไม่ได้ปรับปรุงกับเคอร์เนลที่กำหนดเองสร้างความได้เปรียบที่ไม่ยุติธรรม เนื่องจาก PyTorch มักใช้สำหรับการสร้างต้นแบบมากกว่าการปรับใช้งานจริง ในสถานการณ์จริง นักพัฒนามักจะส่งออกโมเดลเป็นรูปแบบเช่น ONNX ก่อนที่จะคอมไพล์สำหรับอุปกรณ์เฉพาะ
อย่างไรก็ตาม ผู้สนับสนุนโต้แย้งว่าแนวทางนี้ตอบสนองความต้องการที่แท้จริงในขั้นตอนการพัฒนา โครงการโอเพนซอร์สหลายโครงการ โดยเฉพาะใน generative AI พึ่งพา PyTorch อย่างมากทั้งสำหรับการพัฒนาและการปรับใช้งานเนื่องจากความยืดหยุ่นและความง่ายในการใช้งาน
ข้อกังวลเรื่องความแม่นยำทางเทคนิค
งานวิจัยเผยให้เห็นปัญหาความแม่นยำที่น่าเป็นห่วงของเคอร์เนลที่สร้างด้วย AI แม้ว่า GPT-5 จะแปลงเคอร์เนลได้สำเร็จ 97% ของเวลาสำหรับการดำเนินการง่าย ๆ และ 88% สำหรับสถาปัตยกรรมที่ซับซ้อน แต่เคอร์เนลที่สร้างขึ้นส่วนใหญ่ทำงานได้ช้ากว่าการใช้งานอ้างอิงจริง ๆ
ที่น่าเป็นห่วงมากกว่าคือการใช้ความอดทนที่หลวมสำหรับการทดสอบความถูกต้อง นักวิจัยอนุญาตให้มีความอดทน 0.01 ในการวัดข้อผิดพลาดทั้งแบบสัมพัทธ์และแบบสัมบูรณ์เมื่อเปรียบเทียบผลลัพธ์ สำหรับเคอร์เนลการคำนวณเชิงตัวเลข ความอดทนนี้ดูเหมือนจะสูงผิดปกติและอาจปกปิดข้อผิดพลาดในการคำนวณที่สำคัญได้
สำหรับเคอร์เนลเชิงตัวเลข สิ่งนี้ดูเหมือนจะหลวมเกินไป แต่กลับกลายเป็นว่าขอบเขตเหล่านั้นมาจาก KernelBench โดยตรง ซึ่งทดสอบความถูกต้องเพียง 5 อินพุตสุ่มตามค่าเริ่มต้นในฮาร์เนสของพวกเขา ไม่ใช่ 100 ที่พวกเขาใช้ที่นี่
อัตราความสำเร็จของโมเดล AI สำหรับการสร้าง Metal Kernel:
- ระดับ 1 (การดำเนินการเดี่ยว): แปลงสำเร็จ 97%
- ระดับ 3 (สถาปัตยกรรมที่ซับซ้อน): แปลงสำเร็จ 88%
- การทดสอบความถูกต้อง: ค่าความคลาดเคลื่อน 0.01 สำหรับข้อผิดพลาดสัมพัทธ์และสัมบูรณ์
- วิธีการทดสอบ: 100 อินพุตแบบสุ่มต่อเคอร์เนล (เทียบกับ 5 ใน KernelBench เดิม)
แนวทางทางเลือกและทิศทางอนาคต
การอภิปรายของชุมชนยังสัมผัสถึงวิธีการทางเลือกสำหรับการปรับปรุงข้ามแพลตฟอร์ม นักพัฒนาบางคนแนะนำว่าเครื่องมือเช่น Tinygrad หรือภาษาเช่น Mojo, JAX หรือ Julia อาจเสนอวิธีการแก้ปัญหาระยะยาวที่ดีกว่าสำหรับการสร้างและปรับปรุงเคอร์เนลอัตโนมัติ
แนวทาง agentic swarm ที่กล่าวถึงในงานวิจัย ซึ่งโมเดล AI หลายตัวสร้างเคอร์เนลแบบขนานก่อนที่จะเลือกผู้ที่มีประสิทธิภาพดีที่สุด ได้รับความสงสัยบ้าง นักวิจารณ์สังเกตว่าการรันโมเดลที่แตกต่างกันแปดตัวและเลือกผลลัพธ์ที่เร็วที่สุด แม้จะเป็นแนวทาง swarm ทางเทคนิค แต่อาจไม่สมควรกับคำศัพท์ที่ใช้
คำถามการใช้งานจริง
แม้จะมีข้อกังวลทางเทคนิค งานวิจัยแสดงให้เห็นว่า AI สามารถสร้างเคอร์เนล Metal ที่ใช้งานได้สำหรับอุปกรณ์ Apple ได้สำเร็จ แนวทางนี้แสดงศักยภาพเป็นพิเศษสำหรับเคอร์เนลระดับ 2 ซึ่งเกี่ยวข้องกับการรวมการดำเนินการหลายอย่างเข้าด้วยกัน ซึ่งเป็นพื้นที่ที่อาจมีโอกาสในการปรับปรุงมากกว่าเมื่อเปรียบเทียบกับการดำเนินการเดี่ยวอย่างง่ายหรือสถาปัตยกรรมเต็มรูปแบบที่ซับซ้อน
นักวิจัยยังไม่ได้เปิดตัวเคอร์เนลที่สร้างขึ้นหรือโค้ดการใช้งาน แม้ว่าอัตราความสำเร็จสูงกับ GPT-5 จะบ่งบอกว่านักพัฒนาอาจสามารถทำซ้ำผลลัพธ์ที่คล้ายกันได้โดยใช้ชุดข้อมูล KernelBench ที่เปิดให้ใช้งานสาธารณะ
แม้ว่างานวิจัยนี้จะเป็นขั้นตอนที่น่าสนใจสู่การปรับปรุงเคอร์เนลอัตโนมัติ แต่การตอบสนองของชุมชนเน้นย้ำถึงความจำเป็นในการมีมาตรฐานความแม่นยำที่เข้มงวดมากขึ้นและการเปรียบเทียบที่ชัดเจนกว่ากับแนวทางการปรับใช้งานที่มีอยู่ แนวทางนี้อาจพิสูจน์ได้ว่ามีคุณค่ามากที่สุดในฐานะเครื่องมือพัฒนามากกว่าการทดแทนไปป์ไลน์การปรับปรุงที่มีอยู่
อ้างอิง: Speeding up PyTorch Inference by 87% on Apple devices with AI-generated Metal kernels