เคอร์เนลโลหะที่สร้างด้วย AI แสดงศักยภาพแต่เผชิญคำถามเรื่องความแม่นยำในการปรับปรุง PyTorch

ทีมชุมชน BigGo

เคอร์เนลโลหะที่สร้างด้วย AI แสดงศักยภาพแต่เผชิญคำถามเรื่องความแม่นยำในการปรับปรุง PyTorch

นักวิจัยได้สาธิตการใช้ปัญญาประดิษฐ์เพื่อสร้างเคอร์เนล Metal สำหรับอุปกรณ์ Apple โดยอัตโนมัติ โดยอ้างว่าสามารถปรับปรุงประสิทธิภาพการอนุมานของ PyTorch ได้ถึง 87% อย่างไรก็ตาม ชุมชนเทคโนโลยีกำลังตั้งคำถามสำคัญเกี่ยวกับวิธีการและผลกระทบในทางปฏิบัติของแนวทางนี้

งานวิจัยนี้สร้างขึ้นจาก KernelBench ซึ่งเป็นชุดข้อมูลที่เปิดตัวในเดือนพฤศจิกายน 2024 ที่มีโมดูล PyTorch ประมาณ 250 โมดูลสำหรับการทดสอบการสร้างเคอร์เนล ทีมงานใช้โมเดล AI หลายตัว รวมถึง GPT-5 เพื่อแปลงเคอร์เนล CUDA ที่มีอยู่ให้เป็นเคอร์เนล Metal ที่สามารถทำงานได้อย่างมีประสิทธิภาพบนระบบนิเวศฮาร์ดแวร์ของ Apple

การอ้างสิทธิ์ด้านประสิทธิภาพและระเบียบวิธี:

การปรับปรุงที่รายงาน: เร็วขึ้นถึง 87% ใน PyTorch inference
เกณฑ์อ้างอิง: PyTorch inference ที่ไม่ได้ปรับแต่งเทียบกับ custom Metal kernels
ชุดข้อมูล: PyTorch modules ประมาณ 250 ตัวจาก KernelBench (เปิดตัวเดือนพฤศจิกายน 2024)
ประโยชน์จาก offline compilation: การปรับปรุงเวลาการทำงานประมาณ 20%
การปรับแต่ง GPU resource: ลดค่าใช้จ่ายและ agent latency ประมาณ 25%


ภาพรวมของเคอร์เนล Metal ที่สร้างโดย AI ซึ่งปรับปรุงประสิทธิภาพการอนุมาน PyTorch บนอุปกรณ์ Apple

บริบทการปรับใช้งานจุดประกายการถกเถียง

จุดสำคัญของการอภิปรายมุ่งเน้นไปที่การเปรียบเทียบพื้นฐานที่ใช้ในงานวิจัย นักวิจารณ์โต้แย้งว่าการเปรียบเทียบการอนุมาน PyTorch ที่ไม่ได้ปรับปรุงกับเคอร์เนลที่กำหนดเองสร้างความได้เปรียบที่ไม่ยุติธรรม เนื่องจาก PyTorch มักใช้สำหรับการสร้างต้นแบบมากกว่าการปรับใช้งานจริง ในสถานการณ์จริง นักพัฒนามักจะส่งออกโมเดลเป็นรูปแบบเช่น ONNX ก่อนที่จะคอมไพล์สำหรับอุปกรณ์เฉพาะ

อย่างไรก็ตาม ผู้สนับสนุนโต้แย้งว่าแนวทางนี้ตอบสนองความต้องการที่แท้จริงในขั้นตอนการพัฒนา โครงการโอเพนซอร์สหลายโครงการ โดยเฉพาะใน generative AI พึ่งพา PyTorch อย่างมากทั้งสำหรับการพัฒนาและการปรับใช้งานเนื่องจากความยืดหยุ่นและความง่ายในการใช้งาน

ข้อกังวลเรื่องความแม่นยำทางเทคนิค

งานวิจัยเผยให้เห็นปัญหาความแม่นยำที่น่าเป็นห่วงของเคอร์เนลที่สร้างด้วย AI แม้ว่า GPT-5 จะแปลงเคอร์เนลได้สำเร็จ 97% ของเวลาสำหรับการดำเนินการง่าย ๆ และ 88% สำหรับสถาปัตยกรรมที่ซับซ้อน แต่เคอร์เนลที่สร้างขึ้นส่วนใหญ่ทำงานได้ช้ากว่าการใช้งานอ้างอิงจริง ๆ

ที่น่าเป็นห่วงมากกว่าคือการใช้ความอดทนที่หลวมสำหรับการทดสอบความถูกต้อง นักวิจัยอนุญาตให้มีความอดทน 0.01 ในการวัดข้อผิดพลาดทั้งแบบสัมพัทธ์และแบบสัมบูรณ์เมื่อเปรียบเทียบผลลัพธ์ สำหรับเคอร์เนลการคำนวณเชิงตัวเลข ความอดทนนี้ดูเหมือนจะสูงผิดปกติและอาจปกปิดข้อผิดพลาดในการคำนวณที่สำคัญได้

สำหรับเคอร์เนลเชิงตัวเลข สิ่งนี้ดูเหมือนจะหลวมเกินไป แต่กลับกลายเป็นว่าขอบเขตเหล่านั้นมาจาก KernelBench โดยตรง ซึ่งทดสอบความถูกต้องเพียง 5 อินพุตสุ่มตามค่าเริ่มต้นในฮาร์เนสของพวกเขา ไม่ใช่ 100 ที่พวกเขาใช้ที่นี่

อัตราความสำเร็จของโมเดล AI สำหรับการสร้าง Metal Kernel:

ระดับ 1 (การดำเนินการเดี่ยว): แปลงสำเร็จ 97%
ระดับ 3 (สถาปัตยกรรมที่ซับซ้อน): แปลงสำเร็จ 88%
การทดสอบความถูกต้อง: ค่าความคลาดเคลื่อน 0.01 สำหรับข้อผิดพลาดสัมพัทธ์และสัมบูรณ์
วิธีการทดสอบ: 100 อินพุตแบบสุ่มต่อเคอร์เนล (เทียบกับ 5 ใน KernelBench เดิม)

แนวทางทางเลือกและทิศทางอนาคต

การอภิปรายของชุมชนยังสัมผัสถึงวิธีการทางเลือกสำหรับการปรับปรุงข้ามแพลตฟอร์ม นักพัฒนาบางคนแนะนำว่าเครื่องมือเช่น Tinygrad หรือภาษาเช่น Mojo, JAX หรือ Julia อาจเสนอวิธีการแก้ปัญหาระยะยาวที่ดีกว่าสำหรับการสร้างและปรับปรุงเคอร์เนลอัตโนมัติ

แนวทาง agentic swarm ที่กล่าวถึงในงานวิจัย ซึ่งโมเดล AI หลายตัวสร้างเคอร์เนลแบบขนานก่อนที่จะเลือกผู้ที่มีประสิทธิภาพดีที่สุด ได้รับความสงสัยบ้าง นักวิจารณ์สังเกตว่าการรันโมเดลที่แตกต่างกันแปดตัวและเลือกผลลัพธ์ที่เร็วที่สุด แม้จะเป็นแนวทาง swarm ทางเทคนิค แต่อาจไม่สมควรกับคำศัพท์ที่ใช้

คำถามการใช้งานจริง

แม้จะมีข้อกังวลทางเทคนิค งานวิจัยแสดงให้เห็นว่า AI สามารถสร้างเคอร์เนล Metal ที่ใช้งานได้สำหรับอุปกรณ์ Apple ได้สำเร็จ แนวทางนี้แสดงศักยภาพเป็นพิเศษสำหรับเคอร์เนลระดับ 2 ซึ่งเกี่ยวข้องกับการรวมการดำเนินการหลายอย่างเข้าด้วยกัน ซึ่งเป็นพื้นที่ที่อาจมีโอกาสในการปรับปรุงมากกว่าเมื่อเปรียบเทียบกับการดำเนินการเดี่ยวอย่างง่ายหรือสถาปัตยกรรมเต็มรูปแบบที่ซับซ้อน

นักวิจัยยังไม่ได้เปิดตัวเคอร์เนลที่สร้างขึ้นหรือโค้ดการใช้งาน แม้ว่าอัตราความสำเร็จสูงกับ GPT-5 จะบ่งบอกว่านักพัฒนาอาจสามารถทำซ้ำผลลัพธ์ที่คล้ายกันได้โดยใช้ชุดข้อมูล KernelBench ที่เปิดให้ใช้งานสาธารณะ

แม้ว่างานวิจัยนี้จะเป็นขั้นตอนที่น่าสนใจสู่การปรับปรุงเคอร์เนลอัตโนมัติ แต่การตอบสนองของชุมชนเน้นย้ำถึงความจำเป็นในการมีมาตรฐานความแม่นยำที่เข้มงวดมากขึ้นและการเปรียบเทียบที่ชัดเจนกว่ากับแนวทางการปรับใช้งานที่มีอยู่ แนวทางนี้อาจพิสูจน์ได้ว่ามีคุณค่ามากที่สุดในฐานะเครื่องมือพัฒนามากกว่าการทดแทนไปป์ไลน์การปรับปรุงที่มีอยู่

อ้างอิง: Speeding up PyTorch Inference by 87% on Apple devices with AI-generated Metal kernels

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌