โครงการ ANEMLL เผยให้เห็นประสิทธิภาพที่หลากหลายของ Apple Neural Engine สำหรับการประมวลผล LLM

BigGo Editorial Team
โครงการ ANEMLL เผยให้เห็นประสิทธิภาพที่หลากหลายของ Apple Neural Engine สำหรับการประมวลผล LLM

Apple Neural Engine (ANE) เป็นองค์ประกอบที่ลึกลับมานานในชิป Apple Silicon โดยมีเอกสารและการเข้าถึงที่จำกัดสำหรับนักพัฒนา โครงการโอเพนซอร์สใหม่อย่าง ANEMLL (ออกเสียงว่า animal) มีเป้าหมายที่จะเปลี่ยนแปลงสิ่งนี้ด้วยการให้เครื่องมือในการพอร์ต Large Language Models ไปยัง ANE แต่การทดสอบจากชุมชนเผยให้เห็นทั้งข้อดีและข้อจำกัดที่สำคัญ

การแลกเปลี่ยนระหว่างความเร็วและประสิทธิภาพการใช้พลังงาน

การทดสอบโดยสมาชิกในชุมชนแสดงให้เห็นว่า แม้โมเดลที่ปรับให้เหมาะสมกับ ANE จะทำงานช้ากว่าการใช้งานบน GPU แต่กลับมีประสิทธิภาพการใช้พลังงานที่น่าทึ่ง ผู้ใช้รายหนึ่งรายงานว่าบน M4 Pro โมเดล Llama 3.2 1B สามารถประมวลผลได้ประมาณ 62 โทเค็นต่อวินาที ในขณะที่ใช้พลังงานเพียง 2.8 วัตต์เท่านั้น ในทางเปรียบเทียบ การใช้งานบน GPU สามารถเร็วกว่าได้ถึงสองเท่า แต่ใช้พลังงานประมาณ 20 วัตต์—เกือบ 10 เท่าของพลังงานที่ใช้ ประสิทธิภาพนี้ทำให้ ANE มีคุณค่าเป็นพิเศษสำหรับอุปกรณ์พกพาที่อายุการใช้งานแบตเตอรี่เป็นสิ่งสำคัญ

อย่างไรก็ตาม การเปรียบเทียบโดยตรงระหว่าง ANEMLL และเฟรมเวิร์กอื่นๆ เช่น MLX แสดงให้เห็นถึงช่องว่างของประสิทธิภาพที่สำคัญ การทดสอบเกณฑ์มาตรฐานที่ใช้ DeepSeek R1-8B บน M4 Max แสดงให้เห็นว่า ANEMLL ทำได้เพียง 9.3 โทเค็นต่อวินาที เมื่อเทียบกับ MLX ที่ทำได้ 31.33 โทเค็นต่อวินาทีสำหรับโมเดลที่ถูกลดความละเอียดเป็น 8 บิต ความแตกต่างด้านประสิทธิภาพนี้ทำให้เกิดคำถามว่าการประหยัดพลังงานนั้นคุ้มค่ากับการลดความเร็วลงหรือไม่สำหรับการใช้งานส่วนใหญ่

การเปรียบเทียบประสิทธิภาพ: ANEMLL กับ MLX บน M4 Max

เฟรมเวิร์ก โมเดล ประสิทธิภาพ การใช้หน่วยความจำ
ANEMLL DeepSeek R1-8B 9.3 โทเค็น/วินาที ~500MB
MLX (8-bit) DeepSeek R1-8B 31.33 โทเค็น/วินาที ~8.5GB
MLX (bf16) DeepSeek R1-8B 27.17 โทเค็น/วินาที ~15.7GB

การเปรียบเทียบประสิทธิภาพการใช้พลังงาน

ฮาร์ดแวร์ โมเดล ประสิทธิภาพ การใช้พลังงาน
M1 Max (ANE) Llama 3.2-1B 47 โทเค็น/วินาที ~1.8 วัตต์
M4 Pro (ANE) Llama 3.2-1B 62 โทเค็น/วินาที ~2.8 วัตต์
การใช้งานบน GPU โมเดลที่คล้ายกัน เร็วกว่าประมาณ 2 เท่า ~20 วัตต์

ประสิทธิภาพการใช้หน่วยความจำและข้อจำกัดทางเทคนิค

ข้อได้เปรียบที่น่าประหลาดใจอย่างหนึ่งของ ANEMLL ดูเหมือนจะเป็นประสิทธิภาพการใช้หน่วยความจำ การทดสอบเกณฑ์มาตรฐานเดียวกันที่แสดงประสิทธิภาพที่ช้ากว่ายังเผยให้เห็นถึงการใช้หน่วยความจำที่น้อยกว่าอย่างมาก—ประมาณ 500MB สำหรับ ANEMLL เทียบกับ 8.5GB สำหรับโมเดล 8 บิตของ MLX ประสิทธิภาพนี้อาจทำให้การใช้งาน ANE มีคุณค่าเป็นพิเศษสำหรับการรันโมเดลบนอุปกรณ์ที่มีหน่วยความจำจำกัด เช่น iPhone และ iPad

ความท้าทายทางเทคนิคของการทำงานกับ ANE มาจากข้อจำกัดของฮาร์ดแวร์ ไม่เหมือนกับ GPU, ANE ต้องการรูปแบบอินพุต/เอาต์พุตที่คงที่ ซึ่งทำให้การดำเนินการแบบไดนามิก เช่น การขยายแคชความสนใจ (attention caches) เป็นเรื่องยาก นอกจากนี้ยังรองรับเฉพาะความแม่นยำ FP16 (ไม่ใช่ BF16) ซึ่งอาจนำไปสู่ปัญหาการล้นของการเปิดใช้งาน นักพัฒนาต้องใช้วิธีแก้ปัญหาที่สร้างสรรค์ เช่น การใช้การดำเนินการ conv2d แทนเลเยอร์เชิงเส้น และการพัฒนาวิธีการหน้าต่างเลื่อน (sliding window) สำหรับแคชคีย์-ค่า

แนวทางระบบนิเวศแบบปิดของ Apple

การสนทนาในชุมชนเผยให้เห็นถึงความผิดหวังกับแนวทางของ Apple ในการเร่งความเร็ว AI แม้ว่าบทความวิจัยของ Apple เองจะอ้างถึงการปรับปรุงประสิทธิภาพที่สำคัญสำหรับโมเดลที่ปรับให้เหมาะสมกับ ANE แต่บริษัทได้ให้เอกสารและเครื่องมือที่จำกัดสำหรับนักพัฒนา แม้แต่เฟรมเวิร์ก MLX ของ Apple เองก็ไม่รองรับ ANE ซึ่งทำให้เกิดคำถามเกี่ยวกับกลยุทธ์ของบริษัท

ผู้แสดงความคิดเห็นบางคนได้เปรียบเทียบกับ NPU ของ Qualcomm ในแล็ปท็อป Snapdragon X โดยแนะนำว่าผู้ผลิตฮาร์ดแวร์มักจะขายความสามารถของหน่วยประมวลผลเครือข่ายประสาทของพวกเขาเกินจริงสำหรับงาน AI ความเป็นจริงคือชิปเฉพาะทางเหล่านี้เก่งในงานเฉพาะที่จำกัด แต่อาจไม่ให้ประสิทธิภาพตามที่สัญญาไว้สำหรับโมเดลขนาดใหญ่ที่ผู้ใช้ต้องการรันจริงๆ

ตามที่สมาชิกชุมชนคนหนึ่งได้กล่าวไว้:

ประโยชน์หลักคือการใช้พลังงานที่น้อยลงอย่างมีนัยสำคัญ ทดสอบเกณฑ์มาตรฐาน llama3.2-1B บนเครื่องของฉัน; M1 Max (47t/s, ~1.8 วัตต์), M4 Pro (62t/s, ~2.8 วัตต์) GPU เร็วกว่าสองเท่า (แม้จะเร็วกว่าบน Max) แต่ใช้พลังงานมากกว่า (~20 วัตต์) เมื่อเทียบกับ ANE

โครงการ ANEMLL เป็นก้าวสำคัญในการทำให้ Apple Neural Engine เข้าถึงได้มากขึ้นสำหรับนักพัฒนา แต่คุณลักษณะด้านประสิทธิภาพในปัจจุบันบ่งชี้ว่าอาจมีคุณค่ามากที่สุดสำหรับกรณีการใช้งานเฉพาะที่ให้ความสำคัญกับประสิทธิภาพการใช้พลังงานมากกว่าความเร็วดิบ ขณะที่ Apple ยังคงพัฒนาฮาร์ดแวร์ของตนด้วยชิป M-series รุ่นใหม่ๆ ความสมดุลระหว่างความสามารถของ ANE, CPU และ GPU อาจเปลี่ยนแปลง ซึ่งอาจทำให้ Neural Engine มีความสามารถในการแข่งขันมากขึ้นสำหรับงาน AI ทั่วไป

อ้างอิง: ANEMLL