Apple Silicon โผล่เป็นแชมป์ที่น่าประหลาดใจสำหรับประสิทธิภาพ LLM ในเครื่อง แม้จะมีข้อจำกัดของ Neural Engine

ทีมชุมชน BigGo
Apple Silicon โผล่เป็นแชมป์ที่น่าประหลาดใจสำหรับประสิทธิภาพ LLM ในเครื่อง แม้จะมีข้อจำกัดของ Neural Engine

โมเดลภาษาขนาดใหญ่ในเครื่อง (LLMs) กำลังได้รับความนิยมเพิ่มขึ้น เนื่องจากผู้ใช้ต้องการทางเลือกที่เน้นความเป็นส่วนตัวแทนบริการ AI บนคลาวด์ แม้ว่าเครื่องมือต่างๆ เช่น Llama.cpp และ LM Studio จะทำให้การรันโมเดลเหล่านี้บนคอมพิวเตอร์ส่วนตัวง่ายขึ้น แต่ก็มีแนวโน้มด้านฮาร์ดแวร์ที่น่าสนใจเกิดขึ้นจากการสนทนาในชุมชน

เครื่องมือ Local LLM ยอดนิยม:

  • LM Studio: GUI แบบ closed-source ที่มีการจัดการโมเดลที่ง่ายและการสร้าง preset
  • Ollama: Command-line wrapper รอบ llama.cpp ที่มีการดาวน์โหลดโมเดลแบบง่าย
  • Llama.cpp: รากฐาน open-source ที่สร้างโดย Georgi Gerganov
  • MLX: Framework ของ Apple ที่ปรับให้เหมาะสมสำหรับ Apple Silicon
  • Transformers.js: การประมวลผลในเบราว์เซอร์โดยใช้ WebGPU/WebGL

Apple Silicon มอบความเป็นผู้นำด้านประสิทธิภาพที่ไม่คาดคิด

แม้ว่า Apple จะมีชื่อเสียงในเรื่องราคาแพง แต่ชิป M-series ของพวกเขากลับกลายเป็นตัวเลือกหลักสำหรับผู้ที่ชื่นชอบ LLM ในเครื่องอย่างจริงจัง สถาปัตยกรรมหน่วยความจำแบบรวม (unified memory architecture) พิสูจน์แล้วว่ามีประสิทธิภาพเป็นพิเศษสำหรับการรันโมเดลขนาดใหญ่ที่ต้องการ RAM จำนวนมาก Mac Studio ที่มีหน่วยความจำ 512GB สามารถรัน Qwen3-Coder-480B โมเดลล้ำสมัยได้ที่ 24 โทเค็นต่อวินาที ให้ประสิทธิภาพที่เทียบเท่ากับการตั้งค่าที่แพงกว่ามาก

ข้อได้เปรียบด้านประสิทธิภาพมาจากแบนด์วิดท์หน่วยความจำสูงของ Apple Silicon และความสามารถในการจัดสรร RAM ของระบบเกือบทั้งหมดให้กับ GPU สำหรับการอนุมาน LLM ผู้ใช้รายงานว่าคำสั่งง่ายๆ ช่วยให้ macOS สามารถจัดสรรหน่วยความจำสูงสุด 28GB จากระบบ 32GB ให้กับงาน GPU โดยตรง

เบนช์มาร์กประสิทธิภาพ Apple Silicon:

  • Mac Studio 512GB: Qwen3-Coder-480B ที่ 24 โทเค็นต่อวินาที (การบีบอัดแบบ 4-bit)
  • Mac Studio 512GB: DeepSeek V3 ที่ 20 โทเค็นต่อวินาที (การบีบอัดแบบ 4-bit)
  • M3 Pro 36GB: Qwen3-30B ทำงานได้อย่างราบรื่นพร้อมประสิทธิภาพที่ดี
  • M1 Max: Llama-3.1-8B ที่ประมาณ 33 โทเค็นต่อวินาทีโดยใช้การปรับแต่ง Core ML

Neural Engine นั่งดูอยู่ข้างๆ

น่าแปลกที่หน่วยประมวลผลเครือข่ายประสาทเทียมเฉพาะทาง (NPU) ของ Apple ยังคงไม่ถูกใช้งานมากนักสำหรับงาน LLM Neural Engine ได้รับการออกแบบมาสำหรับการดำเนินงานขนาดเล็กที่มีการจัดตารางเวลาแบบคงที่โดยใช้ค่า INT8 หรือ FP16 ทำให้ไม่เหมาะสมกับโมเดลที่ใช้ transformer สมัยใหม่ที่ได้ประโยชน์จากวิธีการ quantization ที่แตกต่างกัน

ข้อจำกัดนี้บังคับให้การอนุมาน LLM ต้องรันบน GPU ผ่าน Metal แทนที่จะเป็นฮาร์ดแวร์ AI เฉพาะทาง ชุมชนสังเกตว่า NPU ส่วนใหญ่จาก AMD, Intel และ Apple ต้องเผชิญกับความท้าทายที่คล้ายกัน - พวกมันอ่อนแอเกินไปสำหรับงาน LLM ที่จริงจังเมื่อเปรียบเทียบกับการคำนวณ GPU แบบทั่วไป

การตรวจสอบความเป็นจริงของต้นทุน-ประสิทธิภาพ

แม้ว่า Mac Studio ที่มีสเปกสูงสุดจะมีราคาประมาณ 12,000 ดอลลาร์สหรัฐ แต่มันสามารถรันโมเดล 600 พันล้านพารามิเตอร์ได้ทั้งหมดในหน่วยความจำ สำหรับผู้ใช้ ChatGPT หนักที่จ่าย 200 ดอลลาร์สหรัฐต่อเดือนสำหรับการเข้าถึงแบบพรีเมียม การลงทุนด้านฮาร์ดแวร์อาจคืนทุนได้ภายในไม่กี่ปีพร้อมกับให้ความเป็นส่วนตัวของข้อมูลอย่างสมบูรณ์

อย่างน้อยมันก็ไม่ใช่น้ำมันเครื่องบิน! - สะท้อนมุมมองของชุมชนที่ว่างานอดิเรกที่แพงมีอยู่ในหลายสาขา

การสนทนาเผยให้เห็นว่าผู้ดำเนินงานศูนย์ข้อมูลบรรลุประสิทธิภาพทางเศรษฐกิจที่ดีกว่า แต่ผู้ใช้รายบุคคลยอมรับค่าพรีเมียมเพื่อการควบคุมในเครื่องและความเป็นส่วนตัว ผู้ใช้บางคนเชื่อมต่อ Mac Studio หลายเครื่องเข้าด้วยกันเพื่อจัดการกับโมเดลที่ใหญ่กว่าได้สำเร็จ ผลักดันขีดจำกัดของสิ่งที่เป็นไปได้ด้วยฮาร์ดแวร์สำหรับผู้บริโภค

โมเดล LLM ท้องถิ่นที่แนะนำตามกรณีการใช้งาน:

  • การถามตอบทั่วไป: Qwen3-30B-A3B-Instruct-2507 , GLM-4.5-Air
  • การเขียนโปรแกรม: Qwen3-Coder-30B-A3B-Instruct , Codestral
  • ขนาดเล็ก/มีประสิทธิภาพ: Gemma3-270M , Mistral Small 3.2
  • งานด้านภาพ: Gemma 2 7B QAT , DeepSeek Janus Pro

ระบบนิเวศซอฟต์แวร์ยังคงพัฒนาต่อไป

เครื่องมือเช่น LM Studio ให้อินเทอร์เฟซที่ใช้งานง่ายสำหรับการจัดการโมเดล ในขณะที่ตัวเลือกบรรทัดคำสั่งเช่น Ollama เสนอการควบคุมที่ตรงไปตรงมามากขึ้น โซลูชันที่ใช้เบราว์เซอร์โดยใช้ WebGPU กำลังเกิดขึ้น แม้ว่าการสนับสนุน Linux ยังคงมีจำกัด ชุมชนพัฒนาวิธีแก้ปัญหาและการเพิ่มประสิทธิภาพอย่างแข็งขัน โดยมีโครงการเช่น MLX ที่มุ่งเป้าไปที่ประสิทธิภาพของ Apple Silicon โดยเฉพาะ

ภูมิทัศน์ LLM ในเครื่องไม่มีสัญญาณว่าจะชะลอตัวลง เมื่อโมเดลมีประสิทธิภาพมากขึ้นและฮาร์ดแวร์ยังคงพัฒนาต่อไป ช่องว่างระหว่างความสามารถ AI ในเครื่องและบนคลาวด์ยังคงแคบลง ทำให้ AI ที่เน้นความเป็นส่วนตัวเข้าถึงได้มากขึ้นสำหรับผู้ใช้ทั่วไป

อ้างอิง: Experimenting with local LLMs on macOS