OLLM ช่วยให้รันโมเดล 80B Parameter บน GPU 8GB ได้ แต่ผู้ใช้ Apple Silicon ถูกทิ้งไว้ข้างหลัง

ทีมชุมชน BigGo
OLLM ช่วยให้รันโมเดล 80B Parameter บน GPU 8GB ได้ แต่ผู้ใช้ Apple Silicon ถูกทิ้งไว้ข้างหลัง

ไลบรารี Python ใหม่ที่ชื่อ OLLM กำลังสร้างความฮือฮาในชุมชน AI ด้วยการช่วยให้ผู้ใช้สามารถรันโมเดลภาษาขนาดใหญ่บนฮาร์ดแวร์ราคาประหยัดได้ เครื่องมือนี้ช่วยให้สามารถรันโมเดลที่มีพารามิเตอร์สูงถึง 80 พันล้านตัวบน GPU สำหรับผู้บริโภคที่มีหน่วยความจำเพียง 8GB - ซึ่งปกติแล้วจะต้องใช้ฮาร์ดแวร์ระดับองค์กรที่มีราคาหลายพันดอลลาร์สหรัฐ

การเปรียบเทียบการใช้หน่วยความจำของ OLLM บน NVIDIA 3060 Ti ขนาด 8GB:

Model ขนาด Model ความยาว Context VRAM พื้นฐาน OLLM GPU VRAM OLLM การใช้ Disk
qwen3-next-80B 160 GB 10k tokens ~170 GB ~5.4 GB 162 GB
gpt-oss-20B 13 GB 10k tokens ~40 GB ~7.3 GB 15 GB
Llama3-8B-chat 16 GB 100k tokens ~71 GB ~6.6 GB 69 GB
ภาพหน้าจอของ GitHub repository ของ OLLM ที่แสดงไฟล์ต่างๆ ของโปรเจกต์และรายละเอียดเกี่ยวกับความสามารถของมัน
ภาพหน้าจอของ GitHub repository ของ OLLM ที่แสดงไฟล์ต่างๆ ของโปรเจกต์และรายละเอียดเกี่ยวกับความสามารถของมัน

ข้อกังวลเรื่องความเข้ากันได้กับ Apple Silicon เริ่มปรากฏขึ้น

แม้ว่า OLLM จะแสดงผลลัพธ์ที่น่าประทับใจบน GPU ของ NVIDIA แต่ผู้ใช้ Apple Silicon กลับพบว่าตัวเองถูกแยกออกจากความก้าวหน้านี้ การสนทนาในชุมชนเผยให้เห็นว่าผู้ใช้ Mac ที่มีชิป M-series ไม่สามารถใช้ประโยชน์จากความสามารถในการ offload ไปยังดิสก์ของ OLLM ได้ ทำให้พวกเขาต้องพึ่งพาโมเดล quantized แบบดั้งเดิมที่ต้องใส่ทั้งหมดใน RAM ข้อจำกัดนี้น่าผิดหวังเป็นพิเศษสำหรับผู้ใช้ที่มี RAM 32GB ที่หวังจะใช้การ offload ไปยัง SSD ของ OLLM เพื่อรันโมเดลขนาดใหญ่กว่าในกรณีฉุกเฉินหรืองานพิเศษ

สถานการณ์นี้เน้นย้ำถึงความแตกแยกที่เพิ่มขึ้นในการเข้าถึง AI ระหว่างระบบนิเวศฮาร์ดแวร์ของ NVIDIA และ Apple แม้ว่าผู้ใช้ Mac ยังคงสามารถรันโมเดลขนาดใหญ่โดยใช้เวอร์ชันที่ปรับแต่งสำหรับ MLX ด้วยความเร็วที่ดี (ประมาณ 30-40 โทเค็นต่อวินาที) แต่พวกเขาพลาดนวัตกรรมหลักของ OLLM ในการรันโมเดลที่เกินความจุ RAM ของระบบ

ความเข้ากันได้ของฮาร์ดแวร์:

  • รองรับ: NVIDIA Ampere ( RTX 30xx , A30 , A4000 , A10 ), Ada Lovelace ( RTX 40xx , L4 ), Hopper ( H100 )
  • รองรับแบบจำกัด: ชิป Apple Silicon M-series (ต้องใช้โมเดลที่ปรับแต่งสำหรับ MLX ไม่สามารถใช้ disk offloading ได้)
  • ประสิทธิภาพ: qwen3-next-80B สามารถทำงานได้ 1 token ต่อ 2 วินาทีบนฮาร์ดแวร์สำหรับผู้บริโภค

การแลกเปลี่ยนประสิทธิภาพจุดประกายการถกเถียง

OLLM บรรลุประสิทธิภาพหน่วยความจำผ่านเทคนิค offloading แบบรุนแรง โดยเก็บน้ำหนักโมเดลและ attention cache ไว้ในที่เก็บข้อมูล SSD แทนที่จะเก็บทุกอย่างไว้ในหน่วยความจำ GPU อย่างไรก็ตาม แนวทางนี้มาพร้อมกับการลดความเร็วอย่างมีนัยสำคัญ โมเดล Qwen3-Next ที่มี 80 พันล้านพารามิเตอร์รันได้เพียง 1 โทเค็นทุก 2 วินาที - อัตราที่ทำให้ผู้ใช้บางคนตั้งคำถามว่า GPU ให้ประโยชน์ที่มีความหมายใดๆ เหนือการประมวลผล CPU ที่ความเร็วเช่นนี้หรือไม่

CPU ช้ากว่า GPU มาก คุณสามารถใช้ทั้งสองอย่างได้จริงๆ โดยการ offload บางเลเยอร์ไปยัง CPU... การโหลดจาก RAM เร็วกว่าการโหลดจาก SSD

แนวทางแบบไฮบริดของไลบรารีช่วยให้ผู้ใช้สามารถเก็บเลเยอร์บางส่วนไว้ในหน่วยความจำ CPU เพื่อการเข้าถึงที่เร็วขึ้น ขณะที่ offload เลเยอร์อื่นๆ ไปยังดิสก์ ซึ่งให้จุดกึ่งกลางระหว่างความเร็วและการใช้หน่วยความจำ

คุณสมบัติทางเทคนิคของ OLLM :

  • การโหลดน้ำหนักแบบทีละเลเยอร์จาก SSD ไปยัง GPU
  • การถ่ายโอน KV cache ไปยังดิสก์เก็บข้อมูลโดยไม่มีการบีบอัด
  • การใช้งาน FlashAttention-2 พร้อมกับ online softmax
  • การประมวลผล MLP แบบแบ่งส่วนสำหรับเลเยอร์ขนาดใหญ่
  • การกระจายเลเยอร์แบบไฮบริด CPU/GPU เพื่อเพิ่มประสิทธิภาพความเร็ว
  • รองรับความแม่นยำ fp16/bf16 โดยไม่มีการบีบอัด

การประยุกต์ใช้ Diffusion Model ยังไม่ชัดเจน

นอกเหนือจากโมเดลภาษาแล้ว สมาชิกในชุมชนกำลังสำรวจว่าเทคนิคของ OLLM จะเป็นประโยชน์ต่อการประยุกต์ใช้ AI อื่นๆ เช่น การสร้างภาพหรือไม่ แม้ว่าแนวคิดหลักของการโหลดน้ำหนักทีละเลเยอร์จะสามารถนำไปใช้กับ diffusion model ได้ในทางทฤษฎี แต่สถาปัตยกรรมที่แตกต่างกันหมายความว่าโค้ดเบสปัจจุบันจะไม่สามารถทำงานได้โดยตรง สิ่งนี้แสดงถึงโอกาสที่ยังไม่ได้ใช้ประโยชน์ในการขยายการอนุมาน AI ที่มีประสิทธิภาพหน่วยความจำไปสู่การสร้างข้อความ

การเปิดตัวนี้แสดงให้เห็นว่าวิศวกรรมที่สร้างสรรค์สามารถทำให้การเข้าถึงโมเดล AI ที่ทันสมัยเป็นประชาธิปไตยได้อย่างไร แม้ว่าข้อจำกัดเฉพาะแพลตฟอร์มจะยังคงแยกส่วนประสบการณ์ผู้ใช้ในระบบนิเวศฮาร์ดแวร์ที่แตกต่างกัน

อ้างอิง: OLLM: LLM Inference for Large-Context Offline Workloads