ไลบรารี Python ใหม่ที่ชื่อ OLLM กำลังสร้างความฮือฮาในชุมชน AI ด้วยการช่วยให้ผู้ใช้สามารถรันโมเดลภาษาขนาดใหญ่บนฮาร์ดแวร์ราคาประหยัดได้ เครื่องมือนี้ช่วยให้สามารถรันโมเดลที่มีพารามิเตอร์สูงถึง 80 พันล้านตัวบน GPU สำหรับผู้บริโภคที่มีหน่วยความจำเพียง 8GB - ซึ่งปกติแล้วจะต้องใช้ฮาร์ดแวร์ระดับองค์กรที่มีราคาหลายพันดอลลาร์สหรัฐ
การเปรียบเทียบการใช้หน่วยความจำของ OLLM บน NVIDIA 3060 Ti ขนาด 8GB:
Model | ขนาด Model | ความยาว Context | VRAM พื้นฐาน | OLLM GPU VRAM | OLLM การใช้ Disk |
---|---|---|---|---|---|
qwen3-next-80B | 160 GB | 10k tokens | ~170 GB | ~5.4 GB | 162 GB |
gpt-oss-20B | 13 GB | 10k tokens | ~40 GB | ~7.3 GB | 15 GB |
Llama3-8B-chat | 16 GB | 100k tokens | ~71 GB | ~6.6 GB | 69 GB |
![]() |
---|
ภาพหน้าจอของ GitHub repository ของ OLLM ที่แสดงไฟล์ต่างๆ ของโปรเจกต์และรายละเอียดเกี่ยวกับความสามารถของมัน |
ข้อกังวลเรื่องความเข้ากันได้กับ Apple Silicon เริ่มปรากฏขึ้น
แม้ว่า OLLM จะแสดงผลลัพธ์ที่น่าประทับใจบน GPU ของ NVIDIA แต่ผู้ใช้ Apple Silicon กลับพบว่าตัวเองถูกแยกออกจากความก้าวหน้านี้ การสนทนาในชุมชนเผยให้เห็นว่าผู้ใช้ Mac ที่มีชิป M-series ไม่สามารถใช้ประโยชน์จากความสามารถในการ offload ไปยังดิสก์ของ OLLM ได้ ทำให้พวกเขาต้องพึ่งพาโมเดล quantized แบบดั้งเดิมที่ต้องใส่ทั้งหมดใน RAM ข้อจำกัดนี้น่าผิดหวังเป็นพิเศษสำหรับผู้ใช้ที่มี RAM 32GB ที่หวังจะใช้การ offload ไปยัง SSD ของ OLLM เพื่อรันโมเดลขนาดใหญ่กว่าในกรณีฉุกเฉินหรืองานพิเศษ
สถานการณ์นี้เน้นย้ำถึงความแตกแยกที่เพิ่มขึ้นในการเข้าถึง AI ระหว่างระบบนิเวศฮาร์ดแวร์ของ NVIDIA และ Apple แม้ว่าผู้ใช้ Mac ยังคงสามารถรันโมเดลขนาดใหญ่โดยใช้เวอร์ชันที่ปรับแต่งสำหรับ MLX ด้วยความเร็วที่ดี (ประมาณ 30-40 โทเค็นต่อวินาที) แต่พวกเขาพลาดนวัตกรรมหลักของ OLLM ในการรันโมเดลที่เกินความจุ RAM ของระบบ
ความเข้ากันได้ของฮาร์ดแวร์:
- รองรับ: NVIDIA Ampere ( RTX 30xx , A30 , A4000 , A10 ), Ada Lovelace ( RTX 40xx , L4 ), Hopper ( H100 )
- รองรับแบบจำกัด: ชิป Apple Silicon M-series (ต้องใช้โมเดลที่ปรับแต่งสำหรับ MLX ไม่สามารถใช้ disk offloading ได้)
- ประสิทธิภาพ: qwen3-next-80B สามารถทำงานได้ 1 token ต่อ 2 วินาทีบนฮาร์ดแวร์สำหรับผู้บริโภค
การแลกเปลี่ยนประสิทธิภาพจุดประกายการถกเถียง
OLLM บรรลุประสิทธิภาพหน่วยความจำผ่านเทคนิค offloading แบบรุนแรง โดยเก็บน้ำหนักโมเดลและ attention cache ไว้ในที่เก็บข้อมูล SSD แทนที่จะเก็บทุกอย่างไว้ในหน่วยความจำ GPU อย่างไรก็ตาม แนวทางนี้มาพร้อมกับการลดความเร็วอย่างมีนัยสำคัญ โมเดล Qwen3-Next ที่มี 80 พันล้านพารามิเตอร์รันได้เพียง 1 โทเค็นทุก 2 วินาที - อัตราที่ทำให้ผู้ใช้บางคนตั้งคำถามว่า GPU ให้ประโยชน์ที่มีความหมายใดๆ เหนือการประมวลผล CPU ที่ความเร็วเช่นนี้หรือไม่
CPU ช้ากว่า GPU มาก คุณสามารถใช้ทั้งสองอย่างได้จริงๆ โดยการ offload บางเลเยอร์ไปยัง CPU... การโหลดจาก RAM เร็วกว่าการโหลดจาก SSD
แนวทางแบบไฮบริดของไลบรารีช่วยให้ผู้ใช้สามารถเก็บเลเยอร์บางส่วนไว้ในหน่วยความจำ CPU เพื่อการเข้าถึงที่เร็วขึ้น ขณะที่ offload เลเยอร์อื่นๆ ไปยังดิสก์ ซึ่งให้จุดกึ่งกลางระหว่างความเร็วและการใช้หน่วยความจำ
คุณสมบัติทางเทคนิคของ OLLM :
- การโหลดน้ำหนักแบบทีละเลเยอร์จาก SSD ไปยัง GPU
- การถ่ายโอน KV cache ไปยังดิสก์เก็บข้อมูลโดยไม่มีการบีบอัด
- การใช้งาน FlashAttention-2 พร้อมกับ online softmax
- การประมวลผล MLP แบบแบ่งส่วนสำหรับเลเยอร์ขนาดใหญ่
- การกระจายเลเยอร์แบบไฮบริด CPU/GPU เพื่อเพิ่มประสิทธิภาพความเร็ว
- รองรับความแม่นยำ fp16/bf16 โดยไม่มีการบีบอัด
การประยุกต์ใช้ Diffusion Model ยังไม่ชัดเจน
นอกเหนือจากโมเดลภาษาแล้ว สมาชิกในชุมชนกำลังสำรวจว่าเทคนิคของ OLLM จะเป็นประโยชน์ต่อการประยุกต์ใช้ AI อื่นๆ เช่น การสร้างภาพหรือไม่ แม้ว่าแนวคิดหลักของการโหลดน้ำหนักทีละเลเยอร์จะสามารถนำไปใช้กับ diffusion model ได้ในทางทฤษฎี แต่สถาปัตยกรรมที่แตกต่างกันหมายความว่าโค้ดเบสปัจจุบันจะไม่สามารถทำงานได้โดยตรง สิ่งนี้แสดงถึงโอกาสที่ยังไม่ได้ใช้ประโยชน์ในการขยายการอนุมาน AI ที่มีประสิทธิภาพหน่วยความจำไปสู่การสร้างข้อความ
การเปิดตัวนี้แสดงให้เห็นว่าวิศวกรรมที่สร้างสรรค์สามารถทำให้การเข้าถึงโมเดล AI ที่ทันสมัยเป็นประชาธิปไตยได้อย่างไร แม้ว่าข้อจำกัดเฉพาะแพลตฟอร์มจะยังคงแยกส่วนประสบการณ์ผู้ใช้ในระบบนิเวศฮาร์ดแวร์ที่แตกต่างกัน
อ้างอิง: OLLM: LLM Inference for Large-Context Offline Workloads