การสาธิตล่าสุดของการรันโมเดล AI ขนาด 30 พันล้านพารามิเตอร์ผ่านอุปกรณ์ Raspberry Pi 5 สี่เครื่องได้จุดประกายการถกเถียงเกี่ยวกับความเป็นไปได้และความคุ้มค่าของการคำนวณแบบกระจายสำหรับแอปพลิเคชัน AI การตั้งค่านี้สามารถสร้างข้อความได้ 13.04 โทเค็นต่อวินาทีโดยใช้โมเดล Qwen3 แสดงให้เห็นถึงศักยภาพของการจัดกลุ่มคอมพิวเตอร์บอร์ดเดียวราคาประหยัดสำหรับงาน AI
ข้อมูลจำเพาะของโมเดล:
- โมเดล: Qwen3 30B A3B Q40 (แบบ quantized)
- สถาปัตยกรรม: Mixture of Experts (MOE)
- ความต้องการหน่วยความจำ: 5,513 MB
- เลเยอร์: 48
- ความยาวบริบท: 4,096 โทเค็น (ลดลงจาก 262,144 เดิม)
- การ Quantization: รูปแบบ Q40
การตรวจสอบความเป็นจริงของประสิทธิภาพเทียบราคา
การตอบสนองจากชุมชนเผยให้เห็นความแตกแยกอย่างชัดเจนว่าแนวทางนี้สมเหตุสมผลทางการเงินหรือไม่ นักวิจารณ์ชี้ให้เห็นว่าการ์ดจอ NVIDIA RTX 5060Ti เพียงหนึ่งตัวที่ราคา 430 ดอลลาร์สหรัฐฯ จะให้ประสิทธิภาพกว่า 60 โทเค็นต่อวินาที ซึ่งเร็วกว่าคลัสเตอร์ Raspberry Pi ที่ราคา 550 ดอลลาร์สหรัฐฯ เกือบห้าเท่า ช่องว่างด้านประสิทธิภาพนี้ทำให้เกิดคำถามว่าเมื่อไหร่การคำนวณแบบกระจายจึงจะคุ้มค่าสำหรับแอปพลิเคชัน AI
อย่างไรก็ตาม ผู้สนับสนุนโต้แย้งว่าคุณค่าที่แท้จริงไม่ได้อยู่ที่ประสิทธิภาพดิบ แต่อยู่ที่การเข้าถึงได้และโอกาสในการเรียนรู้ การสาธิตนี้พิสูจน์ว่าโมเดล AI ที่ซับซ้อนสามารถรันบนฮาร์ดแวร์ที่หาได้ง่าย เปิดประตูสำหรับโครงการการศึกษาและการทดลองโดยไม่ต้องใช้การ์ดจอราคาแพง
การเปรียบเทียบประสิทธิภาพ:
ฮาร์ดแวร์ | ต้นทุน (USD) | ประสิทธิภาพ | Tokens/วินาที |
---|---|---|---|
คลัสเตอร์ 4x RPi 5 | $550 | 13.04 tok/s | แบบกระจาย |
RTX 5060Ti | $430 | 60+ tok/s | GPU เดี่ยว |
M1 Max 64GB (มือสอง) | <$1,500 | ไม่ระบุ | หน่วยความจำแบบรวม |
แนวทางทางเลือกได้รับความสนใจ
การอภิปรายยังได้เน้นย้ำถึงทางออกทางเลือกที่อาจให้คุณค่าที่ดีกว่า สมาชิกชุมชนหลายคนแนะนำว่า MacBook Apple Silicon มือสองที่มี unified memory อาจเป็นเส้นทางที่คุ้มค่ากว่าในการรันโมเดล AI ขนาดใหญ่ในเครื่อง M1 Max ปี 2021 ที่มี RAM 64GB สามารถหาซื้อได้ในราคาต่ำกว่า 1,500 ดอลลาร์สหรัฐฯ โดยให้ความจุหน่วयความจำที่มากพร้อมการใช้พลังงานในระดับแล็ปท็อป
แนวทางนี้แก้ไขข้อจำกัดหลักอย่างหนึ่งของการตั้งค่าเดสก์ท็อปแบบดั้งเดิม คือ ต้นทุนสูงและการใช้พลังงานมากของการ์ดจอที่มีหน่วยความจำเพียงพอสำหรับโมเดลขนาดใหญ่ สถาปัตยกรรม unified memory ของ Apple ช่วยให้หน่วยความจำทั้งระบบสามารถใช้สำหรับงาน AI ได้ ซึ่งอาจทำให้มีประสิทธิภาพมากกว่าการตั้งค่าแบบกระจาย
ข้อจำกัดทางเทคนิคและความกังวลเรื่องการขยายขนาด
การอภิปรายในชุมชนเผยให้เห็นข้อพิจารณาทางเทคนิคที่สำคัญเกี่ยวกับการขยายขนาดระบบ AI แบบกระจาย ความล่าช้าของเครือข่ายกลายเป็นคอขวดที่สำคัญเมื่อมีการเพิ่มอุปกรณ์เข้าไปในคลัสเตอร์ การตั้งค่าปัจจุบันประมวลผลเลเยอร์ตามลำดับผ่านอุปกรณ์ต่างๆ ซึ่งหมายความว่าการเพิ่ม Raspberry Pi มากขึ้นไม่จำเป็นต้องให้การปรับปรุงประสิทธิภาพแบบเชิงเส้น
ปัญหาความเข้ากันได้ของโมเดลยังเป็นข้อกังวลหลัก แม้ว่าซอฟต์แวร์ distributed-llama ที่ใช้ในการสาธิตนี้จะทำงานได้ดี แต่ก็รองรับโมเดล AI จำนวนจำกัดเมื่อเทียบกับโซลูชันอื่นๆ ข้อจำกัดนี้อาจจำกัดการใช้งานจริงของการตั้งค่าดังกล่าวสำหรับผู้ใช้ที่ต้องการทดลองกับโมเดลต่างๆ
การติดตั้งฮาร์ดแวร์:
- อุปกรณ์ Raspberry Pi 5 8GB จำนวน 4 เครื่อง
- เน็ตเวิร์กสวิตช์ TP-Link LS1008G
- ต้นทุนรวม: ประมาณ 550 ดอลลาร์สหรัฐ
- การใช้พลังงาน: ต่ำ (ไม่ได้ระบุตัวเลขที่แน่นอน)
ผลกระทบในอนาคตสำหรับ Edge Computing
แม้จะมีข้อจำกัดในปัจจุบัน การสาธิตนี้แสดงถึงก้าวสำคัญในการทำให้ AI เข้าถึงได้มากขึ้นที่ขอบของเครือข่าย ความสามารถในการรันโมเดลที่ซับซ้อนโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ตเปิดโอกาสสำหรับแอปพลิเคชันแบบฝังตัว เครื่องมือการศึกษา และระบบ AI ที่เน้นความเป็นส่วนตัว
การถกเถียงสะท้อนให้เห็นคำถามที่กว้างขึ้นเกี่ยวกับอนาคตของการปรับใช้ AI ว่าบริการคลาวด์แบบรวมศูนย์จะครอบงำหรือโมเดลแบบกระจายที่รันในเครื่องจะหาช่องทางของตัวเองในแอปพลิเคชันเฉพาะที่ความเป็นส่วนตัว ความล่าช้า หรือการทำงานออฟไลน์สำคัญกว่าประสิทธิภาพดิบ
อ้างอิง: [v0.16.0] Qwen3 30B A3B Q40 on 4 x Raspberry Pi 5 8GB