Google เพิ่งเปิดตัว Gemma 3n ซึ่งเป็นโมเดล AI แบบใหม่ที่ทำงานบนอุปกรณ์โดยตรง โดยสัญญาว่าจะมีความสามารถแบบมัลติโมดอลที่น่าประทับใจสำหรับสมาร์ทโฟนและอุปกรณ์ขอบเครือข่าย บริษัทอ้างว่าโมเดลนี้สามารถประมวลผลได้สูงสุด 60 เฟรมต่อวินาทีบนอุปกรณ์ Google Pixel ทำให้สามารถวิเคราะห์วิดีโอแบบเรียลไทม์และสร้างประสบการณ์การโต้ตอบได้ อย่างไรก็ตาม การทดสอบจากชุมชนนักพัฒนาเผยให้เห็นช่องว่างที่สำคัญระหว่างคำสัญญาทางการตลาดกับประสิทธิภาพที่เกิดขึ้นจริง
![]() |
---|
แนะนำ Gemma 3n : โมเดล AI บนอุปกรณ์ใหม่ของ Google สำหรับสมาร์ทโฟน |
การอ้างสิทธิ์เรื่องประสิทธิภาพไม่ตรงกับการทดสอบในโลกแห่งความเป็นจริง
เมื่อนักพัฒนาดาวน์โหลดแอปสาธิตอย่างเป็นทางการของ Google และทดสอบบนอุปกรณ์ Pixel จริง ผลลัพธ์ที่ได้แตกต่างอย่างมากจากข้อมูลจำเพาะที่โฆษณาไว้ แทนที่จะได้ 60 เฟรมต่อวินาทีตามที่สัญญาไว้ การทดสอบในโลกแห่งความเป็นจริงแสดงให้เห็นว่าโมเดลประมวลผลได้เพียง 0.16 เฟรมต่อวินาที ซึ่งช้ากว่าที่อ้างไว้ประมาณ 375 เท่า ผู้ทดสอบคนหนึ่งพบว่าโมเดล 2B ใช้เวลา 6.2 ถึง 7.5 วินาทีเพียงเพื่อเริ่มตอบสนองต่ออินพุตรูปภาพ โดยมีความเร็วในการสร้างเพียง 4-5 โทเค็นต่อวินาที
ความแตกต่างนี้ดูเหมือนจะเกิดจากข้อจำกัดทางเทคนิคที่ Google ไม่ได้สื่อสารอย่างชัดเจน ในขณะที่ระบบภายในของ Google สามารถเข้าถึงหน่วยประมวลผล Tensor โดยตรงผ่านกระบวนการระบบที่มีสิทธิพิเศษ นักพัฒนาบุคคลที่สามและแม้แต่แอปสาธิตสาธารณะของ Google เองก็ถูกจำกัดให้ใช้การอนุมานด้วย CPU เท่านั้น สิ่งนี้สร้างช่องว่างด้านประสิทธิภาพที่มหาศาลซึ่งทำให้ความสามารถแบบเรียลไทม์ที่โฆษณาไว้กลายเป็นสิ่งที่ใช้งานไม่ได้สำหรับนักพัฒนาส่วนใหญ่
การเปรียบเทียบประสิทธิภาพ: ที่อ้างไว้ vs ผลจริง
- การอ้างของ Google: 60 เฟรมต่อวินาทีบน Google Pixel
- การทดสอบในโลกแห่งความจริง: 0.16 เฟรมต่อวินาที (ช้ากว่า 375 เท่า)
- เวลาตอบสนอง: 6.2-7.5 วินาทีในการเริ่มประมวลผล
- การสร้าง Token: 4-5 โทเค็นต่อวินาที
![]() |
---|
ประสิทธิภาพ MMLU เทียบกับขนาดโมเดล: เน้นย้ำข้อกังวลด้านประสิทธิภาพของ Gemma 3n |
นวัตกรรมด้านสถาปัตยกรรมแสดงให้เห็นศักยภาพแม้จะมีปัญหาด้านประสิทธิภาพ
แม้จะมีข้อกังวลด้านประสิทธิภาพ Gemma 3n ก็ยังนำเสนอนวัตกรรมทางเทคนิคที่น่าสนใจหลายประการ โมเดลใช้สถาปัตยกรรม MatFormer ที่อิงจากแนวคิดของตุ๊กตา Matryoshka ซึ่งโมเดลขนาดเล็กที่ใช้งานได้จะถูกซ้อนอยู่ภายในโมเดลขนาดใหญ่ สิ่งนี้ช่วยให้นักพัฒนาสามารถดึงโมเดลขนาดต่างๆ จากกระบวนการฝึกอบรมเดียว ซึ่งให้ความยืดหยุ่นในการสร้างสมดุลระหว่างประสิทธิภาพและความสามารถ
โมเดลยังมีเทคโนโลยี Per-Layer Embeddings (PLE) ซึ่งช่วยลดการใช้หน่วยความจำโดยการจัดเก็บพารามิเตอร์บางส่วนใน CPU แทนที่จะเก็บในหน่วยความจำของตัวเร่ง สำหรับตัวแปร E2B นี่หมายความว่าต้องโหลดพารามิเตอร์เพียงประมาณ 1 พันล้านตัวลงในหน่วยความจำความเร็วสูง แม้ว่าโมเดลทั้งหมดจะมีพารามิเตอร์ 5 พันล้านตัวก็ตาม
MatFormer: สถาปัตยกรรม transformer แบบซ้อนที่โมเดลขนาดเล็กถูกบรรจุอยู่ภายในโมเดลขนาดใหญ่ คล้ายกับตุ๊กตารัสเซียแบบซ้อน Per-Layer Embeddings (PLE): เทคนิคที่แบ่งพารามิเตอร์ของโมเดลระหว่างหน่วยความจำ CPU และตัวเร่งเพื่อลดความต้องการหน่วยความจำ
นวัตกรรมทางเทคนิค
- สถาปัตยกรรม MatFormer: Transformer แบบซ้อนที่มีโมเดลขนาดเล็กอยู่ภายในโมเดลขนาดใหญ่
- Per-Layer Embeddings (PLE): แบ่งพารามิเตอร์ระหว่างหน่วยความจำ CPU และ accelerator
- KV Cache Sharing: ปรับปรุงประสิทธิภาพ prefill ได้ 3 เท่าเมื่อเทียบกับ Gemma 3 4B
- MobileNet-V5: Vision encoder รุ่นใหม่ที่รองรับความละเอียด 256x256, 512x512 และ 768x768
การยอมรับจากชุมชนและความเข้ากันได้
ชุมชนนักพัฒนาได้ปรับใช้ Gemma 3n สำหรับแพลตฟอร์มและกรณีการใช้งานต่างๆ อย่างรวดเร็ว นักพัฒนาหลายคนได้สร้างเวอร์ชันที่ปรับปรุงแล้วสำหรับเฟรมเวิร์กต่างๆ รวมถึงรูปแบบ GGUF สำหรับ llama.cpp และตัวแปร MLX สำหรับอุปกรณ์ Apple Silicon โมเดลแสดงความเข้ากันได้ที่ดีกับเวิร์กโฟลว์การปรับแต่งที่มีอยู่ โดยนักพัฒนาบางคนรายงานว่าสามารถรวมเข้ากับสคริปต์ที่มีอยู่ได้สำเร็จโดยไม่ต้องแก้ไข
อย่างไรก็ตาม ชุมชนยังได้ยกข้อกังวลเกี่ยวกับการตั้งชื่อของ Google และความสับสนระหว่าง Gemma (open weights) และ Gemini Nano (Android API) ความสับสนนี้ขยายไปถึงคำถามเรื่องใบอนุญาต เนื่องจากนักพัฒนาบางคนถกเถียงว่าน้ำหนักของโมเดล AI สามารถมีลิขสิทธิ์ได้จริงหรือไม่ภายใต้กฎหมายสหรัฐฯ ปัจจุบัน
![]() |
---|
การจัดอันดับคะแนน Elo ของ LMArena ที่เน้นประสิทธิภาพของ Gemma 3n ในหมู่คู่แข่ง |
การประยุกต์ใช้งานจริงยังคงมีข้อจำกัด
แม้ว่า Google จะส่งเสริม Gemma 3n สำหรับการใช้งานแบบเรียลไทม์ เช่น การรู้จำเสียงพูด การวิเคราะห์วิดีโอ และการโต้ตอบแบบมัลติโมดอล แต่ข้อจำกัดด้านประสิทธิภาพที่เกิดขึ้นจริงได้จำกัดกรณีการใช้งานจริงอย่างมีนัยสำคัญ โมเดลทำงานได้ดีกว่าสำหรับงานออฟไลน์ เช่น การประมวลผลเอกสาร การวิเคราะห์ข้อมูลส่วนตัว และสถานการณ์ที่การเชื่อมต่อเครือข่ายมีข้อจำกัดหรือความเป็นส่วนตัวเป็นข้อกังวล
สำหรับฉันแล้ว? การจัดการข้อมูล เช่น บันทึกเสียงส่วนตัว รูปภาพ วิดีโอ ข้อมูลปฏิทิน อีเมล โค้ดบางส่วน ฯลฯ สิ่งที่ฉันไม่อยากแชร์บนอินเทอร์เน็ต
ช่องว่างระหว่างการอ้างสิทธิ์ทางการตลาดของ Google กับประสิทธิภาพที่ส่งมอบได้จริงทำให้เกิดคำถามเกี่ยวกับวิธีที่บริษัทควรสื่อสารความสามารถของ AI โดยเฉพาะเมื่อข้อจำกัดทางเทคนิคป้องกันไม่ให้นักพัฒนาบุคคลที่สามบรรลุผลลัพธ์เดียวกันกับการสาธิตภายใน
ข้อมูลจำเพาะของโมเดล Gemma 3n
- โมเดล E2B: พารามิเตอร์ทั้งหมด 5 พันล้านตัว โดยมีประมาณ 1 พันล้านตัวในหน่วยความจำของตัวเร่งความเร็ว
- โมเดล E4B: พารามิเตอร์ทั้งหมด 6 พันล้านตัว โดยมีประมาณ 4 พันล้านตัวในหน่วยความจำของตัวเร่งความเร็ว
- ความต้องการหน่วยความจำ: 2GB ( E2B ) และ 5GB ( E4B )
- ข้อมูลนำเข้าที่รองรับ: รูปภาพ เสียง วิดีโอ และข้อความ
- การรองรับภาษา: 145 ภาษาสำหรับข้อความ และ 35 ภาษาสำหรับมัลติโมดัล
บทสรุป
Gemma 3n เป็นตัวแทนของก้าวสำคัญที่น่าสนใจในเทคโนโลยี AI บนอุปกรณ์ ด้วยสถาปัตยกรรมที่เป็นนวัตกรรมและความสามารถแบบมัลติโมดอล อย่างไรก็ตาม ความไม่เชื่อมต่อที่สำคัญระหว่างการอ้างสิทธิ์ด้านประสิทธิภาพของ Google กับสิ่งที่นักพัฒนาสามารถบรรลุได้จริงเน้นย้ำถึงความท้าทายที่ยังคงอยู่ในอุตสาหกรรม AI เรื่องความโปร่งใสและความคาดหวังที่สมจริง จนกว่า Google จะให้การเข้าถึงการเร่งความเร็วด้วยฮาร์ดแวร์ที่ดีกว่าสำหรับนักพัฒนาบุคคลที่สาม ความสามารถแบบเรียลไทม์ที่สัญญาไว้ยังคงเป็นเพียงทฤษฎีสำหรับกรณีการใช้งานส่วนใหญ่