Google's Gemma 3n อ้างว่าทำงานได้ 60 FPS บน Pixel แต่การทดสอบจริงแสดงผลเพียง 0.16 FPS

ทีมชุมชน BigGo

Google's Gemma 3n อ้างว่าทำงานได้ 60 FPS บน Pixel แต่การทดสอบจริงแสดงผลเพียง 0.16 FPS

Google เพิ่งเปิดตัว Gemma 3n ซึ่งเป็นโมเดล AI แบบใหม่ที่ทำงานบนอุปกรณ์โดยตรง โดยสัญญาว่าจะมีความสามารถแบบมัลติโมดอลที่น่าประทับใจสำหรับสมาร์ทโฟนและอุปกรณ์ขอบเครือข่าย บริษัทอ้างว่าโมเดลนี้สามารถประมวลผลได้สูงสุด 60 เฟรมต่อวินาทีบนอุปกรณ์ Google Pixel ทำให้สามารถวิเคราะห์วิดีโอแบบเรียลไทม์และสร้างประสบการณ์การโต้ตอบได้ อย่างไรก็ตาม การทดสอบจากชุมชนนักพัฒนาเผยให้เห็นช่องว่างที่สำคัญระหว่างคำสัญญาทางการตลาดกับประสิทธิภาพที่เกิดขึ้นจริง


แนะนำ Gemma 3n : โมเดล AI บนอุปกรณ์ใหม่ของ Google สำหรับสมาร์ทโฟน

การอ้างสิทธิ์เรื่องประสิทธิภาพไม่ตรงกับการทดสอบในโลกแห่งความเป็นจริง

เมื่อนักพัฒนาดาวน์โหลดแอปสาธิตอย่างเป็นทางการของ Google และทดสอบบนอุปกรณ์ Pixel จริง ผลลัพธ์ที่ได้แตกต่างอย่างมากจากข้อมูลจำเพาะที่โฆษณาไว้ แทนที่จะได้ 60 เฟรมต่อวินาทีตามที่สัญญาไว้ การทดสอบในโลกแห่งความเป็นจริงแสดงให้เห็นว่าโมเดลประมวลผลได้เพียง 0.16 เฟรมต่อวินาที ซึ่งช้ากว่าที่อ้างไว้ประมาณ 375 เท่า ผู้ทดสอบคนหนึ่งพบว่าโมเดล 2B ใช้เวลา 6.2 ถึง 7.5 วินาทีเพียงเพื่อเริ่มตอบสนองต่ออินพุตรูปภาพ โดยมีความเร็วในการสร้างเพียง 4-5 โทเค็นต่อวินาที

ความแตกต่างนี้ดูเหมือนจะเกิดจากข้อจำกัดทางเทคนิคที่ Google ไม่ได้สื่อสารอย่างชัดเจน ในขณะที่ระบบภายในของ Google สามารถเข้าถึงหน่วยประมวลผล Tensor โดยตรงผ่านกระบวนการระบบที่มีสิทธิพิเศษ นักพัฒนาบุคคลที่สามและแม้แต่แอปสาธิตสาธารณะของ Google เองก็ถูกจำกัดให้ใช้การอนุมานด้วย CPU เท่านั้น สิ่งนี้สร้างช่องว่างด้านประสิทธิภาพที่มหาศาลซึ่งทำให้ความสามารถแบบเรียลไทม์ที่โฆษณาไว้กลายเป็นสิ่งที่ใช้งานไม่ได้สำหรับนักพัฒนาส่วนใหญ่

การเปรียบเทียบประสิทธิภาพ: ที่อ้างไว้ vs ผลจริง

การอ้างของ Google: 60 เฟรมต่อวินาทีบน Google Pixel
การทดสอบในโลกแห่งความจริง: 0.16 เฟรมต่อวินาที (ช้ากว่า 375 เท่า)
เวลาตอบสนอง: 6.2-7.5 วินาทีในการเริ่มประมวลผล
การสร้าง Token: 4-5 โทเค็นต่อวินาที


ประสิทธิภาพ MMLU เทียบกับขนาดโมเดล: เน้นย้ำข้อกังวลด้านประสิทธิภาพของ Gemma 3n

นวัตกรรมด้านสถาปัตยกรรมแสดงให้เห็นศักยภาพแม้จะมีปัญหาด้านประสิทธิภาพ

แม้จะมีข้อกังวลด้านประสิทธิภาพ Gemma 3n ก็ยังนำเสนอนวัตกรรมทางเทคนิคที่น่าสนใจหลายประการ โมเดลใช้สถาปัตยกรรม MatFormer ที่อิงจากแนวคิดของตุ๊กตา Matryoshka ซึ่งโมเดลขนาดเล็กที่ใช้งานได้จะถูกซ้อนอยู่ภายในโมเดลขนาดใหญ่ สิ่งนี้ช่วยให้นักพัฒนาสามารถดึงโมเดลขนาดต่างๆ จากกระบวนการฝึกอบรมเดียว ซึ่งให้ความยืดหยุ่นในการสร้างสมดุลระหว่างประสิทธิภาพและความสามารถ

โมเดลยังมีเทคโนโลยี Per-Layer Embeddings (PLE) ซึ่งช่วยลดการใช้หน่วยความจำโดยการจัดเก็บพารามิเตอร์บางส่วนใน CPU แทนที่จะเก็บในหน่วยความจำของตัวเร่ง สำหรับตัวแปร E2B นี่หมายความว่าต้องโหลดพารามิเตอร์เพียงประมาณ 1 พันล้านตัวลงในหน่วยความจำความเร็วสูง แม้ว่าโมเดลทั้งหมดจะมีพารามิเตอร์ 5 พันล้านตัวก็ตาม

MatFormer: สถาปัตยกรรม transformer แบบซ้อนที่โมเดลขนาดเล็กถูกบรรจุอยู่ภายในโมเดลขนาดใหญ่ คล้ายกับตุ๊กตารัสเซียแบบซ้อน Per-Layer Embeddings (PLE): เทคนิคที่แบ่งพารามิเตอร์ของโมเดลระหว่างหน่วยความจำ CPU และตัวเร่งเพื่อลดความต้องการหน่วยความจำ

นวัตกรรมทางเทคนิค

สถาปัตยกรรม MatFormer: Transformer แบบซ้อนที่มีโมเดลขนาดเล็กอยู่ภายในโมเดลขนาดใหญ่
Per-Layer Embeddings (PLE): แบ่งพารามิเตอร์ระหว่างหน่วยความจำ CPU และ accelerator
KV Cache Sharing: ปรับปรุงประสิทธิภาพ prefill ได้ 3 เท่าเมื่อเทียบกับ Gemma 3 4B
MobileNet-V5: Vision encoder รุ่นใหม่ที่รองรับความละเอียด 256x256, 512x512 และ 768x768

การยอมรับจากชุมชนและความเข้ากันได้

ชุมชนนักพัฒนาได้ปรับใช้ Gemma 3n สำหรับแพลตฟอร์มและกรณีการใช้งานต่างๆ อย่างรวดเร็ว นักพัฒนาหลายคนได้สร้างเวอร์ชันที่ปรับปรุงแล้วสำหรับเฟรมเวิร์กต่างๆ รวมถึงรูปแบบ GGUF สำหรับ llama.cpp และตัวแปร MLX สำหรับอุปกรณ์ Apple Silicon โมเดลแสดงความเข้ากันได้ที่ดีกับเวิร์กโฟลว์การปรับแต่งที่มีอยู่ โดยนักพัฒนาบางคนรายงานว่าสามารถรวมเข้ากับสคริปต์ที่มีอยู่ได้สำเร็จโดยไม่ต้องแก้ไข

อย่างไรก็ตาม ชุมชนยังได้ยกข้อกังวลเกี่ยวกับการตั้งชื่อของ Google และความสับสนระหว่าง Gemma (open weights) และ Gemini Nano (Android API) ความสับสนนี้ขยายไปถึงคำถามเรื่องใบอนุญาต เนื่องจากนักพัฒนาบางคนถกเถียงว่าน้ำหนักของโมเดล AI สามารถมีลิขสิทธิ์ได้จริงหรือไม่ภายใต้กฎหมายสหรัฐฯ ปัจจุบัน


การจัดอันดับคะแนน Elo ของ LMArena ที่เน้นประสิทธิภาพของ Gemma 3n ในหมู่คู่แข่ง

การประยุกต์ใช้งานจริงยังคงมีข้อจำกัด

แม้ว่า Google จะส่งเสริม Gemma 3n สำหรับการใช้งานแบบเรียลไทม์ เช่น การรู้จำเสียงพูด การวิเคราะห์วิดีโอ และการโต้ตอบแบบมัลติโมดอล แต่ข้อจำกัดด้านประสิทธิภาพที่เกิดขึ้นจริงได้จำกัดกรณีการใช้งานจริงอย่างมีนัยสำคัญ โมเดลทำงานได้ดีกว่าสำหรับงานออฟไลน์ เช่น การประมวลผลเอกสาร การวิเคราะห์ข้อมูลส่วนตัว และสถานการณ์ที่การเชื่อมต่อเครือข่ายมีข้อจำกัดหรือความเป็นส่วนตัวเป็นข้อกังวล

สำหรับฉันแล้ว? การจัดการข้อมูล เช่น บันทึกเสียงส่วนตัว รูปภาพ วิดีโอ ข้อมูลปฏิทิน อีเมล โค้ดบางส่วน ฯลฯ สิ่งที่ฉันไม่อยากแชร์บนอินเทอร์เน็ต

ช่องว่างระหว่างการอ้างสิทธิ์ทางการตลาดของ Google กับประสิทธิภาพที่ส่งมอบได้จริงทำให้เกิดคำถามเกี่ยวกับวิธีที่บริษัทควรสื่อสารความสามารถของ AI โดยเฉพาะเมื่อข้อจำกัดทางเทคนิคป้องกันไม่ให้นักพัฒนาบุคคลที่สามบรรลุผลลัพธ์เดียวกันกับการสาธิตภายใน

ข้อมูลจำเพาะของโมเดล Gemma 3n

โมเดล E2B: พารามิเตอร์ทั้งหมด 5 พันล้านตัว โดยมีประมาณ 1 พันล้านตัวในหน่วยความจำของตัวเร่งความเร็ว
โมเดล E4B: พารามิเตอร์ทั้งหมด 6 พันล้านตัว โดยมีประมาณ 4 พันล้านตัวในหน่วยความจำของตัวเร่งความเร็ว
ความต้องการหน่วยความจำ: 2GB ( E2B ) และ 5GB ( E4B )
ข้อมูลนำเข้าที่รองรับ: รูปภาพ เสียง วิดีโอ และข้อความ
การรองรับภาษา: 145 ภาษาสำหรับข้อความ และ 35 ภาษาสำหรับมัลติโมดัล

บทสรุป

Gemma 3n เป็นตัวแทนของก้าวสำคัญที่น่าสนใจในเทคโนโลยี AI บนอุปกรณ์ ด้วยสถาปัตยกรรมที่เป็นนวัตกรรมและความสามารถแบบมัลติโมดอล อย่างไรก็ตาม ความไม่เชื่อมต่อที่สำคัญระหว่างการอ้างสิทธิ์ด้านประสิทธิภาพของ Google กับสิ่งที่นักพัฒนาสามารถบรรลุได้จริงเน้นย้ำถึงความท้าทายที่ยังคงอยู่ในอุตสาหกรรม AI เรื่องความโปร่งใสและความคาดหวังที่สมจริง จนกว่า Google จะให้การเข้าถึงการเร่งความเร็วด้วยฮาร์ดแวร์ที่ดีกว่าสำหรับนักพัฒนาบุคคลที่สาม ความสามารถแบบเรียลไทม์ที่สัญญาไว้ยังคงเป็นเพียงทฤษฎีสำหรับกรณีการใช้งานส่วนใหญ่

อ้างอิง: Introducing Gemma 3n: The developer guide

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌