การค้นพบ FastVLM สัญญาว่าจะมี AI การมองเห็นบนอุปกรณ์ที่เร็วขึ้น 85 เท่า

BigGo Editorial Team
การค้นพบ FastVLM สัญญาว่าจะมี AI การมองเห็นบนอุปกรณ์ที่เร็วขึ้น 85 เท่า

นักวิจัยของ Apple ได้เปิดตัว FastVLM ซึ่งเป็นโมเดลภาษาวิชวลที่ปฏิวัติวงการ ออกแบบมาสำหรับการประมวลผลบนอุปกรณ์อย่างมีประสิทธิภาพ ทำให้เกิดการถกเถียงอย่างกระตือรือร้นในหมู่นักพัฒนาและผู้สนับสนุนด้านการเข้าถึง งานวิจัยนี้จะนำเสนอที่ CVPR 2025 แนะนำตัวเข้ารหัสวิชวลแบบไฮบริดใหม่ที่ลดเวลาการประมวลผลอย่างมากในขณะที่ยังคงประสิทธิภาพสูง

ภาพรวมของที่เก็บโค้ด GitHub สำหรับ FastVLM แสดงให้เห็นถึงอินเทอร์เฟซที่เรียบง่ายและเนื้อหาทางเทคนิคที่เกี่ยวข้องสำหรับนักพัฒนาและนักวิจัย
ภาพรวมของที่เก็บโค้ด GitHub สำหรับ FastVLM แสดงให้เห็นถึงอินเทอร์เฟซที่เรียบง่ายและเนื้อหาทางเทคนิคที่เกี่ยวข้องสำหรับนักพัฒนาและนักวิจัย

การปรับปรุงความเร็วที่ปฏิวัติวงการสำหรับ AI การมองเห็น

ความสำเร็จที่โดดเด่นที่สุดของ FastVLM คือการปรับปรุงความเร็วที่น่าทึ่ง โดยรุ่นที่เล็กที่สุดให้ Time-to-First-Token (TTFT) เร็วกว่า 85 เท่าเมื่อเทียบกับโซลูชันที่มีอยู่เช่น LLAVA-OneVision-0.5B การลดความล่าช้าอย่างมากนี้เป็นขีดจำกัดที่สำคัญสำหรับการประยุกต์ใช้งานจริงของ AI การมองเห็นในอุปกรณ์ทั่วไป ความสามารถของเทคโนโลยีในการประมวลผลข้อมูลภาพอย่างรวดเร็วแก้ไขปัญหาคอขวดที่สำคัญที่สุดในโมเดลภาษาวิชวลปัจจุบัน ซึ่งอาจทำให้เกิดผู้ช่วย AI ที่ตอบสนองได้จริงซึ่งสามารถเห็นและตีความโลกได้เกือบแบบเรียลไทม์

ด้วยเหตุนี้ จึงสามารถสร้างเครื่องมือช่วยเหลือที่มีประโยชน์มากสำหรับคนตาบอดได้ โดยทำงานบนโทรศัพท์ของพวกเขาเท่านั้น รับข้อมูลจากกล้องในแว่นตาของพวกเขา คนที่ไม่สามารถเคลื่อนไหวได้โดยไม่มีผู้ช่วยสามารถกลายเป็นอิสระในชีวิตประจำวันได้

รุ่นต่างๆ ของ FastVLM

รุ่น พารามิเตอร์ ประสิทธิภาพที่โดดเด่น
FastVLM-0.5B 0.5 พันล้าน เร็วกว่า LLAVA-OneVision-0.5B 85 เท่าในแง่ของ TTFT, ตัวเข้ารหัสภาพเล็กกว่า 3.4 เท่า
FastVLM-1.5B 1.5 พันล้าน มีให้เลือกทั้งในรูปแบบ Stage 2 และ Stage 3
FastVLM-7B 7 พันล้าน ใช้ Qwen2-7B LLM, มีประสิทธิภาพดีกว่า Cambrian-1-8B โดยมี TTFT เร็วกว่า 7.9 เท่า

ทุกรุ่นรองรับการใช้งานบนอุปกรณ์ Apple Silicon สำหรับการประมวลผลบนอุปกรณ์โดยตรง

กลยุทธ์การประมวลผลบนอุปกรณ์กำลังได้รับความนิยม

งานวิจัยนี้สอดคล้องกับสิ่งที่หลายคนในชุมชนมองว่าเป็นกลยุทธ์ AI ระยะยาวของ Apple: การให้ความสำคัญกับการประมวลผลบนอุปกรณ์เพื่อปรับปรุงความเป็นส่วนตัว ลดต้นทุน และลดความล่าช้า การออกแบบที่มีประสิทธิภาพของ FastVLM ทำให้สามารถทำงานได้โดยตรงบน Apple Silicon โดยที่เก็บข้อมูลให้คำแนะนำสำหรับการส่งออกโมเดลไปยังรูปแบบที่เข้ากันได้กับ iPhone, iPad และ Mac วิธีการนี้แตกต่างจากระบบ AI ที่พึ่งพาคลาวด์ซึ่งต้องการการเชื่อมต่ออินเทอร์เน็ตอย่างต่อเนื่องและก่อให้เกิดความกังวลเกี่ยวกับความเป็นส่วนตัวเมื่อประมวลผลข้อมูลภาพที่ละเอียดอ่อน

ในขณะที่ผู้แสดงความคิดเห็นบางคนแสดงความผิดหวังที่การใช้งานใช้ PyTorch แทนที่จะเป็นเฟรมเวิร์ก MLX ของ Apple การตอบสนองโดยรวมต่อเทคโนโลยีนี้เป็นไปในเชิงบวกอย่างท่วมท้น โดยนักพัฒนากำลังวางแผนที่จะรวมเข้ากับแอปพลิเคชันตั้งแต่เครื่องมือการเข้าถึงไปจนถึงยูทิลิตี้การแยกวิเคราะห์หน้าจอ

ศักยภาพในการเปลี่ยนแปลงสำหรับการเข้าถึง

บางทีการอภิปรายที่สร้างความรู้สึกมากที่สุดเกี่ยวกับ FastVLM อาจเป็นศักยภาพในการเปลี่ยนแปลงการเข้าถึงสำหรับผู้มีความบกพร่องทางการมองเห็น สมาชิกในชุมชน รวมถึงผู้ปกครองของเด็กที่มีความบกพร่องทางการมองเห็น แสดงความหวังอย่างลึกซึ้งเกี่ยวกับวิธีที่เทคโนโลยีนี้สามารถให้ความเป็นอิสระและโอกาสใหม่ๆ ความสามารถในการประมวลผลข้อมูลภาพอย่างรวดเร็วบนอุปกรณ์ส่วนตัวสามารถช่วยให้เทคโนโลยีสิ่งอำนวยความสะดวกอธิบายสภาพแวดล้อม ระบุวัตถุ และช่วยนำทางสภาพแวดล้อมโดยไม่ต้องใช้อุปกรณ์พิเศษหรือการเชื่อมต่ออินเทอร์เน็ตอย่างต่อเนื่อง

ทีมวิจัยได้จัดทำโมเดลขนาดต่างๆ ตั้งแต่เวอร์ชัน 0.5B พารามิเตอร์ที่มีน้ำหนักเบาไปจนถึงเวอร์ชัน 7B พารามิเตอร์ที่มีความสามารถมากกว่า ช่วยให้นักพัฒนาสามารถสร้างความสมดุลระหว่างประสิทธิภาพกับข้อจำกัดของอุปกรณ์ ที่เก็บข้อมูลมีคำแนะนำโดยละเอียดสำหรับทั้งการอนุมานและการปรับแต่ง ซึ่งอาจเร่งการนำไปใช้ในแอปพลิเคชันที่หลากหลาย

เมื่อการมองเห็นกลายเป็นศูนย์กลางของระบบ AI มากขึ้น วิธีการเข้ารหัสที่มีประสิทธิภาพของ FastVLM อาจพิสูจน์ได้ว่าเป็นความก้าวหน้าที่สำคัญในการนำความเข้าใจด้านภาพที่ซับซ้อนมาสู่อุปกรณ์ทั่วไป ด้วยฮาร์ดแวร์การประมวลผลประสาทของ Apple ที่ได้รับการติดตั้งในอุปกรณ์หลายล้านเครื่องแล้ว เวทีดูเหมือนจะพร้อมสำหรับแอปพลิเคชัน AI การมองเห็นที่ตอบสนองและรักษาความเป็นส่วนตัวรุ่นใหม่

อ้างอิง: FastVLM: Efficient Vision Encoding for Vision Language Models