Meta ได้เปิดตัวโมเดลโลกที่ล้ำหน้าที่สุดในปัจจุบัน โดยมุ่งเน้นให้ปัญญาประดิษฐ์เข้าใจและนำทางในโลกกายภาพได้ดีขึ้นผ่านการใช้เหตุผลแบบสัญชาตญาณมากกว่าการเรียนรู้แบบใช้พลังดิบ V-JEPA 2 แสดงให้เห็นถึงความก้าวหน้าอย่างมีนัยสำคัญในการช่วยให้ตัวแทน AI พัฒนาความเข้าใจเกี่ยวกับฟิสิกส์และความสัมพันธ์เชิงพื้นที่แบบมนุษย์
สถาปัตยกรรมปฏิวัติที่เปิดใช้ความเข้าใจทางกายภาพแบบสัญชาตญาณ
V-JEPA 2 ใช้ Joint Embedding Predictive Architecture ที่แตกต่างจากโมเดลการทำนายพิกเซลแบบดั้งเดิมอย่างพื้นฐาน แทนที่จะสร้างเนื้อหาภาพ ระบบนี้มุ่งเน้นไปที่การเข้าใจฟิสิกส์และความสัมพันธ์พื้นฐานภายในข้อมูลวิดีโอ วิธีการนี้ช่วยให้ตัวแทน AI เข้าใจแนวคิดต่างๆ เช่น แรงโน้มถ่วง โมเมนตัม และการโต้ตอบของวัตถุ โดยไม่ต้องใช้การฝึกหลายล้านครั้งสำหรับทักษะใหม่แต่ละอย่าง
โมเดลนี้แสดงความสามารถที่น่าทึ่งในการทำนายสถานการณ์ที่ซับซ้อน ตัวอย่างเช่น มันสามารถคาดการณ์ได้ว่าคนที่ถือพายใกล้เตาน่าจะย้ายไข่ที่ปรุงแล้วไปใส่จาน หรือเข้าใจการเคลื่อนไหวที่ซับซ้อนของนักกีฬาที่กำลังแสดงท่าดำน้ำ การทำนายเหล่านี้เกิดจากความสามารถของโมเดลในการสร้างการแสดงภายในของวิธีการทำงานของโลกกายภาพ
สถาปัตยกรรมทางเทคนิค:
- ประเภทโมเดล: Joint Embedding Predictive Architecture ( JEPA )
- วิธีการฝึกฝน: Self-supervised learning
- องค์ประกอบหลัก: Encoder (ประมวลผลวิดีโอดิบ) + Predictor (พยากรณ์สถานะในอนาคต)
- จุดเน้น: การเข้าใจฟิสิกส์และความสัมพันธ์มากกว่าการทำนายพิกเซล
![]() |
---|
แผนภาพแสดงการเข้ารหัสและการประมวลผลข้อมูลภาพสำหรับการทำนายการกระทำของหุ่นยนต์โดยใช้สถาปัตยกรรมของ V-JEPA 2 |
ชุดข้อมูลการฝึกขนาดใหญ่ขับเคลื่อนความสามารถขั้นสูง
Meta ฝึก V-JEPA 2 โดยใช้เนื้อหาวิดีโอมากกว่าหนึ่งล้านชั่วโมงผ่านเทคนิคการเรียนรู้แบบควบคุมตนเอง ชุดข้อมูลขนาดใหญ่นี้ช่วยให้โมเดลเข้าใจการโต้ตอบระหว่างมนุษย์กับวัตถุ รูปแบบการเคลื่อนไหวทางกายภาพ และกฎพื้นฐานที่ควบคุมพฤติกรรมของวัตถุในพื้นที่สามมิติ วิธีการฝึกนี้ช่วยขจัดความจำเป็นในการใช้ข้อมูลที่ติดป้ายด้วยตนเอง ขณะเดียวกันก็สร้างความเข้าใจที่แข็งแกร่งเกี่ยวกับหลักการทางกายภาพ
สถาปัตยกรรมของโมเดลประกอบด้วยองค์ประกอบหลักสองส่วน: ตัวเข้ารหัสที่ประมวลผลอินพุตวิดีโอดิบและสร้าง embedding ที่มีความหมาย และตัวทำนายที่ใช้ embedding เหล่านี้เพื่อคาดการณ์สถานะในอนาคต การออกแบบนี้ช่วยให้ระบบเข้าใจพลวัตเชิงเวลาและรูปแบบการเคลื่อนไหวที่ซับซ้อนซึ่งมีความสำคัญต่อการประยุกต์ใช้ AI ในโลกจริง
การปรับปรุงประสิทธิภาพอย่างมากเมื่อเปรียบเทียบกับโมเดลคู่แข่ง
ตามการทดสอบภายในของ Meta , V-JEPA 2 บรรลุความเร็วในการวางแผนที่เร็วกว่าโมเดล Cosmos ของ Nvidia ถึง 30 เท่า ขณะเดียวกันก็รักษาอัตราความสำเร็จที่สูงกว่าในงานต่างๆ โมเดลนี้แสดงประสิทธิภาพที่น่าประทับใจในการประยุกต์ใช้หุ่นยนต์ โดยบรรลุความสำเร็จ 100% ในงานการเอื้อม 45% ในการดำเนินการจับ และ 73% ในกิจกรรมหยิบและวาง โดยไม่ต้องใช้ข้อมูลการฝึกเฉพาะหุ่นยนต์อย่างกว้างขวาง
ข้อได้เปรียบด้านประสิทธิภาพนี้เกิดจากความสามารถของโมเดลในการเข้าใจฟิสิกส์พื้นฐานมากกว่าการจดจำสถานการณ์เฉพาะ ระบบ AI แบบดั้งเดิมมักต้องการชุดข้อมูลขนาดใหญ่สำหรับงานใหม่แต่ละอย่าง ในขณะที่ V-JEPA 2 สามารถนำความเข้าใจของมันไปใช้ในโดเมนและการประยุกต์ใช้ต่างๆ ได้ด้วยการฝึกเพิ่มเติมเพียงเล็กน้อย
การเปรียบเทียบประสิทธิภาพ:
- ความเร็วในการวางแผนของ V-JEPA 2: เร็วกว่าโมเดล Nvidia Cosmos ถึง 30 เท่า
- ข้อมูลการฝึกอบรม: เนื้อหาวิดีโอมากกว่า 1 ล้านชั่วโมง
- อัตราความสำเร็จของงานหุ่นยนต์: 100% (การเอื้อม), 45% (การจับ), 73% (การหยิบและวาง)
![]() |
---|
การเปรียบเทียบเวลาในการวางแผนต่อขั้นตอนระหว่าง V-JEPA 2 และ Cosmos แสดงให้เห็นประสิทธิภาพที่เหนือกว่าของ V-JEPA 2 |
การประยุกต์ใช้อย่างกว้างขวางในหลายอุตสาหกรรม
Meta มองเห็น V-JEPA 2 ให้ความสามารถในการประยุกต์ใช้แปลงโฉมในภาคส่วนต่างๆ เทคโนโลยีนี้สามารถช่วยเหลือผู้ที่มีความบกพร่องทางสายตาโดยให้ความเข้าใจสภาพแวดล้อมที่ดีขึ้น ขับเคลื่อนประสบการณ์ความเป็นจริงผสมที่ซับซ้อนมากขึ้นด้วยเนื้อหาการศึกษาส่วนบุคคล และปรับปรุงผู้ช่วยการเขียนโปรแกรม AI ที่เข้าใจอย่างแท้จริงว่าการเปลี่ยนแปลงโค้ดส่งผลต่อสถานะของระบบอย่างไร
ระบบอัตโนมัติแสดงให้เห็นถึงพื้นที่การประยุกต์ใช้ที่สำคัญอีกด้านหนึ่ง ยานพาหนะขับขี่อัตโนมัติและระบบหุ่นยนต์สามารถได้รับประโยชน์จากความสามารถของโมเดลในการทำนายและเข้าใจการโต้ตอบทางกายภาพที่ซับซ้อนโดยไม่ต้องใช้การฝึกเฉพาะโดเมนอย่างกว้างขวาง Meta แนะนำว่าเทคโนโลยีนี้สามารถนำไปสู่ยุคใหม่ของหุ่นยนต์ในครัวเรือนที่สามารถทำงานในบ้านได้โดยไม่ต้องใช้ข้อมูลการฝึกจำนวนมหาศาล
![]() |
---|
แขนหุ่นยนต์ Franka กำลังปฏิบัติงาน แสดงให้เห็นความสามารถของ V-JEPA 2 ในการโต้ตอบทางกายภาพและหุ่นยนต์ |
มาตรฐานใหม่ส่งเสริมชุมชนการวิจัย
ควบคู่ไปกับการเปิดตัวโมเดล Meta ได้แนะนำการทดสอบมาตรฐานเฉพาะสามแบบเพื่อช่วยนักวิจัยประเมินความสามารถของระบบ AI ในการเข้าใจหลักการทางกายภาพจากเนื้อหาวิดีโอ ซึ่งรวมถึง IntPhys 2 สำหรับการทดสอบความเข้าใจฟิสิกส์สัญชาตญาณในสภาพแวดล้อมสังเคราะห์ที่ซับซ้อน มาตรฐานการตอบคำถามวิดีโอที่ตระหนักถึงทางลัด และ CausalVQA สำหรับการประเมินการใช้เหตุผลเชิงสาเหตุที่มีพื้นฐานทางกายภาพ
มาตรฐานเหล่านี้ให้วิธีการมาตรฐานสำหรับการวัดความก้าวหน้าในการพัฒนาโมเดลโลกและรับประกันเกณฑ์การประเมินที่สอดคล้องกันในความพยายามการวิจัยที่แตกต่างกัน เครื่องมือเหล่านี้จะช่วยชุมชน AI ที่กว้างขวางในการพัฒนาความเข้าใจเกี่ยวกับวิธีที่เครื่องจักรสามารถเข้าใจและโต้ตอบกับโลกกายภาพได้ดีขึ้น
การทดสอบมาตรฐานใหม่:
- IntPhys 2: ทดสอบความเข้าใจฟิสิกส์เชิงสัญชาตญาณในสภาพแวดล้อมสังเคราะห์ที่ซับซ้อน
- Shortcut-aware Video-QA: ความเข้าใจทางกายภาพผ่านคู่วิดีโอขั้นต่ำ
- CausalVQA: การใช้เหตุผลเชิงสาเหตุที่มีพื้นฐานทางกายภาพสำหรับโมเดลวิดีโอ
จังหวะเชิงกลยุทธ์ท่ามกลางการขยายตัวของ AI ของ Meta
การประกาศ V-JEPA 2 เกิดขึ้นในขณะที่ Meta ขยายความสามารถการวิจัย AI อย่างมีนัยสำคัญ รายงานล่าสุดระบุว่าบริษัทกำลังจัดตั้งห้องปฏิบัติการ AI ใหม่และได้มุ่งมั่นที่จะใช้เงิน 14.8 พันล้านดอลลาร์สหรัฐ เพื่อซื้อหุ้น 49% ใน Scale AI บทบาทที่โดดเด่นของ Chief AI Scientist Yann LeCun ในการส่งเสริมโมเดลใหม่แสดงให้เห็นว่า Meta กำลังวางตำแหน่งตัวเองอย่างแข็งขันในฐานะผู้นำในการวิจัย AI ขั้นสูง ขณะเดียวกันก็อาจดึงดูดผู้มีความสามารถชั้นนำมายังทีมที่กำลังขยายตัว
การผลักดันเชิงกลยุทธ์เข้าสู่โมเดลโลกนี้แสดงให้เห็นถึงวิสัยทัศน์ที่กว้างขวางของ Meta ในการบรรลุ Artificial General Intelligence ผ่านระบบที่สามารถใช้เหตุผลและโต้ตอบกับโลกกายภาพได้อย่างเป็นธรรมชาติเหมือนมนุษย์