การอ้างว่า V-JEPA 2 แก้ปัญหาหุ่นยนต์ได้ถูกตั้งคำถามเรื่องความแม่นยำและการโอ้อวดความก้าวหน้า

ทีมชุมชน BigGo
การอ้างว่า V-JEPA 2 แก้ปัญหาหุ่นยนต์ได้ถูกตั้งคำถามเรื่องความแม่นยำและการโอ้อวดความก้าวหน้า

บทความล่าสุดที่อ้างว่าปัญหาหุ่นยนต์ได้ถูกแก้ไขโดยบังเอิญผ่าน V-JEPA 2 ซึ่งเป็นโมเดล AI ที่ใช้วิดีโอและได้รับการฝึกฝนจากเนื้อหา YouTube หลายล้านชั่วโมง ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนเทคโนโลยี แม้ว่างานวิจัยนี้จะนำเสนอความก้าวหน้าที่น่าสนใจในการควบคุมหุ่นยนต์ แต่ผู้เชี่ยวชาญกำลังตั้งคำถามทั้งความแม่นยำของการอ้างดังกล่าวและว่าความก้าวหน้านี้เป็นการปฏิวัติจริงหรือไม่ตามที่นำเสนอ

ข้อมูลจำเพาะของโมเดล:

  • Encoder: ViT-g ที่มีพารามิเตอร์ 1 พันล้านตัว
  • Predictor: transformer ขนาด 300 ล้านพารามิเตอร์ (เวอร์ชัน V-JEPA 2-AC)
  • ข้อมูลการฝึก: วิดีโอ 22 ล้านคลิป + รูปภาพ 1 ล้านรูป
  • การฝึกหุ่นยนต์: ภาพวิดีโอแขนกล Franka เป็นเวลา 62 ชั่วโมง

ความแม่นยำทางเทคนิคถูกวิพากษ์วิจารณ์

สมาชิกชุมชนได้ระบุข้อผิดพลาดและความไม่สอดคล้องกันทางข้อเท็จจริงมากมายในการรายงานต้นฉบับ ปัญหาที่เห็นได้ชัดเจนโดยเฉพาะอย่างหนึ่งเกี่ยวข้องกับข้อมูลที่ขัดแย้งกันเกี่ยวกับขนาดชุดข้อมูลการฝึก - บทความกล่าวถึงทั้ง 22 ล้านวิดีโอและหนึ่งพันล้านวิดีโอ YouTube โดยไม่มีการชี้แจงที่ชัดเจน ดังที่ผู้อ่านคนหนึ่งชี้ให้เห็น ความสับสนเกิดจากการเข้าใจผิดว่า YT-Temporal-1B หมายถึงหนึ่งพันล้านเฟรมของวิดีโอ ไม่ใช่หนึ่งพันล้านวิดีโอแยกกัน

รูปแบบการเขียนเองก็ทำให้ผู้อ่านเกิดความสงสัย โดยบางคนสังเกตว่าการใช้มีมอินเทอร์เน็ตที่ล้าสมัยบ่อยครั้งและการอธิบายทางเทคนิคที่ไม่สอดคล้องกันบ่งบอกว่าบทความอาจถูกสร้างหรือแก้ไขด้วยเครื่องมือ AI อย่างหนัก การปรากฏของวลีเช่น ngmi (not gonna make it) และการอ้างอิงถึง doge memes ในปี 2025 ทำให้หลายคนรู้สึกว่าถูกแทรกเข้าไปอย่างเทียมมากกว่าการเขียนทางเทคนิคที่เป็นธรรมชาติ

การอ้างเรื่องประสิทธิภาพถูกตั้งคำถาม

แม้ว่า V-JEPA 2 จะแสดงผลลัพธ์ที่มีแนวโน้มดีในงานควบคุมหุ่นยนต์ แต่ชุมชนกำลังต่อต้านการบรรยายว่าปัญหาหุ่นยนต์ได้รับการแก้ไขแล้ว อัตราความสำเร็จที่รายงาน 65% สำหรับการจับถ้วยและ 65-80% สำหรับการหยิบและวางของ แม้จะน่าสังเกต แต่ก็ยังไม่ถึงขั้นเป็นความก้าวหน้าที่ปฏิวัติวงการตามที่หัวข้อข่าวแนะนำ

พวกเขาทำได้ 65% ความสำเร็จในงานที่ง่ายมาก

นักวิจารณ์ยังสังเกตว่าประสิทธิภาพที่คล้ายกันหรือดีกว่านี้ได้ถูกบรรลุโดยวิธีการอื่น ๆ รวมถึงโมเดล flow-matching imitation learning และโมเดล world foundation ของ NVIDIA ข้อมูลเชิงลึกหลักของการทำนายในพื้นที่การแสดง (representation space) มากกว่าพิกเซลดิบได้เป็นแนวปฏิบัติมาตรฐานใน computer vision ตั้งแต่ปี 2014 ทำให้ความแปลกใหม่ที่อ้างนั้นน่าสงสัย

ตัวชี้วัดประสิทธิภาพของ V-JEPA 2:

  • งานการเอื้อม: อัตราความสำเร็จ 100%
  • การจับถ้วย: อัตราความสำเร็จ 65%
  • การหยิบและวาง: อัตราความสำเร็จ 65-80%
  • ความเร็วในการวางแผน: 16 วินาทีต่อการกระทำ (เทียบกับ 4 นาทีสำหรับ diffusion models)

ข้อจำกัดในโลกจริงถูกมองข้าม

งานวิจัยเผยให้เห็นข้อจำกัดทางปฏิบัติที่สำคัญซึ่งไม่ได้รับการเน้นย้ำอย่างเพียงพอในการรายงานต้นฉบับ ระบบแสดงความไวต่อตำแหน่งกล้องอย่างมาก - การเลื่อนกล้องเพียง 10 องศาสามารถทำให้หุ่นยนต์สับสนเรื่องทิศทางพื้นฐานได้ นอกจากนี้ โมเดลยังมีปัญหากับการวางแผนระยะยาว โดยประสบกับการเบี่ยงเบนเมื่อพยายามวางแผนมากกว่าไม่กี่ขั้นตอน

สิ่งที่จำกัดที่สุดคงเป็นข้อกำหนดปัจจุบันสำหรับการระบุเป้าหมายด้วยภาพ ผู้ใช้ต้องให้ภาพของผลลัพธ์ที่ต้องการมากกว่าคำสั่งภาษาธรรมชาติ ซึ่งจำกัดการใช้งานจริงอย่างรุนแรง ความไม่สามารถในการเข้าใจคำสั่งเช่น ทำแซนด์วิชให้ฉัน โดยไม่มีการสาธิตด้วยภาพประกอบ เน้นย้ำช่องว่างระหว่างความสามารถปัจจุบันและหุ่นยนต์ที่แก้ปัญหาได้จริง ๆ

ข้อจำกัดหลัก:

  • ความไวต่อตำแหน่งกล้อง (การเคลื่อนไหว 10 องศาทำให้เกิดความสับสน)
  • การดริฟต์ในการวางแผนระยะยาว
  • ต้องการการระบุเป้าหมายด้วยภาพ (ไม่รองรับคำสั่งภาษาธรรมชาติ)
  • จำกัดเฉพาะงานจัดการที่เรียบง่าย

บริบทที่กว้างขึ้นหายไป

การอภิปรายยังเน้นย้ำความกังวลเกี่ยวกับแหล่งข้อมูลและผลกระทบทางกฎหมาย เงื่อนไขการให้บริการของ YouTube โดยทั่วไปห้ามการดึงข้อมูลขนาดใหญ่ แม้ว่าความสามารถในการบังคับใช้ทางกฎหมายของข้อจำกัดดังกล่าวสำหรับการฝึก AI ยังคงไม่ชัดเจน สิ่งนี้สะท้อนความตึงเครียดที่กว้างขึ้นในอุตสาหกรรม AI เกี่ยวกับลิขสิทธิ์และการใช้งานที่เป็นธรรมสำหรับข้อมูลการฝึก

ปฏิกิริยาของชุมชนเน้นย้ำความเหนื่อยหน่ายที่เพิ่มขึ้นต่อการประกาศ AI ที่โอ้อวดเกินจริง แม้ว่า V-JEPA 2 จะแสดงถึงความก้าวหน้าที่แท้จริงในการเรียนรู้หุ่นยนต์ที่ใช้วิดีโอ แต่ช่องว่างระหว่างความก้าวหน้าการวิจัยแบบค่อยเป็นค่อยไปและความก้าวหน้าที่เปลี่ยนแปลงโลกยังคงถูกนำเสนอผิด ๆ ในการรายงานสำหรับสาธารณะ

งานวิจัยเองดูเหมือนจะมั่นคงและมีส่วนร่วมในข้อมูลเชิงลึกที่มีคุณค่าต่อสาขาหุ่นยนต์และ computer vision อย่างไรก็ตาม การตอบสนองอย่างวิจารณญาณของชุมชนทำหน้าที่เป็นการเตือนใจว่าการอ้างที่พิเศษต้องการหลักฐานที่พิเศษ - และการรายงานที่ระมัดระวังและแม่นยำ

อ้างอิง: how we accidentally solved robotics by watching 1 million hours of YouTube