Meta ได้เปิดตัว DINOv3 โมเดลคอมพิวเตอร์วิชันใหม่ที่ทรงพลังซึ่งสามารถเข้าใจและวิเคราะห์ภาพได้โดยไม่ต้องใช้ข้อมูลการฝึกที่มีป้ายกำกับ แม้ว่าการปรับปรุงทางเทคนิคจะน่าประทับใจ แต่การเปิดตัวครั้งนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI เกี่ยวกับการตัดสินใจของ Meta ที่จะเปลี่ยนจากใบอนุญาต Apache 2.0 แบบเปิดเป็นใบอนุญาตเชิงพาณิชย์ที่มีข้อจำกัด
ความก้าวหน้าทางเทคนิคที่เน้นภาพดาวเทียม
DINOv3 เป็นการก้าวกระโดดครั้งสำคัญในโมเดลวิชันแบบ self-supervised โดยขยายขนาดไปถึงกว่า 1 พันล้านพารามิเตอร์และฝึกฝนด้วยภาพ 1.2 พันล้านภาพ โมเดลนี้เก่งในการสร้างการแสดงภาพคุณภาพสูงที่สามารถใช้สำหรับงานต่างๆ เช่น การตรวจจับวัตถุ การแบ่งส่วน และการค้นหาภาพโดยไม่ต้องปรับแต่งเพิ่มเติม
หนึ่งในการพัฒนาที่น่าตื่นเต้นที่สุดคือการรวมโมเดลที่ฝึกฝนเฉพาะกับภาพดาวเทียม เวอร์ชันก่อนหน้าของ DINO มีประสิทธิภาพที่ไม่ดีกับภาพทางอากาศและดาวเทียม แต่ DINOv3 รวมโมเดลเฉพาะทางที่ฝึกฝนด้วยชุดข้อมูลดาวเทียม SAT-493M ซึ่งแก้ไขช่องว่างสำคัญสำหรับนักวิจัยและบริษัทที่ทำงานกับข้อมูลเชิงพื้นที่
Self-supervised learning: วิธีการเรียนรู้ของเครื่องที่โมเดลเรียนรู้ที่จะเข้าใจข้อมูลโดยไม่ต้องใช้ตัวอย่างที่มีป้ายกำกับโดยมนุษย์ แต่หาแพทเทิร์นในข้อมูลเอง
ข้อมูลจำเพาะของโมเดล:
- พารามิเตอร์: มากกว่า 1 พันล้าน
- ข้อมูลการฝึก: รูปภาพ 1.2 พันล้านภาพ
- โมเดลดาวเทียมเฉพาะทาง: ฝึกด้วยชุดข้อมูล SAT-493M
- สถาปัตยกรรม: Vision Transformer ( ViT ) รูปแบบต่างๆ รวมถึง ViT-L/16 และ ViT-T/16
การเปลี่ยนแปลงใบอนุญาตทำให้ชุมชนกังวล
ด้านที่ถกเถียงกันมากที่สุดของการเปิดตัว DINOv3 คือการเปลี่ยนแปลงของ Meta จากการให้ใบอนุญาตแบบเปิด ต่างจาก DINOv2 ที่ใช้ใบอนุญาต Apache 2.0 แบบอนุญาต DINOv3 ต้องการให้ผู้ใช้แบ่งปันข้อมูลส่วนตัวรวมถึงวันเกิดและผ่านกระบวนการอนุมัติเพื่อเข้าถึงโมเดล
คุณต้องแบ่งปันข้อมูลการติดต่อของคุณ รวมถึงวันเกิด แล้วได้รับการอนุมัติการเข้าถึงเพื่อรับโมเดล และเนื่องจากเป็น Meta ฉันคิดว่าพวกเขากำลังตรวจสอบกับฐานข้อมูล All Humans ของพวกเขาจริงๆ
การเปลี่ยนแปลงนี้ทำให้หลายคนในชุมชน AI โอเพนซอร์สผิดหวังที่พึ่งพาการเข้าถึงได้ของโมเดลก่อนหน้า ผู้ใช้บางคนเรียกร้องให้ Meta พิจารณาการตัดสินใจเรื่องใบอนุญาตใหม่ โดยชี้ไปที่แคมเปญที่ประสบความสำเร็จในอดีตที่โน้มน้าวให้บริษัทเปลี่ยนใบอนุญาตที่มีข้อจำกัดเดิมของ DINOv2 เป็น Apache 2.0
การเปรียบเทียบใบอนุญาต:
- DINOv2: Apache 2.0 (โอเพนซอร์ส)
- DINOv3: ใบอนุญาตเชิงพาณิชย์แบบกำหนดเองที่ต้องการ:
- การส่งข้อมูลส่วนบุคคล (รวมถึงวันเกิด)
- กระบวนการอนุมัติสำหรับการเข้าถึงโมเดล
- การตรวจสอบกับฐานข้อมูลผู้ใช้ของ Meta
การประยุกต์ใช้ในทางปฏิบัติและประสิทธิภาพ
แม้จะมีข้อกังวลเรื่องใบอนุญาต ผู้ใช้รุ่นแรกรายงานว่า DINOv3 ให้การปรับปรุงที่มีความหมายเหนือรุ่นก่อนหน้า โมเดลทำงานเป็น drop-in replacement สำหรับ DINOv2 ในหลายแอปพลิเคชัน ทำให้นักพัฒนาอัปเกรดระบบที่มีอยู่ได้ค่อนข้างง่าย
โมเดลเก่งในฐานะ foundation model หมายความว่าสามารถแมปภาพใดๆ ลงในพื้นที่มิติสูงที่งานวิชันที่ซับซ้อนกลายเป็นเรื่องง่ายในการแก้ไข ตัวอย่างเช่น การกำหนดว่าภาพมีวัตถุเฉพาะหรือไม่กลายเป็นเรื่องของการหาขอบเขตทางคณิตศาสตร์ที่ถูกต้องในพื้นที่ที่แปลงแล้วนี้ แทนที่จะฝึกโมเดลใหม่ทั้งหมดตั้งแต่เริ่มต้น
Foundation model: โมเดล AI ขนาดใหญ่ที่ฝึกฝนด้วยข้อมูลกว้างซึ่งสามารถปรับให้เข้ากับงานเฉพาะต่างๆ ได้มากมายโดยไม่ต้องฝึกใหม่อย่างกว้างขวาง
มองไปข้างหน้า
ในขณะที่ความสามารถทางเทคนิคของ DINOv3 แสดงถึงความก้าวหน้าที่ชัดเจนในคอมพิวเตอร์วิชัน ข้อถกเถียงเรื่องใบอนุญาตเน้นย้ำความตึงเครียดที่เพิ่มขึ้นเกี่ยวกับการเข้าถึงโมเดล AI การตอบสนองของชุมชนแสดงให้เห็นว่ากลยุทธ์ใบอนุญาตเชิงพาณิชย์ของ Meta อาจเผชิญกับความต้านทานจากนักวิจัยและนักพัฒนาที่คาดหวังแนวทางที่เปิดกว่านี้ในการแจกจ่ายโมเดล AI
ในตอนนี้ ผู้ใช้ต้องชั่งน้ำหนักประสิทธิภาพที่ปรับปรุงของโมเดลกับข้อจำกัดและข้อกำหนดการอนุมัติใหม่ โดยเฉพาะสำหรับแอปพลิเคชันเชิงพาณิชย์ที่เงื่อนไขใบอนุญาตอาจเป็นอุปสรรค
อ้างอิง: facebookresearch / DINOv3