โมเดลวิชัน DINOv3 ของ Meta จุดประกายข้อถกเถียงเรื่องใบอนุญาตเชิงพาณิชย์แบบใหม่

ทีมชุมชน BigGo
โมเดลวิชัน DINOv3 ของ Meta จุดประกายข้อถกเถียงเรื่องใบอนุญาตเชิงพาณิชย์แบบใหม่

Meta ได้เปิดตัว DINOv3 โมเดลคอมพิวเตอร์วิชันใหม่ที่ทรงพลังซึ่งสามารถเข้าใจและวิเคราะห์ภาพได้โดยไม่ต้องใช้ข้อมูลการฝึกที่มีป้ายกำกับ แม้ว่าการปรับปรุงทางเทคนิคจะน่าประทับใจ แต่การเปิดตัวครั้งนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI เกี่ยวกับการตัดสินใจของ Meta ที่จะเปลี่ยนจากใบอนุญาต Apache 2.0 แบบเปิดเป็นใบอนุญาตเชิงพาณิชย์ที่มีข้อจำกัด

ความก้าวหน้าทางเทคนิคที่เน้นภาพดาวเทียม

DINOv3 เป็นการก้าวกระโดดครั้งสำคัญในโมเดลวิชันแบบ self-supervised โดยขยายขนาดไปถึงกว่า 1 พันล้านพารามิเตอร์และฝึกฝนด้วยภาพ 1.2 พันล้านภาพ โมเดลนี้เก่งในการสร้างการแสดงภาพคุณภาพสูงที่สามารถใช้สำหรับงานต่างๆ เช่น การตรวจจับวัตถุ การแบ่งส่วน และการค้นหาภาพโดยไม่ต้องปรับแต่งเพิ่มเติม

หนึ่งในการพัฒนาที่น่าตื่นเต้นที่สุดคือการรวมโมเดลที่ฝึกฝนเฉพาะกับภาพดาวเทียม เวอร์ชันก่อนหน้าของ DINO มีประสิทธิภาพที่ไม่ดีกับภาพทางอากาศและดาวเทียม แต่ DINOv3 รวมโมเดลเฉพาะทางที่ฝึกฝนด้วยชุดข้อมูลดาวเทียม SAT-493M ซึ่งแก้ไขช่องว่างสำคัญสำหรับนักวิจัยและบริษัทที่ทำงานกับข้อมูลเชิงพื้นที่

Self-supervised learning: วิธีการเรียนรู้ของเครื่องที่โมเดลเรียนรู้ที่จะเข้าใจข้อมูลโดยไม่ต้องใช้ตัวอย่างที่มีป้ายกำกับโดยมนุษย์ แต่หาแพทเทิร์นในข้อมูลเอง

ข้อมูลจำเพาะของโมเดล:

  • พารามิเตอร์: มากกว่า 1 พันล้าน
  • ข้อมูลการฝึก: รูปภาพ 1.2 พันล้านภาพ
  • โมเดลดาวเทียมเฉพาะทาง: ฝึกด้วยชุดข้อมูล SAT-493M
  • สถาปัตยกรรม: Vision Transformer ( ViT ) รูปแบบต่างๆ รวมถึง ViT-L/16 และ ViT-T/16

การเปลี่ยนแปลงใบอนุญาตทำให้ชุมชนกังวล

ด้านที่ถกเถียงกันมากที่สุดของการเปิดตัว DINOv3 คือการเปลี่ยนแปลงของ Meta จากการให้ใบอนุญาตแบบเปิด ต่างจาก DINOv2 ที่ใช้ใบอนุญาต Apache 2.0 แบบอนุญาต DINOv3 ต้องการให้ผู้ใช้แบ่งปันข้อมูลส่วนตัวรวมถึงวันเกิดและผ่านกระบวนการอนุมัติเพื่อเข้าถึงโมเดล

คุณต้องแบ่งปันข้อมูลการติดต่อของคุณ รวมถึงวันเกิด แล้วได้รับการอนุมัติการเข้าถึงเพื่อรับโมเดล และเนื่องจากเป็น Meta ฉันคิดว่าพวกเขากำลังตรวจสอบกับฐานข้อมูล All Humans ของพวกเขาจริงๆ

การเปลี่ยนแปลงนี้ทำให้หลายคนในชุมชน AI โอเพนซอร์สผิดหวังที่พึ่งพาการเข้าถึงได้ของโมเดลก่อนหน้า ผู้ใช้บางคนเรียกร้องให้ Meta พิจารณาการตัดสินใจเรื่องใบอนุญาตใหม่ โดยชี้ไปที่แคมเปญที่ประสบความสำเร็จในอดีตที่โน้มน้าวให้บริษัทเปลี่ยนใบอนุญาตที่มีข้อจำกัดเดิมของ DINOv2 เป็น Apache 2.0

การเปรียบเทียบใบอนุญาต:

  • DINOv2: Apache 2.0 (โอเพนซอร์ส)
  • DINOv3: ใบอนุญาตเชิงพาณิชย์แบบกำหนดเองที่ต้องการ:
    • การส่งข้อมูลส่วนบุคคล (รวมถึงวันเกิด)
    • กระบวนการอนุมัติสำหรับการเข้าถึงโมเดล
    • การตรวจสอบกับฐานข้อมูลผู้ใช้ของ Meta

การประยุกต์ใช้ในทางปฏิบัติและประสิทธิภาพ

แม้จะมีข้อกังวลเรื่องใบอนุญาต ผู้ใช้รุ่นแรกรายงานว่า DINOv3 ให้การปรับปรุงที่มีความหมายเหนือรุ่นก่อนหน้า โมเดลทำงานเป็น drop-in replacement สำหรับ DINOv2 ในหลายแอปพลิเคชัน ทำให้นักพัฒนาอัปเกรดระบบที่มีอยู่ได้ค่อนข้างง่าย

โมเดลเก่งในฐานะ foundation model หมายความว่าสามารถแมปภาพใดๆ ลงในพื้นที่มิติสูงที่งานวิชันที่ซับซ้อนกลายเป็นเรื่องง่ายในการแก้ไข ตัวอย่างเช่น การกำหนดว่าภาพมีวัตถุเฉพาะหรือไม่กลายเป็นเรื่องของการหาขอบเขตทางคณิตศาสตร์ที่ถูกต้องในพื้นที่ที่แปลงแล้วนี้ แทนที่จะฝึกโมเดลใหม่ทั้งหมดตั้งแต่เริ่มต้น

Foundation model: โมเดล AI ขนาดใหญ่ที่ฝึกฝนด้วยข้อมูลกว้างซึ่งสามารถปรับให้เข้ากับงานเฉพาะต่างๆ ได้มากมายโดยไม่ต้องฝึกใหม่อย่างกว้างขวาง

มองไปข้างหน้า

ในขณะที่ความสามารถทางเทคนิคของ DINOv3 แสดงถึงความก้าวหน้าที่ชัดเจนในคอมพิวเตอร์วิชัน ข้อถกเถียงเรื่องใบอนุญาตเน้นย้ำความตึงเครียดที่เพิ่มขึ้นเกี่ยวกับการเข้าถึงโมเดล AI การตอบสนองของชุมชนแสดงให้เห็นว่ากลยุทธ์ใบอนุญาตเชิงพาณิชย์ของ Meta อาจเผชิญกับความต้านทานจากนักวิจัยและนักพัฒนาที่คาดหวังแนวทางที่เปิดกว่านี้ในการแจกจ่ายโมเดล AI

ในตอนนี้ ผู้ใช้ต้องชั่งน้ำหนักประสิทธิภาพที่ปรับปรุงของโมเดลกับข้อจำกัดและข้อกำหนดการอนุมัติใหม่ โดยเฉพาะสำหรับแอปพลิเคชันเชิงพาณิชย์ที่เงื่อนไขใบอนุญาตอาจเป็นอุปสรรค

อ้างอิง: facebookresearch / DINOv3