การเปิดตัว Ovi โมเดล AI แบบโอเพนซอร์สที่สามารถสร้างคลิปวิดีโอและเสียงพร้อมกันความยาว 5 วินาทีจากข้อความหรือภาพ พึ่งก่อให้เกิดการอภิปรายอย่างเข้มข้นเกี่ยวกับอนาคตของการสร้างวิดีโอ ในขณะที่เทคโนโลยีแสดงให้เห็นถึงความสามารถที่น่าประหลาดใจ—การสร้างเนื้อความละเอียดสูงแม้จะถูกฝึกด้วยข้อมูลความละเอียดต่ำ—ชุมชนกำลังครุ่นคิดว่าสิ่งนี้หมายความว่าอย่างไรสำหรับผู้สร้างภาพยนตร์ ภูมิทัศน์การแข่งขัน และธรรมชาติพื้นฐานของการแสดงออกเชิงสร้างสรรค์
ความท้าทายแบบโอเพนซอร์สต่อยักษ์ใหญ่ด้านเทคโนโลยี
การปรากฏตัวของโมเดลโอเพนซอร์สที่มีความสามารถเช่น Ovi เป็นตัวแทนของการเปลี่ยนแปลงที่สำคัญในพื้นที่การสร้างวิดีโอด้วย AI โครงการที่ขับเคลื่อนโดยชุมชนเหล่านี้ ซึ่งสร้างขึ้นบนพื้นฐานเช่น Wan 2.2 สำหรับวิดีโอและ MMAudio สำหรับการประมวลผลเสียง กำลังแสดงให้เห็นว่าการสร้างวิดีโอคุณภาพสูงไม่ได้เป็นเรื่องเฉพาะของห้องปฏิบัติการ cooperate ที่ได้รับเงินทุนสนับสนุนดีเท่านั้น ความสามารถของโมเดลที่สามารถทำงานบนฮาร์ดแวร์ระดับผู้บริโภคอย่าง RTX 5090 ที่มี VRAM 32GB หรือผ่านการเช่าบนคลาวด์ที่มีค่าใช้จ่ายต่ำกว่า 0.50 ดอลลาร์สหรัฐ ต่อชั่วโมง ทำให้การสร้างวิดีโอที่ซับซ้อนสามารถเข้าถึงได้โดยผู้สร้างเนื้อหารายบุคคล แทนที่จะเป็นเพียงสตูดิโอใหญ่ๆ
เป็นเรื่องน่าดีใจที่ได้เห็นโมเดลโอเพนซอร์สที่ยืดหยุ่นแสดงผลงานได้อย่างแข็งแกร่งเมื่อเทียบกับคู่แข่งระบบปิดที่ได้รับเงินทุนสนับสนุนมหาศาลอย่าง OpenAI และ Runway
การเข้าถึงได้นี้สร้างแรงกดดันใหม่ให้กับผู้เล่นรายใหญ่ ในขณะที่บริษัทต่างๆ อย่าง OpenAI และ Google ยังคงพัฒนาโมเดลที่เป็นกรรมสิทธิ์ด้วยความสามารถที่น่าประทับใจ ความก้าวหน้าอย่างรวดเร็วของทางเลือกแบบเปิดชี้ให้เห็นว่าช่องว่างอาจกำลังปิดลงเร็วกว่าที่คาดการณ์ไว้
ความสามารถทางเทคนิคและการประยุกต์ใช้เชิงสร้างสรรค์
ข้อกำหนดทางเทคนิคของ Ovi เผยให้เห็นทั้งความสามารถและข้อจำกัดในปัจจุบัน โมเดลสร้างวิดีโอความยาว 5 วินาทีที่ 24 เฟรมต่อวินาทีในอัตราส่วนภาพต่างๆ โดยมีความแข็งแกร่งเป็นพิเศษในการจัดการความละเอียดที่สูงกว่าที่มันถูกฝึกมา ความสามารถในการปรับขนาดขึ้นนี้ยังคงรักษาความสม่ำเสมอทางเวลาและพื้นที่ อนุญาตให้ได้ผลลัพธ์เช่นความละเอียด 1280×704 และ 1344×704 จากข้อมูลการฝึก 720×720
กระบวนการสร้างสรรค์เกี่ยวข้องกับการจัดรูปแบบคำบรรยายพิเศษ โดยใช้แท็กเช่น <SPEECH> สำหรับบทสนทนาและ <AUDIODESCRIPTION> สำหรับเสียงเอฟเฟกต์ แนวทางที่มีโครงสร้างนี้ทำให้ผู้สร้างสามารถชี้นำทั้งองค์ประกอบภาพและเสียงไปพร้อมกันได้ แม้ว่าผลลัพธ์ในปัจจุบันยังคงแสดงสิ่งผิดปกติที่ทำให้พวกมันอยู่ในสิ่งที่ผู้แสดงความคิดเห็นอธิบายว่าเป็น หุบเขาแปลกประหลาด — ใกล้เคียงกับความสมจริงแต่ยังไม่น่าเชื่อพอที่จะหลอกการรับรู้ของมนุษย์ได้อย่างสม่ำเสมอ
ข้อมูลจำเพาะของโมเดล Ovi
- ความยาววิดีโอ: 5 วินาที
- อัตราเฟรม: 24 FPS
- ความละเอียดในการเทรน: 720×720
- ความละเอียดเอาต์พุต: รองรับสูงสุดถึง 960×960 และอัตราส่วนภาพต่างๆ (16:9, 1:1, 7:16)
- ตัวเลือกอินพุต: ข้อความเพียงอย่างเดียวหรือข้อความ+รูปภาพเป็นเงื่อนไข
- การรวมเสียง: การสร้างเสียงพูดและเอฟเฟกต์เสียงที่ซิงโครไนซ์
- ความต้องการฮาร์ดแวร์: ทำงานบน GPU สำหรับผู้บริโภคเช่น RTX 5090 (32GB VRAM)
อนาคตของการสร้างภาพยนตร์และเนื้อหา
บางทีการอภิปรายที่ร้อนแรงที่สุดอาจเกี่ยวข้องกับว่าเทคโนโลยีนี้อาจเปลี่ยนแปลงวงการบันเทิงได้อย่างไร บางคนจินตนาการถึงอนาคตอันใกล้นี้ที่ปัจเจกบุคคลสามารถสร้างภาพยนตร์สั้นที่ซับซ้อนจากห้องใต้ดินของพวกเขาได้ ในขณะที่บางคนยังคงสงสัยว่าเนื้อหาที่สร้างโดย AI จะได้รับการยอมรับในกระแสหลักได้หรือไม่
การอภิปรายเผยให้เห็นความแตกต่างระหว่างรุ่นในวิธีที่ผู้คนรับรู้ถึงความคิดสร้างสรรค์ของ AI บางคนโต้แย้งว่าการต่อต้านศิลปะ AI จะจางหายไปเมื่อคนรุ่นใหม่ที่เติบโตมาพร้อมกับเทคโนโลยีกลายเป็นผู้ชมหลัก คนอื่นๆ ยืนยันว่าการรู้ว่าเนื้อหาถูกสร้างขึ้นโดยอัลกอริทึมนั้นบ่อนทำลายคุณค่าทางศิลปะโดยพื้นฐาน โดยไม่คำนึงถึงคุณภาพทางเทคนิค
ข้อจำกัดในปัจจุบันเกี่ยวกับความสม่ำเสมอของตัวละครทั่วทั้งฉากและการเล่าเรื่องด้วยภาพที่เชื่อมโยงกันยังคงเป็นอุปสรรคที่สำคัญ ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุไว้ การมีตัวละครตัวเดียวกัน สวมเสื้อผ้าชุดเดิม กลับมาเยือนสภาพแวดล้อมเดิม พร้อมด้วยการจัดแสงและการประมวลผลหลังการถ่ายทำแบบเดียวกัน นั้นแตกต่างอย่างมากจากการสร้างคลิปที่แยกออกมา ความท้าทายด้านความต่อเนื่องเหล่านี้ชี้ให้เห็นว่าภาพยนตร์ความยาวเต็มเรื่องที่สร้างโดย AI ยังคงอยู่ห่างไกล แม้ว่ารูปแบบที่สั้นกว่าอาจมาถึงเร็วกว่า
ข้อจำกัดปัจจุบันที่ชุมชนสังเกตพบ
- ปัญหาความสอดคล้องของตัวละครในแต่ละฉาก
- สิ่งผิดปกติทางภาพที่เกิดขึ้นเป็นครั้งคราว (เช่น แขนขาส่วนเกินในเนื้อหาที่สร้างขึ้น)
- ปรากฏการณ์ "uncanny valley" ในการนำเสนอมนุษย์
- จำกัดเฉพาะคลิปวิดีโอสั้น (5 วินาที)
- ความท้าทายในการเชื่อมโยงฉากต่อเนื่อง
ผลกระทบด้านจริยธรรมและอุตสาหกรรม
การเข้าถึงเทคโนโลยีนี้ได้ง่ายขึ้นทำให้เกิดคำถามสำคัญเกี่ยวกับความแท้จริงและการเป็นเจ้าของเชิงสร้างสรรค์ ความสามารถในการสร้างเนื้อหาวิดีโอที่น่าเชื่อถือได้อย่างง่ายดายอาจเร่งความกังวลเกี่ยวกับข้อมูลเท็จ ในขณะเดียวกันก็ทำให้การแสดงออกเชิงสร้างสรรค์เป็นประชาธิปไตยมากขึ้น ความตึงเครียดระหว่างความเป็นไปได้เหล่านี้สะท้อนถึงบทสนทนาที่กว้างขึ้นในสังคมเกี่ยวกับบทบาทของ AI ในอุตสาหกรรมสร้างสรรค์
สำหรับผู้สร้างภาพยนตร์มืออาชีพ การสร้างวิดีโอด้วย AI อาจกลายเป็นอีกเครื่องมือหนึ่งในกระบวนการผลิต แทนที่จะเป็นการแทนที่ความคิดสร้างสรรค์ของมนุษย์ เช่นเดียวกับ CGI ในทศวรรษที่ผ่านมา การนำไปใช้ที่ประสบความสำเร็จมากที่สุดน่าจะเป็นการผสมผสานความสามารถของ AI กับทิศทางศิลปะของมนุษย์ แทนที่จะแทนที่มันทั้งหมด
ความก้าวหน้าอย่างรวดเร็วของโมเดลการสร้างวิดีโอแบบโอเพนซอร์สเช่น Ovi บ่งบอกถึงช่วงเวลาสำคัญสำหรับเทคโนโลยีสร้างสรรค์ ในขณะที่ข้อจำกัดทางเทคนิคยังคงอยู่ การทำให้เครื่องมือสร้างวิดีโอที่ซับซ้อนเป็นประชาธิปไตยดูเหมือนจะหลีกเลี่ยงไม่ได้ บทสนทนาที่กำลังดำเนินอยู่เผยให้เห็นทั้งความตื่นเต้นเกี่ยวกับความเป็นไปได้ในการสร้างสรรค์ใหม่และความกังวลเกี่ยวกับว่าเทคโนโลยีเหล่านี้อาจปรับโฉมวงการบันเทิง ความแท้จริง และการแสดงออกทางศิลปะในปีข้างหน้าอย่างไร
อ้างอิง: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
