Google ได้เปิดตัวการอัปเดตสำคัญให้กับแพลตฟอร์ม Gemini AI ที่ช่วยให้ผู้ใช้สามารถแปลงภาพถ่ายนิ่งเป็นเนื้อหาวิดีโอแบบไดนามิกพร้อมเสียงที่ซิงค์กัน การปรับปรุงนี้นำความสามารถในการสร้างวิดีโอขั้นสูงเข้าสู่อินเทอร์เฟซ Gemini โดยตรง ทำให้การสร้างวิดีโอด้วย AI เข้าถึงได้ง่ายขึ้นสำหรับสมาชิก
ขับเคลื่อนด้วยเทคโนโลยี Veo 3 Video Model
ฟีเจอร์แปลงภาพเป็นวิดีโอใหม่ใช้ประโยชน์จากโมเดลวิดีโอ Veo 3 ของ Google ซึ่งแสดงถึงความก้าวหน้าล่าสุดของบริษัทในเทคโนโลยีการสร้างวิดีโอด้วย AI ผู้ใช้สามารถแปลงภาพอ้างอิงเป็นคลิปวิดีโอยาว 8 วินาทีพร้อมองค์ประกอบเสียงที่สร้างด้วย AI รวมถึงเสียงพื้นหลัง เสียงสิ่งแวดล้อม และเสียงพูด ฟีเจอร์นี้เคยถูกนำเสนอในงานประชุมนักพัฒนาประจำปีของ Google ในเดือนพฤษภาคม แต่ก่อนหน้านี้มีให้บริการเฉพาะผ่าน Flow แอปพลิเคชันสร้างภาพยนตร์แยกต่างหากของ Google
ข้อมูลจำเพาะของวิดีโอ:
- ระยะเวลา: สูงสุด 8 วินาที
- ความละเอียด: 720p
- รูปแบบ: ไฟล์ MP4 ในรูปแบบแนวนอน 16:9
- เสียง: เสียงพื้นหลัง เสียงสิ่งแวดล้อม และเสียงพูดที่สร้างด้วย AI
- ลายน้ำ: ลายน้ำที่มองเห็นได้ + ลายน้ำดิจิทัล SynthID ที่มองไม่เห็น
การเข้าถึงที่คล่องตัวผ่านอินเทอร์เฟซ Gemini
สมาชิก Google AI Ultra และ Pro ตอนนี้สามารถเข้าถึงฟีเจอร์นี้ได้โดยตรงผ่านอินเทอร์เฟซแชท Gemini โดยไม่ต้องเปลี่ยนไปใช้แอปพลิเคชันแยกต่างหาก ผู้ใช้เพียงคลิกตัวเลือกเครื่องมือในแถบพรอมต์ เลือกวิดีโอ และอัปโหลดภาพถ่ายพร้อมคำอธิบายข้อความที่ระบุการเคลื่อนไหวและองค์ประกอบเสียงที่ต้องการ ระบบจะสร้างไฟล์ MP4 ที่ความละเอียด 720p ในรูปแบบแนวนอน 16:9 โดย Google สัญญาว่าคำอธิบายเสียงสำหรับบทสนทนา เอฟเฟกต์เสียง และเสียงแวดล้อมจะซิงค์อย่างสมบูรณ์แบบกับภาพ
ข้อกำหนดในการเข้าใช้งาน:
- การสมัครสมาชิก: แผน Google AI Ultra หรือ Pro
- ความพร้อมใช้งาน: เฉพาะในบางภูมิภาคในช่วงแรก
- แพลตฟอร์ม: เวอร์ชันเว็บ (เปิดตัวก่อน), แอปมือถือ (ในสัปดาห์นี้)
- วิธีการเข้าใช้งาน: Tools → Video → อัปโหลดรูปภาพ + คำอธิบายข้อความ
รายละเอียดการเปิดตัวและความพร้อมใช้งาน
ฟีเจอร์นี้กำลังเปิดตัวในภูมิภาคที่เลือกไว้ โดยเริ่มจากเวอร์ชันเว็บของ Gemini และขยายไปยังอุปกรณ์มือถือตลอดสัปดาห์ การปรับใช้แบบค่อยเป็นค่อยไปนี้ช่วยให้ Google สามารถติดตามประสิทธิภาพและความคิดเห็นของผู้ใช้เมื่อเทคโนโลยีเข้าถึงผู้ชมที่กว้างขึ้น ในเวลาเดียวกัน Google ประกาศว่า Flow จะเปิดตัวในอีก 75 ประเทศ ขยายระบบนิเวศการสร้างวิดีโอด้วย AI ของบริษัทไปทั่วโลก
ข้อจำกัดปัจจุบันและปัญหาประสิทธิภาพ
การทดสอบเผยให้เห็นข้อจำกัดหลายประการในการใช้งานปัจจุบัน การประเมินของ Bloomberg พบว่า AI บางครั้งเปลี่ยนแปลงใบหน้าของผู้คนหรือเปลี่ยนเชื้อชาติของพวกเขาเมื่อสร้างวิดีโอพูดจากภาพถ่าย คำสั่งที่ซับซ้อน เช่น การทำให้ใครสักคนเต้น breakdance มักให้ผลลัพธ์ที่ไม่คาดคิด เช่น ท่าทางโบกมือง่ายๆ แทนการกระทำที่ขอ Google ยอมรับปัญหาเหล่านี้ โดยโฆษกอธิบายว่า AI ไม่ได้ถูกตั้งโปรแกรมให้เปลี่ยนรูปลักษณ์ และเทคโนโลยียังคงพัฒนาต่อไป
ข้อจำกัดของเนื้อหา:
- ไม่อนุญาตให้ใช้คนดัง นักการเมือง หรือบุคคลสาธารณะ
- ไม่อนุญาตเนื้อหาที่มีความรุนแรงหรือการกลั่นแกล้ง
- ประสิทธิภาพที่ดีที่สุด: ฉากธรรมชาติ ภาพวาด วัตถุต่างๆ
- ปัญหาที่ทราบแล้ว: การเปลี่ยนแปลงใบหน้า การเปลี่ยนเชื้อชาติในวิดีโอพูด
มาตรการความปลอดภัยและแนวทางเนื้อหา
Google ได้ใช้แนวทางที่เข้มงวดเพื่อป้องกันการใช้เทคโนโลยีการสร้างวิดีโอในทางที่ผิด ระบบห้ามสร้างวิดีโอโดยใช้ภาพของคนดัง นักการเมือง หรือบุคคลสาธารณะอื่นๆ และปฏิเสธที่จะผลิตเนื้อหาที่ส่งเสริมความรุนแรงหรือการกลั่นแกล้ง วิดีโอที่สร้างขึ้นทั้งหมดมีลายน้ำที่มองเห็นได้ซึ่งบ่งบอกถึงการสร้างด้วย AI รวมถึงลายน้ำดิจิทัล SynthID ที่มองไม่เห็นเพื่อการระบุและติดตามเพิ่มเติม
การวางตำแหน่งการแข่งขันในตลาด AI Video
การอัปเดตนี้ช่วยให้ Google สามารถแข่งขันได้อย่างมีประสิทธิภาพมากขึ้นกับคู่แข่ง รวมถึง OpenAI, Runway, Alibaba และ Kuaishou ในตลาดการสร้างวิดีโอด้วย AI ที่พัฒนาอย่างรวดเร็ว โดยการรวมความสามารถในการสร้างวิดีโอเข้าสู่ Gemini โดยตรง Google ลดความยุ่งยากสำหรับผู้ใช้ในขณะที่ขยายการใช้งานจริงของแพลตฟอร์ม AI บริษัทระบุว่าการปรับปรุงแอนิเมชันใบหน้าและประสิทธิภาพโดยรวมได้รับการวางแผนสำหรับการอัปเดตในอนาคตเมื่อเทคโนโลยีเติบโตขึ้น