Google Gemini AI ตอนนี้แปลงภาพถ่ายเป็นวิดีโอพร้อมเสียงที่สร้างด้วย AI

ทีมบรรณาธิการ BigGo

Google Gemini AI ตอนนี้แปลงภาพถ่ายเป็นวิดีโอพร้อมเสียงที่สร้างด้วย AI

Google ได้เปิดตัวการอัปเดตสำคัญให้กับแพลตฟอร์ม Gemini AI ที่ช่วยให้ผู้ใช้สามารถแปลงภาพถ่ายนิ่งเป็นเนื้อหาวิดีโอแบบไดนามิกพร้อมเสียงที่ซิงค์กัน การปรับปรุงนี้นำความสามารถในการสร้างวิดีโอขั้นสูงเข้าสู่อินเทอร์เฟซ Gemini โดยตรง ทำให้การสร้างวิดีโอด้วย AI เข้าถึงได้ง่ายขึ้นสำหรับสมาชิก

ขับเคลื่อนด้วยเทคโนโลยี Veo 3 Video Model

ฟีเจอร์แปลงภาพเป็นวิดีโอใหม่ใช้ประโยชน์จากโมเดลวิดีโอ Veo 3 ของ Google ซึ่งแสดงถึงความก้าวหน้าล่าสุดของบริษัทในเทคโนโลยีการสร้างวิดีโอด้วย AI ผู้ใช้สามารถแปลงภาพอ้างอิงเป็นคลิปวิดีโอยาว 8 วินาทีพร้อมองค์ประกอบเสียงที่สร้างด้วย AI รวมถึงเสียงพื้นหลัง เสียงสิ่งแวดล้อม และเสียงพูด ฟีเจอร์นี้เคยถูกนำเสนอในงานประชุมนักพัฒนาประจำปีของ Google ในเดือนพฤษภาคม แต่ก่อนหน้านี้มีให้บริการเฉพาะผ่าน Flow แอปพลิเคชันสร้างภาพยนตร์แยกต่างหากของ Google

ข้อมูลจำเพาะของวิดีโอ:

ระยะเวลา: สูงสุด 8 วินาที
ความละเอียด: 720p
รูปแบบ: ไฟล์ MP4 ในรูปแบบแนวนอน 16:9
เสียง: เสียงพื้นหลัง เสียงสิ่งแวดล้อม และเสียงพูดที่สร้างด้วย AI
ลายน้ำ: ลายน้ำที่มองเห็นได้ + ลายน้ำดิจิทัล SynthID ที่มองไม่เห็น

การเข้าถึงที่คล่องตัวผ่านอินเทอร์เฟซ Gemini

สมาชิก Google AI Ultra และ Pro ตอนนี้สามารถเข้าถึงฟีเจอร์นี้ได้โดยตรงผ่านอินเทอร์เฟซแชท Gemini โดยไม่ต้องเปลี่ยนไปใช้แอปพลิเคชันแยกต่างหาก ผู้ใช้เพียงคลิกตัวเลือกเครื่องมือในแถบพรอมต์ เลือกวิดีโอ และอัปโหลดภาพถ่ายพร้อมคำอธิบายข้อความที่ระบุการเคลื่อนไหวและองค์ประกอบเสียงที่ต้องการ ระบบจะสร้างไฟล์ MP4 ที่ความละเอียด 720p ในรูปแบบแนวนอน 16:9 โดย Google สัญญาว่าคำอธิบายเสียงสำหรับบทสนทนา เอฟเฟกต์เสียง และเสียงแวดล้อมจะซิงค์อย่างสมบูรณ์แบบกับภาพ

ข้อกำหนดในการเข้าใช้งาน:

การสมัครสมาชิก: แผน Google AI Ultra หรือ Pro
ความพร้อมใช้งาน: เฉพาะในบางภูมิภาคในช่วงแรก
แพลตฟอร์ม: เวอร์ชันเว็บ (เปิดตัวก่อน), แอปมือถือ (ในสัปดาห์นี้)
วิธีการเข้าใช้งาน: Tools → Video → อัปโหลดรูปภาพ + คำอธิบายข้อความ

รายละเอียดการเปิดตัวและความพร้อมใช้งาน

ฟีเจอร์นี้กำลังเปิดตัวในภูมิภาคที่เลือกไว้ โดยเริ่มจากเวอร์ชันเว็บของ Gemini และขยายไปยังอุปกรณ์มือถือตลอดสัปดาห์ การปรับใช้แบบค่อยเป็นค่อยไปนี้ช่วยให้ Google สามารถติดตามประสิทธิภาพและความคิดเห็นของผู้ใช้เมื่อเทคโนโลยีเข้าถึงผู้ชมที่กว้างขึ้น ในเวลาเดียวกัน Google ประกาศว่า Flow จะเปิดตัวในอีก 75 ประเทศ ขยายระบบนิเวศการสร้างวิดีโอด้วย AI ของบริษัทไปทั่วโลก

ข้อจำกัดปัจจุบันและปัญหาประสิทธิภาพ

การทดสอบเผยให้เห็นข้อจำกัดหลายประการในการใช้งานปัจจุบัน การประเมินของ Bloomberg พบว่า AI บางครั้งเปลี่ยนแปลงใบหน้าของผู้คนหรือเปลี่ยนเชื้อชาติของพวกเขาเมื่อสร้างวิดีโอพูดจากภาพถ่าย คำสั่งที่ซับซ้อน เช่น การทำให้ใครสักคนเต้น breakdance มักให้ผลลัพธ์ที่ไม่คาดคิด เช่น ท่าทางโบกมือง่ายๆ แทนการกระทำที่ขอ Google ยอมรับปัญหาเหล่านี้ โดยโฆษกอธิบายว่า AI ไม่ได้ถูกตั้งโปรแกรมให้เปลี่ยนรูปลักษณ์ และเทคโนโลยียังคงพัฒนาต่อไป

ข้อจำกัดของเนื้อหา:

ไม่อนุญาตให้ใช้คนดัง นักการเมือง หรือบุคคลสาธารณะ
ไม่อนุญาตเนื้อหาที่มีความรุนแรงหรือการกลั่นแกล้ง
ประสิทธิภาพที่ดีที่สุด: ฉากธรรมชาติ ภาพวาด วัตถุต่างๆ
ปัญหาที่ทราบแล้ว: การเปลี่ยนแปลงใบหน้า การเปลี่ยนเชื้อชาติในวิดีโอพูด

มาตรการความปลอดภัยและแนวทางเนื้อหา

Google ได้ใช้แนวทางที่เข้มงวดเพื่อป้องกันการใช้เทคโนโลยีการสร้างวิดีโอในทางที่ผิด ระบบห้ามสร้างวิดีโอโดยใช้ภาพของคนดัง นักการเมือง หรือบุคคลสาธารณะอื่นๆ และปฏิเสธที่จะผลิตเนื้อหาที่ส่งเสริมความรุนแรงหรือการกลั่นแกล้ง วิดีโอที่สร้างขึ้นทั้งหมดมีลายน้ำที่มองเห็นได้ซึ่งบ่งบอกถึงการสร้างด้วย AI รวมถึงลายน้ำดิจิทัล SynthID ที่มองไม่เห็นเพื่อการระบุและติดตามเพิ่มเติม

การวางตำแหน่งการแข่งขันในตลาด AI Video

การอัปเดตนี้ช่วยให้ Google สามารถแข่งขันได้อย่างมีประสิทธิภาพมากขึ้นกับคู่แข่ง รวมถึง OpenAI, Runway, Alibaba และ Kuaishou ในตลาดการสร้างวิดีโอด้วย AI ที่พัฒนาอย่างรวดเร็ว โดยการรวมความสามารถในการสร้างวิดีโอเข้าสู่ Gemini โดยตรง Google ลดความยุ่งยากสำหรับผู้ใช้ในขณะที่ขยายการใช้งานจริงของแพลตฟอร์ม AI บริษัทระบุว่าการปรับปรุงแอนิเมชันใบหน้าและประสิทธิภาพโดยรวมได้รับการวางแผนสำหรับการอัปเดตในอนาคตเมื่อเทคโนโลยีเติบโตขึ้น

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌