โปรเจกต์แอนิเมชัน AI ของพ่อลูกเผยต้นทุนที่ซ่อนอยู่และความท้าทายทางเทคนิคเบื้องหลังวิดีโอสร้างด้วย AI

ทีมชุมชน BigGo
โปรเจกต์แอนิเมชัน AI ของพ่อลูกเผยต้นทุนที่ซ่อนอยู่และความท้าทายทางเทคนิคเบื้องหลังวิดีโอสร้างด้วย AI

โปรเจกต์ล่าสุดของพ่อลูกที่สร้างแอนิเมชันธีม Minecraft ความยาวหนึ่งนาทีด้วยเครื่องมือ AI ได้จุดประกายการอภิปรายเกี่ยวกับต้นทุนที่แท้จริงและอุปสรรคทางเทคนิคเบื้องหลังเทคโนโลยีวิดีโอสร้างด้วย AI ที่ดูเหมือนเข้าถึงได้ง่าย โปรเจกต์นี้ซึ่งเปลี่ยนรูปถ่ายเดียวของ Kate วัย 7 ขวบให้กลายเป็นเรื่องราวแอนิเมชันที่สมบูรณ์ ใช้เวลาทำงาน 20 ชั่วโมงและเผยให้เห็นบทเรียนสำคัญหลายประการเกี่ยวกับความสามารถของการสร้างวิดีโอด้วย AI ในปัจจุบัน

การแบ่งช่วงเวลาของโปรเจกต์:

  • การทำ Storyboard: 1 ชั่วโมง
  • การสร้าง Workflow: 4 ชั่วโมง
  • การ Render: 15 ชั่วโมง (บน GPU H100 2 ตัว)
  • การคัดเลือกผลลัพธ์: 1 ชั่วโมง
  • รวมทั้งหมด: 20 ชั่วโมง

ต้นทุนที่แท้จริงของการสร้างวิดีโอด้วย AI

แม้ว่าโปรเจกต์นี้จะดูคุ้มค่าในแง่ต้นทุนผิวเผิน แต่การอภิปรายในชุมชนได้เน้นย้ำถึงการมองข้ามที่สำคัญในการรายงานต้นทุน ผู้สร้างกล่าวว่าใช้เงินเพียง 3 ยูโร สำหรับการเข้าถึง API เพื่อสร้าง storyboard แต่ไม่ได้คิดรวมทรัพยากรการคำนวณที่จำเป็นอย่างมาก โปรเจกต์นี้ใช้เวลา GPU 15 ชั่วโมงบนโปรเซสเซอร์ H100 ระดับไฮเอนด์ ซึ่งโดยปกติจะมีค่าใช้จ่ายหลายร้อยหรือหลายพันดอลลาร์ในบริการคลาวด์เชิงพาณิชย์ ผู้สร้างได้ชี้แจงในภายหลังว่ามีการเข้าถึงฟรีไปยังคลัสเตอร์ H100 ทำให้โปรเจกต์นี้เป็นไปได้ทางการเงินเฉพาะเพราะมีสิทธิพิเศษในการเข้าถึงฮาร์ดแวร์ราคาแพง

การเปิดเผยนี้เน้นย้ำถึงปัญหาทั่วไปในการนำเสนอโปรเจกต์ AI ที่ต้นทุนการคำนวณที่แท้จริงยังคงซ่อนอยู่ ทำให้เกิดความคาดหวังที่ไม่สมจริงสำหรับผู้ใช้ทั่วไปที่ต้องจ่ายค่า GPU ในราคาตลาด

เครื่องมือ AI ที่ใช้:

  • Flux Kontext: สร้างความสอดคล้องของตัวละครและการสร้าง storyboard (3 EUR ผ่าน API)
  • Wan Video FLF2V-148: การสร้างวิดีโอจากเฟรมแรกและเฟรมสุดท้าย
  • Florence: การอธิบายและวิเคราะห์ภาพ
  • DeepSeek R1-Distill-Llama-70B: การสร้าง prompt สำหรับการเปลี่ยนผ่านในวิดีโอ
  • Self Forcing: การเพิ่มประสิทธิภาพความเร็ว (ไม่เข้ากันกับโมเดลที่เลือก)

ปัญหาความเข้ากันได้ทางเทคนิคส่งผลกระทบต่อฟีเจอร์ขั้นสูง

โปรเจกต์นี้พบกับความท้าทายทางเทคนิคที่สำคัญ โดยเฉพาะอย่างยิ่งกับเครื่องมือเพิ่มประสิทธิภาพความเร็ว Self Forcing ซึ่งเป็นเทคนิคที่สามารถเร่งการสร้างวิดีโอได้ถึง 5 เท่า กลับไม่เข้ากันกับโมเดล FLF2V-148 ที่เลือกใช้ สิ่งนี้บังคับให้ผู้สร้างต้องเลือกระหว่างเวลาการสร้างที่เร็วขึ้นกับความสามารถของโมเดลเฉพาะ ซึ่งท้ายที่สุดส่งผลให้เวลาการเรนเดอร์นานขึ้นมาก

อย่างไรก็ตาม ความคิดเห็นจากชุมชนเกี่ยวกับ Self Forcing ยังคงหลากหลาย ผู้ใช้บางคนรายงานการปรับปรุงคุณภาพอย่างมาก ในขณะที่คนอื่นเตือนไม่ให้ใช้สำหรับฉากที่ซับซ้อน โดยสังเกตเห็นการเสื่อมสภาพของคุณภาพอย่างมีนัยสำคัญสำหรับสิ่งที่เกินกว่าการกระทำง่าย ๆ

ข้อมูลจำเพาะทางเทคนิค:

  • ความยาววิดีโอ: 1 นาที (13 ฉาก, ประมาณ 5 วินาทีต่อฉาก)
  • รูปแบบการเรนเดอร์: 4-8 รูปแบบต่อฉาก
  • ความต้องการ GPU: ฮาร์ดแวร์ระดับ H100
  • การปรับปรุงความเร็วด้วย Self Forcing: สูงสุด 5 เท่า (เมื่อเข้ากันได้)
  • อัตราเฟรม: 16fps, 81 เฟรมต่อคลิป 5 วินาที

การมีส่วนร่วมของเด็กและขั้นตอนการสร้างสรรค์

แม้จะมีอุปสรรคทางเทคนิค แต่ด้านการทำงานร่วมกันกลับประสบความสำเร็จ ผู้เข้าร่วมรุ่นเยาว์แสดงความกระตือรือร้นเป็นพิเศษสำหรับการสร้าง storyboard ด้วย Flux Kontext และการเลือกคลิปวิดีโอที่ดีที่สุดจากการสร้างหลายรูปแบบ สิ่งนี้สะท้อนประสบการณ์จากโปรเจกต์วิดีโอ AI ของพ่อแม่และลูกอื่น ๆ แม้ว่าช่วงความสนใจจะแตกต่างกันอย่างมากในหมู่ผู้ใช้รุ่นเยาว์

ขั้นตอนการทำงานรวมเครื่องมือ AI หลายตัว: Flux Kontext สำหรับการออกแบบตัวละครที่สอดคล้องกันตลอดเฟรม storyboard, Florence สำหรับการอธิบายภาพ และ DeepSeek สำหรับการสร้างพรอมต์การเปลี่ยนผ่านระหว่างเฟรมหลัก วิธีการหลายเครื่องมือนี้แม้จะมีประสิทธิภาพ แต่เพิ่มความซับซ้อนและจุดที่อาจเกิดความล้มเหลว

ความกังวลของชุมชนเกี่ยวกับคุณภาพเนื้อหา

โปรเจกต์นี้ยังได้รับการวิพากษ์วิจารณ์จากสมาชิกชุมชนบางคนที่มองว่าเนื้อหาที่สร้างด้วย AI เช่นนี้เป็นการใช้ทางลัดแทนงานสร้างสรรค์ที่แท้จริง สิ่งนี้สะท้อนการอภิปรายที่กว้างขึ้นเกี่ยวกับคุณค่าและความแท้จริงของโปรเจกต์สร้างสรรค์ที่ได้รับความช่วยเหลือจาก AI โดยเฉพาะเมื่อนำเสนอเป็นความสำเร็จทางเทคนิคมากกว่าความพยายามทางศิลปะ

การอภิปรายนี้เน้นย้ำถึงความตึงเครียดที่ดำเนินต่อไประหว่างกระบวนการสร้างสรรค์แบบดั้งเดิมกับการสร้างเนื้อหาที่เร่งด้วย AI โดยคำถามเกี่ยวกับว่าเครื่องมือดังกล่าวช่วยเสริมหรือแทนที่ความคิดสร้างสรรค์ของมนุษย์ยังคงเป็นประเด็นที่ถกเถียงกันในชุมชนเทคโนโลยี

หมายเหตุ: H100 หมายถึง GPU ระดับไฮเอนด์ของ NVIDIA ที่ออกแบบมาสำหรับศูนย์ข้อมูลเพื่อใช้งาน AI โดยทั่วไปมีราคา 25,000-40,000 ดอลลาร์สหรัฐ ต่อหน่วย

อ้างอิง: Short Animation with Wan Video, Flux Kontext, and DeepSeek