โปรเจกต์ล่าสุดของพ่อลูกที่สร้างแอนิเมชันธีม Minecraft ความยาวหนึ่งนาทีด้วยเครื่องมือ AI ได้จุดประกายการอภิปรายเกี่ยวกับต้นทุนที่แท้จริงและอุปสรรคทางเทคนิคเบื้องหลังเทคโนโลยีวิดีโอสร้างด้วย AI ที่ดูเหมือนเข้าถึงได้ง่าย โปรเจกต์นี้ซึ่งเปลี่ยนรูปถ่ายเดียวของ Kate วัย 7 ขวบให้กลายเป็นเรื่องราวแอนิเมชันที่สมบูรณ์ ใช้เวลาทำงาน 20 ชั่วโมงและเผยให้เห็นบทเรียนสำคัญหลายประการเกี่ยวกับความสามารถของการสร้างวิดีโอด้วย AI ในปัจจุบัน
การแบ่งช่วงเวลาของโปรเจกต์:
- การทำ Storyboard: 1 ชั่วโมง
- การสร้าง Workflow: 4 ชั่วโมง
- การ Render: 15 ชั่วโมง (บน GPU H100 2 ตัว)
- การคัดเลือกผลลัพธ์: 1 ชั่วโมง
- รวมทั้งหมด: 20 ชั่วโมง
ต้นทุนที่แท้จริงของการสร้างวิดีโอด้วย AI
แม้ว่าโปรเจกต์นี้จะดูคุ้มค่าในแง่ต้นทุนผิวเผิน แต่การอภิปรายในชุมชนได้เน้นย้ำถึงการมองข้ามที่สำคัญในการรายงานต้นทุน ผู้สร้างกล่าวว่าใช้เงินเพียง 3 ยูโร สำหรับการเข้าถึง API เพื่อสร้าง storyboard แต่ไม่ได้คิดรวมทรัพยากรการคำนวณที่จำเป็นอย่างมาก โปรเจกต์นี้ใช้เวลา GPU 15 ชั่วโมงบนโปรเซสเซอร์ H100 ระดับไฮเอนด์ ซึ่งโดยปกติจะมีค่าใช้จ่ายหลายร้อยหรือหลายพันดอลลาร์ในบริการคลาวด์เชิงพาณิชย์ ผู้สร้างได้ชี้แจงในภายหลังว่ามีการเข้าถึงฟรีไปยังคลัสเตอร์ H100 ทำให้โปรเจกต์นี้เป็นไปได้ทางการเงินเฉพาะเพราะมีสิทธิพิเศษในการเข้าถึงฮาร์ดแวร์ราคาแพง
การเปิดเผยนี้เน้นย้ำถึงปัญหาทั่วไปในการนำเสนอโปรเจกต์ AI ที่ต้นทุนการคำนวณที่แท้จริงยังคงซ่อนอยู่ ทำให้เกิดความคาดหวังที่ไม่สมจริงสำหรับผู้ใช้ทั่วไปที่ต้องจ่ายค่า GPU ในราคาตลาด
เครื่องมือ AI ที่ใช้:
- Flux Kontext: สร้างความสอดคล้องของตัวละครและการสร้าง storyboard (3 EUR ผ่าน API)
- Wan Video FLF2V-148: การสร้างวิดีโอจากเฟรมแรกและเฟรมสุดท้าย
- Florence: การอธิบายและวิเคราะห์ภาพ
- DeepSeek R1-Distill-Llama-70B: การสร้าง prompt สำหรับการเปลี่ยนผ่านในวิดีโอ
- Self Forcing: การเพิ่มประสิทธิภาพความเร็ว (ไม่เข้ากันกับโมเดลที่เลือก)
ปัญหาความเข้ากันได้ทางเทคนิคส่งผลกระทบต่อฟีเจอร์ขั้นสูง
โปรเจกต์นี้พบกับความท้าทายทางเทคนิคที่สำคัญ โดยเฉพาะอย่างยิ่งกับเครื่องมือเพิ่มประสิทธิภาพความเร็ว Self Forcing ซึ่งเป็นเทคนิคที่สามารถเร่งการสร้างวิดีโอได้ถึง 5 เท่า กลับไม่เข้ากันกับโมเดล FLF2V-148 ที่เลือกใช้ สิ่งนี้บังคับให้ผู้สร้างต้องเลือกระหว่างเวลาการสร้างที่เร็วขึ้นกับความสามารถของโมเดลเฉพาะ ซึ่งท้ายที่สุดส่งผลให้เวลาการเรนเดอร์นานขึ้นมาก
อย่างไรก็ตาม ความคิดเห็นจากชุมชนเกี่ยวกับ Self Forcing ยังคงหลากหลาย ผู้ใช้บางคนรายงานการปรับปรุงคุณภาพอย่างมาก ในขณะที่คนอื่นเตือนไม่ให้ใช้สำหรับฉากที่ซับซ้อน โดยสังเกตเห็นการเสื่อมสภาพของคุณภาพอย่างมีนัยสำคัญสำหรับสิ่งที่เกินกว่าการกระทำง่าย ๆ
ข้อมูลจำเพาะทางเทคนิค:
- ความยาววิดีโอ: 1 นาที (13 ฉาก, ประมาณ 5 วินาทีต่อฉาก)
- รูปแบบการเรนเดอร์: 4-8 รูปแบบต่อฉาก
- ความต้องการ GPU: ฮาร์ดแวร์ระดับ H100
- การปรับปรุงความเร็วด้วย Self Forcing: สูงสุด 5 เท่า (เมื่อเข้ากันได้)
- อัตราเฟรม: 16fps, 81 เฟรมต่อคลิป 5 วินาที
การมีส่วนร่วมของเด็กและขั้นตอนการสร้างสรรค์
แม้จะมีอุปสรรคทางเทคนิค แต่ด้านการทำงานร่วมกันกลับประสบความสำเร็จ ผู้เข้าร่วมรุ่นเยาว์แสดงความกระตือรือร้นเป็นพิเศษสำหรับการสร้าง storyboard ด้วย Flux Kontext และการเลือกคลิปวิดีโอที่ดีที่สุดจากการสร้างหลายรูปแบบ สิ่งนี้สะท้อนประสบการณ์จากโปรเจกต์วิดีโอ AI ของพ่อแม่และลูกอื่น ๆ แม้ว่าช่วงความสนใจจะแตกต่างกันอย่างมากในหมู่ผู้ใช้รุ่นเยาว์
ขั้นตอนการทำงานรวมเครื่องมือ AI หลายตัว: Flux Kontext สำหรับการออกแบบตัวละครที่สอดคล้องกันตลอดเฟรม storyboard, Florence สำหรับการอธิบายภาพ และ DeepSeek สำหรับการสร้างพรอมต์การเปลี่ยนผ่านระหว่างเฟรมหลัก วิธีการหลายเครื่องมือนี้แม้จะมีประสิทธิภาพ แต่เพิ่มความซับซ้อนและจุดที่อาจเกิดความล้มเหลว
ความกังวลของชุมชนเกี่ยวกับคุณภาพเนื้อหา
โปรเจกต์นี้ยังได้รับการวิพากษ์วิจารณ์จากสมาชิกชุมชนบางคนที่มองว่าเนื้อหาที่สร้างด้วย AI เช่นนี้เป็นการใช้ทางลัดแทนงานสร้างสรรค์ที่แท้จริง สิ่งนี้สะท้อนการอภิปรายที่กว้างขึ้นเกี่ยวกับคุณค่าและความแท้จริงของโปรเจกต์สร้างสรรค์ที่ได้รับความช่วยเหลือจาก AI โดยเฉพาะเมื่อนำเสนอเป็นความสำเร็จทางเทคนิคมากกว่าความพยายามทางศิลปะ
การอภิปรายนี้เน้นย้ำถึงความตึงเครียดที่ดำเนินต่อไประหว่างกระบวนการสร้างสรรค์แบบดั้งเดิมกับการสร้างเนื้อหาที่เร่งด้วย AI โดยคำถามเกี่ยวกับว่าเครื่องมือดังกล่าวช่วยเสริมหรือแทนที่ความคิดสร้างสรรค์ของมนุษย์ยังคงเป็นประเด็นที่ถกเถียงกันในชุมชนเทคโนโลยี
หมายเหตุ: H100 หมายถึง GPU ระดับไฮเอนด์ของ NVIDIA ที่ออกแบบมาสำหรับศูนย์ข้อมูลเพื่อใช้งาน AI โดยทั่วไปมีราคา 25,000-40,000 ดอลลาร์สหรัฐ ต่อหน่วย
อ้างอิง: Short Animation with Wan Video, Flux Kontext, and DeepSeek