โมเดล Video AI Wan2.2 ทำงานบน GPU ระดับผู้บริโภคที่มี VRAM 6GB ผ่านการปรับปรุงจากชุมชน

ทีมชุมชน BigGo
โมเดล Video AI Wan2.2 ทำงานบน GPU ระดับผู้บริโภคที่มี VRAM 6GB ผ่านการปรับปรุงจากชุมชน

การเปิดตัว Wan2.2 โมเดล AI สร้างวิดีโอขั้นสูง ได้จุดประกายความสนใจจากชุมชนอย่างมาก ไม่เพียงแต่ในด้านความสามารถทางเทคนิค แต่ยังรวมถึงความรวดเร็วที่นักพัฒนาได้ทำให้เทคโนโลยีนี้เข้าถึงได้สำหรับผู้ใช้ที่มีฮาร์ดแวร์ระดับปานกลาง ในขณะที่การเปิดตัวอย่างเป็นทางการมุ่งเป้าไปที่ระบบระดับไฮเอนด์ โปรเจกต์จากชุมชนได้เกิดขึ้นแล้วเพื่อนำเทคโนโลยีนี้มาสู่ผู้บริโภคทั่วไป

การวิเคราะห์เปรียบเทียบเมตริกการคำนวณของโมเดลสร้างวิดีโอต่างๆ โดยเน้นการปรับปรุงประสิทธิภาพ
การวิเคราะห์เปรียบเทียบเมตริกการคำนวณของโมเดลสร้างวิดีโอต่างๆ โดยเน้นการปรับปรุงประสิทธิภาพ

ความต้องการ GPU ลดลงสู่ระดับผู้บริโภค

การพัฒนาที่โดดเด่นที่สุดมาจากความพยายามในการปรับปรุงจากชุมชนที่ได้ลดความต้องการฮาร์ดแวร์ลงอย่างมาก โปรเจกต์ Wan2GP ได้ปรับโมเดลให้ทำงานบนการ์ดจอที่มี VRAM เพียง 6GB สำเร็จ ทำให้ผู้ใช้ที่มีฮาร์ดแวร์รุ่นเก่าหรือราคาประหยัดสามารถเข้าถึงได้ นี่เป็นความก้าวหน้าที่สำคัญ เนื่องจากโมเดลต้นฉบับถูกออกแบบสำหรับระบบที่มี VRAM 24GB ถึง 80GB

ความสำเร็จในการปรับปรุงขยายไปเกินกว่าการลดหน่วยความจำเท่านั้น นักพัฒนาจากชุมชนได้สร้างเทคนิคเร่งความเร็วที่ลดเวลาการประมวลผลจากมากกว่า 30 ขั้นตอนเหลือเพียง 4-8 ขั้นตอน ในขณะที่ยังคงคุณภาพวิดีโอไว้ ซึ่งหมายความว่าผู้ใช้สามารถสร้างวิดีโอได้ในเวลาไม่กี่นาทีแทนที่จะเป็นหลายชั่วโมงบนฮาร์ดแวร์ระดับผู้บริโภค

VRAM (Video Random Access Memory) คือหน่วยความจำเฉพาะบนการ์ดจอที่ใช้สำหรับประมวลผลข้อมูลภาพ

การเปรียบเทียบความต้องการด้านฮาร์ดแวร์

การกำหนดค่า VRAM ที่ต้องการ ประสิทธิภาพ
Official Wan2.2 TOI-5B 24GB (RTX 4090) การสร้างวิดีโอ 720p
Official High-end Model 80GB+ ความละเอียดเต็ม การประมวลผลเร็วที่สุด
Community Wan2GP ขั้นต่ำ 6GB เหมาะสำหรับ GPU งบประมาณ
RTX 5090 Performance High-end 3-4 นาทีต่อวิดีโอ + 2-3 นาทีสำหรับ upscaling
การเปรียบเทียบประสิทธิภาพของโมเดลสร้างวิดีโอต่างๆ แสดงให้เห็นความก้าวหน้าด้านการเข้าถึงได้และประสิทธิภาพ
การเปรียบเทียบประสิทธิภาพของโมเดลสร้างวิดีโอต่างๆ แสดงให้เห็นความก้าวหน้าด้านการเข้าถึงได้และประสิทธิภาพ

ประสิทธิภาพแตกต่างกันในแต่ละระดับฮาร์ดแวร์

การทดสอบในสถานการณ์จริงเผยให้เห็นรูปแบบประสิทธิภาพที่น่าสนใจในการกำหนดค่า GPU ที่แตกต่างกัน ผู้ใช้ที่มีการ์ดระดับไฮเอนด์อย่าง RTX 5090 รายงานการสร้างวิดีโอใน 3-4 นาที โดยการอัปสเกลเพิ่มเติมเป็นความละเอียด 4K ใช้เวลาอีก 2-3 นาที อย่างไรก็ตาม ชุมชนได้แสดงให้เห็นว่าแม้แต่ผู้ใช้ที่มีฮาร์ดแวร์ที่มีพลังน้อยกว่ามากก็สามารถเข้าร่วมการสร้างวิดีโอ AI ผ่านเทคนิคการปรับปรุงต่างๆ

ความยืดหยุ่นของโมเดลในการรองรับทั้งการสร้างวิดีโอจากข้อความและการสร้างวิดีโอจากรูปภาพภายในเฟรมเวิร์กเดียวได้ดึงดูดความสนใจจากทั้งนักวิจัยและผู้สร้างเนื้อหา ความสามารถในการสร้างวิดีโอ 720p ที่ 24 เฟรมต่อวินาทีบนฮาร์ดแวร์ระดับผู้บริโภคถือเป็นก้าวสำคัญสำหรับการสร้างวิดีโอ AI ที่เข้าถึงได้

สถาปัตยกรรมทางเทคนิคขับเคลื่อนประสิทธิภาพ

Wan2.2 นำเสนอสถาปัตยกรรม Mixture-of-Experts (MoE) ที่ปรับให้เหมาะสมสำหรับการสร้างวิดีโอโดยเฉพาะ ระบบนี้ใช้โมเดลเฉพาะทางสองตัว: หนึ่งมุ่งเน้นไปที่เลย์เอาต์ในระยะแรก และอีกตัวสำหรับการปรับปรุงรายละเอียด ในขณะที่จำนวนพารามิเตอร์ทั้งหมดถึง 2.7 พันล้าน มีเพียง 1.6 พันล้านพารามิเตอร์ที่ทำงานในแต่ละขั้นตอนการประมวลผล ทำให้ความต้องการในการคำนวณอยู่ในระดับที่จัดการได้

โมเดลยังรวมเทคนิคการบีบอัดขั้นสูง บรรลุอัตราส่วนสูงถึง 64:1 ในขณะที่ยังคงคุณภาพวิดีโอไว้ การบีบอัดนี้ร่วมกับการปรับปรุงจากชุมชน ช่วยให้สามารถลดความต้องการฮาร์ดแวร์ลงอย่างมากที่ทำให้เทคโนโลยีเข้าถึงผู้ชมที่กว้างขึ้น

ข้อมูลจำเพาะของโมเดล

  • พารามิเตอร์ทั้งหมด: 2.7B (สถาปัตยกรรม MoE )
  • พารามิเตอร์ที่ใช้งาน: 1.6B ต่อขั้นตอนการประมวลผล
  • เอาต์พุตวิดีโอ: สูงสุด 720p ที่ 24fps
  • อัตราส่วนการบีบอัด: สูงสุด 64:1
  • ขั้นตอนการประมวลผล: ลดลงจาก 30+ เป็น 4-8 ขั้นตอน (การปรับปรุงจากชุมชน)
  • งานที่รองรับ: Text-to-Video, Image-to-Video, Text-to-Image-to-Video

การรวมเข้ากับชุมชนเร่งการนำไปใช้

การรวม Wan2.2 เข้ากับแพลตฟอร์มยอดนิยมอย่าง ComfyUI อย่างรวดเร็วได้เร่งการนำไปใช้ในหมู่ผู้สร้างเนื้อหาและนักพัฒนา การอัปเดตรายวันและการมีส่วนร่วมจากชุมชนได้ขยายความสามารถของโมเดลเกินกว่าการเปิดตัวครั้งแรก โดยเพิ่มฟีเจอร์อย่างศัพท์เฉพาะทางสื่อมืออาชีพและความแม่นยำที่ดีขึ้นสำหรับการกระทำที่ซับซ้อน

มีผู้คนจำนวนมากที่มุ่งเน้นไปที่ประสิทธิภาพ วิธีการต่างๆ เช่นเดียวกับที่มีผู้คนจำนวนมากที่มุ่งเน้นไปที่ประเด็นที่ไม่เกี่ยวกับประสิทธิภาพ เช่น การปรับแต่งที่เพิ่มแง่มุมที่โมเดลขาดหายไป

แนวทางการพัฒนาที่ขับเคลื่อนโดยชุมชนนี้ได้สร้างระบบนิเวศที่ผู้ใช้สามารถเข้าถึงไม่เพียงแต่โมเดลพื้นฐาน แต่ยังรวมถึงตัวแปรเฉพาะทางมากมายที่ปรับให้เหมาะสมสำหรับกรณีการใช้งานและการกำหนดค่าฮาร์ดแวร์ที่แตกต่างกัน

การปรับปรุงการเข้าถึงแสดงถึงแนวโน้มที่กว้างขึ้นในการพัฒนา AI ที่การปรับปรุงจากชุมชนมักทำให้เทคโนโลยีล้ำสมัยพร้อมใช้งานสำหรับผู้ใช้ที่อยู่นอกเหนือจากกลุ่มเป้าหมายเดิม ในขณะที่ความต้องการฮาร์ดแวร์ยังคงลดลงผ่านความพยายามของชุมชน การสร้างวิดีโอ AI กำลังเปลี่ยนผ่านจากเครื่องมือเฉพาะทางไปสู่เทคโนโลยีที่ผู้สร้างสรรค์ทั่วไปเข้าถึงได้

อ้างอิง: Wan2.2