Alibaba เปิดตัว Qwen-Image-Edit: เครื่องมือแก้ไขภาพ AI ท้าทาย Adobe Photoshop

ทีมบรรณาธิการ BigGo
Alibaba เปิดตัว Qwen-Image-Edit: เครื่องมือแก้ไขภาพ AI ท้าทาย Adobe Photoshop

Alibaba ได้เปิดตัว Qwen-Image-Edit เครื่องมือแก้ไขภาพที่ขับเคลื่อนด้วย AI แบบโอเพนซอร์ส ซึ่งอาจสร้างการเปลี่ยนแปลงครั้งใหญ่ในตลาดแก้ไขภาพแบบดั้งเดิมที่ Adobe Photoshop ครองอยู่ โมเดลใหม่นี้แสดงถึงความก้าวหน้าที่สำคัญในการสร้างเนื้อหาภาพที่ขับเคลื่อนด้วย AI โดยนำเสนอความสามารถในการแก้ไขที่ซับซ้อนผ่านคำสั่งภาษาธรรมชาติ

การสาธิตการเปลี่ยนแปลงสไตล์ที่หลากหลายซึ่งเป็นไปได้ด้วยเครื่องมือ Qwen-Image-Edit ของ Alibaba
การสาธิตการเปลี่ยนแปลงสไตล์ที่หลากหลายซึ่งเป็นไปได้ด้วยเครื่องมือ Qwen-Image-Edit ของ Alibaba

ความสามารถในการแก้ไขแบบสองโหมดขั้นสูง

Qwen-Image-Edit นำเสนอแนวทางปฏิวัติในการจัดการภาพโดยการรวมการแก้ไขเชิงความหมายและรูปลักษณ์ในแพลตฟอร์มเดียว โมเดลนี้พัฒนาต่อยอดจากโมเดลพื้นฐาน Qwen-Image ของ Alibaba ที่มี 20B พารามิเตอร์ โดยขยายความสามารถในการแสดงผลข้อความไปสู่ขอบเขตการแก้ไขภาพที่ครอบคลุม ระบบประมวลผลภาพที่ป้อนเข้าผ่าน Qwen2.5-VL สำหรับการควบคุมความหมายทางภาพและ VAE Encoder สำหรับการควบคุมลักษณะทางภาพ ทำให้เกิดความยืดหยุ่นที่ไม่เคยมีมาก่อนในการดำเนินการแก้ไข

ฟังก์ชันการแก้ไขเชิงความหมายช่วยให้ผู้ใช้สามารถปรับเปลี่ยนเนื้อหาภาพในขณะที่ยังคงรักษาความหมายและบริบททางภาพเดิมไว้ ผู้ใช้สามารถขอการเปลี่ยนแปลงที่ซับซ้อนเช่น การเปลี่ยนทิศทางของวัตถุ การเพิ่มองค์ประกอบใหม่ หรือการใช้การถ่ายทอดสไตล์ศิลปะในขณะที่ยังคงความสอดคล้องของตัวละครและการปรับแสงธรรมชาติ ความสามารถนี้มีคุณค่าอย่างยิ่งสำหรับการสร้างเนื้อหา IP ซึ่งการรักษาความสอดคล้องของแบรนด์ในสถานการณ์ต่างๆ กลายเป็นเรื่องง่าย

ข้อมูลจำเพาะของโมเดล

  • โมเดลฐาน: โมเดล Qwen-Image ขนาด 20B พารามิเตอร์
  • สถาปัตยกรรม: การประมวลผลแบบ dual-path ด้วย Qwen2.5-VL และ VAE Encoder
  • การรองรับภาษา: การแก้ไขข้อความภาษาจีนและภาษาอังกฤษ
  • ประสิทธิภาพ: ผลลัพธ์ระดับ SOTA ในหลายเบนช์มาร์กสาธารณะ
การแสดงภาพของการสังเคราะห์มุมมองใหม่ที่แสดงมุมมองต่าง ๆ ผ่านเทคนิคการจัดการภาพขั้นสูง
การแสดงภาพของการสังเคราะห์มุมมองใหม่ที่แสดงมุมมองต่าง ๆ ผ่านเทคนิคการจัดการภาพขั้นสูง

การแก้ไขข้อความที่แม่นยำและการรองรับหลายภาษา

หนึ่งในคุณสมบัติที่โดดเด่นของ Qwen-Image-Edit คือความแม่นยำในการแก้ไขข้อความที่ยอดเยี่ยม โดยรองรับทั้งภาษาจีนและภาษาอังกฤษ ระบบสามารถปรับเปลี่ยน เพิ่ม หรือลบองค์ประกอบข้อความภายในภาพในขณะที่ยังคงรักษาฟอนต์ ขนาด และองค์ประกอบสไตล์เดิมไว้ ฟังก์ชันนี้ขยายไปถึงสถานการณ์ที่ซับซ้อนเช่น การแก้ไขข้อผิดพลาดในการเขียนพู่กันแบบจีนดั้งเดิม ซึ่งโมเดลสามารถดำเนินการแก้ไขแบบลูกโซ่เพื่อปรับปรุงความแม่นยำของตัวอักษรอย่างค่อยเป็นค่อยไป

โมเดลแสดงความสามารถที่น่าทึ่งในการจัดการสถานการณ์ข้อความที่ซับซ้อน ตั้งแต่การปรับเปลี่ยนป้ายง่ายๆ ไปจนถึงการแก้ไขโปสเตอร์ที่ซับซ้อน ผู้ใช้สามารถระบุการเปลี่ยนแปลงข้อความที่แน่นอน และระบบจะสร้างผลลัพธ์ที่เหมาะสมตามบริบท รวมถึงการสะท้อนและเงาธรรมชาติที่เข้ากับสภาพแวดล้อมโดยรอบ

คุณสมบัติหลัก

  • การแก้ไขรูปลักษณ์ระดับต่ำ (การเพิ่ม ลบ หรือปรับเปลี่ยนองค์ประกอบ)
  • การแก้ไขความหมายระดับสูง (การสร้าง IP การหมุนวัตถุ การถ่ายทอดสไตล์)
  • การแก้ไขข้อความที่แม่นยำพร้อมการรักษาฟอนต์และสไตล์
  • การแก้ไขแบบลูกโซ่สำหรับสถานการณ์ข้อความที่ซับซ้อน
  • การสร้างแสงธรรมชาติและการสะท้อน
ตัวอย่างการแก้ไขข้อความแบบนวัตกรรมโดยใช้เทคโนโลยี AI เพื่อปรับเปลี่ยนตัวอักษรในแผนภูมิตัวอักษร
ตัวอย่างการแก้ไขข้อความแบบนวัตกรรมโดยใช้เทคโนโลยี AI เพื่อปรับเปลี่ยนตัวอักษรในแผนภูมิตัวอักษร

ประสิทธิภาพระดับล้ำสมัยและการเข้าถึงได้

การประเมินมาตรฐานแสดงให้เห็นว่า Qwen-Image-Edit บรรลุประสิทธิภาพระดับล้ำสมัย (SOTA) ในชุดข้อมูลการแก้ไขภาพสาธารณะหลายชุด โมเดลมีความเป็นเลิศในการรักษาความสอดคล้องของหัวข้อในขณะที่อนุญาตให้มีการเปลี่ยนแปลงตามธรรมชาติในแสงและเนื้อสัมผัสตามการเปลี่ยนแปลงของฉาก การทดสอบเผยให้เห็นประสิทธิภาพที่แข็งแกร่งในการเพิ่มและลบวัตถุ การเปลี่ยนมุมมอง การปรับเปลี่ยนพื้นหลัง และการปรับองค์ประกอบรายละเอียด

ในปัจจุบัน ผู้ใช้สามารถเข้าถึง Qwen-Image-Edit ผ่าน Qwen Chat ที่ chat.qwen.ai โดยเลือกฟังก์ชัน Image Editing โมเดลยังมีให้บริการบน ModelScope, Hugging Face และแพลตฟอร์ม GitHub แม้ว่าการใช้งานฟรีจะมีข้อจำกัดบางประการในจำนวนการดำเนินการ

ข้อมูลการเข้าถึง

การประยุกต์ใช้ในโลกจริงและศักยภาพในการสร้างสรรค์

การประยุกต์ใช้งานจริงของ Qwen-Image-Edit ครอบคลุมอุตสาหกรรมสร้างสรรค์หลายสาขา ผู้สร้างเนื้อหาสามารถสร้างสถานการณ์ที่หลากหลายสำหรับตัวละครทรัพย์สินทางปัญญา ดังที่แสดงโดยการสร้างชุดแสดงออก MBTI ของ Alibaba โดยใช้มาสคอตคาปิบาราของพวกเขา เครื่องมือนี้ช่วยให้เกิดการสังเคราะห์มุมมองใหม่ ทำให้ผู้ใช้สามารถหมุนวัตถุ 90 หรือ 180 องศาเพื่อเผยมุมมองที่แตกต่าง และรองรับการถ่ายทอดสไตล์ที่ครอบคลุมรวมถึงสไตล์ศิลปะยอดนิยมเช่น แอนิเมชัน Studio Ghibli

การประยุกต์ใช้ระดับมืออาชีพรวมถึงสถานการณ์การสื่อสารเสมือนจริง การจำลองผลิตภัณฑ์ และการสร้างต้นแบบอย่างรวดเร็วสำหรับสื่อการตลาด ความสามารถของระบบในการรักษาความสอดคล้องในขณะที่อนุญาตให้มีความยืดหยุ่นในการสร้างสรรค์ทำให้มีคุณค่าอย่างยิ่งสำหรับแบรนด์ที่ต้องการเอกลักษณ์ทางภาพที่เหนียวแน่นในหลายแพลตฟอร์มและบริบท

ข้อจำกัดปัจจุบันและแนวโน้มในอนาคต

แม้จะมีความสามารถที่น่าประทับใจ แต่ Qwen-Image-Edit ก็ยังเผชิญกับความท้าทายบางประการ การเขียนพู่กันที่ซับซ้อนและรูปแบบลายมือที่ซับซ้อนอาจสร้างความยากลำบากสำหรับการจดจำและการปรับเปลี่ยนตัวอักษรที่แม่นยำ เซสชันการแก้ไขหลายรอบอาจประสบกับความแม่นยำและความสอดคล้องที่ลดลงในการใช้งานที่ยาวนาน นอกจากนี้ การเข้าถึงฟรีปัจจุบันรวมถึงข้อจำกัดการใช้งานที่จำกัดการทดลองอย่างกว้างขวาง

การเปิดตัว Qwen-Image-Edit เป็นสัญญาณของการเปลี่ยนแปลงที่สำคัญสู่การทำให้ความสามารถในการแก้ไขภาพระดับมืออาชีพเป็นประชาธิปไตย โดยการลดอุปสรรคทางเทคนิคสำหรับการสร้างเนื้อหาภาพ แนวทางโอเพนซอร์สนี้อาจเร่งนวัตกรรมในอุตสาหกรรมสร้างสรรค์ในขณะที่ท้าทายโซลูชันเชิงพาณิชย์ที่จัดตั้งขึ้น เมื่อเทคโนโลยียังคงพัฒนาต่อไป มันสัญญาว่าจะปรับเปลี่ยนวิธีที่ผู้สร้างสรรค์ นักการตลาด และนักออกแบบเข้าหาการผลิตเนื้อหาภาพ