Alibaba ได้เปิดตัว Qwen-Image-Edit เครื่องมือแก้ไขภาพที่ขับเคลื่อนด้วย AI แบบโอเพนซอร์ส ซึ่งอาจสร้างการเปลี่ยนแปลงครั้งใหญ่ในตลาดแก้ไขภาพแบบดั้งเดิมที่ Adobe Photoshop ครองอยู่ โมเดลใหม่นี้แสดงถึงความก้าวหน้าที่สำคัญในการสร้างเนื้อหาภาพที่ขับเคลื่อนด้วย AI โดยนำเสนอความสามารถในการแก้ไขที่ซับซ้อนผ่านคำสั่งภาษาธรรมชาติ
![]() |
---|
การสาธิตการเปลี่ยนแปลงสไตล์ที่หลากหลายซึ่งเป็นไปได้ด้วยเครื่องมือ Qwen-Image-Edit ของ Alibaba |
ความสามารถในการแก้ไขแบบสองโหมดขั้นสูง
Qwen-Image-Edit นำเสนอแนวทางปฏิวัติในการจัดการภาพโดยการรวมการแก้ไขเชิงความหมายและรูปลักษณ์ในแพลตฟอร์มเดียว โมเดลนี้พัฒนาต่อยอดจากโมเดลพื้นฐาน Qwen-Image ของ Alibaba ที่มี 20B พารามิเตอร์ โดยขยายความสามารถในการแสดงผลข้อความไปสู่ขอบเขตการแก้ไขภาพที่ครอบคลุม ระบบประมวลผลภาพที่ป้อนเข้าผ่าน Qwen2.5-VL สำหรับการควบคุมความหมายทางภาพและ VAE Encoder สำหรับการควบคุมลักษณะทางภาพ ทำให้เกิดความยืดหยุ่นที่ไม่เคยมีมาก่อนในการดำเนินการแก้ไข
ฟังก์ชันการแก้ไขเชิงความหมายช่วยให้ผู้ใช้สามารถปรับเปลี่ยนเนื้อหาภาพในขณะที่ยังคงรักษาความหมายและบริบททางภาพเดิมไว้ ผู้ใช้สามารถขอการเปลี่ยนแปลงที่ซับซ้อนเช่น การเปลี่ยนทิศทางของวัตถุ การเพิ่มองค์ประกอบใหม่ หรือการใช้การถ่ายทอดสไตล์ศิลปะในขณะที่ยังคงความสอดคล้องของตัวละครและการปรับแสงธรรมชาติ ความสามารถนี้มีคุณค่าอย่างยิ่งสำหรับการสร้างเนื้อหา IP ซึ่งการรักษาความสอดคล้องของแบรนด์ในสถานการณ์ต่างๆ กลายเป็นเรื่องง่าย
ข้อมูลจำเพาะของโมเดล
- โมเดลฐาน: โมเดล Qwen-Image ขนาด 20B พารามิเตอร์
- สถาปัตยกรรม: การประมวลผลแบบ dual-path ด้วย Qwen2.5-VL และ VAE Encoder
- การรองรับภาษา: การแก้ไขข้อความภาษาจีนและภาษาอังกฤษ
- ประสิทธิภาพ: ผลลัพธ์ระดับ SOTA ในหลายเบนช์มาร์กสาธารณะ
![]() |
---|
การแสดงภาพของการสังเคราะห์มุมมองใหม่ที่แสดงมุมมองต่าง ๆ ผ่านเทคนิคการจัดการภาพขั้นสูง |
การแก้ไขข้อความที่แม่นยำและการรองรับหลายภาษา
หนึ่งในคุณสมบัติที่โดดเด่นของ Qwen-Image-Edit คือความแม่นยำในการแก้ไขข้อความที่ยอดเยี่ยม โดยรองรับทั้งภาษาจีนและภาษาอังกฤษ ระบบสามารถปรับเปลี่ยน เพิ่ม หรือลบองค์ประกอบข้อความภายในภาพในขณะที่ยังคงรักษาฟอนต์ ขนาด และองค์ประกอบสไตล์เดิมไว้ ฟังก์ชันนี้ขยายไปถึงสถานการณ์ที่ซับซ้อนเช่น การแก้ไขข้อผิดพลาดในการเขียนพู่กันแบบจีนดั้งเดิม ซึ่งโมเดลสามารถดำเนินการแก้ไขแบบลูกโซ่เพื่อปรับปรุงความแม่นยำของตัวอักษรอย่างค่อยเป็นค่อยไป
โมเดลแสดงความสามารถที่น่าทึ่งในการจัดการสถานการณ์ข้อความที่ซับซ้อน ตั้งแต่การปรับเปลี่ยนป้ายง่ายๆ ไปจนถึงการแก้ไขโปสเตอร์ที่ซับซ้อน ผู้ใช้สามารถระบุการเปลี่ยนแปลงข้อความที่แน่นอน และระบบจะสร้างผลลัพธ์ที่เหมาะสมตามบริบท รวมถึงการสะท้อนและเงาธรรมชาติที่เข้ากับสภาพแวดล้อมโดยรอบ
คุณสมบัติหลัก
- การแก้ไขรูปลักษณ์ระดับต่ำ (การเพิ่ม ลบ หรือปรับเปลี่ยนองค์ประกอบ)
- การแก้ไขความหมายระดับสูง (การสร้าง IP การหมุนวัตถุ การถ่ายทอดสไตล์)
- การแก้ไขข้อความที่แม่นยำพร้อมการรักษาฟอนต์และสไตล์
- การแก้ไขแบบลูกโซ่สำหรับสถานการณ์ข้อความที่ซับซ้อน
- การสร้างแสงธรรมชาติและการสะท้อน
![]() |
---|
ตัวอย่างการแก้ไขข้อความแบบนวัตกรรมโดยใช้เทคโนโลยี AI เพื่อปรับเปลี่ยนตัวอักษรในแผนภูมิตัวอักษร |
ประสิทธิภาพระดับล้ำสมัยและการเข้าถึงได้
การประเมินมาตรฐานแสดงให้เห็นว่า Qwen-Image-Edit บรรลุประสิทธิภาพระดับล้ำสมัย (SOTA) ในชุดข้อมูลการแก้ไขภาพสาธารณะหลายชุด โมเดลมีความเป็นเลิศในการรักษาความสอดคล้องของหัวข้อในขณะที่อนุญาตให้มีการเปลี่ยนแปลงตามธรรมชาติในแสงและเนื้อสัมผัสตามการเปลี่ยนแปลงของฉาก การทดสอบเผยให้เห็นประสิทธิภาพที่แข็งแกร่งในการเพิ่มและลบวัตถุ การเปลี่ยนมุมมอง การปรับเปลี่ยนพื้นหลัง และการปรับองค์ประกอบรายละเอียด
ในปัจจุบัน ผู้ใช้สามารถเข้าถึง Qwen-Image-Edit ผ่าน Qwen Chat ที่ chat.qwen.ai โดยเลือกฟังก์ชัน Image Editing โมเดลยังมีให้บริการบน ModelScope, Hugging Face และแพลตฟอร์ม GitHub แม้ว่าการใช้งานฟรีจะมีข้อจำกัดบางประการในจำนวนการดำเนินการ
ข้อมูลการเข้าถึง
- อินเทอร์เฟซหลัก: Qwen Chat (chat.qwen.ai)
- ModelScope: https://modelscape.cn/models/Qwen/Qwen-Image-Edit
- Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Edit
- GitHub: https://github.com/QwenLM/Qwen-Image
- การใช้งาน: ฟรี แต่มีข้อจำกัดในจำนวนการดำเนินการ
การประยุกต์ใช้ในโลกจริงและศักยภาพในการสร้างสรรค์
การประยุกต์ใช้งานจริงของ Qwen-Image-Edit ครอบคลุมอุตสาหกรรมสร้างสรรค์หลายสาขา ผู้สร้างเนื้อหาสามารถสร้างสถานการณ์ที่หลากหลายสำหรับตัวละครทรัพย์สินทางปัญญา ดังที่แสดงโดยการสร้างชุดแสดงออก MBTI ของ Alibaba โดยใช้มาสคอตคาปิบาราของพวกเขา เครื่องมือนี้ช่วยให้เกิดการสังเคราะห์มุมมองใหม่ ทำให้ผู้ใช้สามารถหมุนวัตถุ 90 หรือ 180 องศาเพื่อเผยมุมมองที่แตกต่าง และรองรับการถ่ายทอดสไตล์ที่ครอบคลุมรวมถึงสไตล์ศิลปะยอดนิยมเช่น แอนิเมชัน Studio Ghibli
การประยุกต์ใช้ระดับมืออาชีพรวมถึงสถานการณ์การสื่อสารเสมือนจริง การจำลองผลิตภัณฑ์ และการสร้างต้นแบบอย่างรวดเร็วสำหรับสื่อการตลาด ความสามารถของระบบในการรักษาความสอดคล้องในขณะที่อนุญาตให้มีความยืดหยุ่นในการสร้างสรรค์ทำให้มีคุณค่าอย่างยิ่งสำหรับแบรนด์ที่ต้องการเอกลักษณ์ทางภาพที่เหนียวแน่นในหลายแพลตฟอร์มและบริบท
ข้อจำกัดปัจจุบันและแนวโน้มในอนาคต
แม้จะมีความสามารถที่น่าประทับใจ แต่ Qwen-Image-Edit ก็ยังเผชิญกับความท้าทายบางประการ การเขียนพู่กันที่ซับซ้อนและรูปแบบลายมือที่ซับซ้อนอาจสร้างความยากลำบากสำหรับการจดจำและการปรับเปลี่ยนตัวอักษรที่แม่นยำ เซสชันการแก้ไขหลายรอบอาจประสบกับความแม่นยำและความสอดคล้องที่ลดลงในการใช้งานที่ยาวนาน นอกจากนี้ การเข้าถึงฟรีปัจจุบันรวมถึงข้อจำกัดการใช้งานที่จำกัดการทดลองอย่างกว้างขวาง
การเปิดตัว Qwen-Image-Edit เป็นสัญญาณของการเปลี่ยนแปลงที่สำคัญสู่การทำให้ความสามารถในการแก้ไขภาพระดับมืออาชีพเป็นประชาธิปไตย โดยการลดอุปสรรคทางเทคนิคสำหรับการสร้างเนื้อหาภาพ แนวทางโอเพนซอร์สนี้อาจเร่งนวัตกรรมในอุตสาหกรรมสร้างสรรค์ในขณะที่ท้าทายโซลูชันเชิงพาณิชย์ที่จัดตั้งขึ้น เมื่อเทคโนโลยียังคงพัฒนาต่อไป มันสัญญาว่าจะปรับเปลี่ยนวิธีที่ผู้สร้างสรรค์ นักการตลาด และนักออกแบบเข้าหาการผลิตเนื้อหาภาพ