การเปรียบเทียบ AI สร้างภาพเผยความแตกต่างในด้านการทำตามคำบรรยายและขีดความสามารถ

ทีมชุมชน BigGo
การเปรียบเทียบ AI สร้างภาพเผยความแตกต่างในด้านการทำตามคำบรรยายและขีดความสามารถ

การเปรียบเทียบแบบครอบคลุมของโมเดล AI สร้างภาพชั้นนำได้จุดประเด็นการอภิปรายอย่างมากในหมู่ผู้ที่ชื่นชอบเทคโนโลยี การประเมินซึ่งดำเนินการโดยบุคคลที่สามที่เป็นกลาง ได้ทดสอบโมเดลต่างๆ ด้วยคำบรรยายที่สร้างสรรค์และท้าทายเพื่อประเมินประสิทธิภาพ การทำตามคำบรรยาย และประโยชน์ใช้สอยโดยรวม การวิเคราะห์จากชุมชนเผยให้เห็นข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับวิธีการทำงานของระบบ AI เหล่านี้ behind the scenes และจุดที่พวกมันทำได้ดีหรือยังขาดตกบกพร่อง

การถกเถียงเรื่องวิธีการ: ความพยายามหลายครั้งและขั้นตอนการทำงานที่ซ่อนอยู่

สมาชิกในชุมชนตั้งคำถามทันทีว่าวิธีการทดสอบนั้นแสดงให้เห็นสิ่งที่ผู้ใช้ทั่วไปประสบได้อย่างถูกต้องหรือไม่ ผู้แสดงความคิดเห็นหลายคนตั้งข้อสังเกตว่าโมเดลเหล่านั้นน่าจะสร้างภาพหลายภาพภายในและแสดงให้ผู้ใช้เห็นเฉพาะผลลัพธ์ที่ดีที่สุดเท่านั้น ซึ่งอาจสร้างความเข้าใจผิดเกี่ยวกับขีดความสามารถของพวกมัน การอภิปรายยังกล่าวถึงว่าโมเดลมีระบบปรับปรุงคำบรรยายในตัวที่ปรับเปลี่ยนข้อมูลนำเข้าจากผู้ใช้ก่อนการสร้างภาพหรือไม่ ผู้แสดงความคิดเห็นหนึ่งคนสังเกตว่าโมเดล OpenAI 4o ดูเหมือนจะมีการตั้งค่า temperature ต่ำมากเพื่อให้มั่นใจในเรื่องการทำตามคำบรรยายสูงสุด ในขณะที่คู่แข่งอย่าง Midjourney ดูเหมือนจะให้ความสำคัญกับผลลัพธ์ที่สร้างสรรค์และน่าดูมากขึ้น แม้ว่ามันจะเบี่ยงเบนไปจากรายละเอียดในคำบรรยายเล็กน้อยก็ตาม

ฉันสันนิษฐานว่า behind the scenes โมเดลสร้างภาพขึ้นมาหลายรอบและแสดงให้ผู้ใช้เห็นเฉพาะภาพที่ดีที่สุดเท่านั้น นั่นจะเป็นสิ่งที่ฉลาด เพื่อทำให้ดูเหมือนว่าโมเดลของพวกเขาดีกว่าของคนอื่น

ข้อสังเกตสำคัญจากชุมชน:

  • สงสัยว่ามีการสร้างภาพหลายรอบภายในก่อนจะแสดงผลลัพธ์ที่ดีที่สุด
  • ตั้งคำถามว่าโมเดลมีระบบปรับปรุงคำสั่งแบบบิวท์อินหรือไม่
  • สังเกตเห็นความสับสนระหว่างความสามารถในการสร้างภาพกับการแก้ไขภาพ
  • ระบุความล้มเหลวในการปฏิบัติตามคำสั่งเฉพาะเจาะจง (หุ่นหนวดหมึก, เวลาบนนาฬิกา)
  • คาดเดาเกี่ยวกับการตั้งค่า temperature ที่ส่งผลต่อความคิดสร้างสรรค์เทียบกับการปฏิบัติตามคำสั่ง

ความสับสนระหว่างการแก้ไขภาพและการสร้างภาพ

ประเด็นสำคัญของความสับสนในชุมชนเกิดขึ้นรอบๆ ความแตกต่างระหว่างขีดความสามารถในการสร้างภาพและการแก้ไขภาพ ชื่อเรื่องต้นฉบับอ้างอิงถึงการแก้ไขภาพ แต่เนื้อหาจริงๆ กลับมุ่งเน้นไปที่การสร้างภาพจากข้อความ (text-to-image generation) ดังที่ผู้แสดงความคิดเห็นหนึ่งคนชี้แจง Midjourney และ Flux Dev ไม่ใช่โมเดลแก้ไขภาพ การแก้ไขภาพเป็นงานที่แตกต่างจากการสร้างภาพ ความแตกต่างนี้สำคัญเพราะโมเดลแก้ไขภาพทำงานกับภาพที่มีอยู่แล้วแทนที่จะสร้างขึ้นจากศูนย์ ชุมชนระบุได้อย่างรวดเร็วว่ามีการเปรียบเทียบการแก้ไขภาพที่แยกจากกันและใหม่กว่าอยู่แล้ว ซึ่งเน้นย้ำถึงวิวัฒนาการที่รวดเร็วในพื้นที่นี้และความจำเป็นในการจัดหมวดหมู่ขีดความสามารถของ AI ให้ชัดเจน

ความล้มเหลวและความสำเร็จจากคำบรรยายเฉพาะ

การวิเคราะห์โดยละเอียดของคำตอบจากคำบรรยายแต่ละข้อเผยให้เห็นรูปแบบที่น่าสนใจของประสิทธิภาพโมเดล คำบรรยาย Cephalopodic Puppet Show ซึ่งระบุว่าแต่ละหนวดควรถูกปกคลุมด้วยหุ่นมือ (sock puppet) กลับกลายเป็นคำบรรยายที่ท้าทายเป็นพิเศษ ผู้แสดงความคิดเห็นหลายคนระบุว่ามีเพียง Gemini เท่านั้นที่ทำตามข้อกำหนดเฉพาะนี้สำเร็จ ในขณะที่โมเดลอื่นๆ รวมถึง OpenAI 4o ล้มเหลวในการวางหุ่นมือบนหนวดทุกเส้น ในทำนองเดียวกัน คำบรรยาย Mermaid Disciplinary Committee สร้างผลลัพธ์บางอย่างที่ผู้แสดงความคิดเห็นมองว่าอาจไม่เหมาะสมสำหรับสภาพแวดล้อมการทำงาน ทำให้เกิดคำถามเกี่ยวกับการกรองเนื้อหาและมาตรการความปลอดภัยทั่วแพลตฟอร์มต่างๆ

ความท้าทายของ Prompt ที่น่าสนใจที่ระบุได้:

  • Cephalopodic Puppet Show: มีเพียง Gemini เท่านั้นที่ตอบสนองข้อกำหนด "แต่ละหนวดต้องถูกปกคลุม"
  • การทดสอบนาฬิกาแบบอนาล็อก: โมเดลส่วนใหญ่มีปัญหากับเวลาที่ไม่ใช่ตำแหน่ง 10:10
  • เนื้อหาการลงโทษนางเงือก: ผลลัพธ์บางส่วนถูกมองว่าอาจไม่เหมาะสม
  • การขี่ในกระเป๋าจิงโจ้: รายงานว่าโมเดล pure diffusion มีปัญหากับ prompt นี้

ข้อมูลเชิงเทคนิคและทิศทางในอนาคต

การอภิปรายขยายไปสู่ข้อพิจารณาทางเทคนิคที่อาจอธิบายความแตกต่างของประสิทธิภาพได้ ผู้แสดงความคิดเห็นคาดเดาเกี่ยวกับการตั้งค่า temperature ที่ส่งผลต่อความคิดสร้างสรรค์เมื่อเทียบกับการทำตามคำบรรยาย ขั้นตอนการทำงานหลังการประมวลผลที่เป็นไปได้ และว่าการใช้โทนสีซีเปียในผลลัพธ์บางส่วนเกิดจากพารามิเตอร์การสร้างภาพหรือการแก้ไขภายหลัง การสนทนายังกล่าวถึงความท้าทายคลาสสิกของการสร้างภาพด้วย AI เช่น ความยากในการสร้างนาฬิกากลไกที่แสดงเวลาเฉพาะอื่นๆ นอกเหนือจากตำแหน่ง 10:10 ที่พบเห็นบ่อยในโฆษณานาฬิกา ดังที่ผู้แสดงความคิดเห็นหนึ่งคนแนะนำ การแก้ไขปัญหาดังกล่าวอาจต้องใช้ข้อมูลการฝึกอบรมที่มีเป้าหมายเฉพาะซึ่งออกแบบมาเพื่อเอาชนะอคติเหล่านี้

การวิเคราะห์ลึกของชุมชนเกี่ยวกับการเปรียบเทียบ AI สร้างภาพเหล่านี้เผยให้เห็นทั้งความซับซ้อนของโมเดลในปัจจุบันและความท้าทายที่ยังเหลืออยู่ แม้ว่าเทคโนโลยีจะก้าวหน้าอย่างมาก แต่ผู้ใช้ก็กำลังมีความเข้าใจเกี่ยวกับวิธีการทดสอบและปัจจัยที่ซ่อนอยู่ซึ่งส่งผลต่อผลลัพธ์มากขึ้นเรื่อยๆ ขณะที่สาขานี้ยังคงพัฒนาต่อไป ทั้งผู้พัฒนาและผู้ใช้จะต้องพัฒนาวิธีการที่ซับซ้อนมากขึ้นเพื่อประเมินและเปรียบเทียบระบบเหล่านี้ที่กำลังพัฒนาอย่างรวดเร็ว

อ้างอิง: GenAI Image Showdown