Imagen 4 Fast ของ Google ประสบปัญหาการทำตามคำสั่งแม้จะอ้างว่ามีความเร็วสูง

ทีมชุมชน BigGo
Imagen 4 Fast ของ Google ประสบปัญหาการทำตามคำสั่งแม้จะอ้างว่ามีความเร็วสูง

Google ได้เปิดตัว Imagen 4 Fast ซึ่งเป็นโมเดล AI แปลงข้อความเป็นภาพรุ่นใหม่ที่ออกแบบมาเพื่อการสร้างภาพที่รวดเร็วในราคา 0.02 ดอลลาร์สหรัฐต่อภาพ อย่างไรก็ตาม การตอบสนองจากชุมชนผู้ใช้ค่อนข้างอุ่นๆ โดยผู้ใช้ชี้ให้เห็นปัญหาสำคัญเกี่ยวกับความสามารถของโมเดลในการทำตามคำแนะนำที่ละเอียด

ราคาและฟีเจอร์ของตระกูล Imagen 4

  • Imagen 4 Fast: $0.02 USD ต่อภาพ ปรับแต่งให้เหมาะสำหรับความเร็วและงานปริมาณมาก
  • Imagen 4: โมเดลมาตรฐานสำหรับการสร้างภาพคุณภาพสูงพร้อมการแสดงผลข้อความที่ดีขึ้น
  • Imagen 4 Ultra: โมเดลพรีเมียมสำหรับการปฏิบัติตามคำสั่งอย่างเข้มงวดและรายละเอียดสูงสุด
  • ความละเอียด: รองรับความละเอียดสูงสุด 2K สำหรับ Imagen 4 และ Imagen 4 Ultra
  • ลายน้ำ: ภาพทั้งหมดมีลายน้ำ SynthID ที่มองไม่เห็น

การทำตามคำสั่งที่ไม่ดีทำให้เกิดความกังวลเรื่องคุณภาพ

ปัญหาที่เด่นชัดที่สุดคือความไม่สามารถของ Imagen 4 Fast ในการปฏิบัติตามคำแนะนำเฉพาะเจาะจง ผู้ใช้ที่ตรวจสอบตัวอย่างโปรโมชั่นของ Google เองพบข้อผิดพลาดมากมาย โดยเฉพาะในการสาธิตการ์ตูนสี่ช่อง โมเดลไม่สามารถทำตามคำแนะนำที่ชัดเจนเกี่ยวกับเนื้อหาในแต่ละช่อง การจัดวางตัวละคร และการจัดรูปแบบข้อความ ในตัวอย่างหนึ่ง คำสั่งขอให้แมวและสุนัขไฮไฟว์กันในช่องสุดท้าย แต่ภาพที่สร้างขึ้นกลับแสดงแมวไฮไฟว์กับตัวเองแทน

สมาชิกในชุมชนได้เปรียบเทียบ Imagen 4 Fast อย่างไม่เอื้ออำนวยกับโมเดลคู่แข่งอย่าง GPT-Image-1 ของ OpenAI โดยผู้ใช้หลายคนรายงานว่าได้ผลลัพธ์ที่ดีกว่าจากแพลตฟอร์มอื่นเมื่อใช้คำสั่งเดียวกัน แม้ว่า Google จะวาง Imagen 4 Ultra เป็นโซลูชั่นสำหรับการปฏิบัติตามคำสั่งอย่างเคร่งครัด แต่หลายคนตั้งคำถามว่าเวอร์ชั่น Fast ให้คุณค่าที่เพียงพอหรือไม่แม้จะมีราคาต่ำ

ข้อจำกัดทางเทคนิคและปัญหาเอกสารประกอบ

นอกจากปัญหาการทำตามคำสั่งแล้ว ผู้ใช้ยังค้นพบข้อจำกัดทางเทคนิคที่น่ากังวล โมเดลบางครั้งแสดงผลเป็นข้อความเท่านั้นแทนที่จะเป็นภาพ อาจหยุดการสร้างภาพกลางคัน และปัจจุบันยังขาดฟังก์ชั่นการแปลงภาพเป็นภาพที่คู่แข่งมีให้ นอกจากนี้ เอกสารประกอบของ Google ดูเหมือนจะไม่สมบูรณ์ โดยลิงก์นำไปสู่หน้าที่ไม่มีเอกสารเกี่ยวกับโมเดล Imagen รุ่นล่าสุด

โมเดลยังแสดงแนวโน้มในการสร้างภาพแบบการ์ตูนมากกว่าภาพที่สมจริง ซึ่งทำให้นักพัฒนาที่ทำงานในโปรเจกต์ที่ต้องการภาพที่สมจริงผิดหวัง ผู้ใช้บางคนรายงานว่า Imagen 4 ดูเหมือนจะลังเลที่จะสร้างสิ่งใดที่อาจถูกเข้าใจผิดว่าเป็นภาพถ่ายจริง

ข้อจำกัดทางเทคนิคที่สำคัญ

  • อาจแสดงผลเป็นข้อความเท่านั้นแทนที่จะเป็นรูปภาพ
  • การสร้างภาพอาจหยุดไปครึ่งทาง
  • ยังไม่รองรับฟังก์ชัน image-to-image ในขณะนี้
  • มีแนวโน้มให้ผลลัพธ์แบบการ์ตูนมากกว่าภาพจริง
  • ไม่สามารถปฏิบัติตามคำสั่งในพรอมต์ที่มีรายละเอียดได้ดี
  • เอกสารประกอบไม่สมบูรณ์และมีลิงก์เสียในแหล่งข้อมูลอย่างเป็นทางการ
ภาพนี้แสดงให้เห็นภาพที่น่าทึ่งที่ผู้ใช้หวังจะได้รับจากการสร้างภาพด้วย AI โดยเน้นให้เห็นความแตกต่างระหว่างความคาดหวังและความเป็นจริง
ภาพนี้แสดงให้เห็นภาพที่น่าทึ่งที่ผู้ใช้หวังจะได้รับจากการสร้างภาพด้วย AI โดยเน้นให้เห็นความแตกต่างระหว่างความคาดหวังและความเป็นจริง

ตำแหน่งในตลาดและความคาดหวังของผู้ใช้

แม้จะมีข้อจำกัดเหล่านี้ สมาชิกในชุมชนบางคนโต้แย้งว่าแม้ผลลัพธ์จะไม่สมบูรณ์แบบ แต่ก็สามารถให้คุณค่าได้ในราคา 0.02 ดอลลาร์สหรัฐต่อภาพ โดยเฉพาะสำหรับการสร้างต้นแบบอย่างรวดเร็วหรือการพัฒนาแนวคิด แนวทางสามระดับด้วย Imagen 4 Fast , Imagen 4 มาตรฐาน และ Imagen 4 Ultra ช่วยให้ผู้ใช้สามารถปรับสมดุลระหว่างความเร็ว ต้นทุน และคุณภาพตามความต้องการเฉพาะของตน

อย่างไรก็ตาม การตอบรับที่หลากหลายจากชุมชนเน้นย้ำถึงความท้าทายที่ยังคงอยู่ในการสร้างภาพด้วย AI คือการสร้างสมดุลระหว่างความเร็วและต้นทุนกับความน่าเชื่อถือและการทำตามคำสั่ง ดังที่ผู้ใช้คนหนึ่งกล่าวไว้ ความก้าวหน้าจากสิ่งที่เป็นไปไม่ได้ไปสู่การวิจารณ์ข้อบกพร่องเล็กๆ น้อยๆ แสดงให้เห็นว่าความคาดหวังได้พัฒนาไปอย่างรวดเร็วในพื้นที่นี้

การเปิดตัวครั้งนี้แสดงถึงความพยายามของ Google ในการแข่งขันในตลาดการสร้างภาพด้วย AI ที่มีการแข่งขันสูงขึ้นเรื่อยๆ แต่ข้อเสนอแนะจากชุมชนในช่วงแรกชี้ให้เห็นว่าจำเป็นต้องมีการปรับปรุงอย่างมีนัยสำคัญก่อนที่ Imagen 4 Fast จะสามารถตอบสนองความคาดหวังของผู้ใช้ที่ตั้งไว้โดยแพลตฟอร์มคู่แข่ง

อ้างอิง: Announcing Imagen 4 Fast and the generally availability of the Imagen 4 family in the Gemini API