การเปิดตัว FLUX.1-Krea ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชนการสร้างภาพ AI เกี่ยวกับแนวทางที่ดีที่สุดในการต่อสู้กับลักษณะ AI ที่เห็นได้ชัดซึ่งเป็นปัญหาที่รบกวนภาพที่สร้างขึ้นส่วนใหญ่ ในขณะที่ Krea อ้างว่าโมเดลของพวกเขาแก้ไขปัญหาด้านความสวยงามผ่านเทคนิค post-training ขั้นสูง ผู้ใช้ที่มีประสบการณ์กำลังตั้งคำถามว่าสิ่งนี้แสดงถึงนวัตกรรมที่แท้จริงหรือเป็นเพียงการห่อหุ้มโซลูชันที่มีอยู่แล้วใหม่
![]() |
---|
การสำรวจการแสดงออกของมนุษย์ที่หลากหลายในรูปแบบภาพสามส่วน สะท้อนถึงความหลากหลายที่ AI พยายามนำเสนอ |
ชุมชนตั้งคำถามต่อการอ้างเรื่องนวัตกรรมของ Krea
ชุมชน AI ได้ตอบสนองด้วยความสงสัยต่อการวางตำแหน่งของ Krea ที่ถือว่าโมเดลของพวกเขาเป็นโซลูชันที่ก้าวล้ำ ผู้ใช้หลายคนชี้ให้เห็นว่าเทคนิค fine-tuning และ LoRAs (Low-Rank Adaptations) ได้แก้ไขปัญหาด้านความสวยงามที่คล้ายกันมาตั้งแต่ Stable Diffusion 1.5 แล้ว การถกเถียงนี้เผยให้เห็นความแตกแยกระหว่างสิ่งที่เป็นไปได้ทางเทคนิคสำหรับผู้ที่ชื่นชอบเทียบกับสิ่งที่ผู้ใช้ทั่วไปสามารถเข้าถึงได้
สมาชิกชุมชนหลายคนสังเกตว่าโมเดลและ LoRAs ที่กำหนดเองหลายพันตัวมีอยู่แล้วบนแพลตฟอร์มอย่าง Civitai ซึ่งออกแบบมาเป็นพิเศษเพื่อขจัดลักษณะพลาสติกและการประมวลผลมากเกินไปที่เป็นลักษณะเฉพาะของภาพที่สร้างโดย AI ทั่วไป สิ่งนี้ทำให้เกิดคำถามว่าแนวทางของ Krea นำเสนอความก้าวหน้าที่แท้จริงหรือเพียงแค่ทำให้โซลูชันที่มีอยู่แล้วใช้งานง่ายขึ้น
LoRAs คือไฟล์เสริมขนาดเล็กที่ปรับเปลี่ยนวิธีที่โมเดล AI สร้างภาพ ช่วยให้ผู้ใช้สามารถบรรลุสไตล์ศิลปะเฉพาะหรือแก้ไขปัญหาทั่วไปได้
แนวทางเทคนิคหลัก:
- LoRAs (Low-Rank Adaptations): ไฟล์ปรับแต่งขนาดเล็กสำหรับโมเดลที่มีอยู่
- Fine-tuning: การฝึกโมเดลที่มีอยู่ด้วยชุดข้อมูลเฉพาะ
- Post-training: เทคนิคการฝึกขั้นสูงรวมถึง reinforcement learning
- Model merging: การรวมโมเดลต่างๆ เพื่อผลลัพธ์ที่ดีขึ้น
- Diffusion-PPO: เทคนิค reinforcement learning สำหรับการสร้างภาพ
![]() |
---|
ภาพสามส่วนของแมวในบรรยากาศอบอุ่นที่เน้นตัวเลือกทางศิลปะและความงามตามธรรมชาติที่ตัวสร้างภาพ AI แสวงหา |
โมเดลทางเลือกแสดงให้เห็นความหวังสำหรับผลลัพธ์ที่ดูธรรมชาติ
การถกเถียงในชุมชนได้เน้นย้ำถึงโมเดลอื่นๆ ที่อาจทำงานได้ดีกว่า FLUX.1-Krea จริงๆ สำหรับผลลัพธ์ที่ดูเป็นธรรมชาติ Wan 2.2 ซึ่งออกแบบมาเป็นโมเดลวิดีโอในตอนแรก ได้รับความสนใจในการสร้างภาพที่ดูแท้จริงมากขึ้นเมื่อใช้สำหรับการสร้างภาพจากข้อความ ผู้ใช้รายงานว่าการรวม Wan 2.2 เข้ากับกระบวนการปรับแต่งของ Krea ให้ผลลัพธ์ที่น่าประทับใจเป็นพิเศษ
การพัฒนานี้ชี้ให้เห็นว่าโซลูชันสำหรับปัญหาด้านความสวยงามของ AI อาจไม่ได้มาจากโมเดลการสร้างภาพแบบดั้งเดิมเลย แต่มาจากการนำเทคโนโลยีการสร้างวิดีโอมาใช้ในทางใหม่ แนวทางนี้แสดงให้เห็นว่าชุมชน AI มักจะหาวิธีสร้างสรรค์ในการแก้ไขปัญหาโดยใช้เครื่องมือในทางที่ไม่คาดคิด
โมเดลที่กล่าวถึงในการอภิปราย:
- FLUX.1-Krea: โมเดลที่ผ่านการฝึกเพิ่มเติมของ Krea ที่เน้นการลด "รูปลักษณ์ AI"
- Wan 2.2: โมเดลวิดีโอที่ถูกนำมาใช้สำหรับการสร้างภาพจากข้อความ
- GPT-4.1: โมเดลสร้างภาพของ OpenAI ที่ใช้เพื่อการเปรียบเทียบ
- Stable Diffusion 1.5/SDXL: โมเดลรุ่นก่อนหน้าที่มีชุมชนปรับแต่งอย่างกว้างขวาง
- Stable Diffusion 3.0/3.5: โมเดลล่าสุดที่มีรายงานปัญหาด้านคุณภาพ
ข้อจำกัดทางเทคนิคยังคงอยู่แม้จะมีการปรับปรุงด้านความสวยงาม
แม้ว่า Krea จะเน้นที่ความสวยงาม การทดสอบของชุมชนเผยให้เห็นว่าปัญหาพื้นฐานยังคงอยู่ ผู้ใช้รายงานว่าแม้โมเดลจะลดลักษณะ AI ที่เห็นได้ชัด แต่ก็ยังคงสร้างภาพที่ดูสะอาดและเทียมเกินไปเมื่อมองใกล้ๆ โมเดลดูเหมือนจะหลีกเลี่ยงองค์ประกอบที่มีปัญหาบางอย่างแทนที่จะแก้ไขจริงๆ - คล้ายกับที่โมเดลยุคแรกหลีกเลี่ยงการสร้างมือเพื่อป้องกันข้อผิดพลาดในการนับนิ้ว
ฉันไม่รู้ พวกนั้นยังคงดูเหมือน AI อยู่ ในแง่ที่ว่าสะอาดเกินไป
การถกเถียงยังเผยให้เห็นความท้าทายที่ยังคงอยู่เกี่ยวกับการปฏิบัติตาม prompt ซึ่งโมเดลล้มเหลวในการปฏิบัติตามคำสั่งเฉพาะอย่างแม่นยำในขณะที่เน้นหนักไปที่การปรับปรุงด้านความสวยงาม การแลกเปลี่ยนระหว่างความถูกต้องและความน่าดูนี้ยังคงเป็นความท้าทายต่อนักพัฒนาทั่วทั้งอุตสาหกรรม
แพลตฟอร์มชุมชน:
- Civitai: ที่เก็บข้อมูลสำหรับโมเดลที่กำหนดเองและ LoRAs
- ComfyUI: อินเทอร์เฟซยอดนิยมสำหรับเวิร์กโฟลว์การสร้างภาพ AI
- Krea Platform: โฮสต์ LoRAs และโมเดลที่กำหนดเองหลายพันรายการ
![]() |
---|
ภาพบุคคลกลางแจ้งที่เป็นธรรมชาติจับภาพความละเอียดอ่อนของการแสดงออกของมนุษย์ ตัดกับความสวยงามที่ขัดเกลาเกินไปซึ่งเป็นลักษณะเฉพาะของผลงาน AI บางส่วน |
อนาคตชี้ไปที่โมเดลเฉพาะทางที่มีความคิดเห็น
ฉันทามติของชุมชนชี้ให้เห็นว่าอนาคตของการสร้างภาพ AI ไม่ได้อยู่ที่โซลูชันแบบเหมาะกับทุกคน แต่อยู่ที่โมเดลเฉพาะทางที่ฝึกสำหรับความชอบด้านความสวยงามหรือกรณีการใช้งานเฉพาะ เมื่อต้นทุนการฝึกลดลง สตูดิโอและบ้านผลิตมีแนวโน้มที่จะพัฒนาโมเดลที่กำหนดเองของตนเองที่ปรับให้เหมาะกับสไตล์ภาพและความต้องการเฉพาะของพวกเขา
แนวโน้มไปสู่การเชี่ยวชาญนี้สะท้อนการเปลี่ยนแปลงที่กว้างขึ้นในการพัฒนา AI ซึ่งโมเดลอเนกประสงค์ให้ทางแก่เครื่องมือที่มุ่งเน้นซึ่งออกแบบมาสำหรับงานหรือความชอบด้านความสวยงามเฉพาะ การถกเถียงเกี่ยวกับ FLUX.1-Krea ทำหน้าที่เป็นกรณีศึกษาว่าอุตสาหกรรมอาจพัฒนาไปเกินยุคปัจจุบันของผลลัพธ์ AI ทั่วไปที่ออกแบบโดยคณะกรรมการได้อย่างไร