Krea เปิดตัวโมเดล FLUX แบบ Open-Weight เพื่อต่อสู้กับ "รูปลักษณ์ AI" ในภาพที่สร้างขึ้น

ทีมชุมชน BigGo
Krea เปิดตัวโมเดล FLUX แบบ Open-Weight เพื่อต่อสู้กับ "รูปลักษณ์ AI" ในภาพที่สร้างขึ้น

Krea ได้เปิดตัว open weights สำหรับ FLUX | Krea ซึ่งเป็นโมเดลสร้างภาพขนาด 12 พันล้านพารามิเตอร์ที่ออกแบบมาเพื่อแก้ไขหนึ่งในปัญหาที่ยืนยงที่สุดในภาพที่สร้างโดย AI คือรูปลักษณ์ AI ที่โดดเด่นซึ่งทำให้ภาพสังเคราะห์สามารถระบุได้ง่าย โมเดลนี้พัฒนาร่วมกับ Black Forest Labs แสดงถึงความพยายามที่มุ่งเน้นในการสร้างภาพที่ดูเป็นธรรมชาติมากขึ้นผ่านการคัดสรรข้อมูลอย่างระมัดระวังและการเลือกสุนทรียศาสตร์แบบมีความเห็น

ข้อมูลจำเพาะของโมเดล:

  • พารามิเตอร์: 12 พันล้าน (12B)
  • ขนาดไฟล์: 23.8 GB
  • ความแม่นยำ: bfloat16 (16 บิตต่อพารามิเตอร์)
  • ความต้องการ VRAM: ~24 GB
  • สถาปัตยกรรม: โมเดล Rectified flow ที่เข้ากันได้กับ FLUX
  • ข้อมูลการฝึก: น้อยกว่า 1 ล้านตัวอย่างสำหรับการฝึกหลังการฝึกหลัก

| ภาพรวมของการเปิดตัวโมเดล FLUX | Krea ของ Krea ที่เน้นความมุ่งมั่นในการสร้างภาพที่สมจริงและสวยงาม | |:--:| | ภาพรวมของการเปิดตัวโมเดล FLUX | Krea ของ Krea ที่เน้นความมุ่งมั่นในการสร้างภาพที่สมจริงและสวยงาม |

หลุดพ้นจากรูปลักษณ์ AI

บริษัทระบุสัญญาณเด่นหลายประการที่รบกวนเครื่องมือสร้างภาพ AI ในปัจจุบัน ได้แก่ พื้นหลังที่เบลอมากเกินไป เนื้อผิวผิวหนังที่เหมือนขี้ผึ้ง และองค์ประกอบที่น่าเบื่อ ปัญหาเหล่านี้แพร่หลายมากจนรวมกันเป็นสิ่งที่อุตสาหกรรมเรียกว่ารูปลักษณ์ AI แนวทางของ Krea ท้าทายการมุ่งเน้นทั่วไปในเกณฑ์มาตรฐานทางเทคนิคและการปฏิบัติตามคำสั่ง โดยโต้แย้งว่าวิธีการประเมินที่มีอยู่ไม่สอดคล้องกับสิ่งที่ผู้ใช้ต้องการจริงๆ จากเครื่องมือสร้างภาพ

ทีมค้นพบว่าโมเดลให้คะแนนสุนทรียศาสตร์ยอดนิยมอย่าง LAION Aesthetics ที่ใช้กันทั่วไปในการกรองข้อมูลการฝึก จริงๆ แล้วนำอคติที่เป็นอันตรายเข้ามา โมเดลเหล่านี้ชื่นชอบภาพที่แสดงผู้หญิง พื้นหลังเบลอ และเนื้อผิวที่นุ่มเกินไป ซึ่งเป็นลักษณะเฉพาะที่ก่อให้เกิดลักษณะประดิษฐ์ที่ผู้ใช้ต้องการหลีกเลี่ยง

ภาพระยะใกล้ของนกที่มีลักษณะโดดเด่นเป็นเอกลักษณ์ เป็นสัญลักษณ์ของเป้าหมายของ Krea ในการสร้างภาพจาก AI ที่ดูธรรมชาติและสวยงามยิ่งขึ้น
ภาพระยะใกล้ของนกที่มีลักษณะโดดเด่นเป็นเอกลักษณ์ เป็นสัญลักษณ์ของเป้าหมายของ Krea ในการสร้างภาพจาก AI ที่ดูธรรมชาติและสวยงามยิ่งขึ้น

สถาปัตยกรรมทางเทคนิคและความเข้ากันได้

FLUX | Krea สร้างขึ้นเป็นโมเดล guidance-distilled ที่เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศ FLUX ที่มีอยู่ ความเข้ากันได้นี้หมายความว่านักพัฒนาสามารถรวมเข้ากับเวิร์กโฟลว์ที่มีอยู่ โค้ดปรับแต่ง และเครื่องมือที่ออกแบบมาสำหรับ FLUX.1 dev ได้อย่างราบรื่น ไฟล์โมเดลมีขนาด 23.8 GB โดยใช้ความแม่นยำแบบ floating point 16 บิต ซึ่งแปลเป็นประมาณ 2 GB ต่อพันล้านพารามิเตอร์

ทีมพัฒนาเน้นย้ำว่าพวกเขาเริ่มต้นด้วยโมเดลฐานดิบจาก Black Forest Labs ที่เรียกว่า flax-deit-v3-large โมเดลที่ผ่านการฝึกล่วงหน้านี้ให้ความรู้เกี่ยวกับโลกที่จำเป็นในขณะที่ยังคงไม่ถูกอบ ปราศจากอคติทางสุนทรียศาสตร์ที่รบกวนโมเดล open-weight หลายตัวที่มีอยู่ซึ่งผ่านการฝึกหลังการฝึกอย่างกว้างขวาง

แนวทางคุณภาพข้อมูลมากกว่าปริมาณ

หนึ่งในการค้นพบที่สำคัญที่สุดจากกระบวนการพัฒนาของ Krea คือผลลัพธ์คุณภาพสูงสามารถบรรลุได้ด้วยชุดข้อมูลที่เล็กอย่างน่าประหลาด ทีมใช้ตัวอย่างน้อยกว่าหนึ่งล้านตัวอย่างสำหรับการฝึกหลังการฝึก โดยเน้นอย่างเข้มข้นในคุณภาพข้อมูลมากกว่าขนาด แนวทางสองขั้นตอนของพวกเขาเกี่ยวข้องกับการปรับแต่งแบบมีผู้สอนตามด้วยการเรียนรู้เสริมแรงจากข้อเสนอแนะของมนุษย์โดยใช้เทคนิคที่พวกเขาเรียกว่า TPO (รูปแบบของพวกเขาในการปรับปรุงความชอบ)

คุณสามารถใช้ตัวอย่างน้อยกว่า 1 ล้านตัวอย่างเพื่อเพิ่มสุนทรียศาสตร์อย่างมีนัยสำคัญ คุณภาพมีความสำคัญมาก

บริษัทใช้แนวทางที่มีความเห็นโดยเจตนาต่อความชอบทางสุนทรียศาสตร์ โดยโต้แย้งการปฏิบัติทั่วไปของการฝึกตามความชอบของผู้ใช้ทั่วโลก พวกเขาพบว่าการพยายามตอบสนองรสนิยมทางสุนทรียศาสตร์ที่หลากหลายพร้อมกันส่งผลให้เกิดโมเดลที่จืดชืดซึ่งไม่สามารถทำให้ใครพอใจได้อย่างเต็มที่

วิธีการฝึกอบรม:

  • จุดเน้นของการฝึกอบรมเบื้องต้น: การครอบคลุมโหมดและความเข้าใจโลก
  • จุดเน้นของการฝึกอบรมหลังการประมวลผล: การยุบโหมดไปสู่สุนทรียศาสตร์ที่ต้องการ
  • ขั้นตอนที่ 1: การปรับแต่งแบบมีผู้สอน (SFT) ด้วยภาพคุณภาพสูงที่คัดสรรมาแล้ว
  • ขั้นตอนที่ 2: การเรียนรู้เสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) โดยใช้เทคนิค TPO
  • โมเดลฐาน: flax-deit-v3-large จาก Black Forest Labs

การตอบรับจากชุมชนและการประยุกต์ใช้ทางธุรกิจ

ข้อเสนอแนะจากชุมชนในช่วงแรกมีความหลากหลายแต่มีส่วนร่วม ผู้ใช้สังเกตเห็นความแปลกประหลาดบางอย่าง เช่น แนวโน้มของโมเดลในการสร้างมือที่เหมือนมนุษย์ในบริบทที่ไม่คาดคิด ซึ่งสะท้อนถึงลักษณะที่มีความเห็นที่ทีมอธิบาย โมเดลต้องการทรัพยากรการคำนวณจำนวนมาก โดยจำนวนพารามิเตอร์ 12 พันล้านต้องการ VRAM ประมาณ 24 GB สำหรับการทำงาน

การประยุกต์ใช้ทางธุรกิจครอบคลุมหลายอุตสาหกรรม ตั้งแต่อีคอมเมิร์ซและแฟชั่นสำหรับภาพผลิตภัณฑ์ที่สม่ำเสมอไปจนถึงการออกแบบ UI/UX สำหรับการสร้างไอคอนและเลย์เอาต์ บริษัทเห็นการนำไปใช้ในทีมการตลาดและเอเจนซี่ พร้อมการประยุกต์ใช้ในอนาคตที่อาจเกิดขึ้นในการถ่ายภาพเมนูร้านอาหารและภาคส่วนอื่นๆ ที่ต้องการภาพคุณภาพระดับมืออาชีพโดยไม่มีต้นทุนการถ่ายภาพแบบดั้งเดิม

การเปิดตัวนี้แสดงถึงการเปลี่ยนแปลงที่กว้างขึ้นในการสร้างภาพ AI สู่การพัฒนาที่เน้นสุนทรียศาสตร์มากกว่าความก้าวหน้าของความสามารถทางเทคนิคล้วนๆ ด้วยการทำให้ weights เข้าถึงได้ฟรีภายใต้ใบอนุญาตเดียวกันกับ FLUX.1-dev, Krea ทำให้ชุมชนโอเพ่นซอร์สสามารถสร้างต่อจากแนวทางที่เน้นสุนทรียศาสตร์ของพวกเขาในขณะที่อาจเป็นแรงบันดาลใจให้เกิดความพยายามที่คล้ายกันทั่วทั้งอุตสาหกรรม

อ้างอิง: Releasing Open Weights for FLUX | Krea

ช่วงเวลาอันเงียบสงบระหว่างพ่อและลูกชาย แสดงถึงศักยภาพการเล่าเรื่องเชิงอารมณ์ของการประยุกต์ใช้การสร้างภาพ AI ของ Krea ในอุตสาหกรรมต่างๆ
ช่วงเวลาอันเงียบสงบระหว่างพ่อและลูกชาย แสดงถึงศักยภาพการเล่าเรื่องเชิงอารมณ์ของการประยุกต์ใช้การสร้างภาพ AI ของ Krea ในอุตสาหกรรมต่างๆ