Krea ได้เปิดตัว open weights สำหรับ FLUX | Krea ซึ่งเป็นโมเดลสร้างภาพขนาด 12 พันล้านพารามิเตอร์ที่ออกแบบมาเพื่อแก้ไขหนึ่งในปัญหาที่ยืนยงที่สุดในภาพที่สร้างโดย AI คือรูปลักษณ์ AI ที่โดดเด่นซึ่งทำให้ภาพสังเคราะห์สามารถระบุได้ง่าย โมเดลนี้พัฒนาร่วมกับ Black Forest Labs แสดงถึงความพยายามที่มุ่งเน้นในการสร้างภาพที่ดูเป็นธรรมชาติมากขึ้นผ่านการคัดสรรข้อมูลอย่างระมัดระวังและการเลือกสุนทรียศาสตร์แบบมีความเห็น
ข้อมูลจำเพาะของโมเดล:
- พารามิเตอร์: 12 พันล้าน (12B)
- ขนาดไฟล์: 23.8 GB
- ความแม่นยำ: bfloat16 (16 บิตต่อพารามิเตอร์)
- ความต้องการ VRAM: ~24 GB
- สถาปัตยกรรม: โมเดล Rectified flow ที่เข้ากันได้กับ FLUX
- ข้อมูลการฝึก: น้อยกว่า 1 ล้านตัวอย่างสำหรับการฝึกหลังการฝึกหลัก
| |
|:--:|
| ภาพรวมของการเปิดตัวโมเดล FLUX | Krea ของ Krea ที่เน้นความมุ่งมั่นในการสร้างภาพที่สมจริงและสวยงาม |
หลุดพ้นจากรูปลักษณ์ AI
บริษัทระบุสัญญาณเด่นหลายประการที่รบกวนเครื่องมือสร้างภาพ AI ในปัจจุบัน ได้แก่ พื้นหลังที่เบลอมากเกินไป เนื้อผิวผิวหนังที่เหมือนขี้ผึ้ง และองค์ประกอบที่น่าเบื่อ ปัญหาเหล่านี้แพร่หลายมากจนรวมกันเป็นสิ่งที่อุตสาหกรรมเรียกว่ารูปลักษณ์ AI แนวทางของ Krea ท้าทายการมุ่งเน้นทั่วไปในเกณฑ์มาตรฐานทางเทคนิคและการปฏิบัติตามคำสั่ง โดยโต้แย้งว่าวิธีการประเมินที่มีอยู่ไม่สอดคล้องกับสิ่งที่ผู้ใช้ต้องการจริงๆ จากเครื่องมือสร้างภาพ
ทีมค้นพบว่าโมเดลให้คะแนนสุนทรียศาสตร์ยอดนิยมอย่าง LAION Aesthetics ที่ใช้กันทั่วไปในการกรองข้อมูลการฝึก จริงๆ แล้วนำอคติที่เป็นอันตรายเข้ามา โมเดลเหล่านี้ชื่นชอบภาพที่แสดงผู้หญิง พื้นหลังเบลอ และเนื้อผิวที่นุ่มเกินไป ซึ่งเป็นลักษณะเฉพาะที่ก่อให้เกิดลักษณะประดิษฐ์ที่ผู้ใช้ต้องการหลีกเลี่ยง
![]() |
---|
ภาพระยะใกล้ของนกที่มีลักษณะโดดเด่นเป็นเอกลักษณ์ เป็นสัญลักษณ์ของเป้าหมายของ Krea ในการสร้างภาพจาก AI ที่ดูธรรมชาติและสวยงามยิ่งขึ้น |
สถาปัตยกรรมทางเทคนิคและความเข้ากันได้
FLUX | Krea สร้างขึ้นเป็นโมเดล guidance-distilled ที่เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศ FLUX ที่มีอยู่ ความเข้ากันได้นี้หมายความว่านักพัฒนาสามารถรวมเข้ากับเวิร์กโฟลว์ที่มีอยู่ โค้ดปรับแต่ง และเครื่องมือที่ออกแบบมาสำหรับ FLUX.1 dev ได้อย่างราบรื่น ไฟล์โมเดลมีขนาด 23.8 GB โดยใช้ความแม่นยำแบบ floating point 16 บิต ซึ่งแปลเป็นประมาณ 2 GB ต่อพันล้านพารามิเตอร์
ทีมพัฒนาเน้นย้ำว่าพวกเขาเริ่มต้นด้วยโมเดลฐานดิบจาก Black Forest Labs ที่เรียกว่า flax-deit-v3-large โมเดลที่ผ่านการฝึกล่วงหน้านี้ให้ความรู้เกี่ยวกับโลกที่จำเป็นในขณะที่ยังคงไม่ถูกอบ ปราศจากอคติทางสุนทรียศาสตร์ที่รบกวนโมเดล open-weight หลายตัวที่มีอยู่ซึ่งผ่านการฝึกหลังการฝึกอย่างกว้างขวาง
แนวทางคุณภาพข้อมูลมากกว่าปริมาณ
หนึ่งในการค้นพบที่สำคัญที่สุดจากกระบวนการพัฒนาของ Krea คือผลลัพธ์คุณภาพสูงสามารถบรรลุได้ด้วยชุดข้อมูลที่เล็กอย่างน่าประหลาด ทีมใช้ตัวอย่างน้อยกว่าหนึ่งล้านตัวอย่างสำหรับการฝึกหลังการฝึก โดยเน้นอย่างเข้มข้นในคุณภาพข้อมูลมากกว่าขนาด แนวทางสองขั้นตอนของพวกเขาเกี่ยวข้องกับการปรับแต่งแบบมีผู้สอนตามด้วยการเรียนรู้เสริมแรงจากข้อเสนอแนะของมนุษย์โดยใช้เทคนิคที่พวกเขาเรียกว่า TPO (รูปแบบของพวกเขาในการปรับปรุงความชอบ)
คุณสามารถใช้ตัวอย่างน้อยกว่า 1 ล้านตัวอย่างเพื่อเพิ่มสุนทรียศาสตร์อย่างมีนัยสำคัญ คุณภาพมีความสำคัญมาก
บริษัทใช้แนวทางที่มีความเห็นโดยเจตนาต่อความชอบทางสุนทรียศาสตร์ โดยโต้แย้งการปฏิบัติทั่วไปของการฝึกตามความชอบของผู้ใช้ทั่วโลก พวกเขาพบว่าการพยายามตอบสนองรสนิยมทางสุนทรียศาสตร์ที่หลากหลายพร้อมกันส่งผลให้เกิดโมเดลที่จืดชืดซึ่งไม่สามารถทำให้ใครพอใจได้อย่างเต็มที่
วิธีการฝึกอบรม:
- จุดเน้นของการฝึกอบรมเบื้องต้น: การครอบคลุมโหมดและความเข้าใจโลก
- จุดเน้นของการฝึกอบรมหลังการประมวลผล: การยุบโหมดไปสู่สุนทรียศาสตร์ที่ต้องการ
- ขั้นตอนที่ 1: การปรับแต่งแบบมีผู้สอน (SFT) ด้วยภาพคุณภาพสูงที่คัดสรรมาแล้ว
- ขั้นตอนที่ 2: การเรียนรู้เสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) โดยใช้เทคนิค TPO
- โมเดลฐาน: flax-deit-v3-large จาก Black Forest Labs
การตอบรับจากชุมชนและการประยุกต์ใช้ทางธุรกิจ
ข้อเสนอแนะจากชุมชนในช่วงแรกมีความหลากหลายแต่มีส่วนร่วม ผู้ใช้สังเกตเห็นความแปลกประหลาดบางอย่าง เช่น แนวโน้มของโมเดลในการสร้างมือที่เหมือนมนุษย์ในบริบทที่ไม่คาดคิด ซึ่งสะท้อนถึงลักษณะที่มีความเห็นที่ทีมอธิบาย โมเดลต้องการทรัพยากรการคำนวณจำนวนมาก โดยจำนวนพารามิเตอร์ 12 พันล้านต้องการ VRAM ประมาณ 24 GB สำหรับการทำงาน
การประยุกต์ใช้ทางธุรกิจครอบคลุมหลายอุตสาหกรรม ตั้งแต่อีคอมเมิร์ซและแฟชั่นสำหรับภาพผลิตภัณฑ์ที่สม่ำเสมอไปจนถึงการออกแบบ UI/UX สำหรับการสร้างไอคอนและเลย์เอาต์ บริษัทเห็นการนำไปใช้ในทีมการตลาดและเอเจนซี่ พร้อมการประยุกต์ใช้ในอนาคตที่อาจเกิดขึ้นในการถ่ายภาพเมนูร้านอาหารและภาคส่วนอื่นๆ ที่ต้องการภาพคุณภาพระดับมืออาชีพโดยไม่มีต้นทุนการถ่ายภาพแบบดั้งเดิม
การเปิดตัวนี้แสดงถึงการเปลี่ยนแปลงที่กว้างขึ้นในการสร้างภาพ AI สู่การพัฒนาที่เน้นสุนทรียศาสตร์มากกว่าความก้าวหน้าของความสามารถทางเทคนิคล้วนๆ ด้วยการทำให้ weights เข้าถึงได้ฟรีภายใต้ใบอนุญาตเดียวกันกับ FLUX.1-dev, Krea ทำให้ชุมชนโอเพ่นซอร์สสามารถสร้างต่อจากแนวทางที่เน้นสุนทรียศาสตร์ของพวกเขาในขณะที่อาจเป็นแรงบันดาลใจให้เกิดความพยายามที่คล้ายกันทั่วทั้งอุตสาหกรรม
อ้างอิง: Releasing Open Weights for FLUX | Krea
![]() |
---|
ช่วงเวลาอันเงียบสงบระหว่างพ่อและลูกชาย แสดงถึงศักยภาพการเล่าเรื่องเชิงอารมณ์ของการประยุกต์ใช้การสร้างภาพ AI ของ Krea ในอุตสาหกรรมต่างๆ |