TarFlow สร้างความก้าวหน้าใหม่: Normalizing Flows เทียบเท่าคุณภาพ Diffusion Models ในการสร้างภาพด้วย AI

ทีมชุมชน BigGo
TarFlow สร้างความก้าวหน้าใหม่: Normalizing Flows เทียบเท่าคุณภาพ Diffusion Models ในการสร้างภาพด้วย AI

Normalizing Flows ซึ่งเคยถูกมองว่าเป็นแนวทางที่มีแววแต่ถูกมองข้าม ในการสร้างภาพด้วย AI กำลังกลับมาอย่างน่าทึ่ง โมเดล TarFlow ใหม่ของ Apple ได้บรรลุสิ่งที่หลายคนคิดว่าเป็นไปไม่ได้: เทียบเท่าคุณภาพของ diffusion models ยอดนิยม พร้อมทั้งสร้างสถิติใหม่สำหรับการประมาณความน่าจะเป็นของภาพ

ความก้าวหน้านี้แสดงถึงการเปลี่ยนแปลงที่สำคัญในวิธีคิดเกี่ยวกับการสร้างภาพด้วย AI ในขณะที่ความก้าวหน้าล่าสุดส่วนใหญ่มุ่งเน้นไปที่ diffusion models แต่ TarFlow แสดงให้เห็นว่า normalizing flows สามารถแข่งขันในระดับสูงสุดได้เมื่อได้รับขนาดที่เหมาะสมและเทคนิคสมัยใหม่

การเปรียบเทียบประสิทธิภาพ:

  • TarFlow: normalizing flow แรกที่บรรลุผลได้ต่ำกว่า 3.2 bits ต่อมิติใน ImageNet 64×64
  • ผลลัพธ์ที่ดีที่สุดก่อนหน้า: 2.99 bits ต่อมิติ (hybrid diffusion model)
  • คุณภาพของตัวอย่างเทียบเคียงได้กับ diffusion models เป็นครั้งแรกด้วย standalone normalizing flow
ภาพหน้าจอของงานวิจัยที่มีชื่อเรื่อง " Normalizing Flows are Capable Generative Models " ซึ่งเน้นไปที่วิธีการสร้างภาพด้วย AI
ภาพหน้าจอของงานวิจัยที่มีชื่อเรื่อง " Normalizing Flows are Capable Generative Models " ซึ่งเน้นไปที่วิธีการสร้างภาพด้วย AI

ขนาดสร้างความแตกต่าง

ข้อมูลเชิงลึกสำคัญที่ขับเคลื่อนความสำเร็จของ TarFlow คือขนาด โมเดล normalizing flow ก่อนหน้านี้มีขนาดเล็กอย่างน่าแปลกใจเมื่อเปรียบเทียบกับ diffusion models โมเดลก่อนหน้าอย่าง DenseFlow และ MaCow ใช้พารามิเตอร์น้อยกว่า 200 ล้านตัว ในขณะที่ diffusion models สมัยใหม่ใช้พารามิเตอร์หลายพันล้านตัวเป็นประจำ TarFlow เชื่อมช่องว่างนี้ด้วยโมเดลที่มีพารามิเตอร์ตั้งแต่ 472 ล้านถึง 820 ล้านตัว โดยงานวิจัยติดตามผลผลักดันไปถึง 3.8 พันล้านพารามิเตอร์

การเปิดเผยเรื่องการขยายขนาดนี้ชี้ให้เห็นว่า normalizing flows ไม่ได้มีข้อจำกัดโดยธรรมชาติ แต่เพียงแค่ได้รับการฝึกฝนและทรัพยากรไม่เพียงพอเมื่อเปรียบเทียบกับแนวทางอื่น

ขนาดของโมเดล TarFlow :

  • โมเดล AFHQ-256 : ~472M พารามิเตอร์
  • โมเดล ImageNet : ~820M พารามิเตอร์
  • StarFlow รุ่นต่อไป: 3.8B พารามิเตอร์
  • normalizing flows รุ่นก่อนหน้า ( DenseFlow , MaCow ): <200M พารามิเตอร์

ข้อได้เปรียบทางเทคนิคและการแลกเปลี่ยน

TarFlow รวม transformer architecture เข้ากับ autoregressive generation โดยประมวลผล image patches ตามลำดับพร้อมสลับทิศทางระหว่างเลเยอร์ แนวทางนี้ให้ประโยชน์เฉพาะเมื่อเปรียบเทียบกับ diffusion models โดยเฉพาะในการสร้างแบบกำหนดได้และการคำนวณความน่าจะเป็นที่แม่นยำ

อย่างไรก็ตาม ลักษณะการทำงานตามลำดับสร้างความท้าทายด้านประสิทธิภาพ โมเดลต้องการขนาด batch ที่ใหญ่เพื่อใช้ประโยชน์จากการประมวลผลแบบขนานของ GPU อย่างมีประสิทธิภาพ ทำให้มีประสิทธิภาพน้อยกว่าสำหรับการสร้างภาพเดียวเมื่อเปรียบเทียบกับ diffusion models ที่สามารถประมวลผลทั้งภาพพร้อมกันได้

ศักยภาพการใช้งาน AI ในเครื่อง

การอภิปรายเกี่ยวกับ TarFlow ได้จุดประกายการสนทนาที่กว้างขึ้นเกี่ยวกับการรันโมเดล AI ในเครื่องบนอุปกรณ์ ในขณะที่ฮาร์ดแวร์มือถือปัจจุบันยังดิ้นรนกับโมเดลที่ต้องการการ์ดกราฟิกมูลค่าเทียบเท่า 400 ดอลลาร์สหรัฐ สำหรับประสิทธิภาพที่สะดวกสบาย ลักษณะการทำงานแบบกำหนดได้ของ normalizing flows อาจให้ข้อได้เปรียบสำหรับการติดตั้งบนอุปกรณ์

การประมวลผลในเครื่องไม่มีค่าใช้จ่ายสำหรับบริษัท และเพิ่มฮาร์ดแวร์ขั้นต่ำที่ลูกค้าต้องซื้อ

ประโยชน์ด้านความเป็นส่วนตัวของการประมวลผลในเครื่องยังคงน่าสนใจ แม้ว่าข้อกำหนดด้านฮาร์ดแวร์จะสร้างความท้าทายสำหรับการนำไปใช้อย่างแพร่หลายในระยะใกล้

ข้อกำหนดฮาร์ดแวร์สำหรับ AI ในเครื่อง:

  • การประมวลผลในเครื่องที่สะดวกสบาย: การ์ดจอเทียบเท่าราคาประมาณ $400 USD
  • ความสามารถของมือถือปัจจุบัน: โมเดลขนาด 3B-5B พารามิเตอร์
  • ตัวอย่างประสิทธิภาพ: การประมวลผล prompt 35 โทเค็นต่อวินาที, การ decode 7-8 โทเค็นต่อวินาทีบน Android รุ่นเรือธง
การอภิปรายร่วมกันเกี่ยวกับการนำ AI มาใช้งาน เน้นย้ำถึงศักยภาพของโซลูชันการประมวลผล AI ในท้องถิ่น
การอภิปรายร่วมกันเกี่ยวกับการนำ AI มาใช้งาน เน้นย้ำถึงศักยภาพของโซลูชันการประมวลผล AI ในท้องถิ่น

การตอบสนองของชุมชนวิจัย

ชุมชนแมชชีนเลิร์นนิงได้ตอบสนองในเชิงบวกต่อการแสดงให้เห็นของ TarFlow ว่า alternative architectures สมควรได้รับความสนใจใหม่ นักวิจัยกำลังนำแนวทางนี้ไปใช้ใน framework ต่างๆ และสำรวจการขยายไปยังอัลกอริทึมอื่นๆ เช่น GLOW

งานนี้เป็นเครื่องเตือนใจว่าการมุ่งเน้นของสาขาไปที่ diffusion models อาจทำให้แนวทางที่มีแววอื่นๆ ถูกละทิ้งก่อนเวลาอันควร ความสำเร็จของ TarFlow ชี้ให้เห็นว่าด้วยทรัพยากรที่เหมาะสมและเทคนิคสมัยใหม่ วิธีการที่ล้าสมัยหลายอย่างอาจพิสูจน์ได้ว่ามีความสามารถในการแข่งขันอย่างน่าแปลกใจ

หมายเหตุ: Normalizing flows เป็นโมเดลแมชชีนเลิร์นนิงที่แปลงการกระจายความน่าจะเป็นแบบง่ายให้เป็นแบบซับซ้อนผ่านการแปลงที่ย้อนกลับได้ Autoregressive generation หมายถึงโมเดลสร้างผลลัพธ์ทีละขั้นตอน โดยแต่ละขั้นตอนขึ้นอยู่กับขั้นตอนก่อนหน้า

อ้างอิง: Normalizing Flows are Capable Generative Models