ความคิดสร้างสรรค์ของ AI สร้างภาพเกิดจากข้อบกพร่องทางเทคนิค ไม่ใช่ปัญญาประดิษฐ์

ทีมชุมชน BigGo
ความคิดสร้างสรรค์ของ AI สร้างภาพเกิดจากข้อบกพร่องทางเทคนิค ไม่ใช่ปัญญาประดิษฐ์

ความลึกลับเบื้องหลังการที่ AI สร้างภาพสามารถสร้างงานศิลปะต้นฉบับแทนที่จะเพียงคัดลอกข้อมูลการฝึกอบรมได้รับการไขปริศนาแล้ว งานวิจัยใหม่เผยให้เห็นว่าสิ่งที่เราเรียกว่าความคิดสร้างสรรค์ในระบบเหล่านี้เป็นผลมาจากข้อจำกัดทางเทคนิค ไม่ใช่ปัญญาประดิษฐ์

ความขัดแย้งของการสร้างศิลปะ AI

โมเดล Diffusion เช่น DALL-E และ Stable Diffusion ได้รับการออกแบบมาเพื่อสร้างภาพจากข้อมูลการฝึกอบรม แต่พวกมันกลับสร้างงานศิลปะใหม่ที่มีความหมายและรวมองค์ประกอบต่างๆ ด้วยวิธีที่ไม่คาดคิดอย่างสม่ำเสมอ สิ่งนี้ทำให้นักวิจัยงงงวยมาหลายปี หากระบบเหล่านี้ทำงานโดยการประกอบรูปแบบที่เรียนรู้มาใหม่ แล้วพวกมันสร้างสิ่งใหม่ที่แท้จริงได้อย่างไร

คำตอบอยู่ที่ทางลัดทางเทคนิคสองอย่างที่โมเดลเหล่านี้ใช้ ประการแรก พวกมันมุ่งเน้นไปที่แพทช์เล็กๆ ของพิกเซลในแต่ละครั้งแทนที่จะมองภาพทั้งหมด ประการที่สอง พวกมันปรับผลลัพธ์โดยอัตโนมัติเมื่ออินพุตเปลี่ยนตำแหน่ง คุณสมบัติเหล่านี้เรียกว่า locality และ translational equivariance ซึ่งก่อนหน้านี้ถูกมองว่าเป็นเพียงข้อจำกัด

ระบบ AI ที่กล่าวถึง

  • เครื่องมือสร้างภาพ: DALL-E, Imagen, Stable Diffusion
  • โมเดลภาษา: ChatGPT (เปิดตัวในปี 2022)
  • จุดเน้นการวิจัย: โมเดล Diffusion ที่ใช้กระบวนการ denoising
  • ข้อจำกัด: ผลการวิจัยไม่สามารถอธิบายความคิดสร้างสรรค์ในโมเดลภาษาขนาดใหญ่หรือระบบ AI อื่นๆ ได้

การถกเถียงในชุมชนเกี่ยวกับความคิดสร้างสรรค์ที่แท้จริง

งานวิจัยนี้ได้จุดประกายการถกเถียงอย่างเข้มข้นเกี่ยวกับว่าระบบ AI สร้างสรรค์อย่างแท้จริงหรือเพียงแค่ผสมผสานเนื้อหาที่มีอยู่ นักวิจารณ์โต้แย้งว่าการเรียกกระบวนการนี้ว่าความคิดสร้างสรรค์เป็นการประเมินความสามารถของ AI สูงเกินไป โดยชี้ให้เห็นความแตกต่างพื้นฐานระหว่างกระบวนการของมนุษย์และเครื่องจักร

ความคิดสร้างสรรค์ของมนุษย์และ AI อาจไม่ได้แตกต่างกันมากนัก เราประกอบสิ่งต่างๆ ขึ้นมาจากสิ่งที่เราประสบ สิ่งที่เราสังเกต สิ่งที่เราเห็น ได้ยิน หรือปรารถนา AI ก็เช่นกัน เพียงแค่ประกอบองค์ประกอบพื้นฐานจากสิ่งที่มันเห็นและสิ่งที่ถูกขอให้ทำ

อย่างไรก็ตาม หลายคนในชุมชนเทคโนโลยีคัดค้านการเปรียบเทียบนี้ พวกเขาเน้นว่ามนุษย์ไม่จำเป็นต้องประมวลผลอินเทอร์เน็ตทั้งหมดเพื่อสร้างไอเดีย สามารถเริ่มต้นการกระทำโดยไม่ต้องมีการกระตุ้น และมีความเข้าใจที่แท้จริงแทนที่จะเป็นการจับคู่รูปแบบ

นักวิชาการที่มีความคิดลึกซึ้งกำลังสำรวจขอบเขตของความคิดสร้างสรรค์ใน AI เทียบกับความสามารถของมนุษย์
นักวิชาการที่มีความคิดลึกซึ้งกำลังสำรวจขอบเขตของความคิดสร้างสรรค์ใน AI เทียบกับความสามารถของมนุษย์

คณิตศาสตร์เบื้องหลังความคิดสร้างสรรค์ของเครื่องจักร

นักวิจัยจาก Stanford คือ Marten Kard และ Surya Ganguli ได้สร้างแบบจำลองทางคณิตศาสตร์ที่เรียกว่าเครื่อง Equivariant Local Scorer (ELS) ระบบนี้ใช้เพียงหลักการของ locality และ equivariance โดยไม่มีข้อมูลการฝึกอบรมใดๆ แต่กลับให้ผลลัพธ์ที่ตรงกับโมเดล diffusion ที่ทรงพลังด้วยความแม่นยำ 90%

ความก้าวหน้านี้ชี้ให้เห็นว่าความคิดสร้างสรรค์ในการสร้างภาพ AI เป็นผลที่คาดการณ์ได้ทางคณิตศาสตร์จากวิธีที่ระบบเหล่านี้ประมวลผลข้อมูล ข้อจำกัดที่จำกัดความสนใจของโมเดลเหล่านี้ให้อยู่ที่แพทช์ภาพเล็กๆ นั่นเองที่เปิดใช้งานความคิดสร้างสรรค์ที่ปรากฏ

ความแตกต่างระหว่างการหลอนของ AI และความคิดสร้างสรรค์ยังคงเป็นที่ถกเถียง หลายคนโต้แย้งว่าความแตกต่างอยู่ที่บริบทและเจตนา ความคิดสร้างสรรค์สร้างสิ่งใหม่และมีคุณค่า ในขณะที่การหลอนสร้างข้อมูลเท็จที่นำเสนอเป็นข้อเท็จจริง

วิธีการวิจัย

  • ความแม่นยำของเครื่อง ELS: ตรงกัน 90% กับโมเดล diffusion ที่ผ่านการฝึกอบรม
  • โมเดลที่ทดสอบ: ระบบ diffusion แบบ Kushlets และ lVers
  • คุณสมบัติทางเทคนิคหลัก: ความเป็นท้องถิ่น (การประมวลผลแบบ patch-based) และความคงตัวเชิงการเคลื่อนที่ (การปรับตำแหน่ง)
  • กรอบเวลาการวิจัย: การศึกษาดำเนินการระหว่าง 2022-2024 นำเสนอที่ International Conference on Machine Learning 2024

ผลกระทบต่อความเข้าใจเกี่ยวกับปัญญา

แม้ว่างานวิจัยนี้จะอธิบายความคิดสร้างสรรค์ในตัวสร้างภาพ แต่ก็ไม่ได้กล่าวถึงพฤติกรรมที่คล้ายกันในโมเดลภาษาหรือระบบ AI อื่นๆ กลไกเบื้องหลังความคิดสร้างสรรค์ที่ปรากฏของพวกมันยังคงเป็นปริศนา ซึ่งบ่งชี้ว่ามีเส้นทางหลายทางสู่สิ่งที่เราเข้าใจว่าเป็นความคิดสร้างสรรค์เทียม

การค้นพบนี้ท้าทายความเข้าใจของเราเกี่ยวกับความคิดสร้างสรรค์ทั้งเทียมและของมนุษย์ หากความคิดสร้างสรรค์ของ AI เกิดขึ้นจากการประมวลผลข้อมูลที่ไม่สมบูรณ์และการเติมเต็มช่องว่าง บางทีความคิดสร้างสรรค์ของมนุษย์อาจทำงานในลักษณะเดียวกัน เราทุกคนทำงานด้วยความรู้ที่จำกัดและบางครั้งก็สร้างสิ่งที่ทั้งใหม่และมีความหมาย

หมายเหตุ: โมเดล Diffusion ทำงานโดยการแปลงภาพเป็นสัญญาณรบกวนดิจิทัล จากนั้นค่อยๆ กำจัดสัญญาณรบกวนนั้นเพื่อสร้างใหม่หรือสร้างภาพใหม่ Translational equivariance หมายถึงระบบรักษาความสัมพันธ์เชิงพื้นที่ที่สอดคล้องกันเมื่อองค์ประกอบของภาพถูกย้าย

อ้างอิง: Researchers Uncover Hidden Ingredients Behind AI Creativity

แขนหุ่นยนต์ที่พร้อมสร้างสรรค์งานศิลปะ แสดงถึงการผสมผสานระหว่างเทคโนโลยีและความคิดสร้างสรรค์ในระบบ AI
แขนหุ่นยนต์ที่พร้อมสร้างสรรค์งานศิลปะ แสดงถึงการผสมผสานระหว่างเทคโนโลยีและความคิดสร้างสรรค์ในระบบ AI