นักพัฒนาทดสอบทักษะการตลกของโมเดล AI ล่าสุดได้ผลลัพธ์ที่หลากหลาย

ทีมชุมชน BigGo

นักพัฒนาทดสอบทักษะการตลกของโมเดล AI ล่าสุดได้ผลลัพธ์ที่หลากหลาย

ชุมชนเทคโนโลยีได้ทดสอบอย่างแข็งขันว่าโมเดลภาษา AI ล่าสุดสามารถเล่าเรื่องตลกที่ตลกจริงๆ ได้หรือไม่ ซึ่งกระตุ้นให้เกิดการอภิปรายที่กว้างขึ้นเกี่ยวกับข้อจำกัดพื้นฐานของระบบ AI ปัจจุบัน แม้ว่าผู้ใช้บางคนจะรายงานการปรับปรุงเล็กน้อยในโมเดลใหม่ๆ เช่น GPT-5 และ Gemini 2.5 แต่ผลลัพธ์ยังคงน่าผิดหวังเป็นส่วนใหญ่สำหรับผู้ที่แสวงหาอารมณ์ขันในระดับมนุษย์

การทดสอบในโลกแห่งความเป็นจริงแสดงให้เห็นความก้าวหน้าอย่างค่อยเป็นค่อยไป

สมาชิกชุมชนได้ทำการทดลองด้วยตนเองกับโมเดล AI ต่างๆ ผู้ใช้คนหนึ่งได้ทดสอบ ChatGPT-5 กับเรื่องตลกล่าสุดจากเทศกาลตลก Edinburgh Fringe โดยให้คะแนนเพียง 2 จาก 10 สำหรับการตอบสนองที่ตลกจริงๆ อย่างไรก็ตาม คนอื่นๆ สังเกตว่าโมเดลใหม่ๆ เช่น Gemini 2.5 บางครั้งสร้างเนื้อหาที่สนุกสนานจริงๆ และสามารถเล่นตามสถานการณ์ที่มีอารมณ์ขันได้อย่างเป็นธรรมชาติมากกว่าเวอร์ชันเก่าๆ

การทดสอบเผยให้เห็นรูปแบบที่น่าสนใจ เมื่อผู้ใช้ให้คำสั่งที่มีรายละเอียดมากขึ้นโดยอธิบายทฤษฎีเบื้องหลังเรื่องตลกที่ดี ซึ่งควรจะน่าแปลกใจแต่รู้สึกเป็นไปได้ย้อนหลัง โมเดลบางตัวสร้างผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด คำสั่งง่ายๆ เช่น เล่าเรื่องตลกให้ฟัง ให้ผลลัพธ์ที่แย่อย่างสม่ำเสมอในทุกโมเดลที่ทดสอบ

ผลการทดสอบการแสดงตลกของโมเดล AI:

ChatGPT-5 กับเรื่องตลก Edinburgh Fringe: อัตราความสำเร็จ 2/10
GPT-4.5: สังเกตเห็นการปรับปรุงในความสามารถด้านอารมณ์ขัน
Gemini 2.5: เกิดเสียงหัวเราะแท้จริงเป็นครั้งคราว มีการมีส่วนร่วมในสถานการณ์ที่ดีขึ้น
การปรับ Temperature: การปรับปรุงคุณภาพเรื่องตลกไม่สม่ำเสมอ

ความท้าทายด้านสถาปัตยกรรมเบื้องหลังอารมณ์ขันของ AI

ปัญหาหลักดูเหมือนจะเกิดจากวิธีการฝึกระบบ AI เหล่านี้ โมเดลภาษาเรียนรู้โดยการทำนายคำถัดไปที่มีความเป็นไปได้มากที่สุดในลำดับ ซึ่งเป็นการฝึกให้พวกมันลดความแปลกใจให้น้อยที่สุด สิ่งนี้สร้างความตึงเครียดพื้นฐานกับอารมณ์ขัน ซึ่งพึ่งพาการพลิกผันที่ไม่คาดคิดที่รู้สึกเป็นไปได้อย่างใดเมื่อเปิดเผยแล้ว

อารมณ์ขันระดับมืออาชีพเป็นเหมือนกิจกรรมสร้างสรรค์อื่นๆ มากมาย ซึ่งเป็นการสร้างไอเดียจำนวนมากและกรองเอาสิ่งที่ดีที่สุดมากกว่าการสร้างแต่ไอเดียดีๆ เท่านั้น

วิธีการฝึกนี้หมายความว่าระบบ AI มีแนวโน้มที่จะไปหาการตอบสนองที่พบบ่อยที่สุดและน่าแปลกใจน้อยที่สุดเมื่อถูกขอให้เล่าเรื่องตลก พวกมันมีแนวโน้มที่จะสร้างสิ่งที่คนส่วนใหญ่อาจพบว่าตลกเล็กน้อยมากกว่าการสร้างอารมณ์ขันที่ฉลาดหรือต้นฉบับจริงๆ

ข้อจำกัดทางเทคนิคที่สำคัญที่ระบุได้:

การฝึกอบรมแบบทำนายโทเค็นถัดไปช่วยลดความประหลาดใจ
การปรับแต่งด้านความปลอดภัยจำกัดการเสี่ยงในการสร้างสรรค์
แนวโน้มไปสู่อารมณ์ขันที่อิงจากฉันทามติมากกว่าความคิดต้นฉบับ
ความยากลำบากในการสร้างสมดุลระหว่างความประหลาดใจกับความสอดคล้องทางตรรกะ

คุณสมบัติด้านความปลอดภัยอาจขัดขวางประสิทธิภาพการตลก

ความซับซ้อนเพิ่มเติมมาจากมาตรการความปลอดภัยที่สร้างขึ้นในระบบ AI เชิงพาณิชย์ โมเดลเหล่านี้ได้รับการปรับแต่งให้ให้ความสำคัญกับความถูกต้องตามข้อเท็จจริงและหลีกเลี่ยงเนื้อหาที่อาจไม่เหมาะสม ซึ่งเป็นคุณสมบัติที่อาจทำงานขัดกับการเล่าเรื่องตลกที่มีประสิทธิภาพ เรื่องตลกที่ประสบความสำเร็จหลายเรื่องพึ่งพาการเล่นกับความคาดหวัง การใช้การเล่นคำ หรือการสัมผัสหัวข้อที่ระบบที่มุ่งเน้นความปลอดภัยอาจหลีกเลี่ยง

ผู้ใช้บางคนสังเกตว่าการขอให้โมเดล AI เพิ่ม temperature (อนุญาตให้เลือกคำที่ไม่คาดคิดมากขึ้น) หรือการใช้เทคนิคการให้คำสั่งที่เป็นการทดลองมากขึ้นสามารถให้ผลลัพธ์ตลกที่ดีขึ้น แม้ว่าสิ่งนี้จะยังคงไม่สม่ำเสมอ

มองไปข้างหน้า: วิธีการแบบผสมผสานอาจมีความหวัง

การอภิปรายได้นำไปสู่การคาดเดาเกี่ยวกับสถาปัตยกรรม AI ในอนาคตที่อาจจัดการงานสร้างสรรค์ที่ต้องการความแปลกใจที่ควบคุมได้ดีขึ้น แทนที่จะขยายโมเดลภาษาปัจจุบันเท่านั้น นักวิจัยอาจต้องพัฒนาระบบแบบผสมผสานที่สามารถแสวงหาความแปลกใจประเภทที่เหมาะสมอย่างตั้งใจในขณะที่รักษาความสอดคล้องไว้

ในตอนนี้ ฉันทามติในหมู่ผู้ทดสอบชี้ให้เห็นว่าแม้ความสามารถด้านอารมณ์ขันของ AI จะปรับปรุงขึ้นอย่างช้าๆ ในแต่ละรุ่นของโมเดล แต่ยังคงห่างไกลจากการเทียบเท่านักตลกมนุษย์ โมเดลเหล่านี้แสดงความหวังมากขึ้นในฐานะเครื่องมือระดมความคิดสำหรับนักตลกมนุษย์มากกว่าเป็นแหล่งบันเทิงแบบเดี่ยว

อ้างอิง: LLMs generate slop because they avoid surprises by design

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌