ชุมชนเทคโนโลยีได้ทดสอบอย่างแข็งขันว่าโมเดลภาษา AI ล่าสุดสามารถเล่าเรื่องตลกที่ตลกจริงๆ ได้หรือไม่ ซึ่งกระตุ้นให้เกิดการอภิปรายที่กว้างขึ้นเกี่ยวกับข้อจำกัดพื้นฐานของระบบ AI ปัจจุบัน แม้ว่าผู้ใช้บางคนจะรายงานการปรับปรุงเล็กน้อยในโมเดลใหม่ๆ เช่น GPT-5 และ Gemini 2.5 แต่ผลลัพธ์ยังคงน่าผิดหวังเป็นส่วนใหญ่สำหรับผู้ที่แสวงหาอารมณ์ขันในระดับมนุษย์
การทดสอบในโลกแห่งความเป็นจริงแสดงให้เห็นความก้าวหน้าอย่างค่อยเป็นค่อยไป
สมาชิกชุมชนได้ทำการทดลองด้วยตนเองกับโมเดล AI ต่างๆ ผู้ใช้คนหนึ่งได้ทดสอบ ChatGPT-5 กับเรื่องตลกล่าสุดจากเทศกาลตลก Edinburgh Fringe โดยให้คะแนนเพียง 2 จาก 10 สำหรับการตอบสนองที่ตลกจริงๆ อย่างไรก็ตาม คนอื่นๆ สังเกตว่าโมเดลใหม่ๆ เช่น Gemini 2.5 บางครั้งสร้างเนื้อหาที่สนุกสนานจริงๆ และสามารถเล่นตามสถานการณ์ที่มีอารมณ์ขันได้อย่างเป็นธรรมชาติมากกว่าเวอร์ชันเก่าๆ
การทดสอบเผยให้เห็นรูปแบบที่น่าสนใจ เมื่อผู้ใช้ให้คำสั่งที่มีรายละเอียดมากขึ้นโดยอธิบายทฤษฎีเบื้องหลังเรื่องตลกที่ดี ซึ่งควรจะน่าแปลกใจแต่รู้สึกเป็นไปได้ย้อนหลัง โมเดลบางตัวสร้างผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด คำสั่งง่ายๆ เช่น เล่าเรื่องตลกให้ฟัง ให้ผลลัพธ์ที่แย่อย่างสม่ำเสมอในทุกโมเดลที่ทดสอบ
ผลการทดสอบการแสดงตลกของโมเดล AI:
- ChatGPT-5 กับเรื่องตลก Edinburgh Fringe: อัตราความสำเร็จ 2/10
- GPT-4.5: สังเกตเห็นการปรับปรุงในความสามารถด้านอารมณ์ขัน
- Gemini 2.5: เกิดเสียงหัวเราะแท้จริงเป็นครั้งคราว มีการมีส่วนร่วมในสถานการณ์ที่ดีขึ้น
- การปรับ Temperature: การปรับปรุงคุณภาพเรื่องตลกไม่สม่ำเสมอ
ความท้าทายด้านสถาปัตยกรรมเบื้องหลังอารมณ์ขันของ AI
ปัญหาหลักดูเหมือนจะเกิดจากวิธีการฝึกระบบ AI เหล่านี้ โมเดลภาษาเรียนรู้โดยการทำนายคำถัดไปที่มีความเป็นไปได้มากที่สุดในลำดับ ซึ่งเป็นการฝึกให้พวกมันลดความแปลกใจให้น้อยที่สุด สิ่งนี้สร้างความตึงเครียดพื้นฐานกับอารมณ์ขัน ซึ่งพึ่งพาการพลิกผันที่ไม่คาดคิดที่รู้สึกเป็นไปได้อย่างใดเมื่อเปิดเผยแล้ว
อารมณ์ขันระดับมืออาชีพเป็นเหมือนกิจกรรมสร้างสรรค์อื่นๆ มากมาย ซึ่งเป็นการสร้างไอเดียจำนวนมากและกรองเอาสิ่งที่ดีที่สุดมากกว่าการสร้างแต่ไอเดียดีๆ เท่านั้น
วิธีการฝึกนี้หมายความว่าระบบ AI มีแนวโน้มที่จะไปหาการตอบสนองที่พบบ่อยที่สุดและน่าแปลกใจน้อยที่สุดเมื่อถูกขอให้เล่าเรื่องตลก พวกมันมีแนวโน้มที่จะสร้างสิ่งที่คนส่วนใหญ่อาจพบว่าตลกเล็กน้อยมากกว่าการสร้างอารมณ์ขันที่ฉลาดหรือต้นฉบับจริงๆ
ข้อจำกัดทางเทคนิคที่สำคัญที่ระบุได้:
- การฝึกอบรมแบบทำนายโทเค็นถัดไปช่วยลดความประหลาดใจ
- การปรับแต่งด้านความปลอดภัยจำกัดการเสี่ยงในการสร้างสรรค์
- แนวโน้มไปสู่อารมณ์ขันที่อิงจากฉันทามติมากกว่าความคิดต้นฉบับ
- ความยากลำบากในการสร้างสมดุลระหว่างความประหลาดใจกับความสอดคล้องทางตรรกะ
คุณสมบัติด้านความปลอดภัยอาจขัดขวางประสิทธิภาพการตลก
ความซับซ้อนเพิ่มเติมมาจากมาตรการความปลอดภัยที่สร้างขึ้นในระบบ AI เชิงพาณิชย์ โมเดลเหล่านี้ได้รับการปรับแต่งให้ให้ความสำคัญกับความถูกต้องตามข้อเท็จจริงและหลีกเลี่ยงเนื้อหาที่อาจไม่เหมาะสม ซึ่งเป็นคุณสมบัติที่อาจทำงานขัดกับการเล่าเรื่องตลกที่มีประสิทธิภาพ เรื่องตลกที่ประสบความสำเร็จหลายเรื่องพึ่งพาการเล่นกับความคาดหวัง การใช้การเล่นคำ หรือการสัมผัสหัวข้อที่ระบบที่มุ่งเน้นความปลอดภัยอาจหลีกเลี่ยง
ผู้ใช้บางคนสังเกตว่าการขอให้โมเดล AI เพิ่ม temperature (อนุญาตให้เลือกคำที่ไม่คาดคิดมากขึ้น) หรือการใช้เทคนิคการให้คำสั่งที่เป็นการทดลองมากขึ้นสามารถให้ผลลัพธ์ตลกที่ดีขึ้น แม้ว่าสิ่งนี้จะยังคงไม่สม่ำเสมอ
มองไปข้างหน้า: วิธีการแบบผสมผสานอาจมีความหวัง
การอภิปรายได้นำไปสู่การคาดเดาเกี่ยวกับสถาปัตยกรรม AI ในอนาคตที่อาจจัดการงานสร้างสรรค์ที่ต้องการความแปลกใจที่ควบคุมได้ดีขึ้น แทนที่จะขยายโมเดลภาษาปัจจุบันเท่านั้น นักวิจัยอาจต้องพัฒนาระบบแบบผสมผสานที่สามารถแสวงหาความแปลกใจประเภทที่เหมาะสมอย่างตั้งใจในขณะที่รักษาความสอดคล้องไว้
ในตอนนี้ ฉันทามติในหมู่ผู้ทดสอบชี้ให้เห็นว่าแม้ความสามารถด้านอารมณ์ขันของ AI จะปรับปรุงขึ้นอย่างช้าๆ ในแต่ละรุ่นของโมเดล แต่ยังคงห่างไกลจากการเทียบเท่านักตลกมนุษย์ โมเดลเหล่านี้แสดงความหวังมากขึ้นในฐานะเครื่องมือระดมความคิดสำหรับนักตลกมนุษย์มากกว่าเป็นแหล่งบันเทิงแบบเดี่ยว
อ้างอิง: LLMs generate slop because they avoid surprises by design