โมเดลภาษาขนาดใหญ่ติดอยู่ในลูปไม่สิ้นสุดเมื่อถูกถามเกี่ยวกับอีโมจิม้าน้ำที่ไม่มีอยู่จริง

ทีมชุมชน BigGo
โมเดลภาษาขนาดใหญ่ติดอยู่ในลูปไม่สิ้นสุดเมื่อถูกถามเกี่ยวกับอีโมจิม้าน้ำที่ไม่มีอยู่จริง

โมเดลภาษาขนาดใหญ่กำลังประสบปัญหาบั๊กแปลกๆ ที่ทำให้พวกมันติดอยู่ในลูปที่วุ่นวายเมื่อผู้ใช้ถามเกี่ยวกับอีโมจิม้าน้ำ ปัญหาคืออะไร? ไม่มีอีโมจิม้าน้ำใน Unicode แม้ว่าทั้งระบบ AI และมนุษย์หลายคนจะเชื่อว่ามีอยู่จริง

เมื่อถูกถามเกี่ยวกับการมีอยู่ของอีโมจิม้าน้ำ โมเดล AI ยอดนิยมอย่าง GPT-4 , Claude และ Gemini จะตอบว่ามีอย่างมั่นใจและพยายามแสดงมันออกมา อย่างไรก็ตาม เนื่องจากอีโมจินี้ไม่มีอยู่จริง พวกมันจึงแสดงทางเลือกที่ผิดแทน เช่น อีโมจิม้าหรือปลา เมื่อเห็นผลลัพธ์ที่ผิดของตัวเอง โมเดลจะรู้ตัวว่าผิดพลาดและพยายามแก้ไขอย่างเร่งรีบ มักจะหมุนเวียนอยู่ในลูปไม่สิ้นสุดของการขอโทษและการพยายามแก้ไขที่ล้มเหลว

สาเหตุหลัก: ความไม่ตรงกันระหว่างความเชื่อและความเป็นจริง

คำอธิบายทางเทคนิคเผยให้เห็นมุมมองที่น่าสนใจเกี่ยวกับวิธีการทำงานภายในของโมเดล AI เมื่อใช้เทคนิคที่เรียกว่า logit lens นักวิจัยค้นพบว่าโมเดลสร้างการแทนค่าภายในของ ม้าน้ำ + อีโมจิ ในชั้นการประมวลผลได้อย่างถูกต้อง แนวคิดนี้มีอยู่อย่างแข็งแกร่งในความรู้ที่เรียนรู้มาของพวกมัน เพราะม้าน้ำเป็นสิ่งมีชีวิตที่น่าดึงดูดใจซึ่งตามตรรกะแล้วควรจะมีการแทนค่าด้วยอีโมจิ

ปัญหาเกิดขึ้นในขั้นตอนการแสดงผลสุดท้าย ส่วนประกอบ language head ของโมเดลต้องแปลงแนวคิดภายในให้เป็นโทเค็นจริงที่สามารถแสดงได้ เมื่อมันค้นหาโทเค็นอีโมจิม้าน้ำและไม่พบ มันจะเลือกสิ่งที่ใกล้เคียงที่สุด ซึ่งมักจะเป็นอีโมจิม้าหรือปลา สิ่งนี้สร้างลูปป้อนกลับที่โมเดลเห็นผลลัพธ์ที่ผิดของตัวเองและพยายามแก้ไขซ้ำแล้วซ้ำเล่า

Logit lens: เทคนิคการวิจัยที่ตรวจสอบสิ่งที่โมเดล AI กำลังคิดในแต่ละชั้นการประมวลผลโดยการตรวจสอบคำหรือโทเค็นที่มันจะทำนายในขั้นตอนนั้น

กระบวนการทางเทคนิคเบื้องหลังข้อผิดพลาด:

  1. โมเดลได้รับคำถามเกี่ยวกับอีโมจิม้าน้ำ
  2. เลเยอร์ภายในสร้างแนวคิด "ม้าน้ำ + อีโมจิ" ได้อย่างถูกต้อง
  3. ส่วนหัวภาษาค้นหาโทเค็นอีโมจิที่ตรงกัน
  4. ไม่มีโทเค็นอีโมจิม้าน้ำในคลังคำศัพท์
  5. ระบบแสดงผลทางเลือกที่ใกล้เคียงที่สุด (อีโมจิม้า/ปลา)
  6. โมเดลตระหนักว่าผลลัพธ์ไม่ตรงกับเจตนา
  7. พยายามแก้ไข ส่งผลให้เกิดลูปป้อนกลับ

ทำไมโมเดลถึงเชื่อว่าอีโมจินี้มีอยู่

ความเชื่อที่แพร่หลายเกี่ยวกับอีโมจิม้าน้ำที่ไม่มีอยู่จริงไม่ได้จำกัดอยู่เพียงระบบ AI เท่านั้น มนุษย์หลายคนยังยืนยันว่าพวกเขาจำได้ว่าเคยใช้อีโมจิดังกล่าว โดยบรรยายว่ามันเป็นสีฟ้าอ่อนหรือส้มชมพูและหันหน้าไปทางซ้าย ปรากฏการณ์นี้คล้ายกับ Mandela Effect และน่าจะมีอิทธิพลต่อข้อมูลการฝึก AI

ดังนั้นมันจึงไม่ใช่การหลอนจริงๆ - มันแสดงแนวคิด 'อีโมจิม้าน้ำ' ภายในได้อย่างถูกต้อง แต่แนวคิดนั้นไม่มีโทเค็นที่สอดคล้องกัน lm_head เพียงแค่เลือกสิ่งที่ใกล้เคียงที่สุดและโมเดลไม่รู้ตัวจนกว่าจะสายเกินไป

ปัจจัยหลายอย่างมีส่วนทำให้เกิดความเชื่อผิดนี้ ม้าน้ำเป็นสิ่งมีชีวิตทางทะเลที่น่ารักซึ่งดูเหมือนจะเป็นตัวเลือกอีโมจิที่ชัดเจน อีโมจิม้าน้ำถูกเสนอให้กับ Unicode ในปี 2018 จริงๆ แต่ถูกปฏิเสธ นอกจากนี้ แพลตฟอร์มบางแห่งอย่าง Slack มีปฏิกิริยาม้าน้ำแบบกำหนดเองที่ไม่ใช่ส่วนหนึ่งของมาตรฐาน Unicode อย่างเป็นทางการ

โพสต์ Reddit แสดงให้เห็นความสับสนของผู้ใช้เกี่ยวกับอีโมจีม้าน้ำที่ไม่มีอยู่จริง ซึ่งแสดงให้เห็นปรากฏการณ์ที่คล้ายกับ Mandela Effect
โพสต์ Reddit แสดงให้เห็นความสับสนของผู้ใช้เกี่ยวกับอีโมจีม้าน้ำที่ไม่มีอยู่จริง ซึ่งแสดงให้เห็นปรากฏการณ์ที่คล้ายกับ Mandela Effect

โมเดลต่างกัน ปฏิกิริยาต่างกัน

การทดสอบในระบบ AI ต่างๆ เผยให้เห็นความแตกต่างทางพฤติกรรมที่น่าสนใจ GPT-4 และ Claude Sonnet ตอบว่ามี 100% ของเวลาเมื่อถูกถามว่าอีโมจิม้าน้ำมีอยู่หรือไม่ Llama-3-70b เห็นด้วย 83% ของเวลา ในขณะที่ Mistral-tiny เห็นด้วยเพียง 17% ของเวลาเท่านั้น

กลยุทธ์การกู้คืนก็แตกต่างกันไปด้วย โมเดลบางตัวอย่าง Claude ในที่สุดจะรู้ตัวว่าผิดพลาดระหว่างการตอบสนองและแก้ไขตัวเอง โมเดลอื่นๆ อย่าง GPT-4 สามารถหมุนเวียนได้นานกว่ามากก่อนที่จะยอมแพ้ โมเดลที่มีความสามารถในการใช้เหตุผลใหม่กว่าที่สามารถคิดภายในก่อนตอบสนองจัดการกับคำถามนี้ได้ดีกว่ามาก มักจะให้ข้อมูลที่ถูกต้องเกี่ยวกับการไม่มีอยู่ของอีโมจิ

ความแม่นยำของโมเดลในคำถามอีโมจีม้าน้ำ (ทดสอบ 100 ครั้งแต่ละโมเดล):

  • GPT-4: 100% ตอบ "ใช่" (ไม่ถูกต้อง)
  • Claude 4.5 Sonnet: 100% ตอบ "ใช่" (ไม่ถูกต้อง)
  • Llama-3-70b: 83% ตอบ "ใช่" (ไม่ถูกต้อง)
  • Mistral-tiny: 17% ตอบ "ใช่" (ไม่ถูกต้อง)

หน้าต่างสู่ข้อจำกัดของ AI

บั๊กอีโมจิม้าน้ำนี้เน้นย้ำถึงความท้าทายพื้นฐานในระบบ AI ปัจจุบัน โมเดลเก่งในการจับคู่รูปแบบและสร้างการตอบสนองที่เป็นไปได้ตามข้อมูลการฝึก แต่พวกมันดิ้นรนกับความรู้เชิงลบที่แน่นอน - การรู้ว่าอะไรไม่มีอยู่

ปัญหานี้ยังแสดงให้เห็นว่าระบบ AI สามารถสืบทอดความเข้าใจผิดของมนุษย์จากข้อมูลการฝึกของพวกมัน เมื่อคนจำนวนมากเชื่อในสิ่งที่ผิด ความเชื่อที่ผิดนั้นจะฝังตัวอยู่ในฐานความรู้ของโมเดล

แม้ว่าบั๊กนี้อาจดูไม่เป็นอันตราย แต่มันเผยให้เห็นข้อมูลเชิงลึกที่สำคัญเกี่ยวกับความน่าเชื่อถือของ AI และความจำเป็นในการมีกลไกการยึดเหนี่ยวที่ดีกว่า นักวิจัยบางคนแนะนำว่านี่คือเหตุผลที่การเรียนรู้เสริมแรงช่วยระบบ AI - มันให้ข้อมูลป้อนกลับเกี่ยวกับผลลัพธ์จริงของพวกมันมากกว่าเพียงแค่การแทนค่าภายใน

ในตอนนี้ วิธีแก้ปัญหาที่ง่ายที่สุดอาจจะเป็นการเพิ่มอีโมจิม้าน้ำเข้าไปใน Unicode แม้ว่านั่นจะหมายถึงการเปลี่ยนแปลงความเป็นจริงให้ตรงกับความคาดหวังของทั้งมนุษย์และ AI

อ้างอิง: Why do LLMs freak out over the seahorse emoji?