Claude 4 แสดงความก้าวหน้าในความสามารถของ AI ในการพูดว่า "ฉันไม่รู้" - ก้าวสำคัญสู่การแก้ปัญหาการหลอนลวง

ทีมชุมชน BigGo
Claude 4 แสดงความก้าวหน้าในความสามารถของ AI ในการพูดว่า "ฉันไม่รู้" - ก้าวสำคัญสู่การแก้ปัญหาการหลอนลวง

ชุมชน AI กำลังตื่นเต้นกับการพัฒนาที่สำคัญในการจัดการกับความไม่แน่นอนของโมเดลภาษา แม้ว่าการหลอนลวงของ AI ซึ่งเป็นปรากฏการณ์ที่โมเดลให้ข้อมูลที่ไม่ถูกต้องอย่างมั่นใจ จะเป็นปัญหาที่รบกวนสาขานี้มานาน แต่การสังเกตการณ์ล่าสุดชี้ให้เห็นว่าเราอาจกำลังเห็นช่วงเริ่มต้นของการแก้ปัญหา

การปฏิวัติความซื่อสัตย์ที่ไม่คาดคิดของ Claude 4

ผู้ใช้รายงานถึงการเปลี่ยนแปลงที่น่าทึ่งในพฤติกรรมของ Claude 4 เมื่อเปรียบเทียบกับรุ่นก่อนหน้า โมเดลใหม่แสดงความสามารถที่ไม่เคยมีมาก่อนในการรับรู้ข้อจำกัดของตนเองและปฏิเสธงานที่เป็นไปไม่ได้อย่างชัดเจน สิ่งนี้แสดงถึงการเปลี่ยนแปลงพื้นฐานจากพฤติกรรม AI ทั่วไปที่พยายามตอบสนองทุกคำขอ โดยไม่คำนึงถึงความเป็นไปได้

ฉันขอให้ Sonnet 4 ทำสิ่งที่ 3.7 Sonnet เคยมีปัญหาและมันบอกฉันว่าสิ่งที่ฉันขอนั้นเป็นไปไม่ได้และอธิบายเหตุผล

การปรับปรุงดูเหมือนจะชัดเจนเป็นพิเศษในสถานการณ์การเขียนโค้ด ซึ่งโมเดลสามารถระบุได้เมื่องานการเขียนโปรแกรมเป็นไปไม่ได้ แทนที่จะสร้างโค้ดที่ไม่สามารถใช้งานได้ ความก้าวหน้านี้ท้าทายความเข้าใจเดิมเกี่ยวกับวิธีที่โมเดลภาษาควรจะทำงานและชี้ให้เห็นว่าแนวทางที่พยายามช่วยเหลือเสมออาจไม่ใช่สิ่งที่เหมาะสมที่สุด

การเปรียบเทียบโมเดล Claude

  • Claude 3.7 Sonnet : ประสบปัญหาในการจัดการกับงานที่เป็นไปไม่ได้ มักจะพยายามหาทางแก้ไขต่อไป
  • Claude Sonnet 4 : สามารถจดจำงานที่เป็นไปไม่ได้ได้ และปฏิเสธอย่างชัดเจนพร้อมคำอธิบาย
  • จุดที่มีการปรับปรุง: โดดเด่นเป็นพิเศษในสถานการณ์การเขียนโค้ด Python
ความสามารถที่ปรับปรุงแล้วของ Claude 4 ในการรับรู้ข้อจำกัดของตัวเอง ซึ่งแสดงให้เห็นผ่านการแก้โจทย์คณิตศาสตร์อย่างถูกต้อง
ความสามารถที่ปรับปรุงแล้วของ Claude 4 ในการรับรู้ข้อจำกัดของตัวเอง ซึ่งแสดงให้เห็นผ่านการแก้โจทย์คณิตศาสตร์อย่างถูกต้อง

ปัญหาหลัก: การฝึกโมเดลให้เดา

รากเหง้าของการหลอนลวงของ AI อยู่ที่วิธีการฝึกระบบเหล่านี้ โมเดลภาษาเรียนรู้ที่จะสร้างการตอบสนองที่ฟังดูน่าเชื่อโดยการทำนายคำถัดไปที่มีความเป็นไปได้มากที่สุดในลำดับ เมื่อเผชิญกับข้อมูลที่ไม่รู้ พวกมันไม่มีกลไกในการแสดงความไม่แน่นอน แต่จะสร้างการตอบสนองที่น่าจะเป็นไปได้ทางสถิติแต่อาจเป็นเท็จ

วิธีการฝึกปัจจุบันส่งเสริมพฤติกรรมนี้โดยไม่ตั้งใจ โมเดลได้รับการเสริมแรงเชิงบวกสำหรับการให้คำตอบ แม้แต่คำตอบที่ไม่ถูกต้อง ในขณะที่การตอบสนองเช่น ฉันไม่รู้ มักถูกลงโทษ สิ่งนี้สร้างระบบที่ทำงานเหมือนนักเรียนที่เดาเสมอในข้อสอบแบบเลือกตอบแทนที่จะปล่อยให้คำตอบว่างเปล่า

สาเหตุหลักของปัญหาการฝึกอบรม

  • โมเดลได้รับรางวัลสำหรับการให้คำตอบ (แม้จะเป็นคำตอบที่ผิด)
  • การตอบว่า "ฉันไม่รู้" มักถูกลงโทษในระหว่างการฝึกอบรม
  • ข้อมูลการฝึกอบรมจับข้อเท็จจริงที่ทราบแล้ว ไม่ใช่การแสดงออกถึงความไม่รู้
  • การเรียนรู้แบบเสริมแรงส่งเสริมพฤติกรรมการเดาที่คล้ายกับกลยุทธ์การสอบ

การถกเถียงเรื่องศัพท์ยังคงดำเนินต่อไป

ชุมชน AI ยังคงแบ่งแยกเกี่ยวกับศัพท์ที่เหมาะสมสำหรับปรากฏการณ์นี้ แม้ว่าการหลอนลวงจะกลายเป็นคำที่ใช้มาตรฐาน แต่หลายคนโต้แย้งว่ามันทำให้เข้าใจผิดเนื่องจากไม่ตรงกับคำนิยามทางจิตวิทยาของการรับรู้สิ่งที่ไม่มีอยู่จริง การแต่งเรื่อง ซึ่งหมายถึงการประดิษฐ์ข้อมูลเท็จ อธิบายสิ่งที่เกิดขึ้นได้แม่นยำกว่า แม้ว่าจะยังไม่ได้รับการยอมรับอย่างแพร่หลาย

ผู้ใช้บางคนแสดงความไม่พอใจกับการที่บริษัทเลือกใช้คำว่าการหลอนลวงมากกว่าคำที่ตรงไปตรงมากว่า เช่น การบิดเบือนข้อมูล หรือเพียงแค่ยอมรับว่าโมเดลบางครั้งสร้างผลลัพธ์ที่ไม่ถูกต้อง การเลือกใช้ภาษานี้สะท้อนความตึงเครียดที่กว้างขึ้นเกี่ยวกับวิธีที่อุตสาหกรรมพูดคุยเกี่ยวกับข้อจำกัดของ AI

การถกเถียงเรื่องศัพท์เทคนิคของ AI

  • Hallucination: มาตรฐานในอุตสาหกรรมปัจจุบัน แต่ไม่ถูกต้องในแง่จิตวิทยา
  • Confabulation: คำศัพท์ที่แม่นยำกว่า หมายถึง "การสร้างข้อมูลเท็จขึ้นมา"
  • คำศัพท์ทางเลือก: ข้อมูลผิด ผลลัพธ์ที่ไม่ถูกต้อง พฤติกรรม "เสียหาย"

ธรรมชาติสองด้านของความคิดสร้างสรรค์ของ AI

กลไกเดียวกันที่สร้างการหลอนลวงก็ทำให้เกิดความสามารถในการสร้างสรรค์ของ AI เมื่อถูกขอให้เขียนบทกวีเกี่ยวกับภูเขาในจินตนาการหรือสร้างเนื้อหาที่มีจินตนาการ ความสามารถของโมเดลในการไปเกินกว่าข้อเท็จจริงที่จำได้จะกลายเป็นคุณสมบัติแทนที่จะเป็นข้อบกพร่อง สิ่งนี้สร้างความตึงเครียดพื้นฐาน: ความคิดสร้างสรรค์ที่ทำให้ AI มีคุณค่าสำหรับงานศิลปะขัดแย้งโดยตรงกับข้อกำหนดความแม่นยำสำหรับคำถามเกี่ยวกับข้อเท็จจริง

มองไปข้างหน้า: โมเดลที่เล็กลงและฉลาดขึ้น

หากระบบ AI สามารถรับรู้ขอบเขตความรู้ของตนเองได้อย่างน่าเชื่อถือ มันอาจปฏิวัติสาขานี้ แทนที่จะเก็บข้อมูลจำนวนมากที่อาจไม่ถูกต้อง โมเดลในอนาคตอาจเล็กลงและมีประสิทธิภาพมากขึ้น โดยรู้ว่าเมื่อไหร่ควรค้นหาข้อมูลแทนที่จะเดา แนวทางนี้อาจลดการใช้พลังงานอย่างมากในขณะที่ปรับปรุงความน่าเชื่อถือ

ความก้าวหน้าล่าสุดกับ Claude 4 และการพัฒนาที่คล้ายคลึงกันในการแก้ปัญหาทางคณิตศาสตร์ชี้ให้เห็นว่าการสอน AI ให้พูดว่า ฉันไม่รู้ อาจทำได้มากกว่าที่คิดไว้ก่อนหน้านี้ อย่างไรก็ตาม การนำการเปลี่ยนแปลงดังกล่าวมาใช้ในระดับใหญ่จะต้องมีการเปลี่ยนแปลงพื้นฐานในวิธีการฝึกและเมตริกการประเมินทั่วทั้งอุตสาหกรรม

อ้างอิง: The Nature Of Hallucinations