ชุมชน AI กำลังตื่นเต้นกับการพัฒนาที่สำคัญในการจัดการกับความไม่แน่นอนของโมเดลภาษา แม้ว่าการหลอนลวงของ AI ซึ่งเป็นปรากฏการณ์ที่โมเดลให้ข้อมูลที่ไม่ถูกต้องอย่างมั่นใจ จะเป็นปัญหาที่รบกวนสาขานี้มานาน แต่การสังเกตการณ์ล่าสุดชี้ให้เห็นว่าเราอาจกำลังเห็นช่วงเริ่มต้นของการแก้ปัญหา
การปฏิวัติความซื่อสัตย์ที่ไม่คาดคิดของ Claude 4
ผู้ใช้รายงานถึงการเปลี่ยนแปลงที่น่าทึ่งในพฤติกรรมของ Claude 4 เมื่อเปรียบเทียบกับรุ่นก่อนหน้า โมเดลใหม่แสดงความสามารถที่ไม่เคยมีมาก่อนในการรับรู้ข้อจำกัดของตนเองและปฏิเสธงานที่เป็นไปไม่ได้อย่างชัดเจน สิ่งนี้แสดงถึงการเปลี่ยนแปลงพื้นฐานจากพฤติกรรม AI ทั่วไปที่พยายามตอบสนองทุกคำขอ โดยไม่คำนึงถึงความเป็นไปได้
ฉันขอให้ Sonnet 4 ทำสิ่งที่ 3.7 Sonnet เคยมีปัญหาและมันบอกฉันว่าสิ่งที่ฉันขอนั้นเป็นไปไม่ได้และอธิบายเหตุผล
การปรับปรุงดูเหมือนจะชัดเจนเป็นพิเศษในสถานการณ์การเขียนโค้ด ซึ่งโมเดลสามารถระบุได้เมื่องานการเขียนโปรแกรมเป็นไปไม่ได้ แทนที่จะสร้างโค้ดที่ไม่สามารถใช้งานได้ ความก้าวหน้านี้ท้าทายความเข้าใจเดิมเกี่ยวกับวิธีที่โมเดลภาษาควรจะทำงานและชี้ให้เห็นว่าแนวทางที่พยายามช่วยเหลือเสมออาจไม่ใช่สิ่งที่เหมาะสมที่สุด
การเปรียบเทียบโมเดล Claude
- Claude 3.7 Sonnet : ประสบปัญหาในการจัดการกับงานที่เป็นไปไม่ได้ มักจะพยายามหาทางแก้ไขต่อไป
- Claude Sonnet 4 : สามารถจดจำงานที่เป็นไปไม่ได้ได้ และปฏิเสธอย่างชัดเจนพร้อมคำอธิบาย
- จุดที่มีการปรับปรุง: โดดเด่นเป็นพิเศษในสถานการณ์การเขียนโค้ด Python
![]() |
---|
ความสามารถที่ปรับปรุงแล้วของ Claude 4 ในการรับรู้ข้อจำกัดของตัวเอง ซึ่งแสดงให้เห็นผ่านการแก้โจทย์คณิตศาสตร์อย่างถูกต้อง |
ปัญหาหลัก: การฝึกโมเดลให้เดา
รากเหง้าของการหลอนลวงของ AI อยู่ที่วิธีการฝึกระบบเหล่านี้ โมเดลภาษาเรียนรู้ที่จะสร้างการตอบสนองที่ฟังดูน่าเชื่อโดยการทำนายคำถัดไปที่มีความเป็นไปได้มากที่สุดในลำดับ เมื่อเผชิญกับข้อมูลที่ไม่รู้ พวกมันไม่มีกลไกในการแสดงความไม่แน่นอน แต่จะสร้างการตอบสนองที่น่าจะเป็นไปได้ทางสถิติแต่อาจเป็นเท็จ
วิธีการฝึกปัจจุบันส่งเสริมพฤติกรรมนี้โดยไม่ตั้งใจ โมเดลได้รับการเสริมแรงเชิงบวกสำหรับการให้คำตอบ แม้แต่คำตอบที่ไม่ถูกต้อง ในขณะที่การตอบสนองเช่น ฉันไม่รู้ มักถูกลงโทษ สิ่งนี้สร้างระบบที่ทำงานเหมือนนักเรียนที่เดาเสมอในข้อสอบแบบเลือกตอบแทนที่จะปล่อยให้คำตอบว่างเปล่า
สาเหตุหลักของปัญหาการฝึกอบรม
- โมเดลได้รับรางวัลสำหรับการให้คำตอบ (แม้จะเป็นคำตอบที่ผิด)
- การตอบว่า "ฉันไม่รู้" มักถูกลงโทษในระหว่างการฝึกอบรม
- ข้อมูลการฝึกอบรมจับข้อเท็จจริงที่ทราบแล้ว ไม่ใช่การแสดงออกถึงความไม่รู้
- การเรียนรู้แบบเสริมแรงส่งเสริมพฤติกรรมการเดาที่คล้ายกับกลยุทธ์การสอบ
การถกเถียงเรื่องศัพท์ยังคงดำเนินต่อไป
ชุมชน AI ยังคงแบ่งแยกเกี่ยวกับศัพท์ที่เหมาะสมสำหรับปรากฏการณ์นี้ แม้ว่าการหลอนลวงจะกลายเป็นคำที่ใช้มาตรฐาน แต่หลายคนโต้แย้งว่ามันทำให้เข้าใจผิดเนื่องจากไม่ตรงกับคำนิยามทางจิตวิทยาของการรับรู้สิ่งที่ไม่มีอยู่จริง การแต่งเรื่อง ซึ่งหมายถึงการประดิษฐ์ข้อมูลเท็จ อธิบายสิ่งที่เกิดขึ้นได้แม่นยำกว่า แม้ว่าจะยังไม่ได้รับการยอมรับอย่างแพร่หลาย
ผู้ใช้บางคนแสดงความไม่พอใจกับการที่บริษัทเลือกใช้คำว่าการหลอนลวงมากกว่าคำที่ตรงไปตรงมากว่า เช่น การบิดเบือนข้อมูล หรือเพียงแค่ยอมรับว่าโมเดลบางครั้งสร้างผลลัพธ์ที่ไม่ถูกต้อง การเลือกใช้ภาษานี้สะท้อนความตึงเครียดที่กว้างขึ้นเกี่ยวกับวิธีที่อุตสาหกรรมพูดคุยเกี่ยวกับข้อจำกัดของ AI
การถกเถียงเรื่องศัพท์เทคนิคของ AI
- Hallucination: มาตรฐานในอุตสาหกรรมปัจจุบัน แต่ไม่ถูกต้องในแง่จิตวิทยา
- Confabulation: คำศัพท์ที่แม่นยำกว่า หมายถึง "การสร้างข้อมูลเท็จขึ้นมา"
- คำศัพท์ทางเลือก: ข้อมูลผิด ผลลัพธ์ที่ไม่ถูกต้อง พฤติกรรม "เสียหาย"
ธรรมชาติสองด้านของความคิดสร้างสรรค์ของ AI
กลไกเดียวกันที่สร้างการหลอนลวงก็ทำให้เกิดความสามารถในการสร้างสรรค์ของ AI เมื่อถูกขอให้เขียนบทกวีเกี่ยวกับภูเขาในจินตนาการหรือสร้างเนื้อหาที่มีจินตนาการ ความสามารถของโมเดลในการไปเกินกว่าข้อเท็จจริงที่จำได้จะกลายเป็นคุณสมบัติแทนที่จะเป็นข้อบกพร่อง สิ่งนี้สร้างความตึงเครียดพื้นฐาน: ความคิดสร้างสรรค์ที่ทำให้ AI มีคุณค่าสำหรับงานศิลปะขัดแย้งโดยตรงกับข้อกำหนดความแม่นยำสำหรับคำถามเกี่ยวกับข้อเท็จจริง
มองไปข้างหน้า: โมเดลที่เล็กลงและฉลาดขึ้น
หากระบบ AI สามารถรับรู้ขอบเขตความรู้ของตนเองได้อย่างน่าเชื่อถือ มันอาจปฏิวัติสาขานี้ แทนที่จะเก็บข้อมูลจำนวนมากที่อาจไม่ถูกต้อง โมเดลในอนาคตอาจเล็กลงและมีประสิทธิภาพมากขึ้น โดยรู้ว่าเมื่อไหร่ควรค้นหาข้อมูลแทนที่จะเดา แนวทางนี้อาจลดการใช้พลังงานอย่างมากในขณะที่ปรับปรุงความน่าเชื่อถือ
ความก้าวหน้าล่าสุดกับ Claude 4 และการพัฒนาที่คล้ายคลึงกันในการแก้ปัญหาทางคณิตศาสตร์ชี้ให้เห็นว่าการสอน AI ให้พูดว่า ฉันไม่รู้ อาจทำได้มากกว่าที่คิดไว้ก่อนหน้านี้ อย่างไรก็ตาม การนำการเปลี่ยนแปลงดังกล่าวมาใช้ในระดับใหญ่จะต้องมีการเปลี่ยนแปลงพื้นฐานในวิธีการฝึกและเมตริกการประเมินทั่วทั้งอุตสาหกรรม
อ้างอิง: The Nature Of Hallucinations