ชุมชนเทคโนโลยีกำลังถกเถียงกันอย่างคึกคักหลังจากที่ OpenAI เพิ่งทำการศึกษาวิจัยอย่างเป็นระบบเกี่ยวกับสาเหตุที่โมเดลภาษาขนาดใหญ่สร้างข้อมูลเท็จ ซึ่งเรียกกันทั่วไปว่าภาพหลอน (hallucinations) งานวิจัยนี้เกิดขึ้นในช่วงที่ระบบ AI กำลังแพร่หลายในการใช้งานประจำวัน ทำให้ความน่าเชื่อถือของระบบเหล่านี้กลายเป็นความกังวลสำคัญสำหรับผู้ใช้และนักพัฒนา
ปัญหาหลัก: วัตถุประสงค์การฝึกและมาตรฐานการประเมิน
งานวิจัยของ OpenAI ระบุว่าภาพหลอนเกิดจากวัตถุประสงค์การฝึกและวิธีการประเมินที่มีข้อบกพร่อง มากกว่าที่จะเป็นความผิดปกติที่แก้ไขไม่ได้ของระบบ AI การศึกษานี้ชี้ให้เห็นว่าแนวทางการฝึกในปัจจุบันไม่ได้สอนโมเดลอย่างเพียงพอเกี่ยวกับเวลาที่ควรพูดว่า ฉันไม่รู้ เทียบกับเวลาที่ควรให้คำตอบอย่างมั่นใจ
อย่างไรก็ตาม ชุมชนยังคงแบ่งความเห็นเกี่ยวกับว่าภาพหลอนเป็นคำที่เหมาะสมหรือไม่ บางคนโต้แย้งว่าผลลัพธ์เหล่านี้แสดงถึงการทำงานปกติของโมเดลทางสถิติ มากกว่าที่จะเป็นความผิดปกติจริงๆ โมเดลเหล่านี้ทำงานตามที่ออกแบบมาอย่างแม่นยำ - พวกมันสร้างการตอบสนองที่มีความเป็นไปได้ทางสถิติมากที่สุดจากข้อมูลการฝึก โดยไม่คำนึงถึงความถูกต้องของข้อเท็จจริง
ผลการวิจัยสำคัญ:
- การหลอนลวงเกิดจากวัตถุประสงค์ในการฝึกและมาตรฐานการประเมิน ไม่ใช่ข้อบกพร่องโดยธรรมชาติของโมเดล
- โมเดลขนาดเล็กบางครั้งสามารถจัดการกับความไม่แน่นอนได้ดีกว่าโมเดลขนาดใหญ่
- "การปรับเทียบ" (การจับคู่ความมั่นใจกับความแม่นยำ) ต้องการการคำนวณน้อยกว่าการมีความแม่นยำ
- แนวทางแก้ไขปัจจุบันมุ่งเน้นไปที่การปรับปรุงวิธีการฝึกมากกว่าการเปลี่ยนแปลงโครงสร้าง
ความจำของมนุษย์เทียบกับระบบจัดเก็บความรู้ของ AI
การอภิปรายที่น่าสนใจได้เกิดขึ้นในการเปรียบเทียบความจำของมนุษย์กับระบบความรู้ของ AI ต่างจากโมเดลภาษา มนุษย์มักสามารถแยกแยะระหว่างสิ่งที่พวกเขารู้และสิ่งที่พวกเขากำลังเดาได้ เพราะพวกเขาจำกระบวนการเรียนรู้ข้อมูลได้ ความจำเหตุการณ์นี้ - การจำประสบการณ์การเรียนรู้เฉพาะ - ดูเหมือนจะช่วยมนุษย์หลีกเลี่ยงการกล่าวข้อมูลเท็จอย่างมั่นใจ
การเปรียบเทียบนี้เผยให้เห็นความแตกต่างสำคัญ: ความรู้ของมนุษย์รู้สึกเหมือนตะกอน โดยข้อเท็จจริงต่างๆ มีระดับความแน่นอนที่แตกต่างกันตามวิธีการเรียนรู้ ในทางตรงกันข้าม โมเดล AI ถือว่าข้อมูลการฝึกทั้งหมดเป็นรูปแบบทางสถิติที่ถูกต้องเท่าเทียมกัน โดยไม่มีความรู้สึกเกี่ยวกับความน่าเชื่อถือของแหล่งข้อมูลหรือบริบทการเรียนรู้
การเปรียบเทียบความจำระหว่างมนุษย์กับ AI:
- ความจำของมนุษย์: แบบเหตุการณ์ (จดจำประสบการณ์การเรียนรู้), มีระดับความมั่นใจแบบลำดับชั้น, รู้แหล่งที่มาของข้อมูล
- ความรู้ของ AI: รูปแบบทางสstatistic, ไม่มีบริบทการเรียนรู้, ปฏิบัติต่อข้อมูลการฝึกทั้งหมดเท่าเทียมกัน
- สาเหตุของการประดิษฐ์ข้อมูล: มนุษย์สามารถ "รู้สึก" ถึงช่องว่างของความรู้ได้ แต่ AI ไม่สามารถแยกแยะระหว่างข้อมูลที่รู้และไม่รู้ได้
แนวทางแก้ไขทางเทคนิคและข้อจำกัด
งานวิจัยชี้ให้เห็นว่าโมเดลขนาดเล็กอาจจัดการกับความไม่แน่นอนได้ดีกว่าโมเดลขนาดใหญ่ในบางกรณี โมเดลที่รู้เรื่องหัวข้อใดหัวข้อหนึ่งน้อยมากสามารถพูดว่า ฉันไม่รู้ ได้ง่ายๆ ในขณะที่โมเดลที่มีความรู้บางส่วนต้องเผชิญกับงานที่ยากกว่าในการกำหนดระดับความมั่นใจของตนเอง
การที่โมเดลขนาดเล็กรู้ขีดจำกัดของตนเองอาจเป็นเรื่องง่ายกว่า ตัวอย่างเช่น เมื่อถูกถามให้ตอบคำถามภาษาเมารี โมเดลขนาดเล็กที่ไม่รู้ภาษาเมารีเลยสามารถพูดว่า 'ฉันไม่รู้' ได้ง่ายๆ ในขณะที่โมเดลที่รู้ภาษาเมารีบางส่วนต้องกำหนดความมั่นใจของตนเอง
การค้นพบนี้ท้าทายสมมติฐานที่ว่าโมเดลที่ใหญ่กว่าหมายถึงภาพหลอนที่น้อยลงโดยอัตโนมัติ ความสัมพันธ์ระหว่างขนาดโมเดลและความน่าเชื่อถือดูเหมือนจะซับซ้อนกว่าที่คิดไว้ก่อนหน้านี้
ผลกระทบในโลกจริงและทิศทางในอนาคต
ผลกระทบในทางปฏิบัติขยายไปเกินกว่าความสนใจทางวิชาการ ผู้ใช้พบเจอสถานการณ์เป็นประจำที่ AI ให้ข้อมูลทางเทคนิค รายละเอียดทางกฎหมาย หรือข้อเท็จจริงที่ไม่ถูกต้องอย่างมั่นใจ งานวิจัยชี้ให้เห็นว่าวิธีการฝึกที่ดีขึ้นซึ่งเน้นการปรับเทียบ - การสอนโมเดลให้จับคู่ความมั่นใจกับความถูกต้องจริงของพวกมัน - อาจลดปัญหาเหล่านี้ได้อย่างมีนัยสำคัญ
การถกเถียงยังสัมผัสกับว่าสถาปัตยกรรม AI ในปัจจุบันสามารถแก้ไขปัญหาภาพหลอนได้อย่างสมบูรณ์หรือไม่ หรือว่าแนวทางที่แตกต่างโดยพื้นฐานซึ่งเกี่ยวข้องกับประสบการณ์ในโลกจริงและการเรียนรู้อย่างต่อเนื่องอาจจำเป็น นักวิจัยบางคนโต้แย้งว่าจนกว่าระบบ AI จะสามารถสร้างความจำเหตุการณ์ที่แท้จริงผ่านประสบการณ์ที่ใช้ชีวิต ภาพหลอนจะยังคงเป็นข้อจำกัดที่แท้จริงมากกว่าที่จะเป็นข้อบกพร่องที่แก้ไขได้
เมื่อระบบ AI กำลังถูกผสานเข้าไปในแอปพลิเคชันที่สำคัญมากขึ้น การทำความเข้าใจและลดภาพหลอนกลายเป็นสิ่งสำคัญมากขึ้นสำหรับทั้งความปลอดภัยของผู้ใช้และความน่าเชื่อถือของระบบ
อ้างอิง: Knowledge and memory