ในยุคของปัญญาประดิษฐ์ แนวโน้มที่น่าวิตกได้ปรากฏขึ้นในห้องพิจาคดี โครงการเขียนโปรแกรม และสำนักงานบริษัททั่วโลก ผู้คนเริ่มปฏิบัติต่อคำตอบจากแชทบอท AI ราวกับเป็นข้อเท็จจริงที่มีความน่าเชื่อถือ นำไปสู่สิ่งที่ผู้แสดงความคิดเห็นรายหนึ่งอธิบายว่าเป็นเหมือนน้ำเชื่อมฟรุกโตสสูง - ข้อมูลที่ฟังดูน่าเชื่อแต่มีแนวโน้มที่จะทำให้เข้าใจผิด ซึ่งเพียงแค่ทำให้พอใจโดยปราศจากสาระที่เป็นประโยชน์
ปัญหาหลักไม่ได้อยู่ที่ว่า Large Language Models (LLMs) นั้นผิดเสมอไป แต่อยู่ที่ว่าพวกมันทำงานแตกต่างไปจากแหล่งความรู้แบบดั้งเดิมโดยพื้นฐาน ไม่เหมือนกับสารานุกรมหรืองานวิชาการที่สร้างขึ้นจากการอ้างอิงที่ตรวจสอบได้ LLMs สร้างข้อความบนพื้นฐานของรูปแบบทางสถิติในข้อมูลฝึกฝนของพวกมัน ทำให้เป็นไปไม่ได้ที่พวกมันจะแยกแยะระหว่างข้อมูลที่เป็นข้อเท็จจริงกับเรื่องที่แต่งขึ้นอย่างน่าเชื่อถือได้อย่างน่าเชื่อถือ
โรคระบาดแห่งการหลงผิด
ทั่วทั้งชุมชนด้านเทคนิค ผู้ใช้รายงานตัวอย่างที่ซับซ้อนมากขึ้นเรื่อยๆ ของระบบ AI ที่สร้างแหล่งข้อมูลขึ้นเองและนำเสนอข้อมูลเท็จอย่างมั่นใจ นักพัฒนารายหนึ่งได้แบ่งปันบทสนทนาที่บอกเล่าเรื่องราวได้เป็นอย่างดี ซึ่งผู้ช่วย AI ยืนยันซ้ำๆ ว่าเอกสารประกอบการเขียนโปรแกรม Ruby ที่ระบุเฉพาะมีอยู่จริง แม้กระทั่งให้หมายเลขบรรทัดและลิงก์ GitHub โดยละเอียด เมื่อนักพัฒนาตรวจสอบการอ้างอิงเหล่านี้ พวกเขาค้นพบว่า AI ได้สร้างทั้งเนื้อหาเอกสารประกอบและการอ้างอิงสนับสนุนข้อกล่าวอ้างของมันขึ้นมาทั้งหมด
LLM ไม่ได้มีโอกาสเลือกสิ่งที่มันส่งออกเลยด้วยซ้ำ - มันเพียงให้ความน่าจะเป็นของคำถัดไป และหนึ่งในนั้นถูกเลือกแบบสุ่มโดยตัวsampler ดังนั้น บางทีคำที่ 1-3 ของคำตอบของ LLM อาจเป็นสำนวนพูดทั่วไปที่ถูกทำนายโดยตัวอย่างนับพัน คำที่ 4 มาจาก 4chan (การเลือกสุ่มความน่าจะเป็นต่ำจากตัวsampler) และคำที่ 5 ถูกสร้างขึ้นมาจากการหลงผิด
รูปแบบนี้ขยายไปไกลกว่าการเขียนโปรแกรม สู่การวิจัยทางวิชาการ เอกสารทางกฎหมาย และคำแนะนำทางการแพทย์ ปัญหานี้กลายเป็นอันตรายอย่างยิ่งเมื่อระบบ AI สร้างการอ้างอิงที่ดูเหมือนถูกต้องตามกฎหมายแต่กลับอ้างอิงถึงงานวิจัยที่ไม่มีอยู่จริงหรือบิดเบือนแหล่งข้อมูลจริง คดีความหลายคดีได้เกิดขึ้นแล้วที่ทนายความยื่นคำให้การทางกฎหมายซึ่งมีคำอ้างอิงคดีความที่ถูกสร้างขึ้นโดยเครื่องมือ AI
รูปแบบการหลอนประสาทสัมผัสทั่วไปของ AI
- การสร้างการอ้างอิงและเอกสารอ้างอิงที่เป็นเท็จ
- การบิดเบือนเนื้อหาจากแหล่งที่มา
- การนำเสนอข้อมูลเท็จอย่างมั่นใจ
- ไม่สามารถแยกแยะระหว่างรูปแบบข้อมูลการฝึกกับความถูกต้องตามข้อเท็จจริง
- การสุ่มตัวอย่างแบบสุ่มที่นำไปสู่ผลลัพธ์ที่ไม่สอดคล้องกัน
ภาพลวงตาแห่งการอ้างอิงแหล่งที่มา
ผู้ใช้หลายคนปกป้องระบบ AI โดยชี้ไปที่ความสามารถในการให้การอ้างอิง โดยเฉพาะในโมเดลเช่น Gemini ที่สามารถทำการค้นหาบนเว็บได้ อย่างไรก็ตาม การอภิปรายในชุมชนเผยให้เห็นถึงความแตกต่างที่สำคัญระหว่างการยืนยันแหล่งที่มาแท้จริงกับสิ่งที่กำลังเกิดขึ้นจริง เมื่อระบบ AI อ้างอิงแหล่งที่มา พวกมันมักจะสรุปผลการค้นหา (ซึ่งอาจไม่ถูกต้อง) หรือสร้างการอ้างอิงที่ดูน่าเชื่อถือบนพื้นฐานของรูปแบบในข้อมูลฝึกฝนของพวกมัน
สถานการณ์ยิ่งซับซ้อนมากขึ้นด้วยระบบ Retrieval-Augmented Generation (RAG) ซึ่งข้อมูลภายนอกถูกป้อนเข้าไปในหน้าต่างบริบทของ AI แม้ว่านี่จะช่วยปรับปรุงความถูกต้องได้ แต่ก็ไม่รับประกันว่า AI จะตีความหรือแสดงข้อมูลนั้นอย่างถูกต้อง ดังที่ผู้แสดงความคิดเห็นรายหนึ่งระบุว่า หากผลลัพธ์มาจาก RAG (การค้นหา) แทนที่จะมาจากตัวโมเดลเอง การมีลิงก์เป็นไปได้ แต่ไม่ใช่หากตัวโมเดลสร้างลำดับของคำขึ้นมาเอง
ปัจจัยมนุษย์ต่อความไว้วางใจใน AI
สิ่งที่ทำให้ปัญหาการอ้างอิงของ AI ท้าทายเป็นพิเศษคือวิธีที่มันมีปฏิสัมพันธ์กับจิตวิทยาของมนุษย์ ผู้คนมีแนวโน้มตามธรรมชาติที่จะไว้วางใจคำตอบที่มั่นใจและสื่อสารได้ดี โดยไม่คำนึงถึงความถูกต้องจริงของคำตอบนั้น สิ่งนี้สร้างพายุที่สมบูรณ์แบบซึ่งระบบ AI ที่ถูกปรับให้เหมาะสมสำหรับความชอบของมนุษย์ผลิตคำตอบที่รู้สึกมีอำนาจแม้ในเวลาที่พวกมันถูกสร้างขึ้นมาทั้งหมด
ชุมชนได้สังเกตว่าปัญหานี้ส่งผลกระทบต่อโดเมนต่างๆ ไม่เท่ากัน สำหรับคำถามเชิงข้อเท็จจริงตรงไปตรงมาที่มีข้อมูลฝึกฝนมากมาย ระบบ AI มักจะทำงานได้ค่อนข้างดี อย่างไรก็ตาม สำหรับหัวข้อทางเทคนิคเฉพาะด้าน ข้อเท็จจริงทางประวัติศาสตร์ที่หายาก หรือระบบที่เป็นกรรมสิทธิ์ ความถูกต้องจะลดลงอย่างมาก ดังที่ผู้แสดงความคิดเห็นที่ทำงานกับภาษายุคโบราณระบุ ระบบ AI จะสร้างแหล่งข้อมูลขึ้นอย่างหน้าด้านๆ โดยอ้างคำพูดเหล่านั้นเป็นภาษากรีกหรือละตินสำหรับหัวข้อที่การตรวจสอบยืนยันทำได้ยาก
ข้อสังเกตเกี่ยวกับความแม่นยำเฉพาะด้าน
- ความแม่นยำสูง: คำถามข้อเท็จจริงทั่วไป การแปลภาษา การสร้างโค้ดสำหรับระบบที่มีเอกสารครบถ้วน
- ความแม่นยำปานกลาง: การตีความเอกสารทางเทคนิค การสังเคราะห์ความรู้ทั่วไป
- ความแม่นยำต่ำ: ข้อเท็จจริงทางประวัติศาสตร์เฉพาะทาง ระบบที่เป็นกรรมสิทธิ์ รายละเอียดทางเทคนิคที่ไม่เป็นที่รู้จัก บรรทัดฐานทางกฎหมาย
การเดินทางในความเป็นจริงใหม่
แม้จะมีอุปสรรคเหล่านี้ หลายคนในชุมชนด้านเทคนิคได้พัฒนากลยุทธ์สำหรับการใช้ AI อย่างมีความรับผิดชอบ วิธีการที่พบบ่อยที่สุดเกี่ยวข้องกับการปฏิบัติต่อผลลัพธ์ของ AI เป็นจุดเริ่มต้นสำหรับการตรวจสอบ แทนที่จะเป็นคำตอบสุดท้าย ซึ่งหมายถึงการยืนยันข้อมูลสำคัญผ่านแหล่งที่มาต่างๆ อย่างเป็นอิสระเสมอ และการสงสัยเป็นพิเศษต่อการอ้างอิงที่ตรวจสอบได้ไม่ง่าย
บางองค์กรได้นำนโยบายที่ชัดเจนเกี่ยวกับการใช้ AI มาใช้ โดยเน้นย้ำว่าพนักงานยังคงต้องรับผิดชอบต่องานใดๆ ที่พวกเขาผลิต โดยไม่คำนึงว่าความช่วยเหลือจาก AI จะมีส่วนในการสร้างงานนั้นหรือไม่ ดังที่ผู้แสดงความคิดเห็นรายหนึ่งแนะนำ แนวทางง่ายๆ เช่น คุณสามารถใช้ AI ได้ แต่ในท้ายที่สุดคุณต้องรับผิดชอบต่อสิ่งที่คุณส่งมอบ สามารถช่วยกำหนดความคาดหวังที่เหมาะสมได้โดยไม่ต้องมีข้อจำกัดที่มากเกินไป
วิวัฒนาการของปัญหานี้สะท้อนให้เห็นถึงความท้าทายด้านการรู้เท่าทันอินเทอร์เน็ตในอดีต เช่นเดียวกับที่นักการศึกษาครั้งหนึ่งเคยเตือนนักเรียนไม่ให้อ้างอิง Wikipedia อย่างสุ่มสี่สุ่มห้า ตอนนี้เรากำลังเรียนรู้ว่าระบบ AI ต้องการการมีส่วนร่วมเชิงวิพากษ์ที่คล้ายกัน บทเรียนพื้นฐานยังคงเหมือนเดิม: การเข้าใจว่าข้อมูลมาจากไหนมีความสำคัญไม่น้อยไปกว่าข้อมูลนั้นเอง
ในขณะที่ระบบ AI ยังคงวิวัฒนาการต่อไป ฉันทามติของชุมชนชี้ให้เห็นว่าการแก้ปัญหาไม่ใช่การปฏิเสธเครื่องมือเหล่านี้ทั้งหมด แต่เป็นการพัฒนาวิธีการที่ซับซ้อนมากขึ้นเพื่อประเมินผลลัพธ์ของพวกมัน ซึ่งอาจรวมถึงระบบการตรวจสอบยืนยันที่ดีขึ้น การปรับปรุงความโปร่งใสเกี่ยวกับวิธีการสร้างคำตอบ และการศึกษาอย่างต่อเนื่องเกี่ยวกับข้อจำกัดของเทคโนโลยี AI ในปัจจุบัน เป้าหมายไม่ใช่การกำจัด AI ออกจากขั้นตอนการทำงานของเรา แต่เพื่อบูรณาการมันในวิธีที่ยอมรับทั้งความสามารถและข้อจำกัดที่แท้จริงของมัน
อ้างอิง: But Claude Said...
