ชุดเครื่องมือใหม่ที่อ้างว่าสามารถทำนายและลด AI hallucination ได้ ก่อให้เกิดการถกเถียงอย่างรุนแรงในชุมชนนักพัฒนา โดยหลายคนตั้งคำถามเกี่ยวกับรากฐานทางวิทยาศาสตร์และประสิทธิภาพในทางปฏิบัติ
Hallucination Risk Calculator & Prompt Re-engineering Toolkit สัญญาว่าจะช่วยนักพัฒนาระบุเมื่อโมเดลภาษาขนาดใหญ่อาจสร้างข้อมูลเท็จ เครื่องมือนี้ใช้กรอบทางคณิตศาสตร์อย่าง Expectation-Level Decomposition Law และทำงานเฉพาะกับ API ของ OpenAI เพื่อวิเคราะห์ prompt และการตอบสนอง
ข้อกำหนดการติดตั้ง
- การติดตั้งแพ็กเกจ Python ผ่าน pip
- จำเป็นต้องมี API key ของ OpenAI
- รองรับโมเดล GPT-3.5-turbo และ GPT-4
- ตัวเลือกการติดตั้งหลากหลาย: Python , Streamlit , Electron app , PyInstaller executable
รากฐานทางวิชาการที่น่าสงสัยทำให้เกิดสัญญาณเตือน
สมาชิกในชุมชนค้นพบความไม่สอดคล้องกันอย่างมีนัยสำคัญในการสนับสนุนการวิจัยที่โครงการอ้าง ชุดเครื่องมือนี้อ้างอิงถึงเอกสารที่มีชื่อว่า Compression Failure in LLMs: Bayesian in Expectation, Not in Realization ที่ถูกกล่าวว่าตีพิมพ์ใน NeurIPS 2024 แต่ไม่มีเอกสารดังกล่าวที่มีชื่อเรื่องตรงกันนี้ เมื่อนักพัฒนาพบเอกสารที่เกี่ยวข้องใน arXiv พวกเขาสังเกตเห็นว่าเอกสารนั้นใช้โมเดล AI ที่ล้าสมัยอย่าง text-davinci-002 ซึ่งถูกยกเลิกไปแล้วในปี 2023
เป็นเรื่องที่บ่งบอกว่าทั้ง repository และเอกสารที่เชื่อมโยงไม่มีการสาธิตเชิงประจักษ์แม้แต่ครั้งเดียวเกี่ยวกับความสามารถในการทำนาย hallucination
แนวทางทางคณิตศาสตร์เองก็ถูกวิพากษ์วิจารณ์ที่พึ่งพาแนวคิดอย่าง Kolmogorov complexity และ Solomonoff induction ซึ่งเป็นกรอบทฤษฎีที่ไม่สามารถคำนวณได้จริงในทางปฏิบัติ ทำให้การใช้งานในระบบที่ทำงานจริงเป็นที่น่าสงสัย
องค์ประกอบของกรอบการทำงานทางเทคนิค
- กฎหมายการแยกส่วนระดับความคาดหวัง ( Expectation-Level Decomposition Law หรือ EDL ) สำหรับการคำนวณความเสี่ยง
- อัตราส่วนความเพียงพอของข้อมูล ( Information-Sufficiency Ratio หรือ ISR ) สำหรับการควบคุมการตัดสินใจ
- โหมดการใช้งานสองแบบ: Evidence-Robust และ Closed-Book
- ใช้ OpenAI Chat Completions API เท่านั้น
- ต้องการตัวอย่าง 5-10 ชิ้นเพื่อให้ได้ผลลัพธ์ที่เสถียร
ปัญหา Hallucination ในโลกจริงยังคงมีอยู่
การอภิปรายนี้ได้เน้นให้เห็นถึงความท้าทายที่ยังคงมีอยู่ที่นักพัฒนาเผชิญกับเนื้อหาที่สร้างโดย AI ผู้ใช้แบ่งปันประสบการณ์ของโมเดล AI ที่ทำข้อผิดพลาดเล็กน้อยแต่สำคัญ เช่น การเปลี่ยนตัวเลขสุ่มในไฟล์ข้อมูลหรือให้คำตอบที่มั่นใจแต่ไม่ถูกต้อง ปัญหาเหล่านี้เกิดขึ้นแม้กับโมเดลขั้นสูงและอาจยากต่อการตรวจจับหากไม่มีการตรวจสอบอย่างระมัดระวัง
นักพัฒนาบางคนประสบความสำเร็จกับแนวทางที่เรียบง่ายกว่า เช่น การให้ AI เขียนโค้ดเพื่อแปลงข้อมูลแทนที่จะทำการแปลงโดยตรง หรือการใช้เทคนิคการตรวจสอบตนเองที่ AI ตรวจสอบการตอบสนองของตัวเองเพื่อหาข้อผิดพลาดที่อาจเกิดขึ้น
ลักษณะประสิทธิภาพ
- เวลาแฝง: 2-5 วินาทีต่อเหตุการณ์
- อัตรา API: 2-4 คำขอต่อวินาที
- ต้นทุน: ประมาณ $0.0115 USD ต่อรายการเมื่อใช้ GPT-4-turbo
- ความแม่นยำ: อ้างว่าใช้ Wilson-Bounded ที่ระดับความเชื่อมั่น 95%
ชุมชนแสวงหาโซลูชันที่ใช้งานได้จริง
แม้ว่าแนวทางของชุดเครื่องมือนี้อาจมีข้อบกพร่อง แต่ก็สะท้อนถึงความต้องการที่แท้จริงในชุมชนการพัฒนา AI สำหรับวิธีที่ดีกว่าในการระบุผลลัพธ์ที่ไม่น่าเชื่อถือ นักพัฒนากำลังทดลองกับเทคนิคต่าง ๆ ตั้งแต่กลยุทธ์การสร้าง prompt ที่ดีขึ้น ไปจนถึงระบบที่อิงจากชื่อเสียงและแนวทางการติดป้ายเนื้อหา
การถกเถียงนี้เน้นย้ำถึงความท้าทายที่กว้างขึ้นในการพัฒนา AI คือ การแยกแยะระหว่างความก้าวหน้าในการวิจัยที่ถูกต้องกับเครื่องมือที่อาจซ่อนอยู่หลังสัญลักษณ์และภาษาที่หนาแน่นโดยไม่ให้คุณค่าที่แท้จริง เมื่อระบบ AI ถูกนำไปใช้งานอย่างแพร่หลายมากขึ้น ความจำเป็นในการมีวิธีการตรวจจับ hallucination ที่เชื่อถือได้จึงกลายเป็นสิ่งสำคัญอย่างยิ่งสำหรับการรักษาความไว้วางใจและความปลอดภัยในแอปพลิเคชัน AI
อ้างอิง: Hallucination Risk Calculator & Prompt Re-engineering Toolkit (OpenAI-only)