เทคนิค LLM-Deflate ถูกวิพากษ์วิจารณ์เรื่องการสะสมของภาพหลอนและขาดการตรวจสอบความถูกต้อง

ทีมชุมชน BigGo
เทคนิค LLM-Deflate ถูกวิพากษ์วิจารณ์เรื่องการสะสมของภาพหลอนและขาดการตรวจสอบความถูกต้อง

เทคนิคใหม่ที่เรียกว่า LLM-Deflate อ้างว่าสามารถดึงชุดข้อมูลที่มีโครงสร้างออกจากโมเดลภาษาที่ผ่านการฝึกแล้ว โดยการย้อนกลับกระบวนการบีบอัดของพวกมัน อย่างไรก็ตาม วิธีการนี้กำลังได้รับความสงสัยจากชุมชน AI เนื่องจากข้อกังวลพื้นฐานเกี่ยวกับคุณภาพข้อมูลและการตรวจสอบความถูกต้อง

กระบวนการทางเทคนิค:

  • ใช้การสำรวจหัวข้อแบบลำดับชั้นโดยเริ่มต้นจากหมวดหมู่กว้าง ๆ
  • สร้างหัวข้อย่อยที่เฉพาะเจาะจงมากขึ้นแบบเรียกซ้ำในโครงสร้างแบบต้นไม้
  • ต้องการการเรียกใช้การอนุมานของโมเดลหลายพันครั้งต่อหัวข้อ
  • สกัดทั้งความรู้เชิงข้อเท็จจริงและรูปแบบการใช้เหตุผล

การสะสมของภาพหลอนทำให้เกิดข้อกังวลเรื่องคุณภาพ

การวิพากษ์วิจารณ์หลักมุ่งเน้นไปที่วิธีการที่ข้อผิดพลาดสะสมกันในระหว่างกระบวนการสร้างแบบเรียกซ้ำ เทคนิคนี้ใช้การสำรวจหัวข้อแบบลำดับชั้น ซึ่งแต่ละขั้นตอนการสร้างจะสร้างบนพื้นฐานของผลลัพธ์ก่อนหน้า นักวิจารณ์กังวลว่าสิ่งนี้จะสร้างผลกระทบแบบน้ำตก ที่ความไม่แม่นยำเล็กน้อยจะเติบโตเป็นการบิดเบือนอย่างมีนัยสำคัญเมื่อระบบเคลื่อนลึกเข้าไปในต้นไม้หัวข้อ

สมาชิกในชุมชนชี้ให้เห็นว่าแตกต่างจากการแปลงทางคณิตศาสตร์ที่มีคำจำกัดความชัดเจนเช่นการบีบอัด JPEG โมเดลภาษาเกี่ยวข้องกับการแปลงแบบไม่เชิงเส้นหลายชั้นที่ทำให้การแพร่กระจายของข้อผิดพลาดยากต่อการทำนายหรือควบคุม ความไม่แน่นอนนี้ทำให้การประเมินความน่าเชื่อถือของข้อมูลที่ดึงออกมาเป็นเรื่องท้าทาย โดยเฉพาะในกิ่งที่ลึกกว่าของลำดับชั้นหัวข้อ

ข้อจำกัดหลักที่ระบุได้:

  • การสะสมของภาพลวงตาในการสร้างแบบเรียกซ้ำ
  • ไม่มีกลไกการตรวจสอบความถูกต้องสำหรับความรู้ที่สกัดออกมา
  • ต้นทุนการคำนวณที่สูงสำหรับการครอบคลุมอย่างครอบคลุม
  • คุณภาพที่อาจเสื่อมโทรมในสาขาหัวข้อที่ลึกขึ้น

กรอบการตรวจสอบที่ขาดหายไปทำลายข้อเรียกร้อง

ข้อกังวลสำคัญอีกประการหนึ่งคือการขาดหายไปของหลักฐานว่าการคลายการบีบอัดที่มีความหมายได้เกิดขึ้นจริง เทคนิคนี้สร้างชุดข้อมูลจากโมเดลโอเพนซอร์สสามตัว คือ Qwery-Coder , GPT-OS และ Llama 2 แต่ไม่มีกลไกการตรวจสอบเพื่อยืนยันว่าความรู้ที่ดึงออกมาแสดงถึงข้อมูลการฝึกต้นฉบับอย่างแม่นยำ

ไม่มีหลักฐานว่ามีสิ่งใดถูกคลายการบีบอัด

ชุมชนสังเกตว่าแม้ว่าการเปรียบเทียบการคลายการบีบอัดจะน่าสนใจ แต่โมเดลภาษาเป็นระบบการบีบอัดแบบสูญเสียโดยพื้นฐาน ไม่เหมือนกับการบีบอัดแบบไม่สูญเสียที่สามารถสร้างข้อมูลต้นฉบับใหม่ได้อย่างสมบูรณ์แบบ LLM จะทิ้งข้อมูลที่ไม่ช่วยในการทำนายโทเค็นถัดไปในระหว่างการฝึก

โมเดลที่ทำการทดสอบ:

  • Qwery-Coder : เชี่ยวชาญด้านการสร้างโค้ดและงานด้านการเขียนโปรแกรม
  • GPT-OS : โมเดลภาษาอเนกประสงค์
  • Llama 2 : ปรับแต่งเพื่อการทำตามคำสั่ง
  • แต่ละโมเดลสร้างตัวอย่างการฝึกอบรมที่มีโครงสร้างมากกว่า 10,000 ตัวอย่าง

ข้อจำกัดในทางปฏิบัติและข้อกังวลเรื่องต้นทุน

เทคนิคนี้ต้องการการเรียกใช้โมเดลหลายพันครั้งต่อหัวข้อ ทำให้มีต้นทุนการคำนวณสูงแม้จะมีโครงสร้างพื้นฐานที่ปรับให้เหมาะสม สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสามารถในการขยายขนาดในทางปฏิบัติ โดยเฉพาะเมื่อพิจารณาถึงศักยภาพของผลตอบแทนที่ลดลงเมื่อระบบสำรวจหัวข้อย่อยที่แคบลงเรื่อยๆ

นักวิจัยบางคนแนะนำว่าการทำซ้ำรอบการฝึกบนข้อมูลที่ดึงออกมาแล้วดึงอีกครั้งอาจนำไปสู่การเสื่อมสภาพอย่างรวดเร็ว คล้ายกับการถ่ายสำเนาซ้ำๆ ที่ในที่สุดจะผลิตผลลัพธ์ที่ใช้ไม่ได้ อย่างไรก็ตาม การทำการทดลองดังกล่าวจะมีต้นทุนสูงเกินไป

แนวทางทางเลือกแสดงให้เห็นความหวัง

แม้จะมีการวิพากษ์วิจารณ์การดึงข้อมูลจากโมเดลอย่างเดียว ชุมชนเห็นคุณค่าในแนวทางแบบผสมผสานที่รวมการสร้าง LLM เข้ากับการตรวจสอบภายนอก วิธีการเหล่านี้เกี่ยวข้องกับการสร้างเนื้อหาจากโมเดล แต่จากนั้นจะตรวจสอบความแม่นยำผ่านการรันโค้ด แหล่งภายนอก หรือข้อเสนอแนะจากมนุษย์ แทนที่จะพึ่งพาความรู้ภายในของโมเดลเพียงอย่างเดียว

การอภิปรายนี้เน้นย้ำถึงความท้าทายที่กว้างขึ้นในการวิจัย AI คือการแยกแยะระหว่างการดึงความรู้ที่แท้จริงกับการจับคู่รูปแบบที่ซับซ้อนซึ่งอาจไม่สะท้อนถึงความเข้าใจที่แท้จริงหรือการเก็บรักษาข้อมูลที่แม่นยำ

อ้างอิง: LLM-Deflate: Extracting LLMs Into Datasets