เทคนิคใหม่ที่เรียกว่า LLM-Deflate อ้างว่าสามารถดึงชุดข้อมูลที่มีโครงสร้างออกจากโมเดลภาษาที่ผ่านการฝึกแล้ว โดยการย้อนกลับกระบวนการบีบอัดของพวกมัน อย่างไรก็ตาม วิธีการนี้กำลังได้รับความสงสัยจากชุมชน AI เนื่องจากข้อกังวลพื้นฐานเกี่ยวกับคุณภาพข้อมูลและการตรวจสอบความถูกต้อง
กระบวนการทางเทคนิค:
- ใช้การสำรวจหัวข้อแบบลำดับชั้นโดยเริ่มต้นจากหมวดหมู่กว้าง ๆ
- สร้างหัวข้อย่อยที่เฉพาะเจาะจงมากขึ้นแบบเรียกซ้ำในโครงสร้างแบบต้นไม้
- ต้องการการเรียกใช้การอนุมานของโมเดลหลายพันครั้งต่อหัวข้อ
- สกัดทั้งความรู้เชิงข้อเท็จจริงและรูปแบบการใช้เหตุผล
การสะสมของภาพหลอนทำให้เกิดข้อกังวลเรื่องคุณภาพ
การวิพากษ์วิจารณ์หลักมุ่งเน้นไปที่วิธีการที่ข้อผิดพลาดสะสมกันในระหว่างกระบวนการสร้างแบบเรียกซ้ำ เทคนิคนี้ใช้การสำรวจหัวข้อแบบลำดับชั้น ซึ่งแต่ละขั้นตอนการสร้างจะสร้างบนพื้นฐานของผลลัพธ์ก่อนหน้า นักวิจารณ์กังวลว่าสิ่งนี้จะสร้างผลกระทบแบบน้ำตก ที่ความไม่แม่นยำเล็กน้อยจะเติบโตเป็นการบิดเบือนอย่างมีนัยสำคัญเมื่อระบบเคลื่อนลึกเข้าไปในต้นไม้หัวข้อ
สมาชิกในชุมชนชี้ให้เห็นว่าแตกต่างจากการแปลงทางคณิตศาสตร์ที่มีคำจำกัดความชัดเจนเช่นการบีบอัด JPEG โมเดลภาษาเกี่ยวข้องกับการแปลงแบบไม่เชิงเส้นหลายชั้นที่ทำให้การแพร่กระจายของข้อผิดพลาดยากต่อการทำนายหรือควบคุม ความไม่แน่นอนนี้ทำให้การประเมินความน่าเชื่อถือของข้อมูลที่ดึงออกมาเป็นเรื่องท้าทาย โดยเฉพาะในกิ่งที่ลึกกว่าของลำดับชั้นหัวข้อ
ข้อจำกัดหลักที่ระบุได้:
- การสะสมของภาพลวงตาในการสร้างแบบเรียกซ้ำ
- ไม่มีกลไกการตรวจสอบความถูกต้องสำหรับความรู้ที่สกัดออกมา
- ต้นทุนการคำนวณที่สูงสำหรับการครอบคลุมอย่างครอบคลุม
- คุณภาพที่อาจเสื่อมโทรมในสาขาหัวข้อที่ลึกขึ้น
กรอบการตรวจสอบที่ขาดหายไปทำลายข้อเรียกร้อง
ข้อกังวลสำคัญอีกประการหนึ่งคือการขาดหายไปของหลักฐานว่าการคลายการบีบอัดที่มีความหมายได้เกิดขึ้นจริง เทคนิคนี้สร้างชุดข้อมูลจากโมเดลโอเพนซอร์สสามตัว คือ Qwery-Coder , GPT-OS และ Llama 2 แต่ไม่มีกลไกการตรวจสอบเพื่อยืนยันว่าความรู้ที่ดึงออกมาแสดงถึงข้อมูลการฝึกต้นฉบับอย่างแม่นยำ
ไม่มีหลักฐานว่ามีสิ่งใดถูกคลายการบีบอัด
ชุมชนสังเกตว่าแม้ว่าการเปรียบเทียบการคลายการบีบอัดจะน่าสนใจ แต่โมเดลภาษาเป็นระบบการบีบอัดแบบสูญเสียโดยพื้นฐาน ไม่เหมือนกับการบีบอัดแบบไม่สูญเสียที่สามารถสร้างข้อมูลต้นฉบับใหม่ได้อย่างสมบูรณ์แบบ LLM จะทิ้งข้อมูลที่ไม่ช่วยในการทำนายโทเค็นถัดไปในระหว่างการฝึก
โมเดลที่ทำการทดสอบ:
- Qwery-Coder : เชี่ยวชาญด้านการสร้างโค้ดและงานด้านการเขียนโปรแกรม
- GPT-OS : โมเดลภาษาอเนกประสงค์
- Llama 2 : ปรับแต่งเพื่อการทำตามคำสั่ง
- แต่ละโมเดลสร้างตัวอย่างการฝึกอบรมที่มีโครงสร้างมากกว่า 10,000 ตัวอย่าง
ข้อจำกัดในทางปฏิบัติและข้อกังวลเรื่องต้นทุน
เทคนิคนี้ต้องการการเรียกใช้โมเดลหลายพันครั้งต่อหัวข้อ ทำให้มีต้นทุนการคำนวณสูงแม้จะมีโครงสร้างพื้นฐานที่ปรับให้เหมาะสม สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสามารถในการขยายขนาดในทางปฏิบัติ โดยเฉพาะเมื่อพิจารณาถึงศักยภาพของผลตอบแทนที่ลดลงเมื่อระบบสำรวจหัวข้อย่อยที่แคบลงเรื่อยๆ
นักวิจัยบางคนแนะนำว่าการทำซ้ำรอบการฝึกบนข้อมูลที่ดึงออกมาแล้วดึงอีกครั้งอาจนำไปสู่การเสื่อมสภาพอย่างรวดเร็ว คล้ายกับการถ่ายสำเนาซ้ำๆ ที่ในที่สุดจะผลิตผลลัพธ์ที่ใช้ไม่ได้ อย่างไรก็ตาม การทำการทดลองดังกล่าวจะมีต้นทุนสูงเกินไป
แนวทางทางเลือกแสดงให้เห็นความหวัง
แม้จะมีการวิพากษ์วิจารณ์การดึงข้อมูลจากโมเดลอย่างเดียว ชุมชนเห็นคุณค่าในแนวทางแบบผสมผสานที่รวมการสร้าง LLM เข้ากับการตรวจสอบภายนอก วิธีการเหล่านี้เกี่ยวข้องกับการสร้างเนื้อหาจากโมเดล แต่จากนั้นจะตรวจสอบความแม่นยำผ่านการรันโค้ด แหล่งภายนอก หรือข้อเสนอแนะจากมนุษย์ แทนที่จะพึ่งพาความรู้ภายในของโมเดลเพียงอย่างเดียว
การอภิปรายนี้เน้นย้ำถึงความท้าทายที่กว้างขึ้นในการวิจัย AI คือการแยกแยะระหว่างการดึงความรู้ที่แท้จริงกับการจับคู่รูปแบบที่ซับซ้อนซึ่งอาจไม่สะท้อนถึงความเข้าใจที่แท้จริงหรือการเก็บรักษาข้อมูลที่แม่นยำ