ชุมชนปัญญาประดิษฐ์กำลังมีการโต้เถียงอย่างเข้มข้นเกี่ยวกับอนาคตของ Retrieval Augmented Generation ( RAG ) โดยนักพัฒนาบางคนอ้างว่า AI agents และการขยาย context windows กำลังทำให้ระบบ RAG แบบดั้งเดิมล้าสมัย การอภิปรายนี้มุ่งเน้นไปที่ว่าเครื่องมือง่ายๆ เช่น grep ร่วมกับโมเดลภาษาขนาดใหญ่สามารถทดแทนระบบ embedding และ vector database ที่ซับซ้อนได้หรือไม่
องค์ประกอบของ RAG Pipeline แบบดั้งเดิม:
- การรับข้อมูลเข้าและการทำความสะอาดข้อมูล
- การแบ่งส่วน (การแบ่งข้อมูลออกเป็นชิ้นเล็กๆ)
- การฝังตัว (การแปลงเป็นการแสดงแทนด้วยเวกเตอร์)
- การจัดเก็บในฐานข้อมูลเวกเตอร์
- การค้นหาและเรียกข้อมูล
- การจัดอันดับใหม่เพื่อความเกี่ยวข้อง
- การสร้างพรอมต์
ปัญหาการขยายขนาดแบ่งความคิดเห็น
ประเด็นหลักที่เป็นที่ถกเถียงกันคือข้อจำกัดในการขยายขนาด ผู้วิจารณ์โต้แย้งว่าแม้แนวทางที่ใช้ grep จะทำงานได้ดีกับฐานโค้ดขนาดเล็กที่มีไฟล์หลายพันไฟล์ แต่จะล้มเหลวเมื่อต้องจัดการกับคอลเลกชันเอกสารระดับองค์กรที่มีไฟล์หลายล้านไฟล์ ปัญหาพื้นฐานคือ grep ทำการจับคู่คำหลักที่ตรงกันทุกตัวอักษร ซึ่งจะล้มเหลวเมื่อผู้ใช้ค้นหาแนวคิดโดยใช้คำศัพท์ที่แตกต่างจากที่ปรากฏในเอกสาร
ตอนอย่าง การค้นหา revenue growth drivers จะไม่พบเอกสารที่กล่าวถึงปัจจัยที่ส่งผลต่อการเพิ่มขึ้นของยอดขาย ซึ่งเป็นปัญหาการไม่ตรงกันของคำศัพท์ที่ semantic embeddings ถูกออกแบบมาเพื่อแก้ไข ข้อจำกัดนี้กลายเป็นปัญหาเฉพาะในสภาพแวดล้อมองค์กรที่เอกสารใช้ภาษาที่หลากหลายและมีการสืบค้นเชิงแนวคิดเป็นเรื่องปกติ
ความท้าทายด้านประสิทธิภาพในโลกแห่งความจริง
ผู้ปฏิบัติงานในอุตสาหกรรมรายงานผลลัพธ์ที่หลากหลายเมื่อนำแนวทางใหม่เหล่านี้มาใช้ นักพัฒนาบางคนชื่นชมความเรียบง่ายของการค้นหา grep แบบวนซ้ำ ที่ AI agents ค้นพบคำค้นหาใหม่จากผลลัพธ์เริ่มต้นและทำซ้ำกระบวนการ อย่างไรก็ตาม คนอื่นๆ ชี้ให้เห็นว่าแนวทางนี้มีค่าใช้จ่ายในการคำนวณสูงและช้าเมื่อต้องจัดการกับคอลเลกชันเอกสารขนาดใหญ่และผู้ใช้หลายคนพร้อมกัน
ปัจจัยด้านต้นทุนมีความสำคัญอย่างมาก การประมวลผล token หลายพันล้านผ่านโมเดลภาษาขนาดใหญ่อาจส่งผลให้ต้นทุนการอนุมานสูงถึงหลายพันดอลลาร์สหรัฐสำหรับการสืบค้นครั้งเดียว ทำให้ไม่สามารถใช้งานได้ทางเศรษฐกิจสำหรับกรณีการใช้งานหลายๆ กรณี นอกจากนี้ เวลาที่ต้องใช้สำหรับการค้นหาแบบ agentic ซึ่งอาจเกี่ยวข้องกับการเรียกใช้ฟังก์ชัน 20-30 ครั้งต่อการสืบสวนหนึ่งครั้ง ทำให้ช้ากว่าแนวทาง RAG แบบดั้งเดิม แม้ว่าผลลัพธ์อาจแม่นยำกว่าก็ตาม
การเปรียบเทียบประสิทธิภาพ:
- วิธีการแบบ Grep: รวดเร็วสำหรับชุดข้อมูลขนาดเล็ก (ไฟล์หลายพันไฟล์) แต่มีปัญหาในการทำความเข้าใจเชิงความหมาย
- Traditional RAG: จับคู่เชิงความหมายได้ดี แต่การบำรุงรักษา pipeline ซับซ้อน
- Agentic search: ให้ผลลัพธ์ที่เหนือกว่า แต่ใช้ function calls มากกว่า 20-30 เท่า ค่าใช้จ่ายสูงกว่า
- ระบบแบบผสม: สมดุลระหว่างการทำความเข้าใจเชิงความหมายและประสิทธิภาพการประมวลผล
แนวทางผสมผสานที่เป็นจุดกึ่งกลาง
นักพัฒนาหลายคนพบความสำเร็จกับแนวทางผสมผสานที่รวมสิ่งที่ดีที่สุดจากทั้งสองโลก ระบบเหล่านี้ใช้ semantic search สำหรับการค้นพบเอกสารเบื้องต้น ในขณะที่ใช้ประโยชน์จาก context windows ขนาดใหญ่เพื่อประมวลผลไฟล์ทั้งหมดแทนที่จะเป็นชิ้นเล็กๆ แนวทางนี้รักษาความสามารถในการเข้าใจความหมายของ embeddings ในขณะที่ใช้ประโยชน์จากความสามารถของโมเดลภาษาที่ปรับปรุงแล้ว
การค้นหาแบบ Agentic ด้วยเครื่องมือพื้นฐานเพียงไม่กี่อย่าง (ที่มาจาก BM25 , semantic search , tags , SQL , knowledge graph และฟังก์ชันการดึงข้อมูลแบบกำหนดเองอีกไม่กี่อย่าง) ทำลาย RAG ได้อย่างสิ้นเชิงในประสบการณ์ของฉัน
อุตสาหกรรมก่อสร้างเป็นตัวอย่างที่น่าสนใจของความท้าทายเหล่านี้ บริษัทที่ประมวลผลเอกสารประกวดราคามักต้องจัดการกับไฟล์แต่ละไฟล์ที่มี token หลายพันล้าน ซึ่งเกินความสามารถของ context window ปัจจุบันอย่างมากและส่งผลให้มีต้นทุนการประมวลผลที่สูงเกินไป
ความสามารถของ Agentic Search:
- การเรียก API และการท่องเว็บ
- การคำนวณทางคณิตศาสตร์
- การสร้างและวางแผนเวิร์กโฟลว์
- การดำเนินงานด้วย LLM หลายตัว
- การใช้เหตุผลแบบเรียลไทม์เหนือข้อมูลที่ดึงมา
- การปรับปรุงการค้นหาแบบวนซ้ำ
อนาคตของการดึงข้อมูล
การโต้เถียงนี้สะท้อนแนวโน้มที่กว้างขึ้นในการพัฒนา AI ที่ความสามารถใหม่ทำให้วิธีการแก้ไขปัญหาแบบเดิมล้าสมัย เมื่อ context windows ขยายตัวและต้นทุนของโมเดลลดลง แนวทางที่เรียบง่ายกว่าจึงมีความเป็นไปได้มากขึ้น อย่างไรก็ตาม การเปลี่ยนแปลงนี้ไม่เหมือนกันในทุกกรณีการใช้งาน
การค้นหาโค้ดได้กลายเป็นเรื่องราวความสำเร็จในช่วงแรกสำหรับแนวทางที่ใช้ agent เป็นหลัก ส่วนใหญ่เพราะฐานโค้ดมีคำศัพท์และโครงสร้างที่สม่ำเสมอกว่า การค้นหาเอกสารในสภาพแวดล้อมองค์กรที่มีภาษาหลากหลายและการสืบค้นที่ซับซ้อนยังคงเป็นความท้าทายมากกว่าสำหรับวิธีการที่ใช้คำหลักแบบง่ายๆ
การอภิปรายยังเน้นความกังวลเกี่ยวกับความน่าเชื่อถือและความปลอดภัยของระบบ agentic ซึ่งนำความซับซ้อนเพิ่มเติมและจุดล้มเหลวที่อาจเกิดขึ้นเมื่อเปรียบเทียบกับระบบการดึงข้อมูลแบบดั้งเดิม นักพัฒนาบางคนกังวลเกี่ยวกับการละทิ้งแนวปฏิบัติทางวิศวกรรมที่พิสูจน์แล้วเพื่อใช้แนวทางที่ขับเคลื่อนด้วย AI ที่คาดเดาได้น้อยกว่า
แม้ว่า RAG อาจไม่ตาย แต่ก็กำลังพัฒนาอย่างชัดเจน ระบบที่ประสบความสำเร็จมากที่สุดน่าจะเป็นระบบที่รวมเทคนิคการดึงข้อมูลแบบดั้งเดิมกับความสามารถ AI ใหม่อย่างรอบคอบ แทนที่จะแทนที่อันหนึ่งด้วยอีกอันหนึ่งอย่างสมบูรณ์ การโต้เถียงยังคงดำเนินต่อไปในขณะที่นักพัฒนาทำงานเพื่อหาสมดุลที่เหมาะสมระหว่างความเรียบง่าย ประสิทธิภาพ และความน่าเชื่อถือสำหรับกรณีการใช้งานเฉพาะของพวกเขา
อ้างอิง: The RAG Obituary: Killed by Agents, Buried by Context Windows