Visual Document RAG แสดงศักยภาพแต่เผชิญความท้าทายในการขยายขนาด ขณะที่นักพัฒนาแบ่งปันประสบการณ์จริง

ทีมชุมชน BigGo
Visual Document RAG แสดงศักยภาพแต่เผชิญความท้าทายในการขยายขนาด ขณะที่นักพัฒนาแบ่งปันประสบการณ์จริง

ชุมชนเทคโนโลยีกำลังหารือกันอย่างคึกคักเกี่ยวกับระบบการค้นหาเอกสารแบบภาพที่ประมวลผลเอกสารในรูปแบบภาพแทนที่จะแยกข้อความผ่านวิธี OCR แบบดั้งเดิม ในขณะที่บริษัทอย่าง Morphik โปรโมตแนวทางนี้ว่าเป็นการปฏิวัติ นักพัฒนาที่ได้นำระบบคล้ายกันไปใช้งานจริงกำลังแบ่งปันประสบการณ์ที่หลากหลาย ซึ่งเผยให้เห็นทั้งศักยภาพและข้อจำกัดของเทคโนโลยีนี้

เอกสารหลายหน้าก่อให้เกิดปัญหาความแม่นยำร้ายแรง

การทดสอบในโลกจริงได้เปิดเผยจุดอ่อนสำคัญในการประมวลผลเอกสารแบบภาพ นักพัฒนารายงานว่าแม้การแยกข้อมูลหน้าเดียวจะทำงานได้ดี แต่ความแม่นยำจะลดลงอย่างรวดเร็วเมื่อต้องจัดการกับเอกสารที่ยาวกว่าห้าหน้า ข้อจำกัดนี้เกิดจากความท้าทายพื้นฐานของการจดจำบริบทยาวผ่านภาพ ซึ่งยังคงยากกว่าการจดจำแบบข้อความอย่างมีนัยสำคัญแม้สำหรับโมเดลภาษาขั้นสูง

ปัญหานี้กลายเป็นเรื่องที่มีปัญหาเป็นพิเศษสำหรับเอกสารที่ซับซ้อนอย่างสัญญากฎหมายหรือคู่มือทางเทคนิค ซึ่งข้อมูลกระจายอยู่หลายสิบหน้าและส่วนต่างๆ อ้างอิงถึงกันตลอดทั้งเอกสาร ในกรณีเหล่านี้ แนวทางแบบข้อความดั้งเดิมมักจะพิสูจน์ให้เห็นว่าเชื่อถือได้มากกว่าวิธีแบบภาพ

ความท้าทายทางเทคนิค:

  • ความคลุมเครือของตัวอักษร: 0 กับ O, l กับ I ในฟอนต์หลายแบบ
  • การจดจำบริบทยาว: รูปภาพยากกว่าข้อความสำหรับ LLMs
  • ภาระขนาดไฟล์: การดาวน์โหลดที่ใหญ่ขึ้นเพิ่มความล่าช้าของคำขอ
  • การประมวลผลหลายหน้า: ความแม่นยำลดลงอย่างมีนัยสำคัญ

การแลกเปลี่ยนต้นทุนและประสิทธิภาพสร้างความกังวล

ความต้องการในการคำนวณของการประมวลผลเอกสารแบบภาพสร้างภาระเพิ่มเติมอย่างมากเมื่อเปรียบเทียบกับระบบแบบข้อความ ภาพต้องการโทเค็นมากกว่าข้อความดิบ 3 ถึง 5 เท่าเมื่อประมวลผลในความละเอียดที่อ่านได้ ส่งผลให้ต้นทุนการอนุมานสูงขึ้นและเวลาตอบสนองช้าลง นอกจากนี้ ขนาดไฟล์ที่ใหญ่กว่ายังเพิ่มความล่าช้าให้กับทุกคำขอเพียงแค่จากการดาวน์โหลดภาพที่จำเป็น

ความท้าทายด้านประสิทธิภาพเหล่านี้จะชัดเจนมากขึ้นในระดับขนาดใหญ่ ซึ่งความแตกต่างระหว่างการประมวลผลข้อความและภาพสามารถส่งผลกระทบอย่างมีนัยสำคัญต่อการตอบสนองของระบบและต้นทุนการดำเนินงาน

การเปรียบเทียบประสิทธิภาพ:

  • การประมวลผลภาพ: ใช้ token มากกว่าข้อความดิบ 3-5 เท่า
  • การปรับปรุงความล่าช้าของการสืบค้น: 3-4 วินาที → 50ms (เมื่อมีการปรับปรุง)
  • การลดลงของความแม่นยำ: ลดลงอย่างรวดเร็วหลังจากเอกสารที่มีมากกว่า 5 หน้า
  • ผลกระทบต่อต้นทุน: ต้นทุนการประมวลผลสูงขึ้นเนื่องจากการใช้ token เพิ่มขึ้น

แนวทางแบบผสมผสานแสดงศักยภาพสำหรับการประยุกต์ใช้จริง

นักพัฒนาหลายคนประสบความสำเร็จกับวิธีการแบบผสมผสานที่รวมจุดแข็งของทั้งสองแนวทาง กลยุทธ์ที่มีประสิทธิภาพอย่างหนึ่งเกี่ยวข้องกับการใช้โมเดลการมองเห็นเพื่อแปลงภาพเอกสารเป็นข้อความที่มีโครงสร้างพร้อมการมาร์กอัปเชิงความหมาย จากนั้นใช้ข้อความที่ปรับปรุงแล้วนั้นสำหรับการดำเนินงาน RAG แบบดั้งเดิม ขณะเดียวกันก็เก็บภาพต้นฉบับไว้สำหรับการวิเคราะห์รายละเอียดเมื่อจำเป็น

สิทธิบัตรเป็นเรื่องยากเนื่องจากสามารถรวมทุกอย่างตั้งแต่แผนภาพนามธรรม สูตรเคมี ไปจนถึงสมการทางคณิตศาสตร์ ดังนั้นจึงมีแนวโน้มที่จะยุ่งยากจริงๆ ในการเตรียมข้อมูลในลักษณะที่ภายหลังสามารถใช้โดย LLM ได้

แนวทางนี้แก้ไขความท้าทายหลักในการรักษาข้อมูลภาพขณะรักษาประสิทธิภาพและความสามารถในการขยายขนาดของระบบแบบข้อความ

กรณีการใช้งานที่เหมาะสมที่สุด:

  • เอกสารทางการเงินที่มีแผนภูมิและตาราง
  • คู่มือทางเทคนิคที่มีแผนภาพประกอบคำอธิบาย
  • สิทธิบัตรที่มีองค์ประกอบภาพที่ซับซ้อน
  • เอกสารหน้าเดียวที่มีเลย์เอาต์ที่หลากหลาย
  • เอกสารที่บริบททางภาพมีความสำคัญ

การจดจำตัวอักษรยังคงเป็นปัญหาพื้นฐาน

ปัญหาที่ยังคงอยู่กับการประมวลผลเอกสารแบบภาพเกี่ยวข้องกับการแยกแยะระหว่างตัวอักษรที่ดูคล้ายกันทางสายตา ในฟอนต์หลายตัว ตัวอักษรอย่าง 0 และ O หรือ l และ I ดูเหมือนกันทุกประการ ทำให้แม้แต่มนุษย์ก็ไม่สามารถแยกแยะได้อย่างเชื่อถือได้ สิ่งนี้สร้างความท้าทายเป็นพิเศษสำหรับเอกสารที่มีหมายเลขซีเรียล รหัส หรือข้อมูลตัวเลขและตัวอักษรสำคัญอื่นๆ ที่ความแม่นยำเป็นสิ่งจำเป็น

แม้ว่าระบบ OCR แบบดั้งเดิมจะเผชิญความท้าทายคล้ายกัน แต่มักจะรวมกลไกบริบทและการตรวจสอบเพิ่มเติมที่สามารถช่วยแก้ไขตัวอักษรที่คลุมเครือได้

สรุป

Visual Document RAG เป็นตัวแทนของความก้าวหน้าที่น่าสนใจในเทคโนโลยีการประมวลผลเอกสาร โดยเฉพาะสำหรับเอกสารที่มีแผนภูมิ ไดอะแกรม และเลย์เอาต์ที่ซับซ้อนเป็นจำนวนมาก อย่างไรก็ตาม การอภิปรายของชุมชนเผยให้เห็นว่าไม่ใช่โซลูชันสากล เทคโนโลยีนี้ทำงานได้ดีที่สุดสำหรับกรณีการใช้งานเฉพาะที่เกี่ยวข้องกับเอกสารหน้าเดียวหรือสั้นที่มีเนื้อหาภาพที่หลากหลาย ขณะที่แนวทางแบบข้อความดั้งเดิมยังคงเหนือกว่าสำหรับเอกสารที่ยาวขึ้นและเน้นข้อความ เมื่อเทคโนโลยีเติบโตขึ้น แนวทางแบบผสมผสานที่ใช้ประโยชน์จากจุดแข็งของทั้งสองวิธีอาจเสนอเส้นทางที่ปฏิบัติได้มากที่สุดสำหรับระบบการผลิต

อ้างอิง: Don't bother parsing: Just use images for RAG