LangExtract ของ Google ดึงดูดความสนใจนักพัฒนาด้วยความสามารถในการสกัดข้อความที่อิงแหล่งที่มา

ทีมชุมชน BigGo
LangExtract ของ Google ดึงดูดความสนใจนักพัฒนาด้วยความสามารถในการสกัดข้อความที่อิงแหล่งที่มา

Google ได้เปิดตัว LangExtract ไลบรารี Python ที่ใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่เพื่อสกัดข้อมูลที่มีโครงสร้างจากเอกสารในขณะที่รักษาการอ้างอิงแหล่งที่มาที่แม่นยำ เครื่องมือนี้ได้สร้างการพูดคุยอย่างมีนัยสำคัญในหมู่นักพัฒนาที่เห็นการประยุกต์ใช้ที่มีศักยภาพในหลากหลายสาขา ตั้งแต่การวิเคราะห์เอกสารทางกฎหมายไปจนถึงการประมวลผลบันทึกทางการแพทย์

การเปรียบเทียบกับโซลูชันที่มีอยู่

ชุมชนนักพัฒนาได้เปรียบเทียบ LangExtract กับเครื่องมือที่มีอยู่ในตลาดอย่างรวดเร็ว ทางเลือกอื่นๆ หลายตัวได้เกิดขึ้นในการสนทนา รวมถึง Unstract โซลูชันโอเพนซอร์สที่เสนอความสามารถในการประมวลผลเบื้องต้นผ่าน OCR และเชื่อมต่อกับแหล่งข้อมูลที่มีอยู่เป็นเครื่องมือ ETL จุดเปรียบเทียบอื่นคือไลบรารี LLM ของ Simon Willison ที่รองรับโมเดลหลายสิบตัวผ่านกลไกปลั๊กอินและเสนอความสามารถในการสกัดข้อมูลที่มีโครงสร้างที่คล้ายกัน

จุดแตกต่างหลักดูเหมือนจะเป็นการมุ่งเน้นของ LangExtract ในการอ้างอิงแหล่งที่มา - การแมปทุกการสกัดกลับไปยังตำแหน่งที่แน่นอนในข้อความต้นฉบับ สิ่งนี้ช่วยให้สามารถไฮไลต์ภาพเพื่อการติดตามได้ ซึ่งแก้ไขความท้าทายทั่วไปในเวิร์กโฟลว์การประมวลผลเอกสาร

คุณสมบัติหลัก:

  • การอ้างอิงแหล่งที่มาที่แม่นยำพร้อมการเน้นด้วยภาพ
  • การบังคับใช้โครงสร้างผลลัพธ์
  • การแสดงผล HTML แบบโต้ตอบ
  • รองรับเอกสารขนาดใหญ่ (ทดสอบแล้วกับ 147,000+ ตัวอักษร)
  • ความสามารถในการประมวลผลแบบขนาน
  • การกำหนดสคีมาที่ไม่จำกัดโดเมน

การประยุกต์ใช้จริงในหลากหลายอุตสาหกรรม

ผู้เชี่ยวชาญด้านกฎหมายได้แสดงความสนใจเป็นพิเศษในศักยภาพของเครื่องมือสำหรับงาน due diligence การวิเคราะห์สัญญาในระหว่างการลงทุนหรือการซื้อกิจการโดยทั่วไปต้องการให้ทนายความตรวจสอบเอกสารจำนวนมากด้วยตนเองเพื่อระบุแนวคิดและข้อกำหนดสำคัญ ความสามารถในการแสดงผลลัพธ์การสกัดเป็นภาพสามารถเร่งกระบวนการตรวจสอบได้อย่างมีนัยสำคัญในขณะที่รักษามาตรฐานความแม่นยำ

การประยุกต์ใช้ทางการแพทย์ก็มีบทบาทสำคัญในการสนทนาเช่นกัน แม้ว่านักพัฒนาจะได้รวมข้อจำกัดความรับผิดชอบที่เหมาะสมเกี่ยวกับสถานะปัจจุบันของเครื่องมือในฐานะการสาธิตมากกว่าผลิตภัณฑ์ทางการแพทย์ที่ได้รับการอนุมัติ ไลบรารีรวมตัวอย่างสำหรับการสกัดยาและการจัดโครงสร้างรายงานรังสีวิทยา แสดงให้เห็นถึงศักยภาพในเวิร์กโฟลว์เอกสารด้านสุขภาพ

นี่เหมือนกับจอกศักดิ์สิทธิ์ของการสกัดข้อความแบบกำหนดได้ ฉันจะลองใช้ทันที

การดำเนินการทางเทคนิคและการรองรับโมเดล

LangExtract ปัจจุบันรองรับโมเดลบนคลาวด์เช่น Gemini และโมเดลท้องถิ่นผ่าน Ollama endpoints ไลบรารีใช้เทคนิคการสร้างที่ควบคุมได้เพื่อบังคับใช้สคีมาเอาต์พุตที่สม่ำเสมอ โดยเฉพาะกับโมเดลที่รองรับเช่น Gemini สำหรับนักพัฒนาที่ทำงานกับโมเดลโอเพนซอร์สอื่นๆ ระบบสามารถขยายได้ผ่าน custom inference endpoints

เครื่องมือสร้างการแสดงภาพ HTML แบบโต้ตอบจากข้อมูลที่สกัดได้ ช่วยให้ผู้ใช้สามารถตรวจสอบเอนทิตีหลายพันรายการภายในบริบทดั้งเดิมของพวกเขา องค์ประกอบภาพนี้แก้ไขความท้าทายการหาเข็มในกองฟางที่พบบ่อยในงานประมวลผลเอกสารขนาดใหญ่

โมเดลที่รองรับ:

  • บนคลาวด์: โมเดล Gemini (ต้องใช้ API key)
  • ในเครื่อง: endpoints ของ Ollama
  • สามารถขยายไปยัง APIs ของบุคคลที่สามอื่นๆ ได้
  • API keys สามารถขอรับได้จาก AI Studio หรือ Vertex AI

การบูรณาการกับระบบการจัดการความรู้

จุดสนทนาที่น่าสนใจมุ่งเน้นไปที่ว่า LangExtract เกี่ยวข้องกับแนวทางการจัดการความรู้ที่มีอยู่อย่างไร เวิร์กโฟลว์แบบดั้งเดิมมักใช้ Named Entity Recognition เพื่อสร้างกราฟความรู้ที่เสริม vector embeddings ในระบบ RAG ชุมชนกำลังสำรวจว่า LangExtract สามารถเสริมหรืออาจแทนที่รูปแบบที่ก่อตั้งขึ้นเหล่านี้ได้หรือไม่

ความสามารถของไลบรารีในการประมวลผลเอกสารที่สมบูรณ์โดยตรงจาก URLs ที่สาธิตผ่านตัวอย่าง Romeo and Juliet ที่ประมวลผลอักขระกว่า 147,000 ตัว แสดงให้เห็นถึงความมีแนวโน้มสำหรับเวิร์กโฟลว์การวิเคราะห์เอกสารขนาดใหญ่ ความสามารถนี้ร่วมกับการรองรับการประมวลผลแบบขนาน ทำให้มันอยู่ในตำแหน่งเป็นตัวเลือกที่เป็นไปได้สำหรับงานสกัดข้อความระดับองค์กร

LangExtract แสดงถึงการเข้าสู่พื้นที่การสกัดข้อความที่มีโครงสร้างของ Google โดยเสนอเครื่องมือแก่นักพัฒนาที่สร้างสมดุลระหว่างความแม่นยำในการสกัดกับการติดตามแหล่งที่มา - การผสมผสานที่ดูเหมือนจะสะท้อนกับความต้องการปัจจุบันของชุมชนนักพัฒนา

อ้างอิง: LangExtract