เครื่องมือแปลง PDF เป็นข้อความใหม่แสดงผลลัพธ์ที่หลากหลาย ขณะที่ผู้ใช้รายงานปัญหาการแปลงและการค้าง

ทีมชุมชน BigGo
เครื่องมือแปลง PDF เป็นข้อความใหม่แสดงผลลัพธ์ที่หลากหลาย ขณะที่ผู้ใช้รายงานปัญหาการแปลงและการค้าง

เครื่องมือโอเพนซอร์สใหม่ที่เรียกว่า llama-scan ได้เปิดตัวขึ้นมา โดยสัญญาว่าจะแปลงเอกสาร PDF เป็นไฟล์ข้อความโดยใช้โมเดล AI ในเครื่อง เครื่องมือนี้ใช้ประโยชน์จากความสามารถแบบ multimodal ของ Ollama ในการประมวลผลเอกสารโดยไม่ต้องใช้บริการคลาวด์หรือค่าใช้จ่าย token อย่างไรก็ตาม ความคิดเห็นจากผู้ใช้ในช่วงแรกเผยให้เห็นการตอบรับที่หลากหลาย โดยมีทั้งผลลัพธ์ที่น่าสนใจและความท้าทายทางเทคนิคที่สำคัญ

ความต้องการของระบบ:

  • Python 3.10+
  • Ollama ติดตั้งและทำงานในเครื่องท้องถิ่น
  • โมเดลเริ่มต้น: qwen2.5vl:latest (ประมาณ 6GB)

ประสิทธิภาพแตกต่างกันอย่างมากตามประเภทเอกสาร

การทดสอบจากชุมชนเผยให้เห็นความแตกต่างที่ชัดเจนในประสิทธิภาพของ llama-scan ขึ้นอยู่กับความซับซ้อนของเอกสาร ในขณะที่ผู้ใช้บางคนรายงานการแปลงที่เกือบสมบูรณ์แบบโดยมีเพียงการละเว้นสัญลักษณ์เล็กน้อย ผู้ใช้คนอื่นๆ ก็พบปัญหาที่ร้ายแรงกว่า ผู้ใช้คนหนึ่งประสบกับความล้มเหลวอย่างสมบูรณ์เมื่อประมวลผลเอกสารที่มีตารางจำนวนมาก โดยได้รับเพียง ! Picture 1: เป็นผลลัพธ์สำหรับทั้งหน้า ผู้ใช้คนเดียวกันรายงานว่าเครื่องมือค้างที่หน้า 17 จากเอกสาร 25 หน้าโดยไม่สามารถกู้คืนได้

แนวทางของเครื่องมือในการแปลงหน้า PDF เป็นภาพก่อนประมวลผลผ่านโมเดลภาษาการมองเห็นนั้นเป็นทั้งจุดแข็งและจุดอ่อน วิธีการนี้ช่วยให้สามารถจัดการกับเลย์เอาต์ที่ซับซ้อนและแม้แต่ข้อความที่เขียนด้วยลายมือ แต่ก็ทำให้มีความเสี่ยงต่อปัญหาการหลอนลวงที่รบกวนโมเดล AI ในปัจจุบัน

ตัวเลือกคำสั่งหลัก:

  • --output, -o: ไดเรกทอรีผลลัพธ์ (ค่าเริ่มต้น: "output")
  • --model, -m: โมเดล Ollama ที่จะใช้ (ค่าเริ่มต้น: "qwen2.5vl:latest")
  • --keep-images, -k: เก็บไฟล์รูปภาพระหว่างกระบวนการ
  • --width, -w: ความกว้างของรูปภาพที่ปรับขนาด (0 เพื่อข้ามการปรับขนาด)
  • --start, -s: หมายเลขหน้าเริ่มต้น
  • --end, -e: หมายเลขหน้าสุดท้าย

การจดจำลายมือแสดงความสามารถที่คาดไม่ถึง

แม้จะมีความกังวลเกี่ยวกับความน่าเชื่อถือของการแปลงข้อความพื้นฐาน llama-scan ได้แสดงความสามารถที่น่าประหลาดใจกับเอกสารที่เขียนด้วยลายมือ เครื่องมือนี้ประมวลผลบันทึกและโน้ตที่เขียนด้วยลายมือได้สำเร็จ เปิดความเป็นไปได้สำหรับการแปลงเอกสารส่วนตัวและเอกสารทางประวัติศาสตร์เป็นดิจิทัล ความสามารถนี้เกิดจากการใช้ Qwen 2.5 VL ซึ่งเป็นโมเดลการมองเห็นที่ได้รับการฝึกฝนเฉพาะเพื่อจดจำข้อความที่เขียนด้วยลายมือ

เวลาในการประมวลผลเอกสารที่เขียนด้วylายมืออาจใช้เวลานาน โดยผู้ใช้รายงานว่าใช้เวลา 5-10 นาทีต่อเอกสารบนฮาร์ดแวร์แล็ปท็อปทั่วไป อย่างไรก็ตาม สำหรับผู้ที่ต้องการหลีกเลี่ยงบริการคลาวด์เพื่อความเป็นส่วนตัวของเอกสารที่มีความละเอียดอ่อน แนวทางการประมวลผลในเครื่องนี้เสนอทางเลือกที่มีค่า

ข้อจำกัดทางเทคนิคและทางเลือกอื่น

การอภิปรายในชุมชนได้เน้นย้ำถึงความท้าทายพื้นฐานในการประมวลผล PDF ที่ขยายไปเกินกว่า llama-scan เอง เอกสาร PDF สามารถมีภาพที่ฝังอยู่ เลย์เอาต์ที่ซับซ้อน และรูปแบบการเข้ารหัสต่างๆ ที่ทำให้การแยกข้อความที่เชื่อถือได้เป็นเรื่องยากอย่างมีชื่อเสียง โซลูชัน OCR แบบดั้งเดิมเช่น Tesseract และ ocrmypdf ยังคงให้ผลลัพธ์ที่คาดเดาได้มากกว่าสำหรับเอกสารข้อความมาตรฐาน

ทั้งหมดขึ้นอยู่กับขนาดที่คุณต้องการ ด้วย API มันง่ายที่จะสร้าง token หลายล้านโดยไม่ต้องคิด

ผู้ใช้หลายคนได้ชี้ไปยังทางเลือกที่มีอยู่แล้ว รวมถึง Docling จาก IBM, Marker กับ Surya OCR และเครื่องมือเฉพาะทางเช่นโมเดล nanonets-ocr-s โซลูชันเหล่านี้มักจะให้การจัดการตารางและเลย์เอาต์ที่ซับซ้อนได้แข็งแกร่งกว่า แม้ว่าอาจขาดข้อได้เปรียบในการประมวลผลในเครื่องที่ llama-scan เสนอ

การพึ่งพา PyMuPDF ของเครื่องมือซึ่งมีใบอนุญาต AGPL ยังทำให้เกิดข้อพิจารณาสำหรับกรณีการใช้งานเชิงพาณิชย์ ผู้ใช้ที่วางแผนจะรวม llama-scan เข้ากับซอฟต์แวร์ที่เป็นกรรมสิทธิ์จะต้องตรวจสอบผลกระทบด้านใบอนุญาตอย่างรอบคอบ

ในขณะที่ llama-scan แสดงถึงแนวทางที่น่าสนใจสำหรับการประมวลผล PDF ในเครื่อง ประสบการณ์ของผู้ใช้ในปัจจุบันชี้ให้เห็นว่ามันทำงานได้ดีที่สุดเป็นเครื่องมือเฉพาะทางสำหรับกรณีการใช้งานเฉพาะมากกว่าตัวแปลง PDF อเนกประสงค์ ลักษณะโอเพนซอร์สของโครงการหมายความว่าปัญหาเหล่านี้อาจได้รับการแก้ไขผ่านการมีส่วนร่วมของชุมชน แต่ผู้ใช้ที่มีศักยภาพควรทดสอบอย่างละเอียดกับประเภทเอกสารเฉพาะของตนก่อนที่จะพึ่งพาสำหรับเวิร์กโฟลว์ที่สำคัญ

อ้างอิง: llama-scan