Nanonets-OCR-S เผชิญความขัดแย้งเรื่อง Open Source แม้จะมีคุณสมบัติการประมวลผลเอกสารขั้นสูง

ทีมบรรณาธิการ BigGo
Nanonets-OCR-S เผชิญความขัดแย้งเรื่อง Open Source แม้จะมีคุณสมบัติการประมวลผลเอกสารขั้นสูง

Nanonets ได้เปิดตัว OCR-S ซึ่งเป็นโมเดลภาษาและภาพที่มีพารามิเตอร์ 3 พันล้านตัว ออกแบบมาเพื่อแปลงเอกสารให้อยู่ในรูปแบบ markdown ที่มีโครงสร้าง โมเดลนี้สัญญาว่าจะมีคุณสมบัติขั้นสูงอย่างการจดจำสมการ LaTeX การตรวจจับลายเซ็น และการแยกตารางที่ซับซ้อน อย่างไรก็ตาม การเปิดตัวครั้งนี้ได้จุดประกายการถกเถียงในชุมชนนักพัฒนาเกี่ยวกับการออกใบอนุญาตและการเข้าถึง

ข้อมูลจำเพาะของโมเดล:

  • ขนาดโมเดล: 3 พันล้านพารามิเตอร์
  • โมเดลฐาน: Qwen-2.5-VL-3B
  • ภาษาหลัก: ภาษาอังกฤษ (พร้อมการรองรับภาษาจีนและภาษายุโรปอย่างจำกัด)
  • ใบอนุญาต: Open-weight (ไม่ใช่ open source)
  • ความพร้อมใช้งาน: Hugging Face model hub

ความสับสนระหว่าง Open Source กับ Open Weight

การอภิปรายที่ร้อนแรงที่สุดมุ่งเน้นไปที่ว่า Nanonets-OCR-S เป็น open source จริงหรือไม่ สมาชิกชุมชนได้ชี้ให้เห็นอย่างรวดเร็วว่าโมเดลนี้ดูเหมือนจะมีข้อจำกัดในการออกใบอนุญาตที่ป้องกันไม่ให้จัดประเภทเป็นซอฟต์แวร์ open source ผู้เขียนโมเดลได้ชี้แจงว่าควรพิจารณาให้เป็น open-weight มากกว่า open source ซึ่งหมายความว่าน้ำหนักโมเดลที่ฝึกแล้วสามารถดาวน์โหลดได้ แต่โค้ดการฝึกและกระบวนการพัฒนาทั้งหมดยังคงเป็นกรรมสิทธิ์

ความแตกต่างนี้มีความสำคัญอย่างมากสำหรับนักพัฒนาและองค์กรที่ต้องการเข้าใจสิทธิของตนในการปรับเปลี่ยน กระจาย หรือใช้โมเดลเชิงพาณิชย์ โมเดล open-weight ให้การเข้าถึงพารามิเตอร์ที่ฝึกแล้ว แต่อาจยังคงมีข้อจำกัดในการใช้งาน

ข้อกังวลเรื่องประสิทธิภาพหลายภาษา

สมาชิกชุมชนหลายคนได้ตั้งคำถามเกี่ยวกับประสิทธิภาพของโมเดลกับเอกสารที่ไม่ใช่ภาษาอังกฤษ ผู้เขียนยอมรับว่าแม้โมเดลจะได้รับการฝึกด้วยข้อความภาษาอังกฤษเป็นหลัก แต่ข้อมูลการฝึกก็รวมถึงภาษาจีนและภาษายุโรปในสัดส่วนที่น้อยกว่า โมเดลฐาน Qwen-2.5-VL-3B รองรับหลายภาษา ซึ่งอาจช่วยในการประมวลผลเอกสารระหว่างประเทศ

โมเดลได้รับการฝึกด้วยเอกสารภาษาอังกฤษเป็นหลัก ซึ่งเป็นเหตุผลที่ภาษาอังกฤษถูกระบุเป็นภาษาหลัก อย่างไรก็ตาม ข้อมูลการฝึกก็รวมถึงภาษาจีนและภาษายุโรปต่างๆ ในสัดส่วนที่น้อยกว่า

สำหรับองค์กรที่ประมวลผลเอกสารในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ข้อจำกัดนี้อาจส่งผลกระทบอย่างมีนัยสำคัญต่อประโยชน์ของโมเดลในการใช้งานจริง

ความท้าทายในการประเมินและมาตรฐาน

การขาดมาตรฐานการประเมินสำหรับการแปลงเอกสารเป็น markdown ทำให้การประเมินประสิทธิภาพของโมเดลอย่างเป็นกลางเป็นเรื่องยาก ผู้เขียนอธิบายว่าการประเมินการแปลงภาพเป็น markdown มีความท้าทายเฉพาะตัวเนื่องจากผลลัพธ์ที่ถูกต้องหลายแบบสามารถมีอยู่ได้สำหรับเอกสารอินพุตเดียวกัน ตัวอย่างเช่น เมื่อประมวลผลเอกสารที่มีบล็อกข้อมูลแบบเคียงข้างกัน โมเดลต่างๆ อาจแยกเนื้อหาในลำดับที่แตกต่างกันในขณะที่ทั้งคู่ถูกต้องในทางเทคนิค

ความท้าทายในการประเมินนี้เน้นย้ำถึงปัญหาที่กว้างขึ้นในสาขาการประมวลผลเอกสาร ซึ่งเมตริกความแม่นยำแบบดั้งเดิมอาจไม่สามารถจับความต้องการที่ละเอียดอ่อนของการแปลงเอกสารที่มีโครงสร้าง

การแข่งขันและทางเลือกอื่น

การเปิดตัวนี้เกิดขึ้นพร้อมกับโมเดล OCR อื่นๆ ที่เข้าสู่ตลาด รวมถึง MonkeyOCR ซึ่งใช้การออกใบอนุญาต Apache 2.0 เช่นกัน ช่วงเวลานี้บ่งบอกถึงความสนใจที่เพิ่มขึ้นในโมเดลภาษาและภาพที่เบาและเฉพาะเจาะจงสำหรับงานประมวลผลเอกสาร การแข่งขันอาจผลักดันให้เกิดการปรับปรุงทั้งประสิทธิภาพและความชัดเจนในการออกใบอนุญาตทั่วทั้งสาขา

การอภิปรายในชุมชนเผยให้เห็นว่าแม้ Nanonets-OCR-S จะมีความสามารถทางเทคนิคที่น่าประทับใจ แต่คำถามเกี่ยวกับการออกใบอนุญาต การสนับสนุนหลายภาษา และการประเมินมาตรฐานยังคงเป็นข้อพิจารณาสำคัญสำหรับผู้ใช้ที่มีศักยภาพ องค์กรที่ประเมินโมเดลควรตรวจสอบเงื่อนไขการออกใบอนุญาตอย่างรอบคอบและทดสอบประสิทธิภาพกับประเภทเอกสารและภาษาเฉพาะของตน

อ้างอิง: Nanonets-OCR-S