Nanonets ได้เปิดตัว OCR-S ซึ่งเป็นโมเดลภาษาและภาพที่มีพารามิเตอร์ 3 พันล้านตัว ออกแบบมาเพื่อแปลงเอกสารให้อยู่ในรูปแบบ markdown ที่มีโครงสร้าง โมเดลนี้สัญญาว่าจะมีคุณสมบัติขั้นสูงอย่างการจดจำสมการ LaTeX การตรวจจับลายเซ็น และการแยกตารางที่ซับซ้อน อย่างไรก็ตาม การเปิดตัวครั้งนี้ได้จุดประกายการถกเถียงในชุมชนนักพัฒนาเกี่ยวกับการออกใบอนุญาตและการเข้าถึง
ข้อมูลจำเพาะของโมเดล:
- ขนาดโมเดล: 3 พันล้านพารามิเตอร์
- โมเดลฐาน: Qwen-2.5-VL-3B
- ภาษาหลัก: ภาษาอังกฤษ (พร้อมการรองรับภาษาจีนและภาษายุโรปอย่างจำกัด)
- ใบอนุญาต: Open-weight (ไม่ใช่ open source)
- ความพร้อมใช้งาน: Hugging Face model hub
ความสับสนระหว่าง Open Source กับ Open Weight
การอภิปรายที่ร้อนแรงที่สุดมุ่งเน้นไปที่ว่า Nanonets-OCR-S เป็น open source จริงหรือไม่ สมาชิกชุมชนได้ชี้ให้เห็นอย่างรวดเร็วว่าโมเดลนี้ดูเหมือนจะมีข้อจำกัดในการออกใบอนุญาตที่ป้องกันไม่ให้จัดประเภทเป็นซอฟต์แวร์ open source ผู้เขียนโมเดลได้ชี้แจงว่าควรพิจารณาให้เป็น open-weight มากกว่า open source ซึ่งหมายความว่าน้ำหนักโมเดลที่ฝึกแล้วสามารถดาวน์โหลดได้ แต่โค้ดการฝึกและกระบวนการพัฒนาทั้งหมดยังคงเป็นกรรมสิทธิ์
ความแตกต่างนี้มีความสำคัญอย่างมากสำหรับนักพัฒนาและองค์กรที่ต้องการเข้าใจสิทธิของตนในการปรับเปลี่ยน กระจาย หรือใช้โมเดลเชิงพาณิชย์ โมเดล open-weight ให้การเข้าถึงพารามิเตอร์ที่ฝึกแล้ว แต่อาจยังคงมีข้อจำกัดในการใช้งาน
ข้อกังวลเรื่องประสิทธิภาพหลายภาษา
สมาชิกชุมชนหลายคนได้ตั้งคำถามเกี่ยวกับประสิทธิภาพของโมเดลกับเอกสารที่ไม่ใช่ภาษาอังกฤษ ผู้เขียนยอมรับว่าแม้โมเดลจะได้รับการฝึกด้วยข้อความภาษาอังกฤษเป็นหลัก แต่ข้อมูลการฝึกก็รวมถึงภาษาจีนและภาษายุโรปในสัดส่วนที่น้อยกว่า โมเดลฐาน Qwen-2.5-VL-3B รองรับหลายภาษา ซึ่งอาจช่วยในการประมวลผลเอกสารระหว่างประเทศ
โมเดลได้รับการฝึกด้วยเอกสารภาษาอังกฤษเป็นหลัก ซึ่งเป็นเหตุผลที่ภาษาอังกฤษถูกระบุเป็นภาษาหลัก อย่างไรก็ตาม ข้อมูลการฝึกก็รวมถึงภาษาจีนและภาษายุโรปต่างๆ ในสัดส่วนที่น้อยกว่า
สำหรับองค์กรที่ประมวลผลเอกสารในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ข้อจำกัดนี้อาจส่งผลกระทบอย่างมีนัยสำคัญต่อประโยชน์ของโมเดลในการใช้งานจริง
ความท้าทายในการประเมินและมาตรฐาน
การขาดมาตรฐานการประเมินสำหรับการแปลงเอกสารเป็น markdown ทำให้การประเมินประสิทธิภาพของโมเดลอย่างเป็นกลางเป็นเรื่องยาก ผู้เขียนอธิบายว่าการประเมินการแปลงภาพเป็น markdown มีความท้าทายเฉพาะตัวเนื่องจากผลลัพธ์ที่ถูกต้องหลายแบบสามารถมีอยู่ได้สำหรับเอกสารอินพุตเดียวกัน ตัวอย่างเช่น เมื่อประมวลผลเอกสารที่มีบล็อกข้อมูลแบบเคียงข้างกัน โมเดลต่างๆ อาจแยกเนื้อหาในลำดับที่แตกต่างกันในขณะที่ทั้งคู่ถูกต้องในทางเทคนิค
ความท้าทายในการประเมินนี้เน้นย้ำถึงปัญหาที่กว้างขึ้นในสาขาการประมวลผลเอกสาร ซึ่งเมตริกความแม่นยำแบบดั้งเดิมอาจไม่สามารถจับความต้องการที่ละเอียดอ่อนของการแปลงเอกสารที่มีโครงสร้าง
การแข่งขันและทางเลือกอื่น
การเปิดตัวนี้เกิดขึ้นพร้อมกับโมเดล OCR อื่นๆ ที่เข้าสู่ตลาด รวมถึง MonkeyOCR ซึ่งใช้การออกใบอนุญาต Apache 2.0 เช่นกัน ช่วงเวลานี้บ่งบอกถึงความสนใจที่เพิ่มขึ้นในโมเดลภาษาและภาพที่เบาและเฉพาะเจาะจงสำหรับงานประมวลผลเอกสาร การแข่งขันอาจผลักดันให้เกิดการปรับปรุงทั้งประสิทธิภาพและความชัดเจนในการออกใบอนุญาตทั่วทั้งสาขา
การอภิปรายในชุมชนเผยให้เห็นว่าแม้ Nanonets-OCR-S จะมีความสามารถทางเทคนิคที่น่าประทับใจ แต่คำถามเกี่ยวกับการออกใบอนุญาต การสนับสนุนหลายภาษา และการประเมินมาตรฐานยังคงเป็นข้อพิจารณาสำคัญสำหรับผู้ใช้ที่มีศักยภาพ องค์กรที่ประเมินโมเดลควรตรวจสอบเงื่อนไขการออกใบอนุญาตอย่างรอบคอบและทดสอบประสิทธิภาพกับประเภทเอกสารและภาษาเฉพาะของตน
อ้างอิง: Nanonets-OCR-S