DeepSeek-OCR กับการบีบอัด Vision Token ที่อาจปฏิวัติวิธีที่ LLM ประมวลผลข้อความ

ทีมชุมชน BigGo
DeepSeek-OCR กับการบีบอัด Vision Token ที่อาจปฏิวัติวิธีที่ LLM ประมวลผลข้อความ

ในโลกของปัญญาประดิษฐ์ที่พัฒนาอย่างรวดเร็ว แนวทางใหม่ในการจดจำอักขระด้วยแสง (OCR) กำลังสร้างการอภิปรายอย่างมีนัยสำคัญในหมู่ผู้พัฒนาและนักวิจัย DeepSeek-OCR ที่เพิ่งเปิดตัวโดยบริษัท AI ชาวจีนอย่าง DeepSeek ได้นำเสนอแนวคิดที่น่าสนใจ: การมองปัญหาการจดจำข้อความเป็นปัญหาการบีบอัด โดยที่ vision token สามารถแสดงข้อมูลได้มากกว่าตัวโทเค็นข้อความแบบดั้งเดิมอย่างมีนัยสำคัญ มุมมองใหม่นี้ได้จุดประกายการสนทนาเกี่ยวกับธรรมชาติพื้นฐานของวิธีที่แบบจำลองภาษาขนาดใหญ่ประมวลผลข้อมูลภาพและข้อความ

ความก้าวหน้าด้านการบีบอัดที่กำลังเป็นที่พูดถึง

แง่มุมที่ถูกพูดถึงมากที่สุดของ DeepSeek-OCR ในแวดวงเทคนิคไม่ใช่เพียงความสามารถด้าน OCR เท่านั้น แต่ยังรวมถึงแนวทางใหม่ในการแสดงข้อมูล แบบจำลองนี้บรรลุสิ่งที่นักวิจัยเรียกว่าการบีบอัด OCR แบบเกือบไม่สูญเสียข้อมูลที่อัตราประมาณ 10 เท่า ซึ่งหมายความว่า vision token หนึ่งตัวสามารถแสดงเนื้อหาของตัวโทเค็นข้อความประมาณสิบตัวได้อย่างมีประสิทธิภาพ อัตราส่วนการบีบอัดนี้แสดงถึงความก้าวหน้าที่อาจเกิดขึ้นในเรื่องประสิทธิภาพที่ระบบ AI สามารถประมวลผลข้อมูลข้อความจากภาพ

ชุมชนกำลังอภิปรายอย่างแข็งขันว่าทำไมการบีบอัดนี้จึงทำงานได้อย่างมีประสิทธิภาพ ผู้เชี่ยวชาญบางท่านเสนอว่า vision token ซึ่งเป็นเวกเตอร์ค่าต่อเนื่องในพื้นที่ความหมาย โดยธรรมชาติแล้วถือข้อมูลมากกว่าตัวโทเค็นข้อความแบบไม่ต่อเนื่อง ดังที่ผู้แสดงความคิดเห็นหนึ่งคนระบุอย่างมีสติปัญญา ว่า Vision token เป็นตัวกลางการบีบอัดที่ดีเพราะด้วย vision token หนึ่งตัว คุณมีเวกเตอร์หนึ่งตัวที่มีองค์ประกอบ N ตัว แต่ด้วยตัวโทเค็นข้อความ คุณมีเวกเตอร์ M ตัวที่มีองค์ประกอบ N ตัว ความแตกต่างพื้นฐานในการแสดงแสดงนี้ทำให้แบบจำลองสามารถบีบอัดความหมายของหลายคำลงใน vision token เดียวได้ ซึ่งอาจลดความต้องการในการคำนวณสำหรับการประมวลผลเอกสารยาวๆ

ประสิทธิภาพการบีบอัด

  • การบีบอัดแบบเกือบไม่สูญเสียข้อมูลที่อัตราส่วน ~10×
  • การบีบอัด 20× ยังคงความแม่นยำ 60%
  • Vision tokens แทนที่ text tokens หลายตัวได้อย่างมีประสิทธิภาพ

การประยุกต์ใช้จริงและประสิทธิภาพในโลกแห่งความเป็นจริง

เหนือกว่าข้อได้เปรียบด้านการบีบอัดทางทฤษฎี นักพัฒนากำลังสำรวจว่า DeepSeek-OCR ทำหน้าที่อย่างไรในสถานการณ์จริง แบบจำลองนี้รองรับโหมดความละเอียดหลายระดับตั้งแต่ Tiny (512x512) ถึง Large (1280x1280) และแม้แต่โหมด Gundam แบบไดนามิกที่รวมความละเอียดต่างกันเพื่อประสิทธิภาพที่ดีที่สุด ผู้ใช้รุ่นแรกเริ่มได้ทดสอบแบบจำลองกับประเภทเอกสารต่างๆ ตั้งแต่การดึงข้อความธรรมดาไปจนถึงการแปลงตารางที่ซับซ้อนและการสร้างมาร์กดาวน์

การอภิปรายในชุมชนเผยให้เห็นผลลัพธ์ที่หลากหลายแต่โดยทั่วไปเป็นบวกเมื่อเทียบกับโซลูชันที่มีอยู่ ในขณะที่ผู้ใช้บางคนรายงานว่าแบบจำลองวิทัศน์ใดๆ ก็ดีกว่าซอฟต์แวร์ OCR เชิงพาณิชย์ แต่บางคนสังเกตว่าลายทางที่ซับซ้อนยังคงเป็นความท้าทาย ผู้ใช้หนึ่งคนแบ่งปันประสบการณ์ของพวกเขาเกี่ยวกับการดึงตาราง: ตารางที่มีส่วนหัวหลายส่วนและเซลล์ที่รวมกันซึ่งสับสน คอลัมน์หลายคอลัมน์ที่มีช่องติ๊กซึ่งสับสน ตารางหลายหน้าที่ไม่ถูกเข้าใจอย่างถูกต้อง สิ่งนี้ชี้ให้เห็นว่าในขณะที่ DeepSeek-OCR แสดงถึงความก้าวหน้าอย่างมีนัยสำคัญ แต่ยังมีพื้นที่สำหรับการปรับปรุงในการจัดการโครงสร้างเอกสารที่ซับซ้อน

โหมดประสิทธิภาพของ DeepSeek-OCR

  • Tiny: ความละเอียด 512x512 (64 vision tokens)
  • Small: ความละเอียด 640x640 (100 vision tokens)
  • Base: ความละเอียด 1024x1024 (256 vision tokens)
  • Large: ความละเอียด 1280x1280 (400 vision tokens)
  • Gundam: ความละเอียดแบบไดนามิกที่รวม nx640x640 + 1x1024x1024
รูปภาพนี้แสดงให้เห็นขั้นตอนการประมวลผลของเอกสารที่มีเนื้อหาทางคณิตศาสตร์ โดยเน้นการเปลี่ยนแปลงจากเลย์เอาต์ที่ซับซ้อนไปสู่รูปแบบที่ประมวลผลแล้ว ซึ่งเกี่ยวข้องกับประสิทธิภาพการทำงานจริงของ DeepSeek-OCR
รูปภาพนี้แสดงให้เห็นขั้นตอนการประมวลผลของเอกสารที่มีเนื้อหาทางคณิตศาสตร์ โดยเน้นการเปลี่ยนแปลงจากเลย์เอาต์ที่ซับซ้อนไปสู่รูปแบบที่ประมวลผลแล้ว ซึ่งเกี่ยวข้องกับประสิทธิภาพการทำงานจริงของ DeepSeek-OCR

ข้อได้เปรียบของโอเพ่นซอร์สและความสามารถหลายภาษา

ปัจจัยสำคัญที่ขับเคลื่อนความตื่นเต้นในชุมชนคือสัญญา MIT ของ DeepSeek-OCR ซึ่งทำให้สามารถใช้ได้ฟรีสำหรับทั้งการใช้งานเชิงพาณิชย์และการวิจัย แนวทางแบบเปิดนี้ตัดกันกับโซลูชัน OCR เสรีภาพบางตัวและสอดคล้องกับประวัติของ DeepSeek ในการเปิดตัวแบบจำลอง AI แบบโอเพ่นซอร์ส การรองรับหลายภาษาเกือบ 100 ภาษา ในขณะที่ไม่ถูกเน้นย้ำมากนักในเอกสารเริ่มต้น แสดงถึงข้อได้เปรียบที่สำคัญอีกประการหนึ่งสำหรับการประยุกต์ใช้ทั่วโลก

นักพัฒนามีความสนใจเป็นพิเศษในวิธีที่แบบจำลองอาจทำงานกับสคริปต์ที่ไม่ใช่ละติน โดยผู้แสดงความคิดเห็นหนึ่งคนสงสัยว่าข้อความที่เขียนโดยใช้อักขระจีนเข้ากันได้ดีกว่ากับการบีบอัดแบบเน้นวิทัศน์เช่นนี้มากกว่าข้อความละตินหรือไม่ คำถามนี้เกี่ยวข้องกับแง่มุมสำคัญของเทคโนโลยี—ว่าระบบการเขียนบางระบบอาจได้รับประโยชน์จากแนวทาง vision token มากกว่าระบบอื่นๆ หรือไม่ ซึ่งอาจเป็นเพราะเนื้อหาข้อมูลที่หนาแน่นกว่าในระบบการเขียนแบบอักขระ

คุณสมบัติหลัก

  • รองรับหลายภาษาเกือบ 100 ภาษา
  • ใช้สัญญาอนุญาต MIT (เหมาะสำหรับการใช้งานเชิงพาณิชย์)
  • รองรับการประมวลผลเอกสารที่ซับซ้อน รวมถึงตารางและการแปลงเป็น markdown
  • สถาปัตยกรรมและน้ำหนักแบบจำลองเป็นโอเพนซอร์ส

อนาคตของ OCR และความท้าทายที่เหลืออยู่

ในขณะที่การอภิปรายยังคงมีต่อไป หลายธีมปรากฏขึ้นเกี่ยวกับทิศทางของเทคโนโลยี OCR และความท้าทายที่ยังเหลืออยู่ ในขณะที่สมาชิกชุมชนบางคนรู้สึกว่า OCR ได้รับการแก้ไขโดยพื้นฐานแล้วในจุดนี้ คนอื่นๆ ชี้ไปที่พื้นที่เฉพาะที่แบบจำลองในปัจจุบันยังคงต่อสู้อยู่ การจดจำข้อความเขียนด้วยมือ (HTR) ยังคงเป็นเรื่องท้าทายเป็นพิเศษ โดยผู้ใช้หนึ่งคนระบุว่า LLM จะถอดความบันทึกโดยไม่มีปัญหา ผลลัพธ์ดูเหมือนถูกต้องสมบูรณ์... เพียงแต่ข้อความที่ถอดความออกมาไม่เกี่ยวข้องกับบันทึกเฉพาะของฉันเลย

การสนทนายังสัมผัสกับความหมายที่กว้างขึ้นของการบีบอัด vision token สำหรับการพัฒนา AI หาก vision token สามารถแสดงข้อความได้อย่างมีประสิทธิภาพมากขึ้นจริงๆ สิ่งนี้อาจมีอิทธิพลต่อวิธีการออกแบบแบบจำลองหลายรูปแบบในอนาคต ซึ่งอาจนำไปสู่ระบบที่มีประสิทธิภาพในการคำนวณมากขึ้นสำหรับการประมวลผลเอกสารภาพ อย่างไรก็ตาม ความกังวลเกี่ยวกับการหลงผิดและความถูกต้องในการประยุกต์ใช้ที่สำคัญเช่นเอกสารทางกฎหมายหรือบันทึกทางการแพทย์ชี้ให้เห็นว่าการตรวจสอบโดยมนุษย์จะยังคงจำเป็นในอนาคตอันใกล้

เอกสารวิชาการน่าสนใจมากกว่าแค่ VLM อีกตัวสำหรับ OCR พวกเขาเริ่มพูดถึงการบีบอัดและอื่นๆ

การเปิดตัว DeepSeek-OCR แสดงถึงมากกว่าแค่เครื่องมือ OCR อีกตัวหนึ่ง—มันแนะนำวิธีใหม่ในการคิดเกี่ยวกับวิธีการที่ข้อมูลภาพและข้อความสามารถถูกบีบอัดและประมวลผลโดยระบบ AI ในขณะที่ความท้าทายในทางปฏิบัติยังคงอยู่ โดยเฉพาะอย่างยิ่งกับลายทางที่ซับซ้อนและข้อความเขียนด้วยมือ แนวทางการบีบอัด vision token เปิดความเป็นไปได้ที่น่าตื่นเต้นสำหรับการประมวลผลเอกสารที่มีประสิทธิภาพมากขึ้น ในขณะที่นักพัฒนายังคงทดลองและสร้างบนเทคโนโลยีโอเพ่นซอร์สนี้ เรามีแนวโน้มที่จะได้เห็นนวัตกรรมเพิ่มเติมในวิธีที่ AI เข้าใจและประมวลผลเนื้อหาข้อความภายในภาพ

อ้างอิง: DeepSeek-OCR: Contexts Optical Compression