MUVERA บรรลุการลดเวลาแฝงได้ 90% พร้อมปรับปรุงความแม่นยำของการค้นหาแบบ Multi-Vector

ทีมชุมชน BigGo
MUVERA บรรลุการลดเวลาแฝงได้ 90% พร้อมปรับปรุงความแม่นยำของการค้นหาแบบ Multi-Vector

ระบบการดึงข้อมูลแบบ multi-vector มีปัญหาที่ท้าทายมานานในการหาสมดุลระหว่างความแม่นยำและความเร็ว แม้ว่าระบบเหล่านี้จะสามารถจับความสัมพันธ์ที่ซับซ้อนในข้อมูลได้ดีกว่าแนวทางแบบ single-vector แต่ก็มาพร้อมกับต้นทุนการคำนวณที่สูงมาก ทำให้ไม่สามารถนำไปใช้ในการประยุกต์ใช้งานจริงได้หลายกรณี การเปิดตัว MUVERA (Multi-Vector Retrieval via Fixed Dimensional Encodings) ดูเหมือนจะเปลี่ยนแปลงภูมิทัศน์นี้ด้วยการนำเสนอโซลูชันที่ให้ทั้งประสิทธิภาพที่ดีขึ้นและการลดต้นทุนอย่างมากมาย

MUVERA : เกมเชนเจอร์ในด้านประสิทธิภาพและความคุ้มค่าของการค้นคืนข้อมูลแบบหลายเวกเตอร์
MUVERA : เกมเชนเจอร์ในด้านประสิทธิภาพและความคุ้มค่าของการค้นคืนข้อมูลแบบหลายเวกเตอร์

การแก้ปัญหาต้นทุนในระบบ Multi-Vector

ชุมชนมีความสนใจเป็นพิเศษในผลกระทบเชิงปฏิบัติของแนวทาง MUVERA ในการลดต้นทุน ระบบ multi-vector แบบดั้งเดิมเช่น ColBERT สร้าง embedding หนึ่งตัวต่อ token ซึ่งสามารถทำให้มิติข้อมูลขยายตัวจาก 768 มิติที่จัดการได้ไปเป็นมากกว่า 16,000 มิติสำหรับเอกสารที่ยาวขึ้น การเพิ่มขึ้นอย่างมหาศาลของความต้องการในการคำนวณนี้ทำให้แนวทาง multi-vector ไม่สามารถใช้งานได้สำหรับหลายกรณีการใช้งาน แม้จะมีความแม่นยำที่เหนือกว่า

MUVERA แก้ไขปัญหานี้ด้วยการแปลง vector หลายตัวให้เป็น vector มิติคงที่ตัวเดียวที่สามารถทำงานร่วมกับอัลกอริทึม approximate nearest neighbor (ANN) ที่มีอยู่ การเปลี่ยนแปลงนี้ช่วยให้นักพัฒนาสามารถใช้ประโยชน์จากเทคนิคการปรับปรุงและวิธีการ quantization ที่มีอยู่ทั้งหมดเพื่อประหยัดหน่วยความจำ ทำให้แนวทางนี้ใช้งานได้จริงมากกว่าทางเลือกอื่นเช่น PLAID ที่ต้องการโครงสร้าง index เฉพาะ

โมเดล Multi-vector สร้าง embedding หลายตัวต่อคำค้นหาหรือเอกสารเพื่อจับความสัมพันธ์เชิงความหมายที่ซับซ้อน แต่มาพร้อมกับต้นทุนความซับซ้อนในการคำนวณที่เพิ่มขึ้น

การเปรียบเทียบ Multi-Vector กับ Single-Vector:

  • Traditional Single-Vector แบบดั้งเดิม: มีขนาด 768 มิติโดยทั่วไป
  • Multi-Vector (แบบ ColBERT ): 128 × 130 = 16,640 มิติ
  • MUVERA: การเข้ารหัสแบบมิติคงที่ (โดยปกติจะมีขนาดเล็กกว่า multi-vector)
  • ผลกระทบต่อต้นทุน: Multi-vector อาจไม่สามารถใช้งานได้เนื่องจากการเพิ่มขึ้นของมิติอย่างมหาศาล
  • ข้อได้เปรียบของ MUVERA: รักษาความแม่นยำของ multi-vector ไว้ได้พร้อมกับประสิทธิภาพของ single-vector

นวัตกรรมทางเทคนิคผ่านการประมาณค่าที่ชาญฉลาด

นวัตกรรมหลักอยู่ที่แนวทางของ MUVERA ในการประมาณค่าการคำนวณความคล้ายคลึงของ multi-vector ที่ซับซ้อน แทนที่จะทำการดำเนินการ Chamfer matching ที่มีราคาแพงซึ่งต้องการผลคูณเมทริกซ์ ระบบจะสร้าง fixed dimensional encodings (FDEs) ที่รักษาข้อมูลความคล้ายคลึงที่สำคัญในรูปแบบที่กะทัดรัด การอภิปรายในชุมชนเผยให้เห็นว่านี่เป็นแนวทางการจัดกลุ่มที่ซับซ้อนซึ่งแบ่งส่วน token embeddings และเชื่อมต่อผลลัพธ์

สิ่งที่ทำให้น่าสนใจเป็นพิเศษคือการเปลี่ยนแปลง FDE นั้นไม่ขึ้นอยู่กับข้อมูล หมายความว่าไม่ขึ้นอยู่กับชุดข้อมูลเฉพาะ สิ่งนี้ทำให้ระบบมีความแข็งแกร่งต่อการเปลี่ยนแปลงในการกระจายข้อมูลและเหมาะสำหรับการประยุกต์ใช้แบบ streaming รากฐานทางทฤษฎีให้การรับประกันว่าการประมาณค่าจะอยู่ในขอบเขตข้อผิดพลาดที่กำหนด ทำให้นักพัฒนามั่นใจในความน่าเชื่อถือของระบบ

Chamfer matching เป็นวิธีการคำนวณความคล้ายคลึงที่หาความคล้ายคลึงสูงสุดระหว่าง query embedding แต่ละตัวกับ document embedding ที่ใกล้ที่สุด จากนั้นรวมความคล้ายคลึงเหล่านี้ทั่วทุก query vectors

ผลประโยชน์ด้านประสิทธิภาพในโลกแห่งความเป็นจริง

ผลการทดลองแสดงให้เห็นถึงคุณค่าเชิงปฏิบัติของ MUVERA ในหลาย benchmark ระบบบรรลุ recall ที่สูงกว่า 10% เมื่อเปรียบเทียบกับ PLAID พร้อมทั้งลดเวลาแฝงได้ 90% ใน BEIR datasets สิ่งที่สำคัญกว่าสำหรับการประยุกต์ใช้ที่คำนึงถึงต้นทุนคือ FDEs ของ MUVERA สามารถดึงข้อมูลผู้สมัครได้น้อยกว่า 5-20 เท่าเพื่อให้ได้ระดับ recall เดียวกัน ซึ่งแปลเป็นการลดต้นทุนการคำนวณโดยตรง

ระบบยังรองรับการบีบอัดแบบ aggressive ผ่าน product quantization ลดพื้นที่หน่วยความจำได้ 32 เท่าโดยมีผลกระทบต่อคุณภาพการดึงข้อมูลเพียงเล็กน้อย การรวมกันของการปรับปรุงความเร็วและประสิทธิภาพหน่วยความจำทำให้การดึงข้อมูลแบบ multi-vector เข้าถึงได้สำหรับการประยุกต์ใช้และงบประมาณที่หลากหลายมากขึ้น

การปรับปรุงประสิทธิภาพของ MUVERA :

  • ลดความหน่วงเวลาลง 90% เมื่อเปรียบเทียบกับ PLAID
  • ความแม่นยำในการเรียกคืนสูงขึ้น 10%
  • ต้องการผู้สมัครน้อยลง 5-20 เท่าสำหรับระดับการเรียกคืนเดียวกัน
  • ลดการใช้หน่วยความจำลง 32 เท่าด้วยการควอนไทเซชันผลิตภัณฑ์
  • ทำงานร่วมกับอัลกอริทึม ANN มาตรฐาน (ไม่ต้องการโครงสร้างพื้นฐานเฉพาะทาง)
ตัวชี้วัดประสิทธิภาพเปรียบเทียบของ MUVERA กับวิธีการดึงข้อมูลแบบ multi-vector อื่นๆ
ตัวชี้วัดประสิทธิภาพเปรียบเทียบของ MUVERA กับวิธีการดึงข้อมูลแบบ multi-vector อื่นๆ

ผลกระทบที่กว้างขึ้นสำหรับการดึงข้อมูล

การตอบสนองของชุมชนชี้ให้เห็นว่า MUVERA เป็นมากกว่าการปรับปรุงแบบค่อยเป็นค่อยไป ด้วยการทำให้การดึงข้อมูลแบบ multi-vector ใช้งานได้จริงในระดับใหญ่ มันเปิดโอกาสใหม่สำหรับเครื่องมือค้นหา ระบบแนะนำ และการประยุกต์ใช้การประมวลผลภาษาธรรมชาติที่ก่อนหน้านี้ไม่สามารถปรับให้เข้ากับต้นทุนการคำนวณของแนวทาง multi-vector ได้

แนวโน้มการเปลี่ยนจาก mean-pooling แบบง่ายไปสู่กลยุทธ์ embedding ที่ซับซ้อนมากขึ้นดูเหมือนจะเร่งตัวขึ้น โดย MUVERA ให้สะพานเชื่อมที่ทำให้เทคนิคขั้นสูงเหล่านี้คุ้มค่าทางเศรษฐกิจ ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ว่า แนวทางนี้เหนือกว่าทางเลือกอื่นเพราะทำงานร่วมกับอัลกอริทึม ANN มาตรฐานแทนที่จะต้องการโครงสร้างพื้นฐานเฉพาะ

อ้างอิง: MUVERA: Making multi-vector retrieval as fast as single-vector search