Reranker ที่ได้แรงบันดาลใจจากหมากรุกของ ZeroEntropy จุดประกายการอภิปรายเรื่องวิธีการให้คะแนนแบบเปรียบเทียบคู่กับแบบสัมบูรณ์

ทีมชุมชน BigGo

Reranker ที่ได้แรงบันดาลใจจากหมากรุกของ ZeroEntropy จุดประกายการอภิปรายเรื่องวิธีการให้คะแนนแบบเปรียบเทียบคู่กับแบบสัมบูรณ์

ZeroEntropy สตาร์ทอัพจาก YC W23 เพิ่งเปิดตัวโมเดล rerank-v3 ที่ใช้หลักการให้คะแนน Elo จากหมากรุกเพื่อปรับปรุงความแม่นยำของผลการค้นหา การประกาศนี้ได้จุดประกายการอภิปรายทางเทคนิคอย่างมากในชุมชนนักพัฒนา โดยเฉพาะเรื่องความท้าทายพื้นฐานของการให้คะแนนความเกี่ยวข้องของเอกสาร

แนวทางของบริษัทแก้ไขปัญหาหลักในระบบค้นหา นั่นคือวิธีการวัดความเกี่ยวข้องของเอกสารกับคำค้นหาของผู้ใช้อย่างแม่นยำ วิธีการแบบดั้งเดิมจะขอให้มนุษย์หรือระบบ AI กำหนดคะแนนสัมบูรณ์ (เช่น ให้คะแนน 7 จาก 10) แต่วิธีนี้สร้างข้อมูลที่ไม่สอดคล้องกันและมีสัญญาณรบกวน

ข้อได้เปรียบของการเปรียบเทียบแบบคู่

สมาชิกชุมชนแสดงความสนใจอย่างมากต่อการเปลี่ยนแปลงของ ZeroEntropy จากการให้คะแนนแบบสัมบูรณ์เป็นการเปรียบเทียบแบบคู่ แทนที่จะถามว่า เอกสารนี้มีความเกี่ยวข้องมากแค่ไหน? ระบบของพวกเขาจะถามว่า เอกสารใดในสองเอกสารนี้มีความเกี่ยวข้องมากกว่ากัน? แนวทางนี้ดูเหมือนจะให้ผลลัพธ์ที่สอดคล้องกันมากกว่า

นักพัฒนาหลายคนในการอภิปรายได้แบ่งปันประสบการณ์ที่คล้ายกันกับวิธีการแบบคู่ คนหนึ่งกล่าวว่าเมื่อใช้โมเดลภาษาขนาดใหญ่เป็นผู้ตัดสินด้วยเกณฑ์ที่กำหนดเอง แนวทางการตัดสินแบบไบนารีทำงานได้ดีกว่าการพยายามได้คะแนนตัวเลขมาก เหตุผลง่าย ๆ คือการเปรียบเทียบสองสิ่งโดยตรงง่ายกว่าสำหรับมนุษย์และ AI มากกว่าการกำหนดค่าสัมบูรณ์แยกต่างหาก

ชุมชนเทคนิคยังเน้นว่าการเปรียบเทียบแบบคู่ใช้สมมติฐานน้อยกว่าเกี่ยวกับโครงสร้างข้อมูลพื้นฐาน ทำให้แข็งแกร่งกว่าสำหรับการใช้งานในโลกจริง

การเปรียบเทียบทางเทคนิค: การให้คะแนนแบบเปรียบเทียบคู่ เทียบกับ การให้คะแนนแบบสัมบูรณ์

การให้คะแนนแบบสัมบูรณ์: กำหนดค่าตัวเลข (0-1) ให้กับเอกสารแต่ละฉบับ
การให้คะแนนแบบเปรียบเทียบคู่: เปรียบเทียบเอกสารสองฉบับโดยตรงเพื่อดูความเกี่ยวข้องเชิงเปรียบเทียบ
ความแม่นยำ: ความเห็นพ้องต้องกันของ LLM กับมนุษย์มากกว่า 95% เทียบกับระบบจัดอันดับใหม่แบบดั้งเดิม 60-70%
การลดสัญญาณรบกวน: การเปรียบเทียบแบบคู่ช่วยลดความแปรปรวนในการตัดสินใจได้อย่างมีนัยสำคัญ

แนวทางทางเลือกและรากฐานทางคณิตศาสตร์

การอภิปรายได้เปิดเผยวิธีการทางเลือกหลายแบบที่นักพัฒนากำลังสำรวจ สมาชิกชุมชนบางคนชี้ไปที่อัลกอริธึมการเรียงลำดับ 2AFC (Two-Alternative Forced Choice) เป็นอีกหนึ่งวิธีแก้ปัญหาเดียวกัน วิธีนี้ซึ่งพัฒนาขึ้นเดิมสำหรับการประเมินภาพทางการแพทย์ ใช้การเรียงลำดับแบบเปรียบเทียบแทนการคำนวณ Elo

AFC แก้ไขทั้งหมดนั้น โอเค คุณให้คะแนนขนม 8/10 ตามอะไร? แล้วพวกเขากลับไปพูดว่า 'จริง ๆ แล้วฉันจะเปลี่ยนเป็น 7'

ทีมของ ZeroEntropy ให้ข้อมูลเชิงลึกโดยละเอียดเกี่ยวกับแนวทางทางคณิตศาสตร์ของพวกเขา อธิบายว่าระบบของพวกเขาสร้างแบบจำลองคะแนนความเกี่ยวข้องพื้นฐานสำหรับแต่ละเอกสาร จากนั้นคำนึงถึงสัญญาณรบกวนตามธรรมชาติที่เกิดขึ้นเมื่อทำการตัดสิน พวกเขาใช้ Maximum Likelihood Estimation เพื่อหาคะแนนที่ซ่อนอยู่ที่มีความน่าจะเป็นสูงสุดที่อธิบายการตั้งค่าแบบคู่ที่สังเกตได้

ภาพรวมของกระบวนการฝึกอบรม

การสุ่มตัวอย่าง Triplet โดยใช้ 500 triplet แบบสุ่มต่อหนึ่งคำค้นหา
การฝึกอบรม Pairwise reranker โดยใช้ ensemble ของ 3 LLMs
การคำนวณคะแนน Elo (n=100 เอกสารต่อหนึ่งคำค้นหา)
การฝึกอบรม Pointwise reranker ด้วย MSE loss
การปรับแต่งด้วย Reinforcement learning

ประสิทธิภาพและการใช้งานจริง

การอภิปรายของชุมชนได้สัมผัสกับข้อกังวลการนำไปใช้จริง โดยเฉพาะเรื่องความล่าช้าและการสนับสนุนหลายภาษา ZeroEntropy รายงานว่า reranker ของพวกเขาประมวลผลประมาณ 12,665 ไบต์ในเวลาประมาณ 149 มิลลิวินาที ซึ่งดูเหมือนจะแข่งขันได้กับโซลูชันที่มีอยู่

นักพัฒนาหลายคนได้แบ่งปันประสบการณ์ของตนเองในการใช้แนวทาง reranking ที่คล้ายกันสำหรับแอปพลิเคชันต่าง ๆ ตั้งแต่การกรองการสรรหาบุคลากรไปจนถึงการตลาดขาออกแบบเย็น กรณีการใช้งานในโลกจริงเหล่านี้แสดงให้เห็นถึงการใช้งานที่กว้างขึ้นของวิธีการเปรียบเทียบแบบคู่นอกเหนือจากสถานการณ์การค้นหาแบบดั้งเดิม

การถกเถียงทางเทคนิครอบแนวทางของ ZeroEntropy สะท้อนการเปลี่ยนแปลงที่กว้างขึ้นในวิธีที่นักพัฒนาคิดเกี่ยวกับการให้คะแนนความเกี่ยวข้อง เมื่อระบบค้นหาซับซ้อนมากขึ้น ชุมชนดูเหมือนจะสนใจมากขึ้นในวิธีการที่สามารถจับความชอบที่ละเอียดอ่อนในขณะที่รักษาประสิทธิภาพการคำนวณ ระบบ Elo ที่ได้แรงบันดาลใจจากหมากรุกแสดงถึงทิศทางที่มีแนวโน้มดีหนึ่งทิศทาง แม้ว่าการอภิปรายจะแนะนำว่ามีแนวทางที่เป็นไปได้หลายแบบกำลังเกิดขึ้นในพื้นที่นี้

หมายเหตุ: Elo หมายถึงระบบการให้คะแนนที่สร้างโดย Arpad Elo ไม่ใช่ตัวย่อ 2AFC ย่อมาจาก Two-Alternative Forced Choice วิธีการที่ผู้ทดสอบต้องเลือกระหว่างตัวเลือกสองตัวเท่านั้น

อ้างอิง: Improving Retrieval with ELO Scores

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌