ZeroEntropy สตาร์ทอัพจาก YC W23 เพิ่งเปิดตัวโมเดล rerank-v3 ที่ใช้หลักการให้คะแนน Elo จากหมากรุกเพื่อปรับปรุงความแม่นยำของผลการค้นหา การประกาศนี้ได้จุดประกายการอภิปรายทางเทคนิคอย่างมากในชุมชนนักพัฒนา โดยเฉพาะเรื่องความท้าทายพื้นฐานของการให้คะแนนความเกี่ยวข้องของเอกสาร
แนวทางของบริษัทแก้ไขปัญหาหลักในระบบค้นหา นั่นคือวิธีการวัดความเกี่ยวข้องของเอกสารกับคำค้นหาของผู้ใช้อย่างแม่นยำ วิธีการแบบดั้งเดิมจะขอให้มนุษย์หรือระบบ AI กำหนดคะแนนสัมบูรณ์ (เช่น ให้คะแนน 7 จาก 10) แต่วิธีนี้สร้างข้อมูลที่ไม่สอดคล้องกันและมีสัญญาณรบกวน
ข้อได้เปรียบของการเปรียบเทียบแบบคู่
สมาชิกชุมชนแสดงความสนใจอย่างมากต่อการเปลี่ยนแปลงของ ZeroEntropy จากการให้คะแนนแบบสัมบูรณ์เป็นการเปรียบเทียบแบบคู่ แทนที่จะถามว่า เอกสารนี้มีความเกี่ยวข้องมากแค่ไหน? ระบบของพวกเขาจะถามว่า เอกสารใดในสองเอกสารนี้มีความเกี่ยวข้องมากกว่ากัน? แนวทางนี้ดูเหมือนจะให้ผลลัพธ์ที่สอดคล้องกันมากกว่า
นักพัฒนาหลายคนในการอภิปรายได้แบ่งปันประสบการณ์ที่คล้ายกันกับวิธีการแบบคู่ คนหนึ่งกล่าวว่าเมื่อใช้โมเดลภาษาขนาดใหญ่เป็นผู้ตัดสินด้วยเกณฑ์ที่กำหนดเอง แนวทางการตัดสินแบบไบนารีทำงานได้ดีกว่าการพยายามได้คะแนนตัวเลขมาก เหตุผลง่าย ๆ คือการเปรียบเทียบสองสิ่งโดยตรงง่ายกว่าสำหรับมนุษย์และ AI มากกว่าการกำหนดค่าสัมบูรณ์แยกต่างหาก
ชุมชนเทคนิคยังเน้นว่าการเปรียบเทียบแบบคู่ใช้สมมติฐานน้อยกว่าเกี่ยวกับโครงสร้างข้อมูลพื้นฐาน ทำให้แข็งแกร่งกว่าสำหรับการใช้งานในโลกจริง
การเปรียบเทียบทางเทคนิค: การให้คะแนนแบบเปรียบเทียบคู่ เทียบกับ การให้คะแนนแบบสัมบูรณ์
- การให้คะแนนแบบสัมบูรณ์: กำหนดค่าตัวเลข (0-1) ให้กับเอกสารแต่ละฉบับ
- การให้คะแนนแบบเปรียบเทียบคู่: เปรียบเทียบเอกสารสองฉบับโดยตรงเพื่อดูความเกี่ยวข้องเชิงเปรียบเทียบ
- ความแม่นยำ: ความเห็นพ้องต้องกันของ LLM กับมนุษย์มากกว่า 95% เทียบกับระบบจัดอันดับใหม่แบบดั้งเดิม 60-70%
- การลดสัญญาณรบกวน: การเปรียบเทียบแบบคู่ช่วยลดความแปรปรวนในการตัดสินใจได้อย่างมีนัยสำคัญ
แนวทางทางเลือกและรากฐานทางคณิตศาสตร์
การอภิปรายได้เปิดเผยวิธีการทางเลือกหลายแบบที่นักพัฒนากำลังสำรวจ สมาชิกชุมชนบางคนชี้ไปที่อัลกอริธึมการเรียงลำดับ 2AFC (Two-Alternative Forced Choice) เป็นอีกหนึ่งวิธีแก้ปัญหาเดียวกัน วิธีนี้ซึ่งพัฒนาขึ้นเดิมสำหรับการประเมินภาพทางการแพทย์ ใช้การเรียงลำดับแบบเปรียบเทียบแทนการคำนวณ Elo
AFC แก้ไขทั้งหมดนั้น โอเค คุณให้คะแนนขนม 8/10 ตามอะไร? แล้วพวกเขากลับไปพูดว่า 'จริง ๆ แล้วฉันจะเปลี่ยนเป็น 7'
ทีมของ ZeroEntropy ให้ข้อมูลเชิงลึกโดยละเอียดเกี่ยวกับแนวทางทางคณิตศาสตร์ของพวกเขา อธิบายว่าระบบของพวกเขาสร้างแบบจำลองคะแนนความเกี่ยวข้องพื้นฐานสำหรับแต่ละเอกสาร จากนั้นคำนึงถึงสัญญาณรบกวนตามธรรมชาติที่เกิดขึ้นเมื่อทำการตัดสิน พวกเขาใช้ Maximum Likelihood Estimation เพื่อหาคะแนนที่ซ่อนอยู่ที่มีความน่าจะเป็นสูงสุดที่อธิบายการตั้งค่าแบบคู่ที่สังเกตได้
ภาพรวมของกระบวนการฝึกอบรม
- การสุ่มตัวอย่าง Triplet โดยใช้ 500 triplet แบบสุ่มต่อหนึ่งคำค้นหา
- การฝึกอบรม Pairwise reranker โดยใช้ ensemble ของ 3 LLMs
- การคำนวณคะแนน Elo (n=100 เอกสารต่อหนึ่งคำค้นหา)
- การฝึกอบรม Pointwise reranker ด้วย MSE loss
- การปรับแต่งด้วย Reinforcement learning
ประสิทธิภาพและการใช้งานจริง
การอภิปรายของชุมชนได้สัมผัสกับข้อกังวลการนำไปใช้จริง โดยเฉพาะเรื่องความล่าช้าและการสนับสนุนหลายภาษา ZeroEntropy รายงานว่า reranker ของพวกเขาประมวลผลประมาณ 12,665 ไบต์ในเวลาประมาณ 149 มิลลิวินาที ซึ่งดูเหมือนจะแข่งขันได้กับโซลูชันที่มีอยู่
นักพัฒนาหลายคนได้แบ่งปันประสบการณ์ของตนเองในการใช้แนวทาง reranking ที่คล้ายกันสำหรับแอปพลิเคชันต่าง ๆ ตั้งแต่การกรองการสรรหาบุคลากรไปจนถึงการตลาดขาออกแบบเย็น กรณีการใช้งานในโลกจริงเหล่านี้แสดงให้เห็นถึงการใช้งานที่กว้างขึ้นของวิธีการเปรียบเทียบแบบคู่นอกเหนือจากสถานการณ์การค้นหาแบบดั้งเดิม
การถกเถียงทางเทคนิครอบแนวทางของ ZeroEntropy สะท้อนการเปลี่ยนแปลงที่กว้างขึ้นในวิธีที่นักพัฒนาคิดเกี่ยวกับการให้คะแนนความเกี่ยวข้อง เมื่อระบบค้นหาซับซ้อนมากขึ้น ชุมชนดูเหมือนจะสนใจมากขึ้นในวิธีการที่สามารถจับความชอบที่ละเอียดอ่อนในขณะที่รักษาประสิทธิภาพการคำนวณ ระบบ Elo ที่ได้แรงบันดาลใจจากหมากรุกแสดงถึงทิศทางที่มีแนวโน้มดีหนึ่งทิศทาง แม้ว่าการอภิปรายจะแนะนำว่ามีแนวทางที่เป็นไปได้หลายแบบกำลังเกิดขึ้นในพื้นที่นี้
หมายเหตุ: Elo หมายถึงระบบการให้คะแนนที่สร้างโดย Arpad Elo ไม่ใช่ตัวย่อ 2AFC ย่อมาจาก Two-Alternative Forced Choice วิธีการที่ผู้ทดสอบต้องเลือกระหว่างตัวเลือกสองตัวเท่านั้น
อ้างอิง: Improving Retrieval with ELO Scores