วิธี Active Learning ของ Google ลดข้อมูลการฝึก LLM ลง 10,000 เท่า แต่ชุมชนตั้งคำถามถึงประสิทธิผลในโลกแห่งความเป็นจริง

ทีมชุมชน BigGo
วิธี Active Learning ของ Google ลดข้อมูลการฝึก LLM ลง 10,000 เท่า แต่ชุมชนตั้งคำถามถึงประสิทธิผลในโลกแห่งความเป็นจริง

นักวิจัยของ Google ได้เปิดเผยแนวทาง active learning ที่ลดปริมาณข้อมูลการฝึกที่จำเป็นสำหรับการปรับแต่งโมเดลภาษาขนาดใหญ่ (LLMs) ในแอปพลิเคชันความปลอดภัยของโฆษณาอย่างมาก วิธีการนี้รายงานว่าสามารถลดความต้องการการฝึกจาก 100,000 ตัวอย่างเหลือต่ำกว่า 500 ตัวอย่าง พร้อมทั้งปรับปรุงการจัดตำแหน่งของโมเดลกับผู้เชี่ยวชาญมนุษย์ได้สูงถึง 65% อย่างไรก็ตาม ชุมชนเทคโนโลยีกำลังตั้งคำถามสำคัญเกี่ยวกับผลกระทบในทางปฏิบัติและประสิทธิผลในโลกแห่งความเป็นจริงของการอ้างสิทธิ์เหล่านี้

ผลลัพธ์การลดข้อมูลการฝึกอบรม:

  • วิธีการแบบดั้งเดิม: ตัวอย่างการฝึกอบรมประมาณ 100,000 ตัวอย่าง
  • วิธีการ active learning ใหม่: น้อยกว่า 500 ตัวอย่างการฝึกอบรม
  • อัตราส่วนการลดลง: สูงถึง 10,000 เท่า (4 หลักเลข)
  • การปรับปรุงการจัดตำแหน่งโมเดล: เพิ่มขึ้นสูงถึง 65%

ความสงสัยของชุมชนเกี่ยวกับการอ้างสิทธิ์คุณภาพโฆษณา

การยืนยันของเอกสารวิจัยที่ว่าโฆษณาในการผลิตน้อยกว่า 1% เป็น clickbait ได้จุดประกายการถกเถียงอย่างมากในหมู่นักพัฒนาและผู้ใช้ สมาชิกชุมชนหลายคนพบว่าสถิตินี้ยากที่จะเชื่อจากประสบการณ์การท่องเว็บประจำวันของพวกเขา ความขัดแย้งระหว่างข้อมูลภายในของ Google และประสบการณ์ของผู้ใช้ได้นำไปสู่การอภิปรายที่กว้างขึ้นเกี่ยวกับวิธีที่บริษัทเทคโนโลยีวัดและกำหนดเนื้อหาที่มีปัญหา

ผู้ใช้บางคนได้แบ่งปันเรื่องราวที่น่ากังวลเกี่ยวกับการพบเจอกับการหลอกลวงที่ชัดเจนในระบบโฆษณาของ Google โดยเฉพาะบนแพลตฟอร์มอย่าง Facebook ที่โฆษณาขายเครื่องดนตรีปลอมและโฆษณาการแจกของรางวัลที่เป็นการฉ้อโกงปรากฏขึ้นเป็นประจำ รายงานเหล่านี้เน้นให้เห็นช่องว่างที่อาจเกิดขึ้นระหว่างสิ่งที่ระบบอัตโนมัติจัดประเภทว่าเป็นปัญหากับสิ่งที่ผู้ใช้พบเจอจริง

การใช้งานทางเทคนิคทำให้เกิดคำถาม

วิธีการจัดกลุ่มที่อธิบายไว้ในงานวิจัยได้สร้างการอภิปรายทางเทคนิคอย่างมาก สมาชิกชุมชนกำลังตั้งคำถามว่าระบบสามารถสร้างกลุ่มที่ทับซ้อนกันได้อย่างไรเมื่อตัวอย่างที่มีป้ายกำกับควรจะแยกจากกัน เอกสารขาดรายละเอียดเฉพาะเจาะจงเกี่ยวกับโมเดล embedding ใดที่ใช้สำหรับการจัดกลุ่มและอัลกอริทึมการจัดกลุ่มประเภทใดที่ขับเคลื่อนระบบ

ผู้ปฏิบัติงานที่มีประสบการณ์หลายคนได้สังเกตว่า LLMs ทั่วไปไม่ได้สร้าง embeddings ที่มีประสิทธิภาพสำหรับงานการจัดกลุ่ม ซึ่งชี้ให้เห็นว่าโมเดล embedding เฉพาะทางเพิ่มเติมอาจเกี่ยวข้อง ความคลุมเครือทางเทคนิคนี้ทำให้บางคนสงสัยว่ารายละเอียดการใช้งานที่สำคัญกำลังถูกปิดบังโดยเจตนา

การตั้งค่าการทดลอง:

  • โมเดลที่ทดสอบ: Gemini Nano-1 (1.8B พารามิเตอร์), Nano-2 (3.25B พารามิเตอร์)
  • จำนวนรอบที่ต้องการ: 5-6 รอบ
  • ตัวอย่างการฝึกสอนสุดท้าย: 250-400 ตัวอย่าง
  • ตัวอย่างการประเมินผลสุดท้าย: 150-250 ตัวอย่าง
  • ความสมดุลของคลาสที่บรรลุ: ~40% ตัวอย่างเชิงบวก (เทียบกับเดิม 5%)
ภาพประกอบนี้แสดงกระบวนการจัดกลุ่มจุดข้อมูล สะท้อนความกังวลและการอภิปรายทางเทคนิคที่เกี่ยวข้องกับระเบียบวิธีการจัดกลุ่มของ Google
ภาพประกอบนี้แสดงกระบวนการจัดกลุ่มจุดข้อมูล สะท้อนความกังวลและการอภิปรายทางเทคนิคที่เกี่ยวข้องกับระเบียบวิธีการจัดกลุ่มของ Google

ประวัติที่หลากหลายของ Active Learning

ชุมชนวิจัยได้แสดงความสงสัยอย่างมีเหตุผลเกี่ยวกับแนวทาง active learning โดยทั่วไป ผู้ปฏิบัติงานบางคนได้ทำการศึกษาเชิงประจักษ์อย่างละเอียดที่ชี้ให้เห็นว่าการสุ่มตัวอย่างแบบสุ่มสามารถเหนือกว่ากลยุทธ์ active learning ที่ซับซ้อนในงานการจัดประเภทข้อความได้บางครั้ง การค้นพบนี้ท้าทายสมมติฐานพื้นฐานที่ว่าตัวอย่างการฝึกที่เลือกอย่างระมัดระวังจะนำไปสู่ผลลัพธ์ที่ดีกว่าเสมอ

อย่างไรก็ตาม คนอื่นๆ ได้รายงานความสำเร็จกับ active learning pipelines ที่วัดความไม่แน่นอนทั้ง aleatoric และ epistemic เพื่อชี้นำความพยายามในการติดป้ายกำกับ แนวทางเหล่านี้มีแนวโน้มที่จะซับซ้อนกว่า แต่สามารถให้คะแนนความเชื่อมั่นที่มีค่าสำหรับผู้ใช้ปลายทาง

Active Learning เป็นพื้นที่ที่ยากมากที่จะทำให้ถูกต้อง ... ตลอดหลายปีที่ผ่านมาฉันมีโชคที่หลากหลายกับการจัดประเภทข้อความ จนถึงจุดที่เพื่อนร่วมงานและฉันตัดสินใจทำการศึกษาเชิงประจักษ์อย่างละเอียดที่ปรับมาตรฐานการตั้งค่าการทดลองต่างๆ ที่เอกสารแต่ละฉบับได้รายงาน เราสังเกตว่าหลังจากการปรับมาตรฐาน การเลือกอินสแตนซ์เพื่อติดป้ายกำกับแบบสุ่มนั้นดีกว่า!

ตัวชี้วัดประสิทธิภาพของโมเดล:

  • ความสอดคล้องภายในของผู้เชี่ยวชาญ ( Cohen's Kappa ): 0.81 (ความซับซ้อนต่ำ), 0.78 (ความซับซ้อนสูง)
  • ความสอดคล้องระหว่างโมเดลกับผู้เชี่ยวชาญ: 0.59 (ความซับซ้อนต่ำ), 0.41 (ความซับซ้อนสูง)
  • เกณฑ์ Kappa ที่ยอมรับได้: สูงกว่า 0.4
  • เกณฑ์ Kappa ที่ยอดเยี่ยม: สูงกว่า 0.8

ผลกระทบที่กว้างขึ้นสำหรับการฝึก AI

งานวิจัยสัมผัสกับความท้าทายที่สำคัญในการพัฒนา AI: ความจำเป็นในข้อมูลการฝึกคุณภาพสูงในขณะที่จัดการต้นทุนและปรับตัวให้เข้ากับความต้องการที่เปลี่ยนแปลง ความสามารถในการฝึกโมเดลใหม่ด้วยตัวอย่างใหม่น้อยที่สุดอาจมีค่าโดยเฉพาะในโดเมนที่พัฒนาอย่างรวดเร็วเช่นการควบคุมเนื้อหาและการตรวจจับการฉ้อโกง

แนวทางนี้รวมความสามารถในการครอบคลุมที่กว้างของ LLMs เข้ากับความเชี่ยวชาญเฉพาะของผู้ใส่คำอธิบายมนุษย์ในกรณีขอบที่ท้าทาย วิธีการแบบผสมผสานนี้แสดงถึงเส้นทางที่อาจเป็นไปได้สำหรับการทำให้การฝึก AI มีประสิทธิภาพมากขึ้นและตอบสนองต่อความต้องการในโลกแห่งความเป็นจริง

การอภิปรายของชุมชนเผยให้เห็นทั้งความตื่นเต้นเกี่ยวกับศักยภาพสำหรับการฝึก AI ที่มีประสิทธิภาพมากขึ้นและความสงสัยที่ดีต่อสุขภาพเกี่ยวกับว่าการปรับปรุงที่รายงานจะแปลเป็นประสบการณ์ผู้ใช้ที่ดีขึ้นหรือไม่ เมื่อระบบ AI กลายเป็นที่แพร่หลายมากขึ้นในการควบคุมเนื้อหาและแอปพลิเคชันความปลอดภัย ช่องว่างระหว่างเมตริกทางเทคนิคและความพึงพอใจของผู้ใช้ยังคงเป็นความท้าทายสำคัญสำหรับอุตสาหกรรม

อ้างอิง: Achieving 10,000x training data reduction with high-fidelity labels

ภาพนี้เน้นย้ำงานวิจัยของ Google ในการบรรลุการลดข้อมูลการฝึกอบรมอย่างมีนัยสำคัญสำหรับโมเดล AI โดยเน้นศักยภาพในการปรับปรุงประสิทธิภาพ AI ในการประยุกต์ใช้ในโลกแห่งความจริง
ภาพนี้เน้นย้ำงานวิจัยของ Google ในการบรรลุการลดข้อมูลการฝึกอบรมอย่างมีนัยสำคัญสำหรับโมเดล AI โดยเน้นศักยภาพในการปรับปรุงประสิทธิภาพ AI ในการประยุกต์ใช้ในโลกแห่งความจริง