นักวิจัยของ Google ได้เปิดเผยแนวทาง active learning ที่ลดปริมาณข้อมูลการฝึกที่จำเป็นสำหรับการปรับแต่งโมเดลภาษาขนาดใหญ่ (LLMs) ในแอปพลิเคชันความปลอดภัยของโฆษณาอย่างมาก วิธีการนี้รายงานว่าสามารถลดความต้องการการฝึกจาก 100,000 ตัวอย่างเหลือต่ำกว่า 500 ตัวอย่าง พร้อมทั้งปรับปรุงการจัดตำแหน่งของโมเดลกับผู้เชี่ยวชาญมนุษย์ได้สูงถึง 65% อย่างไรก็ตาม ชุมชนเทคโนโลยีกำลังตั้งคำถามสำคัญเกี่ยวกับผลกระทบในทางปฏิบัติและประสิทธิผลในโลกแห่งความเป็นจริงของการอ้างสิทธิ์เหล่านี้
ผลลัพธ์การลดข้อมูลการฝึกอบรม:
- วิธีการแบบดั้งเดิม: ตัวอย่างการฝึกอบรมประมาณ 100,000 ตัวอย่าง
- วิธีการ active learning ใหม่: น้อยกว่า 500 ตัวอย่างการฝึกอบรม
- อัตราส่วนการลดลง: สูงถึง 10,000 เท่า (4 หลักเลข)
- การปรับปรุงการจัดตำแหน่งโมเดล: เพิ่มขึ้นสูงถึง 65%
ความสงสัยของชุมชนเกี่ยวกับการอ้างสิทธิ์คุณภาพโฆษณา
การยืนยันของเอกสารวิจัยที่ว่าโฆษณาในการผลิตน้อยกว่า 1% เป็น clickbait ได้จุดประกายการถกเถียงอย่างมากในหมู่นักพัฒนาและผู้ใช้ สมาชิกชุมชนหลายคนพบว่าสถิตินี้ยากที่จะเชื่อจากประสบการณ์การท่องเว็บประจำวันของพวกเขา ความขัดแย้งระหว่างข้อมูลภายในของ Google และประสบการณ์ของผู้ใช้ได้นำไปสู่การอภิปรายที่กว้างขึ้นเกี่ยวกับวิธีที่บริษัทเทคโนโลยีวัดและกำหนดเนื้อหาที่มีปัญหา
ผู้ใช้บางคนได้แบ่งปันเรื่องราวที่น่ากังวลเกี่ยวกับการพบเจอกับการหลอกลวงที่ชัดเจนในระบบโฆษณาของ Google โดยเฉพาะบนแพลตฟอร์มอย่าง Facebook ที่โฆษณาขายเครื่องดนตรีปลอมและโฆษณาการแจกของรางวัลที่เป็นการฉ้อโกงปรากฏขึ้นเป็นประจำ รายงานเหล่านี้เน้นให้เห็นช่องว่างที่อาจเกิดขึ้นระหว่างสิ่งที่ระบบอัตโนมัติจัดประเภทว่าเป็นปัญหากับสิ่งที่ผู้ใช้พบเจอจริง
การใช้งานทางเทคนิคทำให้เกิดคำถาม
วิธีการจัดกลุ่มที่อธิบายไว้ในงานวิจัยได้สร้างการอภิปรายทางเทคนิคอย่างมาก สมาชิกชุมชนกำลังตั้งคำถามว่าระบบสามารถสร้างกลุ่มที่ทับซ้อนกันได้อย่างไรเมื่อตัวอย่างที่มีป้ายกำกับควรจะแยกจากกัน เอกสารขาดรายละเอียดเฉพาะเจาะจงเกี่ยวกับโมเดล embedding ใดที่ใช้สำหรับการจัดกลุ่มและอัลกอริทึมการจัดกลุ่มประเภทใดที่ขับเคลื่อนระบบ
ผู้ปฏิบัติงานที่มีประสบการณ์หลายคนได้สังเกตว่า LLMs ทั่วไปไม่ได้สร้าง embeddings ที่มีประสิทธิภาพสำหรับงานการจัดกลุ่ม ซึ่งชี้ให้เห็นว่าโมเดล embedding เฉพาะทางเพิ่มเติมอาจเกี่ยวข้อง ความคลุมเครือทางเทคนิคนี้ทำให้บางคนสงสัยว่ารายละเอียดการใช้งานที่สำคัญกำลังถูกปิดบังโดยเจตนา
การตั้งค่าการทดลอง:
- โมเดลที่ทดสอบ: Gemini Nano-1 (1.8B พารามิเตอร์), Nano-2 (3.25B พารามิเตอร์)
- จำนวนรอบที่ต้องการ: 5-6 รอบ
- ตัวอย่างการฝึกสอนสุดท้าย: 250-400 ตัวอย่าง
- ตัวอย่างการประเมินผลสุดท้าย: 150-250 ตัวอย่าง
- ความสมดุลของคลาสที่บรรลุ: ~40% ตัวอย่างเชิงบวก (เทียบกับเดิม 5%)
![]() |
---|
ภาพประกอบนี้แสดงกระบวนการจัดกลุ่มจุดข้อมูล สะท้อนความกังวลและการอภิปรายทางเทคนิคที่เกี่ยวข้องกับระเบียบวิธีการจัดกลุ่มของ Google |
ประวัติที่หลากหลายของ Active Learning
ชุมชนวิจัยได้แสดงความสงสัยอย่างมีเหตุผลเกี่ยวกับแนวทาง active learning โดยทั่วไป ผู้ปฏิบัติงานบางคนได้ทำการศึกษาเชิงประจักษ์อย่างละเอียดที่ชี้ให้เห็นว่าการสุ่มตัวอย่างแบบสุ่มสามารถเหนือกว่ากลยุทธ์ active learning ที่ซับซ้อนในงานการจัดประเภทข้อความได้บางครั้ง การค้นพบนี้ท้าทายสมมติฐานพื้นฐานที่ว่าตัวอย่างการฝึกที่เลือกอย่างระมัดระวังจะนำไปสู่ผลลัพธ์ที่ดีกว่าเสมอ
อย่างไรก็ตาม คนอื่นๆ ได้รายงานความสำเร็จกับ active learning pipelines ที่วัดความไม่แน่นอนทั้ง aleatoric และ epistemic เพื่อชี้นำความพยายามในการติดป้ายกำกับ แนวทางเหล่านี้มีแนวโน้มที่จะซับซ้อนกว่า แต่สามารถให้คะแนนความเชื่อมั่นที่มีค่าสำหรับผู้ใช้ปลายทาง
Active Learning เป็นพื้นที่ที่ยากมากที่จะทำให้ถูกต้อง ... ตลอดหลายปีที่ผ่านมาฉันมีโชคที่หลากหลายกับการจัดประเภทข้อความ จนถึงจุดที่เพื่อนร่วมงานและฉันตัดสินใจทำการศึกษาเชิงประจักษ์อย่างละเอียดที่ปรับมาตรฐานการตั้งค่าการทดลองต่างๆ ที่เอกสารแต่ละฉบับได้รายงาน เราสังเกตว่าหลังจากการปรับมาตรฐาน การเลือกอินสแตนซ์เพื่อติดป้ายกำกับแบบสุ่มนั้นดีกว่า!
ตัวชี้วัดประสิทธิภาพของโมเดล:
- ความสอดคล้องภายในของผู้เชี่ยวชาญ ( Cohen's Kappa ): 0.81 (ความซับซ้อนต่ำ), 0.78 (ความซับซ้อนสูง)
- ความสอดคล้องระหว่างโมเดลกับผู้เชี่ยวชาญ: 0.59 (ความซับซ้อนต่ำ), 0.41 (ความซับซ้อนสูง)
- เกณฑ์ Kappa ที่ยอมรับได้: สูงกว่า 0.4
- เกณฑ์ Kappa ที่ยอดเยี่ยม: สูงกว่า 0.8
ผลกระทบที่กว้างขึ้นสำหรับการฝึก AI
งานวิจัยสัมผัสกับความท้าทายที่สำคัญในการพัฒนา AI: ความจำเป็นในข้อมูลการฝึกคุณภาพสูงในขณะที่จัดการต้นทุนและปรับตัวให้เข้ากับความต้องการที่เปลี่ยนแปลง ความสามารถในการฝึกโมเดลใหม่ด้วยตัวอย่างใหม่น้อยที่สุดอาจมีค่าโดยเฉพาะในโดเมนที่พัฒนาอย่างรวดเร็วเช่นการควบคุมเนื้อหาและการตรวจจับการฉ้อโกง
แนวทางนี้รวมความสามารถในการครอบคลุมที่กว้างของ LLMs เข้ากับความเชี่ยวชาญเฉพาะของผู้ใส่คำอธิบายมนุษย์ในกรณีขอบที่ท้าทาย วิธีการแบบผสมผสานนี้แสดงถึงเส้นทางที่อาจเป็นไปได้สำหรับการทำให้การฝึก AI มีประสิทธิภาพมากขึ้นและตอบสนองต่อความต้องการในโลกแห่งความเป็นจริง
การอภิปรายของชุมชนเผยให้เห็นทั้งความตื่นเต้นเกี่ยวกับศักยภาพสำหรับการฝึก AI ที่มีประสิทธิภาพมากขึ้นและความสงสัยที่ดีต่อสุขภาพเกี่ยวกับว่าการปรับปรุงที่รายงานจะแปลเป็นประสบการณ์ผู้ใช้ที่ดีขึ้นหรือไม่ เมื่อระบบ AI กลายเป็นที่แพร่หลายมากขึ้นในการควบคุมเนื้อหาและแอปพลิเคชันความปลอดภัย ช่องว่างระหว่างเมตริกทางเทคนิคและความพึงพอใจของผู้ใช้ยังคงเป็นความท้าทายสำคัญสำหรับอุตสาหกรรม
อ้างอิง: Achieving 10,000x training data reduction with high-fidelity labels
![]() |
---|
ภาพนี้เน้นย้ำงานวิจัยของ Google ในการบรรลุการลดข้อมูลการฝึกอบรมอย่างมีนัยสำคัญสำหรับโมเดล AI โดยเน้นศักยภาพในการปรับปรุงประสิทธิภาพ AI ในการประยุกต์ใช้ในโลกแห่งความจริง |