การศึกษาวิจัยใหม่เผยให้เห็นว่าโมเดลภาษาขนาดเล็ก เมื่อได้รับการปรับแต่งอย่างเหมาะสมด้วยข้อมูลที่คัดสรรมาจากโมเดลขนาดใหญ่ สามารถเทียบเท่าหรือเหนือกว่าประสิทธิภาพของคู่แข่งระดับเฮฟวี่เวทได้ในขณะที่ลดต้นทุนอย่างมากมาย แนวทางนี้มีแนวโน้มที่จะเปลี่ยนแปลงวิธีที่บริษัทต่างๆ นำ AI ไปใช้ในสภาพแวดล้อมการผลิต โดยให้ประหยัดค่าใช้จ่ายอย่างมีนัยสำคัญโดยไม่เสียสละคุณภาพ
การปรับปรุงต้นทุนและประสิทธิภาพ:
- การลดต้นทุน: ต่ำกว่าโมเดลขนาดใหญ่ 5-30 เท่า
- การปรับปรุงเวลาตอบสนอง: เร็วขึ้นถึง 10 เท่า
- การลดเวลาในการประมวลผล: ลดลงถึง 10 เท่า
- งานการนำทางบางอย่างสามารถบรรลุเวลาตอบสนองต่ำกว่า 100 มิลลิวินาที
แนวทางเทคนิคจุดประกายการถกเถียงในแวดวงวิชาการ
วิธีการวิจัยได้สร้างการอภิปรายอย่างมากในหมู่ผู้ปฏิบัติงาน AI เกี่ยวกับความสัมพันธ์กับเทคนิคที่มีอยู่แล้วในการเรียนรู้ของเครื่อง ในขณะที่ผู้เขียนอธิบายวิธีการของพวกเขาว่าเป็นการคัดสรรข้อมูลแบบโปรแกรม สมาชิกในชุมชนได้ชี้ให้เห็นความคล้ายคลึงกันอย่างมากกับแนวทางที่มีอยู่แล้วในการเรียนรู้ของเครื่อง
ผมเชื่อว่าแนวทางนี้เรียกอีกอย่างว่า model distillation และ/หรือ student-teacher training
ความแตกต่างสำคัญอยู่ที่กระบวนการกรอง แทนที่จะถ่ายทอดความรู้ทั้งหมดจากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็ก แนวทางนี้จะคัดสรรการตอบสนองคุณภาพสูงอย่างเลือกสรรตามตัวชี้วัดสิ่งแวดล้อม นักวิจัยได้แสดงให้เห็นว่าการคัดสรรแบบเลือกสรรนี้ให้การปรับปรุงที่มีความหมายเหนือกว่าวิธี distillation มาตรฐาน
Model distillation: เทคนิคที่โมเดลนักเรียนขนาดเล็กเรียนรู้จากโมเดลครูขนาดใหญ่โดยการเลียนแบบผลลัพธ์หรือการแสดงภายในของมัน
ข้อกังวลเรื่องความถูกต้องของ Benchmark ได้รับการแก้ไข
คำถามเกิดขึ้นเกี่ยวกับการจัดการ benchmark ที่อาจเกิดขึ้น ซึ่งเป็นข้อกังวลทั่วไปในการวิจัย AI ที่โมเดลอาจได้รับการปรับให้เหมาะสมกับประสิทธิภาพการทดสอบโดยไม่ได้ตั้งใจแทนที่จะเป็นความสามารถในโลกแห่งความเป็นจริง ทีมวิจัยยอมรับความเสี่ยงนี้ในขณะที่เน้นย้ำการมุ่งเน้นของพวกเขาในวิธีการปฏิบัติมากกว่าการบรรลุตัวเลขที่ล้ำสมัย
การศึกษาทดสอบในสี่โดเมนที่แตกต่างกัน: การสกัดข้อมูลโดยใช้ CoNLL Named Entity Recognition, การนำทางหลายรอบด้วย BabyAI และงานตัวแทนสองประเภทที่เกี่ยวข้องกับการเรียกคืนและการใช้เครื่องมือ อย่างไรก็ตาม สมาชิกในชุมชนบางคนสังเกตว่า benchmark บางอย่าง โดยเฉพาะงาน NER อาจไม่แสดงถึงปัญหาที่ท้าทายอย่างแท้จริงสำหรับโมเดลภาษาสมัยใหม่
งานเปรียบเทียบที่ทำการทดสอบ:
- การสกัดข้อมูล: CoNLL Named Entity Recognition ( CoVe )
- การนำทางหลายรอบ: BabyAI GoTo
- งานตัวแทน: BAO ( Multi-Hop ) และ Retail Domain Tool Use
- โมเดลที่ทดสอบ: Claude , Google models และ Meta's open-source models
ความท้าทายในการนำไปใช้ในทางปฏิบัติ
การอภิปรายเผยให้เห็นการพิจารณาในทางปฏิบัติสำหรับทีมที่ต้องการนำแนวทางที่คล้ายกันไปใช้ สำหรับองค์กรที่มีข้อมูลการฝึกอบรมจำกัด ชุมชนแนะนำว่าการปรับแต่งแบบเสริมแรงอาจทำงานได้อย่างมีประสิทธิภาพด้วยตัวอย่างเพียง 10-100 ตัวอย่าง ในขณะที่การปรับแต่งแบบมีผู้ดูแลโดยทั่วไปต้องการจุดข้อมูล 100-1000+ สำหรับผลลัพธ์ที่ดี
ความยืดหยุ่นนี้ทำให้แนวทางนี้เข้าถึงได้สำหรับทีมขนาดเล็กและสตาร์ทอัพที่ก่อนหน้านี้ไม่สามารถแข่งขันกับโมเดลขนาดใหญ่ในสภาพแวดล้อมการผลิตได้ การประหยัดต้นทุน 5-30 เท่า รวมกับการปรับปรุงเวลาตอบสนองสูงสุด 10 เท่า อาจเปลี่ยนแปลงเศรษฐศาสตร์ของการปรับใช้ AI โดยพื้นฐาน
ความต้องการข้อมูลสำหรับการฝึกอบรม:
- การปรับแต่งแบบมีผู้สอน (SFT): โดยทั่วไปต้องใช้ข้อมูล 100-1000+ จุดข้อมูล
- การปรับแต่งแบบเสริมแรง (RFT): ตัวอย่าง 10-100 ตัวอย่างสามารถมีประสิทธิภาพได้
- วิธีการนี้เกี่ยวข้องกับการกรองการตอบสนองที่มีคุณภาพสูงโดยใช้เมตริกส์สิ่งแวดล้อม
ทิศทางอนาคตและคุณภาพข้อมูล
ความสนใจของชุมชนขยายไปเกินกว่าการวิจัยทันทีไปสู่คำถามที่กว้างขึ้นเกี่ยวกับคุณภาพข้อมูลการฝึกอบรม ผู้ปฏิบัติงานบางคนกำลังสำรวจว่าการคัดสรรวัสดุแหล่งปฐมภูมิด้วยตนเอง แทนที่จะพึ่งพาผลลัพธ์จากโมเดลที่มีอยู่ อาจให้ผลลัพธ์ที่ดียิ่งขึ้นสำหรับการประยุกต์ใช้เฉพาะทาง
แนวทางนี้แสดงถึงการเปลี่ยนแปลงไปสู่กลยุทธ์การปรับใช้ AI ที่มีประสิทธิภาพมากขึ้น เมื่อบริษัทต่างๆ เผชิญกับแรงกดดันที่เพิ่มขึ้นในการควบคุมต้นทุน AI ในขณะที่รักษาคุณภาพการบริการ เทคนิคที่ให้ประสิทธิภาพระดับองค์กรในราคาที่เป็นมิตรกับสตาร์ทอัพจึงมีคุณค่าเพิ่มขึ้น การวิจัยแนะนำว่าการแลกเปลี่ยนแบบดั้งเดิมระหว่างขนาดโมเดลและความคุ้มค่าอาจมีความแข็งแกร่งน้อยกว่าที่เคยคิดไว้
อ้างอิง: Fine-tuned Small LLMs Can Beat Large Ones at 5-30x Lower Cost with Programmatic Data Curation