โมเดลภาษาขนาดเล็กที่ปรับแต่งอย่างละเอียดท้าทายยักษ์ใหญ่ด้วยการลดต้นทุน 5-30 เท่า

ทีมชุมชน BigGo
โมเดลภาษาขนาดเล็กที่ปรับแต่งอย่างละเอียดท้าทายยักษ์ใหญ่ด้วยการลดต้นทุน 5-30 เท่า

การศึกษาวิจัยใหม่เผยให้เห็นว่าโมเดลภาษาขนาดเล็ก เมื่อได้รับการปรับแต่งอย่างเหมาะสมด้วยข้อมูลที่คัดสรรมาจากโมเดลขนาดใหญ่ สามารถเทียบเท่าหรือเหนือกว่าประสิทธิภาพของคู่แข่งระดับเฮฟวี่เวทได้ในขณะที่ลดต้นทุนอย่างมากมาย แนวทางนี้มีแนวโน้มที่จะเปลี่ยนแปลงวิธีที่บริษัทต่างๆ นำ AI ไปใช้ในสภาพแวดล้อมการผลิต โดยให้ประหยัดค่าใช้จ่ายอย่างมีนัยสำคัญโดยไม่เสียสละคุณภาพ

การปรับปรุงต้นทุนและประสิทธิภาพ:

  • การลดต้นทุน: ต่ำกว่าโมเดลขนาดใหญ่ 5-30 เท่า
  • การปรับปรุงเวลาตอบสนอง: เร็วขึ้นถึง 10 เท่า
  • การลดเวลาในการประมวลผล: ลดลงถึง 10 เท่า
  • งานการนำทางบางอย่างสามารถบรรลุเวลาตอบสนองต่ำกว่า 100 มิลลิวินาที

แนวทางเทคนิคจุดประกายการถกเถียงในแวดวงวิชาการ

วิธีการวิจัยได้สร้างการอภิปรายอย่างมากในหมู่ผู้ปฏิบัติงาน AI เกี่ยวกับความสัมพันธ์กับเทคนิคที่มีอยู่แล้วในการเรียนรู้ของเครื่อง ในขณะที่ผู้เขียนอธิบายวิธีการของพวกเขาว่าเป็นการคัดสรรข้อมูลแบบโปรแกรม สมาชิกในชุมชนได้ชี้ให้เห็นความคล้ายคลึงกันอย่างมากกับแนวทางที่มีอยู่แล้วในการเรียนรู้ของเครื่อง

ผมเชื่อว่าแนวทางนี้เรียกอีกอย่างว่า model distillation และ/หรือ student-teacher training

ความแตกต่างสำคัญอยู่ที่กระบวนการกรอง แทนที่จะถ่ายทอดความรู้ทั้งหมดจากโมเดลขนาดใหญ่ไปยังโมเดลขนาดเล็ก แนวทางนี้จะคัดสรรการตอบสนองคุณภาพสูงอย่างเลือกสรรตามตัวชี้วัดสิ่งแวดล้อม นักวิจัยได้แสดงให้เห็นว่าการคัดสรรแบบเลือกสรรนี้ให้การปรับปรุงที่มีความหมายเหนือกว่าวิธี distillation มาตรฐาน

Model distillation: เทคนิคที่โมเดลนักเรียนขนาดเล็กเรียนรู้จากโมเดลครูขนาดใหญ่โดยการเลียนแบบผลลัพธ์หรือการแสดงภายในของมัน

ข้อกังวลเรื่องความถูกต้องของ Benchmark ได้รับการแก้ไข

คำถามเกิดขึ้นเกี่ยวกับการจัดการ benchmark ที่อาจเกิดขึ้น ซึ่งเป็นข้อกังวลทั่วไปในการวิจัย AI ที่โมเดลอาจได้รับการปรับให้เหมาะสมกับประสิทธิภาพการทดสอบโดยไม่ได้ตั้งใจแทนที่จะเป็นความสามารถในโลกแห่งความเป็นจริง ทีมวิจัยยอมรับความเสี่ยงนี้ในขณะที่เน้นย้ำการมุ่งเน้นของพวกเขาในวิธีการปฏิบัติมากกว่าการบรรลุตัวเลขที่ล้ำสมัย

การศึกษาทดสอบในสี่โดเมนที่แตกต่างกัน: การสกัดข้อมูลโดยใช้ CoNLL Named Entity Recognition, การนำทางหลายรอบด้วย BabyAI และงานตัวแทนสองประเภทที่เกี่ยวข้องกับการเรียกคืนและการใช้เครื่องมือ อย่างไรก็ตาม สมาชิกในชุมชนบางคนสังเกตว่า benchmark บางอย่าง โดยเฉพาะงาน NER อาจไม่แสดงถึงปัญหาที่ท้าทายอย่างแท้จริงสำหรับโมเดลภาษาสมัยใหม่

งานเปรียบเทียบที่ทำการทดสอบ:

  • การสกัดข้อมูล: CoNLL Named Entity Recognition ( CoVe )
  • การนำทางหลายรอบ: BabyAI GoTo
  • งานตัวแทน: BAO ( Multi-Hop ) และ Retail Domain Tool Use
  • โมเดลที่ทดสอบ: Claude , Google models และ Meta's open-source models

ความท้าทายในการนำไปใช้ในทางปฏิบัติ

การอภิปรายเผยให้เห็นการพิจารณาในทางปฏิบัติสำหรับทีมที่ต้องการนำแนวทางที่คล้ายกันไปใช้ สำหรับองค์กรที่มีข้อมูลการฝึกอบรมจำกัด ชุมชนแนะนำว่าการปรับแต่งแบบเสริมแรงอาจทำงานได้อย่างมีประสิทธิภาพด้วยตัวอย่างเพียง 10-100 ตัวอย่าง ในขณะที่การปรับแต่งแบบมีผู้ดูแลโดยทั่วไปต้องการจุดข้อมูล 100-1000+ สำหรับผลลัพธ์ที่ดี

ความยืดหยุ่นนี้ทำให้แนวทางนี้เข้าถึงได้สำหรับทีมขนาดเล็กและสตาร์ทอัพที่ก่อนหน้านี้ไม่สามารถแข่งขันกับโมเดลขนาดใหญ่ในสภาพแวดล้อมการผลิตได้ การประหยัดต้นทุน 5-30 เท่า รวมกับการปรับปรุงเวลาตอบสนองสูงสุด 10 เท่า อาจเปลี่ยนแปลงเศรษฐศาสตร์ของการปรับใช้ AI โดยพื้นฐาน

ความต้องการข้อมูลสำหรับการฝึกอบรม:

  • การปรับแต่งแบบมีผู้สอน (SFT): โดยทั่วไปต้องใช้ข้อมูล 100-1000+ จุดข้อมูล
  • การปรับแต่งแบบเสริมแรง (RFT): ตัวอย่าง 10-100 ตัวอย่างสามารถมีประสิทธิภาพได้
  • วิธีการนี้เกี่ยวข้องกับการกรองการตอบสนองที่มีคุณภาพสูงโดยใช้เมตริกส์สิ่งแวดล้อม

ทิศทางอนาคตและคุณภาพข้อมูล

ความสนใจของชุมชนขยายไปเกินกว่าการวิจัยทันทีไปสู่คำถามที่กว้างขึ้นเกี่ยวกับคุณภาพข้อมูลการฝึกอบรม ผู้ปฏิบัติงานบางคนกำลังสำรวจว่าการคัดสรรวัสดุแหล่งปฐมภูมิด้วยตนเอง แทนที่จะพึ่งพาผลลัพธ์จากโมเดลที่มีอยู่ อาจให้ผลลัพธ์ที่ดียิ่งขึ้นสำหรับการประยุกต์ใช้เฉพาะทาง

แนวทางนี้แสดงถึงการเปลี่ยนแปลงไปสู่กลยุทธ์การปรับใช้ AI ที่มีประสิทธิภาพมากขึ้น เมื่อบริษัทต่างๆ เผชิญกับแรงกดดันที่เพิ่มขึ้นในการควบคุมต้นทุน AI ในขณะที่รักษาคุณภาพการบริการ เทคนิคที่ให้ประสิทธิภาพระดับองค์กรในราคาที่เป็นมิตรกับสตาร์ทอัพจึงมีคุณค่าเพิ่มขึ้น การวิจัยแนะนำว่าการแลกเปลี่ยนแบบดั้งเดิมระหว่างขนาดโมเดลและความคุ้มค่าอาจมีความแข็งแกร่งน้อยกว่าที่เคยคิดไว้

อ้างอิง: Fine-tuned Small LLMs Can Beat Large Ones at 5-30x Lower Cost with Programmatic Data Curation