แชทบอท R1 ของ DeepSeek ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI ไม่เพียงแต่เพราะประสิทธิภาพที่น่าประทับใจในต้นทุนที่ต่ำกว่ามาก แต่ยังเป็นเพราะวิธีการที่ใช้เพื่อให้บรรลุผลดังกล่าว ในขณะที่บทความต้นฉบับมุ่งเน้นไปที่ distillation เป็นแนวคิดทั่วไป การอภิปรายในชุมชนเผยให้เห็นความแตกต่างทางเทคนิคที่สำคัญซึ่งอธิบายทั้งความขัดแย้งและความก้าวหน้า
สองวิธี Distillation ที่แตกต่างกันสร้างความสามารถที่แตกต่าง
ชุมชน AI ได้ระบุแนวทางที่แตกต่างกันโดยพื้นฐานสองแนวทางสำหรับ model distillation วิธีแรก completion-based distillation ทำงานผ่าน API access เพียงอย่างเดียว บริษัทต่างๆ สามารถสอบถามโมเดลที่ใหญ่กว่าด้วยคำถามเฉพาะและใช้คำตอบเหล่านั้นเพื่อฝึกโมเดลที่เล็กกว่า แนวทางนี้ไม่ต้องการการเข้าถึงพิเศษใดๆ ต่อการทำงานภายในของโมเดลต้นฉบับ
วิธีที่สองเกี่ยวข้องกับการเข้าถึงโดยตรงต่อการแสดงภายในของโมเดลและการกระจายความน่าจะเป็น เทคนิคนี้ต้องการการเข้าถึงเต็มรูปแบบต่อสถาปัตยกรรมของโมเดลต้นฉบับและสามารถดำเนินการได้เฉพาะโดยผู้สร้างโมเดลเท่านั้น มักใช้โดยบริษัทต่างๆ เพื่อสร้างรูปแบบที่เล็กกว่าของตนเอง เช่น เวอร์ชัน mini หรือ flash
API access: Application Programming Interface - วิธีที่ผู้ใช้ภายนอกสามารถโต้ตอบกับบริการโดยไม่ต้องเข้าถึงโค้ดภายใน
สองประเภทของการกลั่นโมเดล AI
วิธีการ | การเข้าถึงที่จำเป็น | กรณีการใช้งาน | ผู้ใช้ |
---|---|---|---|
แบบ Completion-based | เข้าถึง API เท่านั้น | บริษัทภายนอกที่ฝึกโมเดลขนาดเล็ก | นักพัฒนาบุคคลที่สาม |
แบบ Logit/Internal representations | เข้าถึงโมเดลแบบเต็ม | สร้างตัวแปรขนาดเล็กอย่างเป็นทางการ | ผู้สร้างโมเดลต้นฉบับ |
แนวทางของ DeepSeek ท้าทายสมมติฐานของอุตสาหกรรม
DeepSeek มีรายงานว่าใช้วิธีแรก โดยใช้ response traces ประมาณ 800,000 รายการจากโมเดล R1 ของพวกเขาและนำไปใช้กับโมเดลที่เล็กกว่า งานวิจัยล่าสุดชี้ให้เห็นว่ากระบวนการนี้สามารถมีประสิทธิภาพอย่างน่าเหลือเชื่อ โมเดล Sky-T1 ของ University of California, Berkeley บรรลุผลลัพธ์ที่คล้ายคลึงกับโมเดลที่ใหญ่กว่ามากโดยใช้ traces น้อยกว่า 2,000 รายการ ซึ่งมีต้นทุนการฝึกน้อยกว่า 450 ดอลลาร์สหรัฐ
ประสิทธิภาพนี้ท้าทายโดยตรงต่อการเล่าเรื่องการระดมทุนของบริษัท AI ขนาดใหญ่ OpenAI ระดมทุนได้ 40 พันล้านดอลลาร์สหรัฐ ในขณะที่ Anthropic ได้รับ 10 พันล้านดอลลาร์สหรัฐ ทั้งสองอ้างถึงความจำเป็นของฮาร์ดแวร์ราคาแพงเพื่อฝึกโมเดลที่ใหญ่กว่า ความสำเร็จของ DeepSeek ชี้ให้เห็นว่าการใช้ distillation อย่างมีกลยุทธ์สามารถบรรลุผลลัพธ์ที่เทียบเคียงได้โดยไม่ต้องลงทุนในโครงสร้างพื้นฐานจำนวนมาก
ประสิทธิภาพการฝึกอบรมของ DeepSeek R1
- การติดตามการตอบสนองที่ใช้: ประมาณ 800,000 รอยติดตาม
- โมเดล Berkeley Sky-T1: บรรลุผลลัพธ์ที่คล้ายคลึงกันด้วยรอยติดตามน้อยกว่า 2,000 รอย
- ต้นทุนการฝึกอบรม: น้อยกว่า 450 ดอลลาร์สหรัฐสำหรับ Sky-T1
- วิธีการ: การกลั่นแบบเสร็จสมบูรณ์ผ่านการเข้าถึง API
![]() |
---|
ภาพประกอบเทคนิค AI ขั้นสูงในการกลั่น เน้นแนวทางนวัตกรรมของ DeepSeek ที่ท้าทายโมเดลแบบดั้งเดิม |
การตอบสนองของอุตสาหกรรมและนวัตกรรมที่ดำเนินต่อไป
การเปิดเผยดังกล่าวได้กระตุ้นปฏิกิริยาที่หลากหลายทั่วอุตสาหกรรมเทคโนโลยี บางคนมองว่าแนวทางของ DeepSeek เป็นการปรับปรุงที่สร้างสรรค์ ในขณะที่คนอื่นๆ ตั้งคำถามว่าการใช้ API responses จากคู่แข่งถือเป็นการปฏิบัติที่ยุติธรรมหรือไม่ อย่างไรก็ตาม distillation เองยังคงเป็นเทคนิคมาตรฐานของอุตสาหกรรม โดยบริษัทต่างๆ เช่น Google, OpenAI และ Amazon เสนอเป็นบริการ
Distillation เป็นหนึ่งในเครื่องมือที่สำคัญที่สุดที่บริษัทต่างๆ มีในปัจจุบันเพื่อทำให้โมเดลมีประสิทธิภาพมากขึ้น
เทคนิคนี้ยังคงพัฒนาต่อไปเกินกว่าการประยุกต์ใช้เดิมในปี 2015 นักวิจัยกำลังนำ distillation ไปใช้กับโมเดล chain-of-thought reasoning ซึ่งใช้กระบวนการคิดแบบหลายขั้นตอนสำหรับการแก้ปัญหาที่ซับซ้อน สิ่งนี้ชี้ให้เห็นว่าศักยภาพของวิธีการนี้ขยายไปไกลเกินกว่าการบีบอัดโมเดลแบบธรรมดา
การระดมทุนอุตutul่ห้วิชาชีพ vs. วิธีการของ DeSeek
- การระดมทุน OpenAI: ระดมทุนได้ 40 พันล้านดอลลาร์ สหรัฐ
- การระดมทุน Anthropic: ระดมทุนได้ 10 พันล้านดอลลาร์สหรัฐ
- วัตถุประสงค์ที่ระบุ: ซื้อเซิร์ฟเวอร์ Nvidia ราคาแพงสำหรับโมเดลที่ใหญ่ขึ้น
- ความท้าทายจาก DeepSeek: บรรลุผลลัพธ์ที่เทียบเคียงได้ด้วยทรัพยากรเพียงเศษเสี้ยว
![]() |
---|
เป็นสัญลักษณ์ของการมีปฏิสัมพันธ์กับเทคโนโลยี AI ภาพนี้สะท้อนแนวทางที่พัฒนาไปเรื่อย ๆ ของอุตสาหกรรมต่อ distillation ในการพัฒนา AI |
ผลกระทบในอนาคตสำหรับการพัฒนา AI
การถกเถียงเรื่อง distillation เน้นย้ำคำถามที่กว้างขึ้นเกี่ยวกับประสิทธิภาพการพัฒนา AI หากโมเดลที่เล็กกว่าและผ่าน distilled สามารถบรรลุประสิทธิภาพที่เทียบเคียงได้กับโมเดลที่ใหญ่กว่า อุตสาหกรรมอาจต้องพิจารณาใหม่เกี่ยวกับการเน้นขนาดและพลังการคำนวณ การเปลี่ยนแปลงนี้อาจทำให้การพัฒนา AI เป็นประชาธิปไตยมากขึ้น ทำให้ความสามารถขั้นสูงเข้าถึงได้สำหรับองค์กรที่ไม่มีงบประมาณจำนวนมาก
ความขัดแย้งนี้ยังเน้นย้ำพลวัตการแข่งขันในการพัฒนา AI ซึ่งเทคนิคสำหรับการสร้างโมเดลที่มีประสิทธิภาพกลายเป็นสิ่งที่มีค่าเท่ากับโมเดลเอง เมื่ออุตสาหกรรมเติบโตขึ้น ความสามารถในการดึงประสิทธิภาพสูงสุดจากทรัพยากรน้อยที่สุดอาจพิสูจน์ว่ามีความสำคัญมากกว่าพลังการคำนวณดิบ
อ้างอิง: How Distillation Makes AI Models Smaller and Cheaper