การถกเถียงเรื่อง AI Distillation: สองวิธีการเบื้องหลังความสำเร็จของ DeepSeek และความขัดแย้งในอุตสาหกรรม

ทีมชุมชน BigGo

การถกเถียงเรื่อง AI Distillation: สองวิธีการเบื้องหลังความสำเร็จของ DeepSeek และความขัดแย้งในอุตสาหกรรม

แชทบอท R1 ของ DeepSeek ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน AI ไม่เพียงแต่เพราะประสิทธิภาพที่น่าประทับใจในต้นทุนที่ต่ำกว่ามาก แต่ยังเป็นเพราะวิธีการที่ใช้เพื่อให้บรรลุผลดังกล่าว ในขณะที่บทความต้นฉบับมุ่งเน้นไปที่ distillation เป็นแนวคิดทั่วไป การอภิปรายในชุมชนเผยให้เห็นความแตกต่างทางเทคนิคที่สำคัญซึ่งอธิบายทั้งความขัดแย้งและความก้าวหน้า

สองวิธี Distillation ที่แตกต่างกันสร้างความสามารถที่แตกต่าง

ชุมชน AI ได้ระบุแนวทางที่แตกต่างกันโดยพื้นฐานสองแนวทางสำหรับ model distillation วิธีแรก completion-based distillation ทำงานผ่าน API access เพียงอย่างเดียว บริษัทต่างๆ สามารถสอบถามโมเดลที่ใหญ่กว่าด้วยคำถามเฉพาะและใช้คำตอบเหล่านั้นเพื่อฝึกโมเดลที่เล็กกว่า แนวทางนี้ไม่ต้องการการเข้าถึงพิเศษใดๆ ต่อการทำงานภายในของโมเดลต้นฉบับ

วิธีที่สองเกี่ยวข้องกับการเข้าถึงโดยตรงต่อการแสดงภายในของโมเดลและการกระจายความน่าจะเป็น เทคนิคนี้ต้องการการเข้าถึงเต็มรูปแบบต่อสถาปัตยกรรมของโมเดลต้นฉบับและสามารถดำเนินการได้เฉพาะโดยผู้สร้างโมเดลเท่านั้น มักใช้โดยบริษัทต่างๆ เพื่อสร้างรูปแบบที่เล็กกว่าของตนเอง เช่น เวอร์ชัน mini หรือ flash

API access: Application Programming Interface - วิธีที่ผู้ใช้ภายนอกสามารถโต้ตอบกับบริการโดยไม่ต้องเข้าถึงโค้ดภายใน

สองประเภทของการกลั่นโมเดล AI

วิธีการ	การเข้าถึงที่จำเป็น	กรณีการใช้งาน	ผู้ใช้
แบบ Completion-based	เข้าถึง API เท่านั้น	บริษัทภายนอกที่ฝึกโมเดลขนาดเล็ก	นักพัฒนาบุคคลที่สาม
แบบ Logit/Internal representations	เข้าถึงโมเดลแบบเต็ม	สร้างตัวแปรขนาดเล็กอย่างเป็นทางการ	ผู้สร้างโมเดลต้นฉบับ

แนวทางของ DeepSeek ท้าทายสมมติฐานของอุตสาหกรรม

DeepSeek มีรายงานว่าใช้วิธีแรก โดยใช้ response traces ประมาณ 800,000 รายการจากโมเดล R1 ของพวกเขาและนำไปใช้กับโมเดลที่เล็กกว่า งานวิจัยล่าสุดชี้ให้เห็นว่ากระบวนการนี้สามารถมีประสิทธิภาพอย่างน่าเหลือเชื่อ โมเดล Sky-T1 ของ University of California, Berkeley บรรลุผลลัพธ์ที่คล้ายคลึงกับโมเดลที่ใหญ่กว่ามากโดยใช้ traces น้อยกว่า 2,000 รายการ ซึ่งมีต้นทุนการฝึกน้อยกว่า 450 ดอลลาร์สหรัฐ

ประสิทธิภาพนี้ท้าทายโดยตรงต่อการเล่าเรื่องการระดมทุนของบริษัท AI ขนาดใหญ่ OpenAI ระดมทุนได้ 40 พันล้านดอลลาร์สหรัฐ ในขณะที่ Anthropic ได้รับ 10 พันล้านดอลลาร์สหรัฐ ทั้งสองอ้างถึงความจำเป็นของฮาร์ดแวร์ราคาแพงเพื่อฝึกโมเดลที่ใหญ่กว่า ความสำเร็จของ DeepSeek ชี้ให้เห็นว่าการใช้ distillation อย่างมีกลยุทธ์สามารถบรรลุผลลัพธ์ที่เทียบเคียงได้โดยไม่ต้องลงทุนในโครงสร้างพื้นฐานจำนวนมาก

ประสิทธิภาพการฝึกอบรมของ DeepSeek R1

การติดตามการตอบสนองที่ใช้: ประมาณ 800,000 รอยติดตาม
โมเดล Berkeley Sky-T1: บรรลุผลลัพธ์ที่คล้ายคลึงกันด้วยรอยติดตามน้อยกว่า 2,000 รอย
ต้นทุนการฝึกอบรม: น้อยกว่า 450 ดอลลาร์สหรัฐสำหรับ Sky-T1
วิธีการ: การกลั่นแบบเสร็จสมบูรณ์ผ่านการเข้าถึง API


ภาพประกอบเทคนิค AI ขั้นสูงในการกลั่น เน้นแนวทางนวัตกรรมของ DeepSeek ที่ท้าทายโมเดลแบบดั้งเดิม

การตอบสนองของอุตสาหกรรมและนวัตกรรมที่ดำเนินต่อไป

การเปิดเผยดังกล่าวได้กระตุ้นปฏิกิริยาที่หลากหลายทั่วอุตสาหกรรมเทคโนโลยี บางคนมองว่าแนวทางของ DeepSeek เป็นการปรับปรุงที่สร้างสรรค์ ในขณะที่คนอื่นๆ ตั้งคำถามว่าการใช้ API responses จากคู่แข่งถือเป็นการปฏิบัติที่ยุติธรรมหรือไม่ อย่างไรก็ตาม distillation เองยังคงเป็นเทคนิคมาตรฐานของอุตสาหกรรม โดยบริษัทต่างๆ เช่น Google, OpenAI และ Amazon เสนอเป็นบริการ

Distillation เป็นหนึ่งในเครื่องมือที่สำคัญที่สุดที่บริษัทต่างๆ มีในปัจจุบันเพื่อทำให้โมเดลมีประสิทธิภาพมากขึ้น

เทคนิคนี้ยังคงพัฒนาต่อไปเกินกว่าการประยุกต์ใช้เดิมในปี 2015 นักวิจัยกำลังนำ distillation ไปใช้กับโมเดล chain-of-thought reasoning ซึ่งใช้กระบวนการคิดแบบหลายขั้นตอนสำหรับการแก้ปัญหาที่ซับซ้อน สิ่งนี้ชี้ให้เห็นว่าศักยภาพของวิธีการนี้ขยายไปไกลเกินกว่าการบีบอัดโมเดลแบบธรรมดา

การระดมทุนอุตutul่ห้วิชาชีพ vs. วิธีการของ DeSeek

การระดมทุน OpenAI: ระดมทุนได้ 40 พันล้านดอลลาร์ สหรัฐ
การระดมทุน Anthropic: ระดมทุนได้ 10 พันล้านดอลลาร์สหรัฐ
วัตถุประสงค์ที่ระบุ: ซื้อเซิร์ฟเวอร์ Nvidia ราคาแพงสำหรับโมเดลที่ใหญ่ขึ้น
ความท้าทายจาก DeepSeek: บรรลุผลลัพธ์ที่เทียบเคียงได้ด้วยทรัพยากรเพียงเศษเสี้ยว


เป็นสัญลักษณ์ของการมีปฏิสัมพันธ์กับเทคโนโลยี AI ภาพนี้สะท้อนแนวทางที่พัฒนาไปเรื่อย ๆ ของอุตสาหกรรมต่อ distillation ในการพัฒนา AI

ผลกระทบในอนาคตสำหรับการพัฒนา AI

การถกเถียงเรื่อง distillation เน้นย้ำคำถามที่กว้างขึ้นเกี่ยวกับประสิทธิภาพการพัฒนา AI หากโมเดลที่เล็กกว่าและผ่าน distilled สามารถบรรลุประสิทธิภาพที่เทียบเคียงได้กับโมเดลที่ใหญ่กว่า อุตสาหกรรมอาจต้องพิจารณาใหม่เกี่ยวกับการเน้นขนาดและพลังการคำนวณ การเปลี่ยนแปลงนี้อาจทำให้การพัฒนา AI เป็นประชาธิปไตยมากขึ้น ทำให้ความสามารถขั้นสูงเข้าถึงได้สำหรับองค์กรที่ไม่มีงบประมาณจำนวนมาก

ความขัดแย้งนี้ยังเน้นย้ำพลวัตการแข่งขันในการพัฒนา AI ซึ่งเทคนิคสำหรับการสร้างโมเดลที่มีประสิทธิภาพกลายเป็นสิ่งที่มีค่าเท่ากับโมเดลเอง เมื่ออุตสาหกรรมเติบโตขึ้น ความสามารถในการดึงประสิทธิภาพสูงสุดจากทรัพยากรน้อยที่สุดอาจพิสูจน์ว่ามีความสำคัญมากกว่าพลังการคำนวณดิบ

อ้างอิง: How Distillation Makes AI Models Smaller and Cheaper

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌