DeepSeek ได้นำเสนอนวัตกรรมใหม่ในด้านประสิทธิภาพ AI ด้วยกลไก Native Sparse Attention (NSA) ที่แสดงให้เห็นว่าการปรับปรุงประสิทธิภาพที่สำคัญไม่จำเป็นต้องเสียสละคุณภาพของโมเดลเสมอไป งานวิจัยนี้แก้ไขหนึ่งในความท้าทายที่เร่งด่วนที่สุดใน AI สมัยใหม่ คือการทำให้โมเดลภาษาที่มีบริบทยาวสามารถคำนวณได้โดยไม่กระทบต่อความสามารถของโมเดล
ประสิทธิภาพที่ปฏิวัติโดยไม่ต้องแลกเปลี่ยน
สิ่งที่โดดเด่นที่สุดของ NSA คือความสามารถในการให้การปรับปรุงความเร็วที่สำคัญในขณะที่รักษาหรือแม้กระทั่งเกินประสิทธิภาพของโมเดล full attention แบบดั้งเดิม ระบบสามารถเร่งความเร็วในการ inference ได้ถึง 11 เท่าในลำดับ 64,000 โทเค็น ครอบคลุมวงจรชีวิตของโมเดลทั้งหมดตั้งแต่การฝึกอบรมจนถึงการนำไปใช้งาน นี่แสดงถึงการเบี่ยงเบนที่สำคัญจากแนวทางการปรับปรุงทั่วไป ซึ่งการเพิ่มประสิทธิภาพมักจะมาพร้อมกับการสูญเสียคุณภาพของโมเดล
สิ่งที่ทำให้น่าสนใจเป็นพิเศษคือการรวม NSA เข้ากับกระบวนการฝึกอบรมทั้งหมด แทนที่จะนำมาใช้เป็นสิ่งที่คิดขึ้นมาทีหลัง กลไกนี้รวมสองกลยุทธ์ที่เสริมกัน คือ การบีบอัดโทเค็นแบบ coarse-grained สำหรับรักษาการตระหนักรู้บริบทโดยรวม และการเลือกโทเค็นแบบ fine-grained สำหรับรักษาความแม่นยำในระดับท้องถิ่น
ตัวชี้วัดประสิทธิภาพ:
- เพิ่มความเร็วในการอนุมานได้สูงสุดถึง 11 เท่าในลำดับ 64,000 โทเค็น
- การเพิ่มความเร็วนี้ใช้ได้กับการถอดรหัส การแพร่กระจายไปข้างหน้า และการแพร่กระจายย้อนกลับ
- รักษาหรือเกินประสิทธิภาพของโมเดล Full Attention ในเกณฑ์มาตรฐานทั่วไป งานบริบทยาว และการให้เหตุผลแบบใช้คำสั่ง
ผลกระทบต่ออุตสาหกรรมและการตอบสนองจากคู่แข่ง
การเปิดตัวได้สร้างการอภิปรายอย่างมากเกี่ยวกับพลวัตการแข่งขันในการวิจัย AI ผู้สังเกตการณ์ในชุมชนสังเกตว่าแนวทางของ DeepSeek ในการเผยแพร่เอกสารทางเทคนิคที่ละเอียดแตกต่างอย่างชัดเจนจากแนวปฏิบัติที่เก็บเป็นความลับมากกว่าของห้องปฏิบัติการ AI ตะวันตกบางแห่ง ความโปร่งใสนี้มีรายงานว่าได้กระตุ้นให้เกิดความพยายามในการนำไปใช้อย่างรวดเร็วทั่วอุตสาหกรรม
ฉันสงสัยว่าทำไมผู้เล่นหลักทั้งหมดถึงเงียบไปหลังจากสองสัปดาห์หลังจาก deepseek R1 เปิดตัว พวกเขาคงกำลังอ่านและนำทุกสิ่งในเอกสารที่มาพร้อมกับมันไปใช้อย่างรวดเร็วที่สุดเท่าที่มนุษย์จะทำได้
อย่างไรก็ตาม ผลกระทบในวงกว้างยังคงเป็นเรื่องที่ถกเถียงกัน ในขณะที่บางคนชื่นชมการมีส่วนร่วมในการวิจัยแบบเปิดของ DeepSeek คนอื่นๆ ชี้ให้เห็นว่าการเป็นคนแรกที่เผยแพร่ไม่จำเป็นต้องแปลเป็นการครอบงำตลาดหรือประสิทธิภาพในโลกจริงที่เหนือกว่าเมื่อเทียบกับผู้เล่นที่มีชื่อเสียงอย่าง OpenAI , Google หรือ Anthropic
ผู้ร่วมวิจัย:
- ผู้เขียน: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng
- สถาบันที่สังกัด: DeepSeek, Peking University (PKU), University of Washington (UW)
นวัตกรรมทางเทคนิคและการจัดตำแหน่งฮาร์ดแวร์
ปรัชญาการออกแบบของ NSA มุ่งเน้นไปที่การปรับปรุงที่สอดคล้องกับฮาร์ดแวร์ที่สร้างสมดุลระหว่างความเข้มข้นทางคณิตศาสตร์กับประสิทธิภาพของอัลกอริทึม แนวทางนี้ช่วยให้ระบบสามารถทำงานได้อย่างมีประสิทธิภาพกับโครงสร้างพื้นฐานการคำนวณสมัยใหม่ แทนที่จะต้องการการปรับเปลี่ยนฮาร์ดแวร์เฉพาะทาง กลยุทธ์ sparse แบบลำดับชั้นแบบไดนามิกแสดงถึงวิวัฒนาการที่ซับซ้อนของกลไก attention ที่เคลื่อนไปเกินกว่าการลดโทเค็นแบบง่ายๆ สู่การจัดการบริบทอย่างชาญฉลาด
การวิจัยแสดงให้เห็นว่า sparse attention สามารถรวมเข้ากับการฝึกอบรมโมเดลตั้งแต่เริ่มต้นได้สำเร็จ ท้าทายภูมิปัญญาดั้งเดิมที่ว่าการปรับปรุงดังกล่าวต้องประนีประนอมความสามารถของโมเดล แนวทางการรวมแบบ native นี้ดูเหมือนจะเป็นกุญแจสำคัญในการบรรลุทั้งการเพิ่มประสิทธิภาพและการรักษาประสิทธิภาพไปพร้อมกัน
สถาปัตยกรรมทางเทคนิค:
- กลยุทธ์แบบกระจายตัวแบบลำดับชั้นแบบไดนามิก
- การบีบอัดโทเค็นแบบหยาบสำหรับการรับรู้บริบทโดยรวม
- การเลือกโทเค็นแบบละเอียดสำหรับความแม่นยำในระดับท้องถิ่น
- การปรับให้เหมาะสมกับฮาร์ดแวร์สำหรับโครงสร้างพื้นฐานการคำนวณสมัยใหม่
- การออกแบบอัลกอริทึมที่สมดุลด้านความเข้มข้นเชิงคณิตศาสตร์
บทสรุป
Native Sparse Attention ของ DeepSeek แสดงถึงความก้าวหน้าที่สำคัญในการทำให้โมเดลภาษาขนาดใหญ่มีประสิทธิภาพในการคำนวณมากขึ้น แม้ว่าผลกระทบการแข่งขันระยะยาวของเทคโนโลยียังคงต้องรอดู แต่การมีส่วนร่วมโดยตรงต่อสาขานี้อยู่ที่การแสดงให้เห็นว่าประสิทธิภาพและประสิทธิผลไม่จำเป็นต้องแยกจากกัน การเผยแพร่แบบเปิดของผลการค้นพบทางเทคนิคที่ละเอียดยังคงขับเคลื่อนนวัตกรรมทั่วชุมชนการวิจัย AI โดยไม่คำนึงว่าบริษัทใดจะประสบความสำเร็จในตลาดในที่สุด
อ้างอิง: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention