บริษัทปัญญาประดิษฐ์จีน DeepSeek ได้ทำการเปลี่ยนแปลงเชิงกลยุทธ์ด้วยการเปิดตัวโมเดลล่าสุด ซึ่งส่งสัญญาณการเปลี่ยนแปลงพื้นฐานในวิธีที่บริษัท AI ชั้นนำเข้าถึงความเข้ากันได้ของฮาร์ดแวร์ การเปิดตัว DeepSeek-V3.2-Exp ไม่ได้เป็นเพียงการอัปเดตโมเดลภาษาทั่วไป แต่เป็นการทำเครื่องหมายครั้งแรกที่บริษัท AI จีนชั้นนำให้ความสำคัญกับสถาปัตยกรรมชิปภายในประเทศตั้งแต่วันแรก แทนที่จะปฏิบัติต่อพวกมันเป็นเรื่องรอง
การเปลี่ยนแปลงเชิงกลยุทธ์สู่ความเป็นอิสระของฮาร์ดแวร์ภายในประเทศ
DeepSeek ประกาศโมเดล V3.2-Exp เมื่อวันที่ 29 กันยายน 2024 พร้อมการปรับแต่งทันทีสำหรับฮาร์ดแวร์ Ascend ของ Huawei และซอฟต์แวร์สแต็ก CANN สิ่งนี้แสดงถึงการเบี่ยงเบนจากแนวทางแบบดั้งเดิมที่โมเดลจะถูกปรับแต่งสำหรับระบบนิเวศ CUDA ของ Nvidia ก่อนจึงจะถูกดัดแปลงสำหรับแพลตฟอร์มทางเลือก บริษัทวางตำแหน่งการเปิดตัวนี้เป็นขั้นตอนกลางสู่สถาปัตยกรรมรุ่นต่อไปของเรา ที่ออกแบบมาเป็นพิเศษเพื่อลดต้นทุนที่เกี่ยวข้องกับการอนุมานบริบทยาวผ่านกลไกความสนใจแบบกระจัดกระจายที่นวัตกรรม
คุณสมบัติทางเทคนิคหลัก
- กลไก Sparse Attention: ลดความต้องการหน่วยความจำและการประมวลผลสำหรับการอนุมานบริบทยาว
- การปรับใช้ข้ามแพลตฟอร์ม: สิ่งประดิษฐ์โมเดลเดียวกันสามารถทำงานได้กับตัวเร่งความเร็วประเภทต่างๆ โดยมีการเปลี่ยนแปลงเพียงเล็กน้อย
- การรองรับ TileLang: แนะนำสำหรับการสร้างต้นแบบและการพัฒนา
- ความเท่าเทียมกับ vLLM: ความเข้ากันได้ของฟีเจอร์กับเฟรมเวิร์กการอนุมานที่มีชื่อเสียงตั้งแต่เปิดตัว
การตอบสนองของอุตสาหกรรมแบบประสานงานแสดงให้เห็นความเป็นผู้ใหญ่ของระบบนิเวศ
ความเร็วของการยอมรับทั่วภูมิทัศน์เซมิคอนดักเตอร์ของจีนเป็นสิ่งที่น่าทึ่ง ทีม Ascend ของ Huawei ร่วมมืออย่างใกล้ชิดกับชุมชน vLLM-Ascend เพื่อให้แน่ใจว่ามีความเข้ากันได้ทันที โดยเผยแพร่คู่มือการติดตั้งตัวดำเนินการแบบกำหนดเองและแพ็คเกจเคอร์เนลเป็นพิเศษสำหรับ NPU ของ Ascend ระดับการประสานงานนี้บ่งบอกถึงระบบนิเวศที่เป็นผู้ใหญ่ที่สามารถตอบสนองต่อสถาปัตยกรรมโมเดลใหม่ได้อย่างรวดเร็วโดยไม่ต้องรอการใช้งาน CUDA ต้นน้ำ
ผู้ผลิตชิปหลายรายเข้าร่วมโครงการ
นอกเหนือจาก Huawei บริษัทเซมิคอนดักเตอร์จีนชั้นนำอื่น ๆ ได้จัดแนวแพลตฟอร์มของพวกเขากับโมเดลใหม่อย่างรวดเร็ว Cambricon เปิดตัวการอัปเดตสำหรับ vLLM-MLU fork ของตน โดยอ้างว่าการรวมกันของเอนจินการอนุมานกับสถาปัตยกรรมความสนใจแบบกระจัดกระจายของ V3.2-Exp ลดต้นทุนการประมวลผลสำหรับลำดับยาวอย่างมีนัยสำคัญ ในขณะเดียวกัน Hygon ประกาศว่าตัวเร่ง DCU ของตนได้รับการปรับแต่งสำหรับการปรับใช้แบบรอศูนย์ผ่านซอฟต์แวร์สแต็ก DTK แสดงให้เห็นถึงความกว้างของการมีส่วนร่วมของอุตสาหกรรม
แพลตฟอร์มฮาร์ดแวร์ที่รองรับ
บริษัท | ฮาร์ดแวร์ | Software Stack | สถานะ |
---|---|---|---|
Huawei | Ascend NPUs | CANN | รองรับตั้งแต่วันแรกพร้อม custom operators |
Cambricon | MLU accelerators | vLLM-MLU | Updated fork พร้อมการปรับปรุง inference |
Hygon | DCU accelerators | DTK | ความสามารถในการ deployment แบบไม่ต้องรอ |
Nvidia | GPUs | CUDA | รักษาความเข้ากันได้ |
นวัตกรรมทางเทคนิคขับเคลื่อนการลดต้นทุน
โมเดล V3.2-Exp ผสมผสานกลไกความสนใจแบบกระจัดกระจายขั้นสูงที่ลดทั้งความต้องการหน่วยความจำและการคำนวณในขณะที่รักษาคุณภาพผลลัพธ์ แนวทางเทคนิคนี้แก้ไขหนึ่งในความท้าทายที่สำคัญที่สุดในการปรับใช้โมเดลภาษาขนาดใหญ่ คือการเพิ่มขึ้นของต้นทุนแบบเลขชี้กำลังที่เกี่ยวข้องกับการประมวลผลหน้าต่างบริบทที่ยาวขึ้น เอกสาร GitHub ของ DeepSeek ระบุความเท่าเทียมของฟีเจอร์กับเฟรมเวิร์กที่จัดตั้งขึ้นแล้วเช่น vLLM ตั้งแต่เปิดตัว ซึ่งบ่งบอกถึงวิศวกรรมที่แข็งแกร่งเบื้องหลังการปรับใช้อย่างรวดเร็ว
ความเข้ากันได้ข้ามแพลตฟอร์มรักษาความยืดหยุ่น
แม้จะเน้นที่ฮาร์ดแวร์จีน DeepSeek ยังคงรักษาความเข้ากันได้กับระบบนิเวศของ Nvidia บริษัทอ้างอิงทั้ง TileLang และเคอร์เนล CUDA ในเอกสารทางเทคนิค โดยส่งเสริมให้นักวิจัยใช้ TileLang สำหรับการสร้างต้นแบบในขณะที่ให้แน่ใจว่าสิ่งประดิษฐ์โมเดลเดียวกันสามารถปรับใช้ข้ามประเภทตัวเร่งที่แตกต่างกันด้วยการปรับเปลี่ยนน้อยที่สุด แนวทางนี้ให้ความยืดหยุ่นเชิงกลยุทธ์ในขณะที่สร้างความสามารถภายในประเทศ
การตอบสนองของตลาดสะท้อนการผลักดันอธิปไตย AI ที่กว้างขึ้น
การตอบสนองของอุตสาหกรรมแบบประสานงานได้มีส่วนทำให้เกิดความรู้สึกเชิงบวกในตลาด โดยดัชนี Hang Seng Tech ของฮ่องกงไปถึงจุดสูงสุดในรอบสี่ปีหลังจากการประกาศ ความมุ่งมั่นของรัฐบาลจีนในการลงทุน 500 พันล้านหยวนจีน (ประมาณ 71 พันล้านดอลลาร์สหรัฐ) ในโครงการปัญญาประดิษฐ์ ที่ประกาศโดยคณะกรรมการการพัฒนาและปฏิรูปแห่งชาติ ให้บริบทเพิ่มเติมสำหรับความสำคัญเชิงกลยุทธ์ของความสามารถ AI ภายในประเทศ
บริบทการสนับสนุนจากรัฐบาล
- โครงการ AI ของ NDRC: การมุ่งมั่นลงทุน CNY 500 พันล้าน (≈ USD 71 พันล้าน) ในด้านปัญญาประดิษฐ์
- เงินอุดหนุนผู้บริโภค: CNY 69 พันล้านที่แจกจ่ายให้กับรัฐบาลท้องถิ่นจากพันธบัตรรัฐบาลระยะยาวพิเศษ
- ยอดรวมตั้งแต่ต้นปี: CNY 300 พันล้านในมาตรการสนับสนุนต่างๆ
ผลกระทบต่อการแข่งขันฮาร์ดแวร์ AI ทั่วโลก
การพัฒนานี้แสดงถึงข้อบ่งชี้ที่ชัดเจนที่สุดจนถึงปัจจุบันว่าระบบนิเวศ AI ของจีนกำลังเตรียมตัวอย่างแข็งขันสำหรับสถานการณ์ที่การเข้าถึงฮาร์ดแวร์ Nvidia ไม่สามารถรับประกันได้ ในขณะที่ CUDA ของ Nvidia ยังคงครอบงำทั่วโลก แนวทางของ DeepSeek ในการปฏิบัติต่อตัวเร่งภายในประเทศเป็นเป้าหมายชั้นหนึ่งแทนที่จะเป็นตัวเลือกรอง อาจมีอิทธิพลต่อวิธีที่บริษัท AI จีนอื่น ๆ เข้าถึงกลยุทธ์การพัฒนาและปรับใช้โมเดลในอนาคต