DeepSeek V3.1 เปิดตัวมาตรฐาน UE8M0 FP8 กระตุ้นให้หุ้นชิป AI จีนพุ่งแรง

ทีมบรรณาธิการ BigGo
DeepSeek V3.1 เปิดตัวมาตรฐาน UE8M0 FP8 กระตุ้นให้หุ้นชิป AI จีนพุ่งแรง

บริษัท AI จีน DeepSeek ได้สร้างความตื่นเต้นให้กับตลาดอย่างมีนัยสำคัญด้วยการเปิดตัวโมเดลภาษาขนาดใหญ่ V3.1 ซึ่งนำเสนอมาตรฐานความแม่นยำ UE8M0 FP8 ที่ปฏิวัติวงการและออกแบบมาเฉพาะสำหรับชิปในประเทศรุ่นใหม่ การประกาศนี้ทำให้หุ้นเซมิคอนดักเตอร์จีนพุ่งสูงขึ้น โดยบริษัทอย่าง Cambricon มีกำไรเป็นสองหลัก ขณะที่นักลงทุนคาดหวังยุคใหม่ของการร่วมมือระหว่างซอฟต์แวร์และฮาร์ดแวร์ในระบบนิเวศ AI ของจีน

บริษัทชิป AI ชั้นนำของจีนที่ถูกกล่าวถึง

  • Cambricon (688256): ชิป MLU370-X8 ที่รองรับการ quantization แบบ FP8
  • Hygon Information (688041): Deep Computing Unit 2 (DCU) ที่มีประสิทธิภาพ 90% ของ A100
  • Moore Threads: MUSA 3.1 GPU ที่รองรับ FP8 แบบ native
  • VeriSilicon: VIP9000 NPU ที่รองรับการดำเนินงาน FP8
  • Biren Technology: ชิป BR104 ที่ปรับปรุงประสิทธิภาพการฝึกอบรมเพิ่มขึ้น 4 เท่า

สถาปัตยกรรมการใช้เหตุผลแบบไฮบริดที่ปฏิวัติวงการ

DeepSeek V3.1 แสดงถึงการเปลี่ยนแปลงพื้นฐานในการออกแบบโมเดล AI ผ่านสถาปัตยกรรมการใช้เหตุผลแบบไฮบริดที่นวัตกรรม นวัตกรรมนี้ช่วยให้ผู้ใช้สามารถสลับระหว่างโหมดคิดและโหมดไม่คิดภายในโมเดลเดียวได้อย่างราบรื่น โดยไม่ต้องสลับไปมาระหว่างโมเดลเฉพาะทางต่างๆ สถาปัตยกรรมนี้รวมความสามารถในการสนทนาทั่วไป การใช้เหตุผลที่ซับซ้อน และฟังก์ชันการเขียนโปรแกรมเฉพาะทางเข้าไว้ในระบบเดียว ซึ่งช่วยปรับปรุงประสบการณ์ผู้ใช้และประสิทธิภาพการดำเนินงานอย่างมาก

โมเดลนี้แสดงให้เห็นการปรับปรุงประสิทธิภาพที่น่าทึ่ง โดยประสิทธิภาพโหมดคิดเทียบเท่ากับรุ่นเรือธงเดิม R1-0528 ในขณะที่ลดการส่งออกโทเค็นลง 20% ถึง 50% เทคโนโลยีการบีบอัดห่วงโซ่ความคิดนี้ช่วยให้โมเดลสามารถสร้างเส้นทางการใช้เหตุผลที่กระชับมากขึ้นโดยไม่ลดทอนความแม่นยำ ซึ่งแก้ไขความท้าทายที่มีมายาวนานเกี่ยวกับต้นทุนการคำนวณสูงที่เกี่ยวข้องกับการใช้เหตุผลของ AI ขั้นสูง

UE8M0 FP8: เกมเชนเจอร์สำหรับชิปในประเทศ

นวัตกรรมทางเทคนิคที่ดึงดูดความสนใจของอุตสาหกรรมคือการใช้งานความแม่นยำ UE8M0 FP8 Scale ของ DeepSeek รูปแบบจุดทศนิยมลอยตัว 8 บิตนี้แสดงถึงความก้าวหน้าที่สำคัญเหนือระบบ FP16 แบบดั้งเดิม โดยให้ประสิทธิภาพการคำนวณเพิ่มขึ้นเป็นสองเท่าในขณะที่ลดความต้องการแบนด์วิดท์หน่วยความจำลง 75% รูปแบบ UE8M0 จัดสรรบิตทั้ง 8 บิตให้กับเลขชี้กำลัง โดยตัดบิตแมนทิสซาและเครื่องหมายออก ซึ่งช่วยให้โปรเซสเซอร์สามารถกู้คืนข้อมูลผ่านการเลื่อนบิตอย่างง่ายแทนการดำเนินการคูณที่ซับซ้อน

มาตรฐานความแม่นยำนี้มีประโยชน์เป็นพิเศษสำหรับตัวเร่ง AI จีนที่เกิดใหม่ แม้ว่าชิปในประเทศส่วนใหญ่ในปัจจุบันจะทำงานบนสถาปัตยกรรม FP16/INT8 แต่โปรเซสเซอร์รุ่นใหม่จากบริษัทอย่าง Moore Threads (MUSA 3.1 GPU) และ VeriSilicon (VIP9000 NPU) กำลังรวมการสนับสนุน FP8 แบบเนทีฟ การจัดตำแหน่งระหว่างการปรับปรุงซอฟต์แวร์ของ DeepSeek และความสามารถของฮาร์ดแวร์ในประเทศสร้างพลังร่วมที่ทรงพลังซึ่งสามารถลดการพึ่งพาทรัพยากรการคำนวณจากต่างประเทศได้

ข้อมูลจำเพาะทางเทคนิคของ UE8M0 FP8

  • การจัดสรรบิต: บิตทั้ง 8 บิตถูกจัดสรรให้กับเลขชี้กำลังทั้งหมด (ไม่มีบิตสำหรับ mantissa/เครื่องหมาย)
  • การกู้คืนข้อมูล: การเลื่อนบิตแบบง่าย เทียบกับการคูณที่ซับซ้อน
  • ช่วงไดนามิก: ความสามารถที่เพิ่มขึ้นสำหรับตัวเลขขนาดใหญ่และเล็ก
  • การสูญเสียความแม่นยำ: การลดการเสื่อมสภาพของข้อมูลให้น้อยที่สุด
  • ความเข้ากันได้ของฮาร์ดแวร์: ปรับให้เหมาะสมสำหรับชิป AI รุ่นใหม่ของจีน

การตอบสนองของตลาดและผลกระทบต่ออุตสาหกรรม

การประกาศดังกล่าวกระตุ้นให้เกิดปฏิกิริยาทันทีของตลาด โดยหุ้นแนวคิดชิปจีนมีกำไรอย่างมาก Daily Interactive พุ่งสูง 13.62% ในช่วงปลายการซื้อขาย ขณะที่บริษัทเซมิคอนดักเตอร์อื่นๆ เห็นแรงผลักดันขาขึ้นในทำนองเดียวกัน ผู้สังเกตการณ์ในอุตสาหกรรมสังเกตว่าคำแถลงเดียวของ DeepSeek เกี่ยวกับชิปในประเทศรุ่นใหม่มีข้อมูลเพียงพอที่จะกระตุ้นการเก็งกำไรอย่างแพร่หลายเกี่ยวกับเส้นทางความเป็นอิสระของ AI จีน

ความกระตือรือร้นของตลาดสะท้อนความคาดหวังที่กว้างขึ้นว่าการร่วมมือระหว่างซอฟต์แวร์และฮาร์ดแวร์นี้สามารถทำลายกฎเกณฑ์แบบดั้งเดิมที่ว่าประสิทธิภาพสูงเท่ากับต้นทุนสูงในแอปพลิเคชัน AI บริการทางการเงิน การดูแลสุขภาพ และสถานการณ์การคำนวณสูงอื่นๆ ที่เคยมีต้นทุนสูงเกินไปอาจกลายเป็นเป็นไปได้ทางเศรษฐกิจในขณะนี้ เปิดโอกาสทางการค้าใหม่ในหลายภาคส่วน

ประสิทธิภาพทางเทคนิคและการใช้งานในโลกแห่งความเป็นจริง

การทดสอบชุมชนได้เปิดเผยตัวชี้วัดประสิทธิภาพที่น่าประทับใจสำหรับ DeepSeek V3.1 ในการทดสอบการเขียนโปรแกรมหลายภาษา Aider โมเดลนี้เกินคะแนน Claude 4 Opus ในขณะที่รักษาต้นทุนการดำเนินงานที่ต่ำกว่า ความสามารถในการจำลองฟิสิกส์ที่ปรับปรุงแล้วแสดงให้เห็นการสร้างแบบจำลองโลกแห่งความเป็นจริงที่แม่นยำมากขึ้น โดยมีการจัดการพารามิเตอร์แรงโน้มถ่วง แรงเสียดทาน การหมุน และการเด้งที่ดีขึ้น

อย่างไรก็ตาม ผู้ใช้บางคนรายงานความไม่สอดคล้องกันในงานแปลและการเขียน โดยสังเกตเห็นการส่งออกภาษาผสมเป็นครั้งคราวและข้อผิดพลาดของคำที่ต้องการวิศวกรรมพรอมต์ด้วยตนเองเพื่อแก้ไข ข้อจำกัดเหล่านี้ชี้ให้เห็นว่าแม้ว่าโมเดลจะเป็นเลิศในการใช้เหตุผลและแอปพลิเคชันการเขียนโปรแกรม แต่การปรับปรุงในการประมวลผลภาษายังคงดำเนินต่อไป

การปรับปรุงประสิทธิภาพของ DeepSeek V3.1

เมตริก การปรับปรุง
การลดลงของ token output (โหมดการคิด) 20-50%
ประสิทธิภาพการคำนวณเมื่อเทียบกับ FP16 เพิ่มขึ้น 2 เท่า
การลดลงของ memory bandwidth 75%
การเพิ่มขึ้นของ compute density ใน Cambricon MLU370-X8 40%
การลดลงของการใช้พลังงาน 50%

ความหมายเชิงกลยุทธ์สำหรับระบบนิเวศ AI ของจีน

การเปิดตัว DeepSeek V3.1 ส่งสัญญาณจุดเปลี่ยนผ่านที่สำคัญสำหรับอุตสาหกรรม AI ของจีน โดยเคลื่อนจากการพึ่งพาฮาร์ดแวร์ไปสู่โซลูชันในประเทศแบบบูรณาการ มาตรฐาน UE8M0 FP8 แสดงถึงมากกว่าการปรับปรุงทางเทคนิค แต่เป็นการสร้างรากฐานสำหรับบริษัทจีนในการพัฒนาแอปพลิเคชัน AI โดยไม่ต้องพึ่งพาสถาปัตยกรรมเซมิคอนดักเตอร์จากต่างประเทศมากนัก

ผู้เชี่ยวชาญในอุตสาหกรรมแนะนำว่าการพัฒนานี้สามารถเร่งไทม์ไลน์สำหรับการนำ AI ไปใช้ขนาดใหญ่ในจีน โดยเฉพาะในภาคส่วนที่ความไวต่อต้นทุนได้จำกัดการนำไปใช้ การรวมกันของประสิทธิภาพที่ดีขึ้นและความเข้ากันได้ของฮาร์ดแวร์ในประเทศทำให้บริษัท AI จีนอยู่ในตำแหน่งที่จะแข่งขันได้อย่างมีประสิทธิภาพมากขึ้นในตลาดโลกในขณะที่รักษาอำนาจอธิปไตยทางเทคโนโลยี

ความสำเร็จของแนวทางการบูรณาการซอฟต์แวร์-ฮาร์ดแวร์นี้อาจมีอิทธิพลต่อบริษัท AI จีนอื่นๆ ให้ติดตามกลยุทธ์ที่คล้ายกัน ซึ่งอาจสร้างพลวัตการแข่งขันใหม่ในภูมิทัศน์ปัญญาประดิษฐ์โลก ขณะที่ DeepSeek ยังคงพัฒนาไปสู่โมเดล R2 ที่คาดหวัง อุตสาหกรรมจะติดตามอย่างใกล้ชิดว่าโมเดลความร่วมมือในประเทศนี้สามารถรักษาโมเมนตัมในช่วงแรกและส่งมอบตามสัญญาทางการค้าได้หรือไม่