Huawei และ Zhongke Hongyun เปิดตัวโซลูชันเร่งการอนุมาน AI ตัดเวลาตอบสนองลงกว่า 50%

ทีมบรรณาธิการ BigGo
Huawei และ Zhongke Hongyun เปิดตัวโซลูชันเร่งการอนุมาน AI ตัดเวลาตอบสนองลงกว่า 50%

ในความเคลื่อนไหวสำคัญเพื่อแก้ไขปัญหาคอขวดด้านการคำนวณของโมเดลภาษาขนาดใหญ่ (LLMs) Huawei Data Storage และ Zhongke Hongyun ได้ร่วมกันเปิดตัวโซลูชันเร่งการอนุมาน AI ใหม่ โดยประกาศเมื่อวันที่ 23 ธันวาคม 2025 ความร่วมมือนี้มีเป้าหมายเพื่อจัดการกับความล่าช้าสูงและความไม่มีประสิทธิภาพในการใช้ทรัพยากรที่มักเกี่ยวข้องกับการประมวลผลพรอมต์ที่มีคอนเท็กซ์ยาว ซึ่งเป็นความท้าทายทั่วไปในแอปพลิเคชัน AI ระดับองค์กร โซลูชันนี้สัญญาว่าจะนำเสนอขีดความสามารถในการอนุมาน AI ที่ชาญฉลาดกว่า เร็วกว่า และเข้าถึงได้ง่ายกว่าโดยตรงสู่การดำเนินงานทางธุรกิจ

การหลอมรวมของที่เก็บข้อมูลและการคำนวณเพื่อ AI ที่ปรับให้เหมาะสมที่สุด

หัวใจของโซลูชันร่วมนี้คือการบูรณาการอย่างลึกซึ้งระหว่างระบบจัดเก็บข้อมูล OceanStor A-series ของ Huawei กับแพลตฟอร์มคลาวด์อินเทอร์เน็ตสำหรับการคำนวณอัจฉริยะ HyperCN ของ Zhongke Hongyun ความร่วมมือนี้สร้างโครงสร้างพื้นฐานข้อมูลและการคำนวณแบบรวมเป็นหนึ่งเดียวซึ่งออกแบบมาสำหรับเวิร์กโหลด AI โดยเฉพาะ ด้วยการใช้ที่เก็บข้อมูลของ Huawei เป็นฐานข้อมูลประสิทธิภาพสูง ระบบสามารถจัดการข้อมูลปริมาณมหาศาลที่สร้างขึ้นระหว่างการอนุมาน AI ได้อย่างมีประสิทธิภาพมากขึ้น ในขณะที่ HyperCN ให้เลเยอร์การออร์เคสเตรชันเพื่อจัดการทรัพยากรการคำนวณที่หลากหลาย

นวัตกรรมหลักที่ขับเคลื่อนการเพิ่มประสิทธิภาพ

โซลูชันนี้นำเสนอความก้าวหน้าทางเทคนิคหลายประการเพื่อเร่งการอนุมาน คุณสมบัติหลักคือเทคโนโลยี UCM (Unified Cache Management) ของ Huawei ซึ่งทำการเก็บแคช KV ซึ่งเป็นองค์ประกอบสำคัญสำหรับการอนุมาน LLM ไว้ในที่จัดเก็บข้อมูล OceanStor อย่างชาญฉลาด "หน่วยความจำสำหรับอนุมาน" นี้ป้องกันการคำนวณซ้ำซ้อนสำหรับพรอมต์ที่ซ้ำกัน ซึ่งช่วยเร่งความเร็วการตอบสนองในครั้งต่อๆ ไปได้อย่างมีนัยสำคัญ นอกจากนี้ การบูรณาการอัลกอริธึม เช่น Prefix Cache และ GSA sparse acceleration ยังมุ่งเป้าไปที่การลดเวลาในการได้โทเคนแรก (TTFT) ซึ่งเป็นความล่าช้าเริ่มต้นที่ผู้ใช้ประสบเมื่อสอบถามโมเดล

ความเข้ากันได้ทางเทคนิคและคุณสมบัติ:

  • ฮาร์ดแวร์ AI ที่รองรับ: GPU จาก NVIDIA, Huawei Ascend, Cambricon
  • เฟรมเวิร์กที่รองรับ: MindSpore, vLLM, SGLang
  • เทคโนโลยีหลัก: Huawei UCM สำหรับการคงอยู่ของ KV Cache, Prefix Cache, การเร่งความเร็วแบบเบาบาง GSA
  • การผสานรวมกับแพลตฟอร์ม: การจัดการด้วย Kubernetes ร่วมกับระบบจัดเก็บข้อมูล Huawei OceanStor A-series

ผลลัพธ์ที่วัดได้จากการทดสอบในโลกจริง

จากเกณฑ์มาตรฐานประสิทธิภาพที่บริษัทเปิดเผย โซลูชันนี้ให้การปรับปรุงที่สำคัญ ในสถานการณ์ถาม-ตอบอัจฉริยะมาตรฐาน เวลาในการได้โทเคนแรกลดลง 57.5% ประโยชน์นี้จะเพิ่มขึ้นตามความยาวของคอนเท็กซ์: ในการทดสอบการให้เหตุผลจากเอกสารยาวที่มีความยาวลำดับ 39,000 โทเคน โซลูชันนี้สามารถเพิ่มความสามารถในการประมวลผลพร้อมกันได้ 86% และเพิ่มปริมาณงานการอนุมานโดยรวม 36% ตัวชี้วัดเหล่านี้แปลเป็นผู้ช่วย AI ที่ตอบสนองได้ดีขึ้น และความสามารถในการประมวลผลเอกสารที่ซับซ้อนได้เร็วกว่ามาก

รายงานการปรับปรุงประสิทธิภาพ:

  • เวลาในการสร้างโทเคนแรก (TTFT) ในระบบถาม-ตอบ: ลดลง 57.5%
  • การให้เหตุผลจากเอกสารยาว (39K โทเคน): ความสามารถในการทำงานพร้อมกัน: เพิ่มขึ้น 86% อัตราการประมวลผล (Throughput): เพิ่มขึ้น 36%

ออกแบบสำหรับการใช้งานที่หลากหลายและพร้อมสำหรับองค์กร

ด้วยการตระหนักถึงภูมิทัศน์ฮาร์ดแวร์ AI ที่หลากหลาย โซลูชันนี้ถูกสร้างขึ้นเพื่อความยืดหยุ่น โดยรองรับและสามารถออร์เคสเตรตตัวเร่งความเร็ว AI หลากหลายยี่ห้อ ไม่ว่าจะเป็นจาก NVIDIA, Ascend ของ Huawei เอง และ Cambricon นอกจากนี้ยังเข้ากันได้กับเฟรมเวิร์ก AI หลักๆ เช่น MindSpore, vLLM และ SGLang และสามารถผสานรวมกับ Kubernetes สำหรับการใช้งานแบบคอนเทนเนอร์ได้อย่างราบรื่น แนวทางที่ไม่ยึดติดกับแพลตฟอร์มนี้ช่วยให้องค์กรต่างๆ สามารถใช้ประโยชน์จากการลงทุนในโครงสร้างพื้นฐานที่มีอยู่ แพลตฟอร์มยังรวมถึงชุดเครื่องมือ AI เต็มรูปแบบ ครอบคลุมการจัดการข้อมูล การพัฒนาโมเดล การฝึกอบรม และการอนุมาน ซึ่งอำนวยความสะดวกในการจัดการทรัพย์สิน AI จากส่วนกลาง

สถานะปัจจุบัน: โซลูชันร่วมอยู่ในขั้นตอนการนำร่องใช้งาน โดยกำลังมีการติดตั้งใช้งานในภาคพลังงานและไฟฟ้า การผลิตอัจฉริยะ และภาคห้องปฏิบัติการระดับชาติ

โครงการนำร่องบ่งชี้การประยุกต์ใช้ในอุตสาหกรรมที่กว้างขวาง

โซลูชันร่วม Huawei-Zhongke Hongyun ไม่ใช่แค่ข้อเสนอทางทฤษฎีเท่านั้น แต่ได้เข้าสู่ขั้นตอนการใช้งานนำร่องภายในหลายภาคอุตสาหกรรมสำคัญแล้ว รวมถึงพลังงานและไฟฟ้า การผลิตอัจฉริยะ และการวิจัยในห้องปฏิบัติการระดับชาติ การใช้งานเบื้องต้นเหล่านี้มีความสำคัญอย่างยิ่งสำหรับการตรวจสอบประสิทธิภาพของโซลูชันในสภาพแวดล้อมโลกจริงที่ต้องการความแม่นยำสูง และสำหรับการปรับแต่งขีดความสามารถก่อนการเปิดตัวสู่ตลาดในวงกว้าง ความเคลื่อนไหวนี้วางตำแหน่งข้อเสนอร่วมเป็นเครื่องมือปฏิบัติการสำหรับเร่งการนำ AI มาใช้ในอุตสาหกรรมที่สำคัญต่อภารกิจ