Kimi Linear จาก Moonshot AI ท้าทายขีดจำกัด GPU ด้วยคอนเท็กซ์ 1 ล้านโทเค็น และความเร็วเพิ่มขึ้น 6 เท่า

ทีมชุมชน BigGo
Kimi Linear จาก Moonshot AI ท้าทายขีดจำกัด GPU ด้วยคอนเท็กซ์ 1 ล้านโทเค็น และความเร็วเพิ่มขึ้น 6 เท่า

ในโลกของปัญญาประดิษฐ์ที่พัฒนาอย่างรวดเร็ว ความก้าวหน้าครั้งใหม่จาก Moonshot AI กำลังเป็นที่สนใจจากศักยภาพในการลดต้นทุนการคำนวณของแบบจำลองภาษาขนาดใหญ่อย่างมาก การเปิดตัว Kimi Linear ซึ่งมาพร้อมกับสถาปัตยกรรมความใส่ใจแบบไฮบริดใหม่ สัญญาว่าจะจัดการกับคอนเท็กซ์วินโดว์ได้สูงสุดถึง 1 ล้านโทเค็น ในขณะที่เพิ่มความเร็วในการถอดรหัสได้สูงสุดถึงหกเท่า การพัฒนานี้เกิดขึ้นในช่วงเวลาที่สำคัญเมื่อชุมชน AI กำลังเผชิญกับความต้องการพลังงานมหาศาลและข้อจำกัดด้านฮาร์ดแวร์ของโมเดลในปัจจุบัน

นวัตกรรมหลักอย่าง Kimi Delta Attention (KDA) เป็นตัวแทนของก้าวที่สำคัญไปข้างหน้าในการทำให้ AI เข้าถึงได้และมีประสิทธิภาพมากขึ้น ดังที่สมาชิกชุมชนหนึ่งระบุไว้อย่างเหมาะสม สาขานี้กำลังได้รับการแข่งขันที่เข้มข้นเพื่อแก้ไขหนึ่งในความท้าทายที่สำคัญที่สุดของ AI นั่นคือ ความซับซ้อนแบบกำลังสองของกลไกความใส่ใจแบบดั้งเดิม ซึ่งทำให้การประมวลผลเอกสารยาวๆ เป็นเรื่องที่ต้องใช้การคำนวณอย่างมาก

ภาพหน้าจอของ GitHub repository สำหรับ Kimi Linear ที่แสดงรายละเอียดทางเทคนิคและเอกสารประกอบ
ภาพหน้าจอของ GitHub repository สำหรับ Kimi Linear ที่แสดงรายละเอียดทางเทคนิคและเอกสารประกอบ

การคิดใหม่เกี่ยวกับความใส่ใจสำหรับเกมระยะยาว

หัวใจของความก้าวหน้าของ Kimi Linear คือสิ่งที่นักพัฒนาระบุว่าคือสถาปัตยกรรมความใส่ใจเชิงเส้นแบบไฮบริด วิธีการนี้เป็นการคิดใหม่อย่างถึงรากเกี่ยวกับว่าโมเดล AI ประมวลผลข้อมูลอย่างไร โดยโมเดล Transformer แบบดั้งเดิมใช้สิ่งที่เรียกว่าความใส่ใจแบบเต็ม ซึ่งเป็นกลไกที่ต้องการให้โมเดลประเมินทุกคำในความสัมพันธ์กับคำอื่นๆ อย่างต่อเนื่องในขณะที่มันสร้างข้อความใหม่ แม้จะมีประสิทธิภาพ แต่วิธีการนี้กลับมีความต้องการมากขึ้นแบบทวีคูณเมื่อความยาวของคอนเท็กซ์เพิ่มขึ้น สร้างสิ่งที่นักวิจัยเรียกว่าความซับซ้อนแบบกำลังสอง

โซลูชันของ Kimi ทรงตัวระหว่างประสิทธิภาพและความสามารถอย่างชาญฉลาดโดยใช้ Kimi Delta Attention ในสามในทุกๆ สี่เลเยอร์ โดยสงวนความใส่ใจแบบดั้งเดิมไว้สำหรับงานประมวลผลเพียงหนึ่งในสี่เท่านั้น อัตราส่วน 3:1 นี้ทำให้โมเดลรักษาประสิทธิภาพสูงไว้ได้ ในขณะที่ลดภาระการคำนวณลงอย่างมาก สถาปัตยกรรมนี้ทำงานเหมือนกับผู้อ่านที่มีทักษะซึ่งสามารถสรุปเอกสารส่วนใหญ่ได้อย่างรวดเร็ว ในขณะที่ยังคงอ้างอิงถึงตอนสำคัญเป็นครั้งคราวโดยละเอียด

ความใส่ใจแบบเดิมคำนวณการผสมผสานของทุกโทเค็นกับโทเค็นอื่นๆ ทุกตัว ดังนั้นเราจึงจ่ายค่าคำนวณที่สัมพันธ์กับ N กำลังสอง ดังนั้นค่าใช้จ่ายด้านความใส่ใจจึงเพิ่มขึ้นอย่างรวดเร็วในแง่ของความต้องการในการคำนวณและหน่วยความจำเมื่ออินพุตมีความยาวมากขึ้น

กราฟเปรียบเทียบประสิทธิภาพที่แสดงให้เห็นความรวดเร็วในการ decode ของ Kimi Linear เมื่อเทียบกับวิธีการแบบดั้งเดิม
กราฟเปรียบเทียบประสิทธิภาพที่แสดงให้เห็นความรวดเร็วในการ decode ของ Kimi Linear เมื่อเทียบกับวิธีการแบบดั้งเดิม

ประโยชน์เชิงปฏิบัติสำหรับการใช้งานในโลกจริง

ความหมายของกำไรด้านประสิทธิภาพของ Kimi Linear มีนัยสำคัญสำหรับทั้งนักพัฒนาและผู้ใช้ปลายทาง ด้วยการลดขนาดแคช คีย์-วาลู (KV) ลง 75% เทคโนโลยีนี้ช่วยให้สามารถสนทนาและประมวลผลเอกสารที่ยาวขึ้นได้มากภายใต้ข้อจำกัดด้านฮาร์ดแวร์เดียวกัน เพื่อให้เข้าใจบริบท การประมวลผลเอกสาร 1 ล้านโทเค็นด้วยความใส่ใจแบบดั้งเดิมจะต้องคงการแสดงแทนสำหรับทุกโทเค็นเดียวตลอดกระบวนการทั้งหมด ซึ่งเป็นงานที่ใช้หน่วยความจำมากและมักจะจำกัดความยาวคอนเท็กซ์ในทางปฏิบัติ

การปรับปรุงความเร็วในการถอดรหัสที่รายงานว่า 6 เท่า แปลเป็นเวลาตอบสนองที่เร็วขึ้นอย่างมีนัยสำคัญ ซึ่งสังเกตเห็นได้ชัดเจนในแอปพลิเคชันที่เกี่ยวข้องกับเอกสารยาวหรือการสนทนาที่ยาวนาน การเพิ่มความเร็วนี้มาโดยไม่เสียคุณภาพ โดยโมเดลแสดงให้เห็นถึงประสิทธิภาพที่สามารถแข่งขันได้ในเกณฑ์มาตรฐานต่างๆ รวมถึง MMLU-Pro และ RULER กำไรด้านประสิทธิภาพนี้อาจทำให้ความสามารถ AI ขั้นสูงเข้าถึงได้มากขึ้นสำหรับผู้ใช้ที่มีทรัพยากรฮาร์ดแวร์จำกัด

ข้อมูลจำเพาะของ Kimi Linear Model

  • พารามิเตอร์ทั้งหมด: 48B
  • พารามิเตอร์ที่ใช้งาน: 3B
  • ความยาว Context: 1M tokens
  • การลด KV Cache: 75%
  • การปรับปรุงประสิทธิภาพ Decoding Throughput: สูงสุดถึง 6 เท่า
  • สถาปัตยกรรม: Hybrid linear attention (อัตราส่วน KDA ต่อ global MLA เป็น 3:1)

ปฏิกิริยาจากชุมชนและการตรวจสอบทางเทคนิค

ชุมชน AI ตอบสนองด้วยทั้งความกระตือรือร้นและการวิเคราะห์อย่างรอบคอบ การสนทนาในเธรดต่างๆ เผยให้เห็นถึงความสนใจทางเทคนิคอย่างลึกซึ้งเกี่ยวกับว่า Kimi Linear เปรียบเทียบกับแนวทางอื่นๆ ที่มุ่งเน้นประสิทธิภาพอย่างไร เช่น Google's sliding window attention และการทดลองทางสถาปัตยกรรมต่างๆ ของ Meta ผู้แสดงความคิดเห็นบางคนแสดงความสงสัยว่าการลดเลเยอร์ความใส่ใจแบบกำลังสองอาจส่งผลต่อความสามารถของโมเดลในการจัดการงานการให้เหตุผลที่ซับซ้อนซึ่งต้องอาศัยความเข้าใจความสัมพันธ์ที่ห่างไกลภายในข้อความหรือไม่

การออกแบบ Mixture of Experts (MoE) ของโมเดล ซึ่งเปิดใช้งานเพียง 3 พันล้านพารามิเตอร์จากทั้งหมด 48 พันล้านพารามิเตอร์สำหรับอินพุตที่กำหนด ได้รับความสนใจเป็นพิเศษ ทางเลือกทางสถาปัตยกรรมนี้ทำให้โมเดลสามารถรักษาความรู้ที่กว้างขวางไว้ได้ ในขณะที่เพิ่มประสิทธิภาพทรัพยากรการคำนวณ สมาชิกชุมชนตั้งข้อสังเกตว่าแนวทางนี้ เมื่อรวมกับนวัตกรรมความใส่ใจเชิงเส้น อาจเป็นตัวแทนของก้าวที่มีความหมายสู่การพัฒนา AI ที่ยั่งยืนมากขึ้น

ข้อกำหนดด้านฮาร์ดแวร์จุดประกายการอภิปรายเชิงปฏิบัติเกี่ยวกับการเข้าถึง แม้โมเดล 48 พันล้านพารามิเตอร์อาจดูน่ากังวล แต่จำนวนพารามิเตอร์ที่เปิดใช้งานที่ 3 พันล้านทำให้มีศักยภาพที่จะรันบนฮาร์ดแวร์ระดับผู้บริโภคที่มี VRAM เพียงพอ ผู้แสดงความคิดเห็นหลายคนแบ่งปันประสบการณ์การรันโมเดลขนาดใกล้เคียงกันบนฮาร์ดแวร์เช่นการ์ด RTX 3070 แนะนำว่า Kimi Linear อาจได้รับการยอมรับนอกเหนือจากผู้ให้บริการคลาวด์รายใหญ่

ไฮไลท์ด้านประสิทธิภาพ

  • ผลลัพธ์ที่แข่งขันได้บนเบนช์มาร์ก MMLU-Pro และ RULER
  • การปรับปรุงความเร็วอย่างมีนัยสำคัญสำหรับงานที่ใช้บริบทยาว
  • รักษาคุณภาพในขณะที่ลดความต้องการด้านการประมวลผล
  • มีให้ใช้งานทั้งในเวอร์ชันพื้นฐานและเวอร์ชันที่ปรับแต่งคำสั่ง

เส้นทางข้างหน้าสำหรับ AI ที่มีประสิทธิภาพ

การเปิดตัว Kimi Linear มาถึงในขณะที่อุตสาหกรรม AI กำลังเผชิญกับความกังวลที่เพิ่มขึ้นเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมและความยั่งยืนทางเศรษฐกิจของโมเดลที่ใหญ่ขึ้นเรื่อยๆ การปรับปรุงประสิทธิภาพล่าสุดทั่วทั้งอุตสาหกรรมส่วนใหญ่ถูกดูดซับด้วยความต้องการที่เพิ่มขึ้น สะท้อนให้เห็นรูปแบบที่พบในภาคเทคโนโลยีอื่นๆ อย่างไรก็ตาม นวัตกรรมเช่น Kimi Linear ชี้ให้เห็นว่าความก้าวหน้าทางอัลกอริทึมอาจทำให้ระบบ AI ที่มีความสามารถสามารถทำงานนอกศูนย์ข้อมูลขนาดใหญ่ได้ในที่สุด

การเผยแพร่ open-source ของเคอร์เนล KDA ใน FLA (Flash Attention) และความพร้อมใช้งานของ model checkpoints ที่ฝึกบน 5.7 ล้านล้านโทเค็น แสดงให้เห็นถึงความมุ่งมั่นของ Moonshot AI ต่อการพัฒนาชุมชนและความโปร่งใส แนวทางนี้อาจเร่งนวัตกรรมเพิ่มเติมเมื่อนักวิจัยสร้างจากความก้าวหน้าด้านประสิทธิภาพเหล่านี้

ในขณะที่ AI ยังคงวิวัฒนาการต่อไป ความสมดุลระหว่างความสามารถ ประสิทธิภาพ และการเข้าถึงยังคงเป็นสิ่งสำคัญที่สุด Kimi Linear ไม่ได้เป็นเพียงตัวแทนของการปรับปรุงเพิ่มเติมอีกครั้ง แต่เป็นการเปลี่ยนแปลงกระบวนทัศน์ที่อาจเกิดขึ้นในวิธีที่เราคิดเกี่ยวกับสถาปัตยกรรมพื้นฐานของแบบจำลองภาษาขนาดใหญ่ การตอบสนองที่มีส่วนร่วมของชุมชนชี้ให้เห็นว่าเรากำลังเป็นพยานในช่วงเวลาสำคัญในการพัฒนา AI ซึ่งฉลาดขึ้น แทนที่จะเพียงแค่ใหญ่ขึ้น อาจกลายเป็นแนวใหม่

อ้างอิง: Kimi Linear: An Expressive, Efficient Attention Architecture