LMCache อ้างเพิ่มประสิทธิภาพ LLMs ได้ 3 เท่า แต่ชุมชนตั้งคำถามการตลาดแบบ "Lossless"

ทีมชุมชน BigGo
LMCache อ้างเพิ่มประสิทธิภาพ LLMs ได้ 3 เท่า แต่ชุมชนตั้งคำถามการตลาดแบบ "Lossless"

LMCache ได้เกิดขึ้นเป็นเครื่องมือโอเพนซอร์สใหม่ที่สัญญาว่าจะเร่งความเร็วการประมวลผล large language model (LLM) อย่างมากโดยการจัดเก็บและนำ key-value (KV) caches กลับมาใช้ใหม่ในตำแหน่งการจัดเก็บข้อมูลต่างๆ โปรเจกต์นี้ซึ่งรวมเข้ากับ serving engines ยอดนิยมอย่าง vLLM อ้างว่าสามารถให้การปรับปรุงประสิทธิภาพ 3-10 เท่าในเวลาตอบสนองและประสิทธิภาพ GPU สำหรับแอปพลิเคชันอย่างการสนทนาหลายรอบและ retrieval-augmented generation (RAG)

เทคโนโลยีนี้ทำงานโดยการจัดเก็บผลลัพธ์การคำนวณของการประมวลผลข้อความ ซึ่งเรียกว่า KV caches ในตำแหน่งต่างๆ รวมถึงหน่วยความจำ GPU, RAM ของ CPU และการจัดเก็บข้อมูลในดิสก์ท้องถิ่น เมื่อข้อความที่คล้ายกันปรากฏในคำขอในอนาคต ระบบสามารถนำผลลัพธ์ที่แคชไว้เหล่านี้กลับมาใช้ใหม่แทนการคำนวณทุกอย่างใหม่ตั้งแต่ต้น

คุณสมบัติหลักของ LMCache :

  • การถ่ายโอน KV cache ของ CPU ที่มีประสิทธิภาพสูง
  • การประมวลผล prefill แบบแยกส่วน
  • การแบ่งปัน KV cache แบบ peer-to-peer
  • รองรับการนำ cache ที่ไม่ใช่ prefix กลับมาใช้ใหม่
  • การผสานรวมกับ vLLM serving engine
  • การจัดเก็บข้อมูลข้าม GPU , CPU DRAM และ local disk

การอ้างสิทธิ์ด้านประสิทธิภาพเรียกความสงสัย

ในขณะที่ LMCache โฆษณาการเพิ่มประสิทธิภาพแบบ lossless 3 เท่า สมาชิกในชุมชนได้ตั้งคำถามเกี่ยวกับการอ้างสิทธิ์ทางการตลาดเหล่านี้ การวิเคราะห์ทางเทคนิคเผยให้เห็นว่าการเพิ่มความเร็วอย่างมากขึ้นอยู่กับปริมาณเนื้อหาที่สามารถดึงมาจากแคชมากกว่าการคำนวณใหม่ นักพัฒนาบางคนสังเกตว่าเครื่องมือที่มีอยู่แล้วอย่าง vLLM มีความสามารถ prefix caching อยู่แล้ว ทำให้ความแปลกใหม่ไม่ชัดเจน

ป้ายกำกับ lossless ก็ถูกตรวจสอบอย่างละเอียด ระบบใช้เทคนิคอย่าง KV cache compression และ blending - การรวมผลลัพธ์ที่แคชไว้จากส่วนข้อความต่างๆ - ซึ่งอาจไม่รักษาความแม่นยำที่สมบูรณ์แบบในทุกสถานการณ์

การอ้างสิทธิ์ด้านประสิทธิภาพ:

  • ลดความล่าช้าได้ 3-10 เท่าในสถานการณ์ QA หลายรอบ
  • ลดการใช้งาน GPU cycle ได้ 3-10 เท่าสำหรับแอปพลิเคชัน RAG
  • ปรับปรุง TTFT (Time To First Token) อย่างมีนัยสำคัญ
  • เพิ่มประสิทธิภาพการทำงาน (throughput) ได้สูงสุด 3 เท่าในแอปพลิเคชันแชท
  • ผลประโยชน์ด้านประสิทธิภาพขึ้นอยู่กับอัตราการตรงกับแคช (cache hit rates)

คำถามเรื่องการรวมเข้าด้วยกันและการยอมรับ

สมาชิกในชุมชนหลายคนตั้งคำถามว่า LMCache ให้ข้อได้เปรียบที่สำคัญเหนือโซลูชันที่มีอยู่หรือไม่ inference engines ยอดนิยมอย่าง vLLM และ SGLang ได้ใช้งาน disaggregated serving และ prefix caching อยู่แล้ว การรวมเข้าของโปรเจกต์กับ LLM inference stack แบบโอเพนซอร์สของ IBM ให้การยืนยันบางส่วน แม้ว่าขอบเขตของการยอมรับนี้ยังคงไม่ชัดเจน

ดูแปลกสำหรับฉันที่โปรเจกต์เหล่านี้จำนวนมากถูกเปิดตัวโดยคนที่เพิ่งค้นพบและ/หรือเข้าร่วม HN ฉันกังวลว่านี่กำลังกลายเป็น LinkedIn สำหรับนักฉวยโอกาส AI

ความท้าทายทางเทคนิคและนวัตกรรม

แม้จะมีความสงสัย LMCache ก็จัดการกับปัญหาที่ยากจริงๆ บางอย่าง ความสามารถในการแคชและนำส่วนข้อความที่ไม่ใช่ prefix กลับมาใช้ใหม่ต้องการการจัดการ cross-attention mechanisms ใน transformer models อย่างซับซ้อน สิ่งนี้เกินกว่า prefix caching แบบง่ายๆ เนื่องจากต้องรักษาความถูกต้องทางคณิตศาสตร์เมื่อรวมผลลัพธ์ที่แคชไว้จากส่วนข้อความต่างๆ

ระบบสนับสนุนการ offloading ไปยังหน่วยความจำ CPU และการจัดเก็บข้อมูลในดิสก์ ซึ่งอาจช่วยจัดการข้อจำกัดหน่วยความจำ GPU ในสภาพแวดล้อมที่มีทรัพยากรจำกัด อย่างไรก็ตาม ผลกระทบด้านประสิทธิภาพของการดึง KV caches ขนาดใหญ่จากการจัดเก็บข้อมูลที่ช้ากว่ายังคงเป็นข้อกังวลสำหรับแอปพลิเคชันที่ไวต่อ latency

การปรับปรุงด้านเทคนิค:

  • การบีบอัด KV Cache: ลดความต้องการพื้นที่จัดเก็บโดยการบีบอัดข้อมูลที่แคชไว้
  • การผสมผสาน KV Cache: รวมผลลัพธ์ที่แคชไว้จากส่วนข้อความหลายส่วนพร้อมการคำนวณใหม่แบบเลือกสรร
  • การจัดการ Cross-attention: รักษาความถูกต้องทางคณิตศาสตร์เมื่อเชื่อมต่อส่วนที่แคชไว้
  • ระบบจัดเก็บแบบหลายชั้น: ใช้หน่วยความจำ GPU , RAM ของ CPU และดิสก์สโตเรจแบบลำดับชั้น

ความกังวลของชุมชนเกี่ยวกับการตลาดเครื่องมือ AI

การประกาศ LMCache ได้จุดประกายการอภิปรายที่กว้างขึ้นเกี่ยวกับแนวทางการตลาดในพื้นที่เครื่องมือ AI นักพัฒนาที่มีประสบการณ์บางคนแสดงความหงุดหงิดกับสิ่งที่พวกเขาเห็นว่าเป็นการเปลี่ยนแบรนด์ของเทคนิคที่ยอมรับแล้วอย่าง caching และ memoization ให้เป็นนวัตกรรมที่แปลกใหม่

รูปแบบของโปรเจกต์ใหม่ที่อ้างสิทธิ์ประสิทธิภาพอย่างกล้าหาญในขณะที่มองข้ามข้อจำกัดได้กลายเป็นเรื่องธรรมดามากขึ้นในระบบนิเวศ LLM สิ่งนี้ได้นำไปสู่การเรียกร้องให้มีการประเมินที่เข้มงวดมากขึ้นและการสื่อสารที่ชัดเจนกว่าเกี่ยวกับเวลาและสถานที่ที่การปรับปรุงเหล่านี้ให้ประโยชน์จริง

LMCache แสดงถึงทั้งสัญญาและข้อผิดพลาดของภูมิทัศน์โครงสร้างพื้ฐาน AI ปัจจุบัน - นวัตกรรมทางเทคนิคที่แท้จริงผสมกับการโฆษณาที่อาจบดบังข้อเสนอคุณค่าที่แท้จริงสำหรับผู้ใช้ที่มีศักยภาพ

อ้างอิง: LMCache