LMCache ได้เกิดขึ้นเป็นเครื่องมือโอเพนซอร์สใหม่ที่สัญญาว่าจะเร่งความเร็วการประมวลผล large language model (LLM) อย่างมากโดยการจัดเก็บและนำ key-value (KV) caches กลับมาใช้ใหม่ในตำแหน่งการจัดเก็บข้อมูลต่างๆ โปรเจกต์นี้ซึ่งรวมเข้ากับ serving engines ยอดนิยมอย่าง vLLM อ้างว่าสามารถให้การปรับปรุงประสิทธิภาพ 3-10 เท่าในเวลาตอบสนองและประสิทธิภาพ GPU สำหรับแอปพลิเคชันอย่างการสนทนาหลายรอบและ retrieval-augmented generation (RAG)
เทคโนโลยีนี้ทำงานโดยการจัดเก็บผลลัพธ์การคำนวณของการประมวลผลข้อความ ซึ่งเรียกว่า KV caches ในตำแหน่งต่างๆ รวมถึงหน่วยความจำ GPU, RAM ของ CPU และการจัดเก็บข้อมูลในดิสก์ท้องถิ่น เมื่อข้อความที่คล้ายกันปรากฏในคำขอในอนาคต ระบบสามารถนำผลลัพธ์ที่แคชไว้เหล่านี้กลับมาใช้ใหม่แทนการคำนวณทุกอย่างใหม่ตั้งแต่ต้น
คุณสมบัติหลักของ LMCache :
- การถ่ายโอน KV cache ของ CPU ที่มีประสิทธิภาพสูง
- การประมวลผล prefill แบบแยกส่วน
- การแบ่งปัน KV cache แบบ peer-to-peer
- รองรับการนำ cache ที่ไม่ใช่ prefix กลับมาใช้ใหม่
- การผสานรวมกับ vLLM serving engine
- การจัดเก็บข้อมูลข้าม GPU , CPU DRAM และ local disk
การอ้างสิทธิ์ด้านประสิทธิภาพเรียกความสงสัย
ในขณะที่ LMCache โฆษณาการเพิ่มประสิทธิภาพแบบ lossless 3 เท่า สมาชิกในชุมชนได้ตั้งคำถามเกี่ยวกับการอ้างสิทธิ์ทางการตลาดเหล่านี้ การวิเคราะห์ทางเทคนิคเผยให้เห็นว่าการเพิ่มความเร็วอย่างมากขึ้นอยู่กับปริมาณเนื้อหาที่สามารถดึงมาจากแคชมากกว่าการคำนวณใหม่ นักพัฒนาบางคนสังเกตว่าเครื่องมือที่มีอยู่แล้วอย่าง vLLM มีความสามารถ prefix caching อยู่แล้ว ทำให้ความแปลกใหม่ไม่ชัดเจน
ป้ายกำกับ lossless ก็ถูกตรวจสอบอย่างละเอียด ระบบใช้เทคนิคอย่าง KV cache compression และ blending - การรวมผลลัพธ์ที่แคชไว้จากส่วนข้อความต่างๆ - ซึ่งอาจไม่รักษาความแม่นยำที่สมบูรณ์แบบในทุกสถานการณ์
การอ้างสิทธิ์ด้านประสิทธิภาพ:
- ลดความล่าช้าได้ 3-10 เท่าในสถานการณ์ QA หลายรอบ
- ลดการใช้งาน GPU cycle ได้ 3-10 เท่าสำหรับแอปพลิเคชัน RAG
- ปรับปรุง TTFT (Time To First Token) อย่างมีนัยสำคัญ
- เพิ่มประสิทธิภาพการทำงาน (throughput) ได้สูงสุด 3 เท่าในแอปพลิเคชันแชท
- ผลประโยชน์ด้านประสิทธิภาพขึ้นอยู่กับอัตราการตรงกับแคช (cache hit rates)
คำถามเรื่องการรวมเข้าด้วยกันและการยอมรับ
สมาชิกในชุมชนหลายคนตั้งคำถามว่า LMCache ให้ข้อได้เปรียบที่สำคัญเหนือโซลูชันที่มีอยู่หรือไม่ inference engines ยอดนิยมอย่าง vLLM และ SGLang ได้ใช้งาน disaggregated serving และ prefix caching อยู่แล้ว การรวมเข้าของโปรเจกต์กับ LLM inference stack แบบโอเพนซอร์สของ IBM ให้การยืนยันบางส่วน แม้ว่าขอบเขตของการยอมรับนี้ยังคงไม่ชัดเจน
ดูแปลกสำหรับฉันที่โปรเจกต์เหล่านี้จำนวนมากถูกเปิดตัวโดยคนที่เพิ่งค้นพบและ/หรือเข้าร่วม HN ฉันกังวลว่านี่กำลังกลายเป็น LinkedIn สำหรับนักฉวยโอกาส AI
ความท้าทายทางเทคนิคและนวัตกรรม
แม้จะมีความสงสัย LMCache ก็จัดการกับปัญหาที่ยากจริงๆ บางอย่าง ความสามารถในการแคชและนำส่วนข้อความที่ไม่ใช่ prefix กลับมาใช้ใหม่ต้องการการจัดการ cross-attention mechanisms ใน transformer models อย่างซับซ้อน สิ่งนี้เกินกว่า prefix caching แบบง่ายๆ เนื่องจากต้องรักษาความถูกต้องทางคณิตศาสตร์เมื่อรวมผลลัพธ์ที่แคชไว้จากส่วนข้อความต่างๆ
ระบบสนับสนุนการ offloading ไปยังหน่วยความจำ CPU และการจัดเก็บข้อมูลในดิสก์ ซึ่งอาจช่วยจัดการข้อจำกัดหน่วยความจำ GPU ในสภาพแวดล้อมที่มีทรัพยากรจำกัด อย่างไรก็ตาม ผลกระทบด้านประสิทธิภาพของการดึง KV caches ขนาดใหญ่จากการจัดเก็บข้อมูลที่ช้ากว่ายังคงเป็นข้อกังวลสำหรับแอปพลิเคชันที่ไวต่อ latency
การปรับปรุงด้านเทคนิค:
- การบีบอัด KV Cache: ลดความต้องการพื้นที่จัดเก็บโดยการบีบอัดข้อมูลที่แคชไว้
- การผสมผสาน KV Cache: รวมผลลัพธ์ที่แคชไว้จากส่วนข้อความหลายส่วนพร้อมการคำนวณใหม่แบบเลือกสรร
- การจัดการ Cross-attention: รักษาความถูกต้องทางคณิตศาสตร์เมื่อเชื่อมต่อส่วนที่แคชไว้
- ระบบจัดเก็บแบบหลายชั้น: ใช้หน่วยความจำ GPU , RAM ของ CPU และดิสก์สโตเรจแบบลำดับชั้น
ความกังวลของชุมชนเกี่ยวกับการตลาดเครื่องมือ AI
การประกาศ LMCache ได้จุดประกายการอภิปรายที่กว้างขึ้นเกี่ยวกับแนวทางการตลาดในพื้นที่เครื่องมือ AI นักพัฒนาที่มีประสบการณ์บางคนแสดงความหงุดหงิดกับสิ่งที่พวกเขาเห็นว่าเป็นการเปลี่ยนแบรนด์ของเทคนิคที่ยอมรับแล้วอย่าง caching และ memoization ให้เป็นนวัตกรรมที่แปลกใหม่
รูปแบบของโปรเจกต์ใหม่ที่อ้างสิทธิ์ประสิทธิภาพอย่างกล้าหาญในขณะที่มองข้ามข้อจำกัดได้กลายเป็นเรื่องธรรมดามากขึ้นในระบบนิเวศ LLM สิ่งนี้ได้นำไปสู่การเรียกร้องให้มีการประเมินที่เข้มงวดมากขึ้นและการสื่อสารที่ชัดเจนกว่าเกี่ยวกับเวลาและสถานที่ที่การปรับปรุงเหล่านี้ให้ประโยชน์จริง
LMCache แสดงถึงทั้งสัญญาและข้อผิดพลาดของภูมิทัศน์โครงสร้างพื้ฐาน AI ปัจจุบัน - นวัตกรรมทางเทคนิคที่แท้จริงผสมกับการโฆษณาที่อาจบดบังข้อเสนอคุณค่าที่แท้จริงสำหรับผู้ใช้ที่มีศักยภาพ
อ้างอิง: LMCache