บริการแคช Butter ของ LLM สัญญาประหยัดต้นทุน แต่เหล่าผู้พัฒนาตั้งคำถามถึงความเหมาะสมในการใช้งานจริง

ทีมชุมชน BigGo

บริการแคช Butter ของ LLM สัญญาประหยัดต้นทุน แต่เหล่าผู้พัฒนาตั้งคำถามถึงความเหมาะสมในการใช้งานจริง

ในขณะที่การพัฒนา AI เร่งตัวขึ้น บริการใหม่ชื่อว่า Butter กำลังสร้างความสนใจด้วยการเสนอให้แคชการตอบกลับของ Large Language Model (LLM) เพื่อช่วยผู้พัฒนาประหยัดเงิน บริการนี้ซึ่งวางตำแหน่งตัวเองเป็นตัวแทนทดแทน API Chat Completions ของ OpenAI โดยตรง สัญญาว่าจะระบุรูปแบบในการตอบกลับของ LLM และให้บริการผลลัพธ์จากแคชสำหรับคำขอที่ซ้ำกัน แม้แนวคิดนี้จะดึงดูดใจผู้พัฒนาจำนวนมากที่กำลังสร้างเอเจนต์อัตโนมัติ แต่การอภิปรายในชุมชนก็เผยให้เห็นความกังวลเชิงปฏิบัติที่สำคัญเกี่ยวกับการนำไปใช้จริง

ภาพรวมของบริการ Butter Cache

คุณสมบัติ	รายละเอียด
ความเข้ากันได้	ทดแทน OpenAI Chat Completions API ได้โดยตรง
กลุ่มผู้ใช้เป้าหมาย	ตัวแทนอัตโนมัติที่ทำงานซ้ำๆ (การป้อนข้อมูล การวิจัย การใช้งานคอมพิวเตอร์)
รูปแบบการกำหนดราคา	5% ของจำนวนโทเค็นที่ประหยัดได้ (ปัจจุบันให้บริการฟรีในช่วงเปิดตัว)
เทคโนโลยีหลัก	การแคชผลลัพธ์ของ LLM แบบกำหนดได้
การผสานรวม	ใช้งานร่วมกับ LangChain, Mastra, Crew AI, Pydantic AI และเครื่องมือ AI ยอดนิยมอื่นๆ

ปัญหาการแคชในระบบ AI

เสน่ห์หลักของ Butter อยู่ที่ศักยภาพในการลดต้นทุนโทเค็นอย่างมากสำหรับงาน AI ที่ทำซ้ำๆ โดยการรักษาแคชที่กำหนดได้ของการตอบกลับก่อนหน้า บริการนี้มีเป้าหมายเพื่อลดการเรียกใช้ API ซ้ำซ้อนไปยัง LLM ที่มีราคาแพง วิธีการนี้เป็นประโยชน์อย่างยิ่งสำหรับเอเจนต์อัตโนมัติที่ทำงานด้านแบ็กออฟฟิศ เช่น การป้อนข้อมูลและการวิจัย ซึ่งการดำเนินงานมักเป็นไปตามรูปแบบที่คาดเดาได้ อย่างไรก็ตาม ผู้พัฒนาต่างชี้ให้เห็นถึงความท้าทายพื้นฐาน: แอปพลิเคชัน AI ส่วนใหญ่ในโลกจริงทำงานในสภาพแวดล้อมที่เปลี่ยนแปลงไปมา ซึ่งความสามารถในการคาดเดาอย่างสมบูรณ์แบบนั้นหาได้ยาก

ดูเหมือนว่ามันจะทำงานได้ดีเฉพาะในสภาพแวดล้อมที่คาดเดาได้อย่างสมบูรณ์แบบ มิฉะนั้นมันจะกลายเป็นอุปสรรคต่อการทำงานของเอเจนต์

ความรู้สึกนี้สะท้อนไปทั่วชุมชนผู้พัฒนา ซึ่งเน้นย้ำถึงความสมดุลอันละเอียดอ่อนระหว่างการประหยัดต้นทุนและความน่าเชื่อถือในการทำงาน ธรรมชาติของระบบ AI มักต้องการความสามารถในการปรับตัวให้เข้ากับบริบทที่เปลี่ยนแปลง ซึ่งขัดแย้งกับแนวทางการแคชแบบเดิมที่คงที่

ความเป็น Determinism เทียบกับความซับซ้อนของโลกจริง

แนวทางแบบ Deterministic ของ Butter ได้จุดประกายการอภิปรายอย่างเข้มข้นเกี่ยวกับการประยุกต์ใช้ในทางปฏิบัติ ผู้พัฒนาหลายคนเปิดเผยว่า Robotic Process Automation (RPA) แบบ Deterministic พร้อมการย้อนกลับไปใช้ AI (fallback) ได้กลายเป็นความลับอย่างไม่ลับในหมู่บริษัทที่พัฒนาเบราว์เซอร์เอเจนต์แล้ว แนวทางแบบไฮบริดนี้ทำให้ระบบสามารถพึ่งพาการตอบกลับจากแคชเมื่อเป็นไปได้ ในขณะที่ยังคงความยืดหยุ่นในการเรียกใช้โมเดล AI สดสำหรับกรณีขอบเขต (edge cases) ผู้พัฒนารายหนึ่งแบ่งปันประสบการณ์การนำตรรกะที่คล้ายกันมาใช้กับเอเจนต์จัดประเภททางการเงิน โดยใช้ artifacts แบบ JSON เพื่อเก็บคำตอบ และจะเรียกใช้ AI เฉพาะในสถานการณ์ที่ผิดไปจากปกติเท่านั้น

การอภิปรายเกี่ยวกับความเป็น Determinism เผยให้เห็นแนวโน้มอุตสาหกรรมที่กว้างขึ้นไปสู่การเพิ่มประสิทธิภาพเวิร์กโฟลว์ของ AI ทีมงานจำนวนมากกำลังสร้างโซลูชันการแคชแบบกำหนดเองภายในองค์กร ซึ่งชี้ให้เห็นว่ามีความต้องการที่แท้จริงสำหรับการเพิ่มประสิทธิภาพประเภทนี้ อย่างไรก็ตาม การนำไปใช้ของ Butter ยังคงถูกตั้งคำถามเกี่ยวกับวิธีการจัดการกับความเป็นจริงที่มีความแตกต่างเล็กน้อย นั่นคือแม้แต่พรอมต์ที่เหมือนกันอาจต้องการการตอบกลับที่แตกต่างกันขึ้นอยู่กับปัจจัยด้านบริบทที่แคชไม่สามารถรับรู้ได้

ความกังวลด้านเทคนิคและโมเดลธุรกิจ

ผู้พัฒนาต่างชี้ให้เห็นถึงข้อพิจารณาด้านเทคนิคหลายประการที่อาจส่งผลต่อประสิทธิภาพของ Butter บริการในปัจจุบันนี้ถือว่าการตอบกลับ API ครั้งแรกนั้นถูกต้องและทำการแคชอย่างรวดเร็ว ซึ่งอาจขยายความผิดพลาดได้หากการตอบกลับที่มีข้อบกพร่องถูกเก็บไว้ในแคช ทีมงานของ Butter ยอมรับความเสี่ยงนี้และกล่าวว่ากำลังสำรวจโซลูชันต่างๆ เช่น การรักษาต้นไม้สำหรับการทดสอบ (staging trees) หรือการนำ API รับคำติชม (feedback APIs) ไปใช้เพื่อให้คะแนนการทำงานแบบ end-to-end

โมเดลธุรกิจก็ถูกตั้งข้อสงสัยเช่นกัน Butter เรียกเก็บเงิน 5% ของจำนวนเงินที่ช่วยให้ผู้ใช้ประหยัดได้จากค่าใช้จ่ายโทเค็น ซึ่งเป็นการจัดแนวแรงจูงใจกับการประหยัดเงินของลูกค้า อย่างไรก็ตาม ทั้งผู้ใช้และทีมงาน Butter ต่างแสดงความสงสัยว่าโมเดลนี้จะสามารถทนต่อแรงกดดันทางการแข่งขันและข้อจำกัดด้านต้นทุนของสินค้าที่ขายได้ (COGS) ในระยะยาวหรือไม่ แนวทางการนำคีย์ของตัวเองมาใช้ (bring-your-own-key) หมายความว่าผู้ใช้ยังคงจ่ายเงินให้ผู้ให้บริการ AI โดยตรง ในขณะที่ Butter จัดการการเรียกเก็บเงินแยกต่างหากสำหรับการตอบกลับจากแคช

ข้อพิจารณาด้านกฎหมายปรากฏขึ้นเป็นอีกจุดหนึ่งในการอภิปราย โดยมีคำถามว่าผู้ให้บริการ AI จะอนุญาตให้มีบริการแคชจากบุคคลที่สาม ซึ่งอาจลดรายได้ของพวกเขาหรือไม่ การสนทนาอ้างอิงถึงบริการที่คล้ายกัน เช่น OpenRouter ที่เคยเผชิญกับความท้าทายเหล่านี้มาแล้ว ซึ่งชี้ให้เห็นว่ามีบรรทัดฐานสำหรับโมเดลธุรกิจดังกล่าว

ข้อกังวลและข้อพิจารณาจากชุมชน

ข้อจำกัดของสภาพแวดล้อม: มีประสิทธิภาพหลักในสภาพแวดล้อมที่คาดการณ์ได้อย่างสมบูรณ์แบบเท่านั้น
ความเสี่ยงจากการแพร่กระจายของข้อผิดพลาด: การตอบสนองที่ไม่ถูกต้องที่ถูกแคชไว้อาจทำให้เกิดความล้มเหลวอย่างต่อเนื่อง
ความไวต่อบริบท: พรอมต์เดียวกันอาจต้องการการตอบสนองที่แตกต่างกันขึ้นอยู่กับบริบทที่ไม่สามารถรับรู้ได้
ข้อพิจารณาทางกฎหมาย: ปัญหาที่อาจเกิดขึ้นกับข้อกำหนดในการให้บริการของผู้ให้บริการ AI
ความยั่งยืนของโมเดลธุรกิจ: โมเดล 5% ของการประหยัดอาจเผชิญกับแรงกดดันจากต้นทุนการขาย
การรองรับโมเดลภายในเครื่อง: การรองรับ LLMs ภายในเครื่องมีจำกัดหากไม่มีโครงสร้างพื้นฐานเพิ่มเติม

อนาคตของการเพิ่มประสิทธิภาพ AI

การอภิปรายเกี่ยวกับ Butter สะท้อนให้เห็นถึงกระแสอุตสาหกรรมที่กว้างขึ้นในการเพิ่มประสิทธิภาพต้นทุนและประสิทธิภาพของ AI เมื่อการใช้งาน LLM ขยายตัว ผู้พัฒนาก็มุ่งความสนใจไปที่การหาความสมดุลที่เหมาะสมระหว่างประสิทธิภาพด้านต้นทุนและขีดความสามารถในการทำงานมากขึ้น ปฏิกิริยาที่หลากหลายจากชุมชน—ทั้งความกระตือรือร้นต่อศักยภาพในการประหยัดต้นทุนคู่กับความกังวลเกี่ยวกับการนำไปใช้จริง—เน้นย้ำถึงธรรมชาติของการพัฒนาโครงสร้างพื้นฐาน AI

สิ่งที่ปรากฏชัดจากการอภิปรายเหล่านี้คือภาพของอุตสาหกรรมที่กำลังอยู่ในช่วงเปลี่ยนผ่าน ผู้พัฒนาต่างต้องการโซลูชันที่ทำให้ AI มีราคาจับต้องได้และคาดเดาได้มากขึ้น แต่ในขณะเดียวกันพวกเขาก็ระมัดระวังอย่างเท่าเทียมกันกับแนวทางที่อาจทำให้ความน่าเชื่อถือของระบบลดลง การอภิปรายเกี่ยวกับ Butter ทำหน้าที่เป็นตัวแทนของการอภิปรายที่ใหญ่ขึ้นเกี่ยวกับวิธีการสร้างระบบ AI ที่ยั่งยืนและคุ้มค่า ซึ่งสามารถจัดการกับความซับซ้อนของแอปพลิเคชันในโลกจริง

ดังที่ผู้พัฒนารายหนึ่งระบุ แนวทางการแคชที่คล้ายกันได้กลายเป็นแนวปฏิบัติทั่วไปในหมู่ทีมที่สร้างเอเจนต์อัตโนมัติแล้ว ไม่ว่า Butter จะสามารถเอาชนะความท้าทายด้านเทคนิคและสร้างตัวเองให้เป็นเครื่องมือมาตรฐานได้หรือไม่นั้นยังต้องรอดูต่อไป แต่การอภิปรายอย่างแข็งขันที่มันจุดประกายขึ้นมาได้แสดงให้เห็นถึงความสำคัญของการเพิ่มประสิทธิภาพด้านต้นทุนในภูมิทัศน์ของ AI ที่พัฒนาอย่างรวดเร็ว

อ้างอิง: A Cache For Your LLM

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌