ในขณะที่การพัฒนา AI เร่งตัวขึ้น บริการใหม่ชื่อว่า Butter กำลังสร้างความสนใจด้วยการเสนอให้แคชการตอบกลับของ Large Language Model (LLM) เพื่อช่วยผู้พัฒนาประหยัดเงิน บริการนี้ซึ่งวางตำแหน่งตัวเองเป็นตัวแทนทดแทน API Chat Completions ของ OpenAI โดยตรง สัญญาว่าจะระบุรูปแบบในการตอบกลับของ LLM และให้บริการผลลัพธ์จากแคชสำหรับคำขอที่ซ้ำกัน แม้แนวคิดนี้จะดึงดูดใจผู้พัฒนาจำนวนมากที่กำลังสร้างเอเจนต์อัตโนมัติ แต่การอภิปรายในชุมชนก็เผยให้เห็นความกังวลเชิงปฏิบัติที่สำคัญเกี่ยวกับการนำไปใช้จริง
ภาพรวมของบริการ Butter Cache
| คุณสมบัติ | รายละเอียด | 
|---|---|
| ความเข้ากันได้ | ทดแทน OpenAI Chat Completions API ได้โดยตรง | 
| กลุ่มผู้ใช้เป้าหมาย | ตัวแทนอัตโนมัติที่ทำงานซ้ำๆ (การป้อนข้อมูล การวิจัย การใช้งานคอมพิวเตอร์) | 
| รูปแบบการกำหนดราคา | 5% ของจำนวนโทเค็นที่ประหยัดได้ (ปัจจุบันให้บริการฟรีในช่วงเปิดตัว) | 
| เทคโนโลยีหลัก | การแคชผลลัพธ์ของ LLM แบบกำหนดได้ | 
| การผสานรวม | ใช้งานร่วมกับ LangChain, Mastra, Crew AI, Pydantic AI และเครื่องมือ AI ยอดนิยมอื่นๆ | 
ปัญหาการแคชในระบบ AI
เสน่ห์หลักของ Butter อยู่ที่ศักยภาพในการลดต้นทุนโทเค็นอย่างมากสำหรับงาน AI ที่ทำซ้ำๆ โดยการรักษาแคชที่กำหนดได้ของการตอบกลับก่อนหน้า บริการนี้มีเป้าหมายเพื่อลดการเรียกใช้ API ซ้ำซ้อนไปยัง LLM ที่มีราคาแพง วิธีการนี้เป็นประโยชน์อย่างยิ่งสำหรับเอเจนต์อัตโนมัติที่ทำงานด้านแบ็กออฟฟิศ เช่น การป้อนข้อมูลและการวิจัย ซึ่งการดำเนินงานมักเป็นไปตามรูปแบบที่คาดเดาได้ อย่างไรก็ตาม ผู้พัฒนาต่างชี้ให้เห็นถึงความท้าทายพื้นฐาน: แอปพลิเคชัน AI ส่วนใหญ่ในโลกจริงทำงานในสภาพแวดล้อมที่เปลี่ยนแปลงไปมา ซึ่งความสามารถในการคาดเดาอย่างสมบูรณ์แบบนั้นหาได้ยาก
ดูเหมือนว่ามันจะทำงานได้ดีเฉพาะในสภาพแวดล้อมที่คาดเดาได้อย่างสมบูรณ์แบบ มิฉะนั้นมันจะกลายเป็นอุปสรรคต่อการทำงานของเอเจนต์
ความรู้สึกนี้สะท้อนไปทั่วชุมชนผู้พัฒนา ซึ่งเน้นย้ำถึงความสมดุลอันละเอียดอ่อนระหว่างการประหยัดต้นทุนและความน่าเชื่อถือในการทำงาน ธรรมชาติของระบบ AI มักต้องการความสามารถในการปรับตัวให้เข้ากับบริบทที่เปลี่ยนแปลง ซึ่งขัดแย้งกับแนวทางการแคชแบบเดิมที่คงที่
ความเป็น Determinism เทียบกับความซับซ้อนของโลกจริง
แนวทางแบบ Deterministic ของ Butter ได้จุดประกายการอภิปรายอย่างเข้มข้นเกี่ยวกับการประยุกต์ใช้ในทางปฏิบัติ ผู้พัฒนาหลายคนเปิดเผยว่า Robotic Process Automation (RPA) แบบ Deterministic พร้อมการย้อนกลับไปใช้ AI (fallback) ได้กลายเป็นความลับอย่างไม่ลับในหมู่บริษัทที่พัฒนาเบราว์เซอร์เอเจนต์แล้ว แนวทางแบบไฮบริดนี้ทำให้ระบบสามารถพึ่งพาการตอบกลับจากแคชเมื่อเป็นไปได้ ในขณะที่ยังคงความยืดหยุ่นในการเรียกใช้โมเดล AI สดสำหรับกรณีขอบเขต (edge cases) ผู้พัฒนารายหนึ่งแบ่งปันประสบการณ์การนำตรรกะที่คล้ายกันมาใช้กับเอเจนต์จัดประเภททางการเงิน โดยใช้ artifacts แบบ JSON เพื่อเก็บคำตอบ และจะเรียกใช้ AI เฉพาะในสถานการณ์ที่ผิดไปจากปกติเท่านั้น
การอภิปรายเกี่ยวกับความเป็น Determinism เผยให้เห็นแนวโน้มอุตสาหกรรมที่กว้างขึ้นไปสู่การเพิ่มประสิทธิภาพเวิร์กโฟลว์ของ AI ทีมงานจำนวนมากกำลังสร้างโซลูชันการแคชแบบกำหนดเองภายในองค์กร ซึ่งชี้ให้เห็นว่ามีความต้องการที่แท้จริงสำหรับการเพิ่มประสิทธิภาพประเภทนี้ อย่างไรก็ตาม การนำไปใช้ของ Butter ยังคงถูกตั้งคำถามเกี่ยวกับวิธีการจัดการกับความเป็นจริงที่มีความแตกต่างเล็กน้อย นั่นคือแม้แต่พรอมต์ที่เหมือนกันอาจต้องการการตอบกลับที่แตกต่างกันขึ้นอยู่กับปัจจัยด้านบริบทที่แคชไม่สามารถรับรู้ได้
ความกังวลด้านเทคนิคและโมเดลธุรกิจ
ผู้พัฒนาต่างชี้ให้เห็นถึงข้อพิจารณาด้านเทคนิคหลายประการที่อาจส่งผลต่อประสิทธิภาพของ Butter บริการในปัจจุบันนี้ถือว่าการตอบกลับ API ครั้งแรกนั้นถูกต้องและทำการแคชอย่างรวดเร็ว ซึ่งอาจขยายความผิดพลาดได้หากการตอบกลับที่มีข้อบกพร่องถูกเก็บไว้ในแคช ทีมงานของ Butter ยอมรับความเสี่ยงนี้และกล่าวว่ากำลังสำรวจโซลูชันต่างๆ เช่น การรักษาต้นไม้สำหรับการทดสอบ (staging trees) หรือการนำ API รับคำติชม (feedback APIs) ไปใช้เพื่อให้คะแนนการทำงานแบบ end-to-end
โมเดลธุรกิจก็ถูกตั้งข้อสงสัยเช่นกัน Butter เรียกเก็บเงิน 5% ของจำนวนเงินที่ช่วยให้ผู้ใช้ประหยัดได้จากค่าใช้จ่ายโทเค็น ซึ่งเป็นการจัดแนวแรงจูงใจกับการประหยัดเงินของลูกค้า อย่างไรก็ตาม ทั้งผู้ใช้และทีมงาน Butter ต่างแสดงความสงสัยว่าโมเดลนี้จะสามารถทนต่อแรงกดดันทางการแข่งขันและข้อจำกัดด้านต้นทุนของสินค้าที่ขายได้ (COGS) ในระยะยาวหรือไม่ แนวทางการนำคีย์ของตัวเองมาใช้ (bring-your-own-key) หมายความว่าผู้ใช้ยังคงจ่ายเงินให้ผู้ให้บริการ AI โดยตรง ในขณะที่ Butter จัดการการเรียกเก็บเงินแยกต่างหากสำหรับการตอบกลับจากแคช
ข้อพิจารณาด้านกฎหมายปรากฏขึ้นเป็นอีกจุดหนึ่งในการอภิปราย โดยมีคำถามว่าผู้ให้บริการ AI จะอนุญาตให้มีบริการแคชจากบุคคลที่สาม ซึ่งอาจลดรายได้ของพวกเขาหรือไม่ การสนทนาอ้างอิงถึงบริการที่คล้ายกัน เช่น OpenRouter ที่เคยเผชิญกับความท้าทายเหล่านี้มาแล้ว ซึ่งชี้ให้เห็นว่ามีบรรทัดฐานสำหรับโมเดลธุรกิจดังกล่าว
ข้อกังวลและข้อพิจารณาจากชุมชน
- ข้อจำกัดของสภาพแวดล้อม: มีประสิทธิภาพหลักในสภาพแวดล้อมที่คาดการณ์ได้อย่างสมบูรณ์แบบเท่านั้น
- ความเสี่ยงจากการแพร่กระจายของข้อผิดพลาด: การตอบสนองที่ไม่ถูกต้องที่ถูกแคชไว้อาจทำให้เกิดความล้มเหลวอย่างต่อเนื่อง
- ความไวต่อบริบท: พรอมต์เดียวกันอาจต้องการการตอบสนองที่แตกต่างกันขึ้นอยู่กับบริบทที่ไม่สามารถรับรู้ได้
- ข้อพิจารณาทางกฎหมาย: ปัญหาที่อาจเกิดขึ้นกับข้อกำหนดในการให้บริการของผู้ให้บริการ AI
- ความยั่งยืนของโมเดลธุรกิจ: โมเดล 5% ของการประหยัดอาจเผชิญกับแรงกดดันจากต้นทุนการขาย
- การรองรับโมเดลภายในเครื่อง: การรองรับ LLMs ภายในเครื่องมีจำกัดหากไม่มีโครงสร้างพื้นฐานเพิ่มเติม
อนาคตของการเพิ่มประสิทธิภาพ AI
การอภิปรายเกี่ยวกับ Butter สะท้อนให้เห็นถึงกระแสอุตสาหกรรมที่กว้างขึ้นในการเพิ่มประสิทธิภาพต้นทุนและประสิทธิภาพของ AI เมื่อการใช้งาน LLM ขยายตัว ผู้พัฒนาก็มุ่งความสนใจไปที่การหาความสมดุลที่เหมาะสมระหว่างประสิทธิภาพด้านต้นทุนและขีดความสามารถในการทำงานมากขึ้น ปฏิกิริยาที่หลากหลายจากชุมชน—ทั้งความกระตือรือร้นต่อศักยภาพในการประหยัดต้นทุนคู่กับความกังวลเกี่ยวกับการนำไปใช้จริง—เน้นย้ำถึงธรรมชาติของการพัฒนาโครงสร้างพื้นฐาน AI
สิ่งที่ปรากฏชัดจากการอภิปรายเหล่านี้คือภาพของอุตสาหกรรมที่กำลังอยู่ในช่วงเปลี่ยนผ่าน ผู้พัฒนาต่างต้องการโซลูชันที่ทำให้ AI มีราคาจับต้องได้และคาดเดาได้มากขึ้น แต่ในขณะเดียวกันพวกเขาก็ระมัดระวังอย่างเท่าเทียมกันกับแนวทางที่อาจทำให้ความน่าเชื่อถือของระบบลดลง การอภิปรายเกี่ยวกับ Butter ทำหน้าที่เป็นตัวแทนของการอภิปรายที่ใหญ่ขึ้นเกี่ยวกับวิธีการสร้างระบบ AI ที่ยั่งยืนและคุ้มค่า ซึ่งสามารถจัดการกับความซับซ้อนของแอปพลิเคชันในโลกจริง
ดังที่ผู้พัฒนารายหนึ่งระบุ แนวทางการแคชที่คล้ายกันได้กลายเป็นแนวปฏิบัติทั่วไปในหมู่ทีมที่สร้างเอเจนต์อัตโนมัติแล้ว ไม่ว่า Butter จะสามารถเอาชนะความท้าทายด้านเทคนิคและสร้างตัวเองให้เป็นเครื่องมือมาตรฐานได้หรือไม่นั้นยังต้องรอดูต่อไป แต่การอภิปรายอย่างแข็งขันที่มันจุดประกายขึ้นมาได้แสดงให้เห็นถึงความสำคัญของการเพิ่มประสิทธิภาพด้านต้นทุนในภูมิทัศน์ของ AI ที่พัฒนาอย่างรวดเร็ว
อ้างอิง: A Cache For Your LLM

