OpenTelemetry vs OpenInference: สงครามมาตรฐานที่เติบโตขึ้นในการสังเกตการณ์ LLM

ทีมชุมชน BigGo
OpenTelemetry vs OpenInference: สงครามมาตรฐานที่เติบโตขึ้นในการสังเกตการณ์ LLM

อุตสาหกรรมปัญญาประดิษฐ์กำลังเผชิญกับความท้าทายด้านโครงสร้างพื้นฐานที่สำคัญ เมื่อมาตรฐานที่แข่งขันกันสองตัวต่อสู้เพื่อความเป็นใหญ่ในการสังเกตการณ์ LLM ในขณะที่ OpenTelemetry ได้สถาปนาตัวเองเป็นมาตรฐานอุตสาหกรรมสำหรับการตรวจสอบแอปพลิเคชัน การเกิดขึ้นของเครื่องมือเฉพาะ AI ได้สร้างระบบนิเวศที่กระจัดกระจายซึ่งก่อให้เกิดปัญหาจริงสำหรับทีมพัฒนาในการใช้งานจริง

แดชบอร์ด Phoenix แสดงช่วงเวลาการตรวจสอบ เน้นย้ำถึงความท้าทายในการสังเกตการณ์ประสิทธิภาพของ AI agents
แดชบอร์ด Phoenix แสดงช่วงเวลาการตรวจสอบ เน้นย้ำถึงความท้าทายในการสังเกตการณ์ประสิทธิภาพของ AI agents

การตรวจสอบความเป็นจริงในการใช้งานจริง

บริษัทที่สร้าง AI agents กำลังค้นพบว่าเครื่องมือตรวจสอบแบบดั้งเดิมไม่เพียงพอเมื่อต้องแก้ไขข้อบกพร่องของพฤติกรรม LLM ที่ซับซ้อน ทีมต้องการการมองเห็นกระบวนการดึงเอกสาร การเรียกใช้เครื่องมือ และห่วงโซ่การตัดสินใจที่แพลตฟอร์มการสังเกตการณ์มาตรฐานไม่ได้ถูกออกแบบมาเพื่อจัดการ ปัญหาจะรุนแรงขึ้นเป็นพิเศษเมื่อระบบ AI แสดงพฤติกรรมที่ไม่คาดคิด เช่น การเปลี่ยนภาษาแบบสุ่มหรือให้คำตอบที่ไม่ถูกต้องโดยไม่มีคำอธิบายที่ชัดเจน

ระบบ multi-agent นำเสนอความท้าทายที่ยิ่งใหญ่กว่า นักพัฒนาคนหนึ่งได้แบ่งปันประสบการณ์ของพวกเขาในการสร้าง workflows ที่ซับซ้อนซึ่งผู้ใช้ที่ไม่ใช่ด้านเทคนิคเขียน prompts ที่ยาวกว่า 10 หน้า ความต้องการด้านการสังเกตการณ์ของพวกเขารวมถึงการวัดความซับซ้อนของงาน เมตริกความสำเร็จ ความเร็วของ agent การติดตามข้อผิดพลาด และต้นทุนการใช้ token ความซับซ้อนของระบบเหล่านี้ทำให้การตรวจสอบอย่างครอบคลุมเป็นสิ่งจำเป็นมากกว่าเป็นตัวเลือก

หมายเหตุ: การสังเกตการณ์ LLM หมายถึงความสามารถในการตรวจสอบและเข้าใจว่าโมเดลภาษาขนาดใหญ่ทำงานอย่างไรในการใช้งานจริง รวมถึงข้อมูลนำเข้า ผลลัพธ์ และกระบวนการตัดสินใจของพวกมัน

ข้อกำหนดการติดตามและสังเกตการณ์ของ LLM

  • การติดตามการดึงเอกสารสำหรับคำสั่ง RAG
  • การตรวจสอบการเรียกใช้เครื่องมือและเส้นทางการดำเนินงาน
  • การติดตามข้อมูลเข้าและออกในแต่ละขั้นตอนการประมวลผล
  • การมองเห็นกระบวนการตัดสินใจ
  • การประเมินความซับซ้อนของงาน
  • การวัดตัวชี้วัดความสำเร็จ
  • การตรวจสอบประสิทธิภาพ (ความเร็ว, การหมดเวลา)
  • การติดตามต้นทุน (จำนวน token ที่ใช้)
  • การตรวจจับและจำแนกข้อผิดพลาด
  • การประสานงานเวิร์กโฟลว์แบบหลายเอเจนต์

การแบ่งแยกมาตรฐานสร้างปัญหาจริง

ความขัดแย้งระหว่างมาตรฐาน OpenTelemetry และ OpenInference เป็นมากกว่าเชิงทฤษฎี OpenTelemetry เสนอการสนับสนุนภาษาที่กว้างขวางและการยอมรับในอุตสาหกรรม แต่ขาดประเภท span เฉพาะ AI ซึ่งจำกัดการมองเห็นการดำเนินงาน LLM OpenInference ให้ semantics เฉพาะ AI ที่หลากหลายพร้อมประเภท span สำหรับการเรียก LLM การดำเนินการเครื่องมือ และ workflows ของ agent แต่มีการสนับสนุนภาษาที่จำกัดและการรวมระบบนิเวศที่อ่อนแอกว่า

การแบ่งแยกนี้ส่งผลกระทบโดยเฉพาะต่อทีมที่ใช้ภาษาที่ไม่มีการสนับสนุน OpenInference โดยตรง นักพัฒนา Ruby ตัวอย่างเช่น เผชิญกับการเลือกระหว่างการสร้าง SDK แบบกำหนดเอง การสูญเสียข้อมูลเชิงลึกเฉพาะ AI หรือการเปลี่ยน technology stacks ทั้งหมด การอ้างความเข้ากันได้ระหว่างมาตรฐานมักจะพิสูจน์ได้ว่าตื้นเขินในทางปฏิบัติ โดยเครื่องมือแสดงข้อมูล OpenTelemetry เป็น spans ที่ไม่รู้จักเมื่อพวกมันไม่รู้จัก semantics เฉพาะ AI

หมายเหตุ: ประเภท Span เป็นหมวดหมู่ที่ช่วยจำแนกประเภทการดำเนินงานต่างๆ ใน distributed tracing เช่น การเรียกฐานข้อมูล คำขอ HTTP หรือในกรณีนี้ การโต้ตอบ LLM

การเปรียบเทียบ OpenTelemetry กับ OpenInference

คุณสมบัติ OpenTelemetry OpenInference
การรองรับภาษา ครอบคลุมทั่วถึง (ภาษาหลักทั้งหมด) จำกัด (ไม่มี Ruby SDK)
การยอมรับในอุตสาหกรรม ได้รับการยอมรับอย่างแพร่หลาย เป็นมาตรฐานอุตสาหกรรม ใหม่กว่า การยอมรับกำลังเติบโต
คุณสมบัติเฉพาะ AI มีเฉพาะ span types พื้นฐาน มี AI span types ที่หลากหลาย (LLM, tool, chain, embedding, agent)
การผสานรวม Ecosystem ยอดเยี่ยม การอ้างสิทธิ์ความเข้ากันได้ที่จำกัด
ความพร้อมสำหรับ Production เป็นผู้ใหญ่และมีเสถียรภาพ กำลังพัฒนา

โซลูชันชุมชนและการแก้ไขปัญหาชั่วคราว

ชุมชนนักพัฒนาได้ตอบสนองด้วยแนวทางต่างๆ เพื่อเชื่อมช่องว่างนี้ ทีมบางทีมกำลังสร้างโซลูชันแบบผสมที่รักษา OpenTelemetry เป็นแกนหลักในขณะที่เพิ่มคุณลักษณะเฉพาะ AI ทีมอื่นๆ เลือกเครื่องมือเฉพาะทางแม้จะมีความท้าทายด้านการรวม โดยยอมรับการสังเกตการณ์ที่กระจัดกระจายเพื่อแลกกับข้อมูลเชิงลึก AI ที่ดีกว่า

สิ่งที่เป็นอยู่คือ ความจริงที่ว่าการสื่อสารกับ LLMs ส่งเสริมการขาดความแม่นยำและการแก้ไขการพิมพ์ผิดในเวลาเดียวกัน มันเปิดเผยเราต่อการเขียนที่มีโครงสร้างของพวกมันเอง หมายความว่าการเขียนแบบสบายๆ ปกติจะเอนเอียงไปสู่การผสมผสานแบบนี้พอดี

แนวทางที่เน้นฐานข้อมูลกำลังได้รับความนิยมเป็นทางเลือก นักพัฒนาบางคนแนะนำให้ใช้ฐานข้อมูลเชิงสัมพันธ์เช่น ClickHouse สำหรับข้อมูลการสังเกตการณ์ LLM ที่หลากหลาย โดยข้ามความขัดแย้งของมาตรฐานไปเลย แนวทางนี้เสนอความยืดหยุ่นแต่ต้องการงานพัฒนาแบบกำหนดเองมากขึ้น

หมายเหตุ: ClickHouse เป็นระบบฐานข้อมูลประสิทธิภาพสูงที่ออกแบบมาสำหรับ analytical workloads และการประมวลผลข้อมูลแบบเรียลไทม์

เส้นทางข้างหน้า

ผู้สังเกตการณ์อุตสาหกรรมแนะนำให้ติดตามความคืบหน้าของ OpenTelemetry GenAI working group ซึ่งกำลังพัฒนาข้อตกลงเฉพาะ AI ภายในมาตรฐานที่จัดตั้งขึ้นอย่างแข็งขัน แนวทางนี้อาจให้ semantics ที่หลากหลายที่จำเป็นสำหรับการสังเกตการณ์ LLM ในที่สุด ในขณะที่รักษาความเข้ากันได้ของระบบนิเวศ

สำหรับทีมที่กำลังเผชิญกับการตัดสินใจเหล่านี้ในปัจจุบัน ฉันทามติเอนเอียงไปสู่การรักษาความสอดคล้องกับโครงสร้างพื้นฐานที่มีอยู่ องค์กรที่ใช้ OpenTelemetry อยู่แล้วได้รับคำแนะนำให้ขยายการตั้งค่าปัจจุบันของพวกเขาด้วยคุณลักษณะเฉพาะ AI มากกว่าการนำเสนอมาตรฐานที่แข่งขันกันซึ่งทำให้ภาพการสังเกตการณ์ของพวกเขากระจัดกระจาย

การแก้ไขขั้นสุดท้ายอาจต้องการให้เครื่องมือการสังเกตการณ์ AI จัดตำแหน่งให้ดีขึ้นกับข้อตกลง OpenTelemetry หรือให้ OpenTelemetry เร่งการพัฒนาฟีเจอร์เฉพาะ AI จนกว่าจะถึงตอนนั้น ทีมต้องนำทางการแลกเปลี่ยนระหว่างความหลากหลายเชิงความหมายและการรวมระบบนิเวศตามความต้องการเฉพาะและข้อจำกัดทางเทคนิคของพวกเขา

อ้างอิง: LLM Observability in the Wild - Why OpenTelemetry should be the Standard