ปัญหาต้นทุนที่ซ่อนเร้นของ OpenTelemetry : ทำไมค่าใช้จ่าย Observability จึงพุ่งสูงขึ้นอย่างรวดเร็ว

ทีมชุมชน BigGo
ปัญหาต้นทุนที่ซ่อนเร้นของ OpenTelemetry : ทำไมค่าใช้จ่าย Observability จึงพุ่งสูงขึ้นอย่างรวดเร็ว

อุตสาหกรรม observability กำลังเผชิญกับวิกฤตที่เพิ่มขึ้นซึ่งหลายองค์กรจะค้นพบเมื่อใบเรียกเก็บเงินรายเดือนมาถึงเท่านั้น ในขณะที่ OpenTelemetry ( OTel ) ได้แก้ไขปัญหาสำคัญของการถูกล็อกกับผู้ให้บริการรายเดียว แต่กลับสร้างความท้าทายใหม่โดยไม่ได้ตั้งใจ นั่นคือต้นทุนข้อมูลที่พองตัวอย่างมากซึ่งสามารถเพิ่มขึ้นอย่างรวดเร็วจนควบคุมไม่ได้

คำสัญญาของเครื่องมือ observability สมัยใหม่ดูเหมือนจะตรงไปตรงมา เก็บข้อมูลที่ครอบคลุมเกี่ยวกับระบบของคุณ ได้รับข้อมูลเชิงลึก และป้องกันการขัดข้องก่อนที่จะเกิดขึ้น อย่างไรก็ตาม ความเป็นจริงได้พิสูจน์แล้วว่ามีราคาแพงกว่าที่คาดไว้มาก โดยบางองค์กรได้รับใบเรียกเก็บเงินที่ทำให้แม้แต่ CFO ที่มีประสบการณ์ยังต้องตกใจ

การตรวจสอบความเป็นจริงของราคา

ผู้ให้บริการ observability สมัยใหม่ได้นำแบบจำลองการกำหนดราคาตามการใช้งานมาใช้ซึ่งดูสมเหตุสมผลในแวบแรก New Relic เรียกเก็บประมาณ 0.30 ดอลลาร์สหรัฐต่อกิกะไบต์ ในขณะที่ Datadog เสนอระดับต่างๆ ตั้งแต่ 1.50-1.64 ดอลลาร์สหรัฐต่อโฮสต์ และค่าธรรมเนียมเพิ่มเติมสำหรับ custom metrics และ events Dynatrace ก็ใช้รูปแบบที่คล้ายกันด้วยการเรียกเก็บค่าธรรมเนียมสำหรับ custom metrics การเก็บ log และการประมวลผล span

ตัวเลขเหล่านี้ดูจัดการได้เมื่อดูแยกกัน แต่ workload ในการใช้งานจริงเล่าเรื่องที่แตกต่างออกไป กรณีที่มีชื่อเสียงของใบเรียกเก็บเงิน Datadog มูลค่า 165 ล้านดอลลาร์สหรัฐได้กลายเป็นเรื่องเตือนใจในวงการ observability โดยเน้นให้เห็นว่าต้นทุนสามารถเพิ่มขึ้นได้อย่างรวดเร็วเมื่อองค์กรเก็บทุกอย่างโดยไม่มีการวางแผนเชิงกลยุทธ์

การสนทนาในชุมชนเผยให้เห็นรูปแบบของการตกใจจากราคาทั่วทั้งอุตสาหกรรม องค์กรมักจะเริ่มต้นด้วยการติดตั้งเครื่องมือที่ครอบคลุม เก็บข้อมูล telemetry จำนวนมากเผื่อไว้ เพียงเพื่อจะค้นพบว่าพวกเขากำลังเผาผลาญงบประมาณโดยไม่มีคุณค่าที่ชัดเจน วิศวกรแพลตฟอร์มคนหนึ่งสังเกตว่าทีมไม่มีแผนสำหรับข้อมูลการตรวจสอบของพวกเขา เพียงแค่เปิดใช้งานการติดตั้งเครื่องมือและนโยบายการเก็บรักษาทั้งหมด ส่งผลให้เกิดการใช้จ่ายที่ไร้สาระ

การเปรียบเทียบราคาแพลตฟอร์ม Observability

แพลตฟอร์ม รูปแบบการตั้งราคา ค่าใช้จ่ายหลัก
New Relic $0.30 USD ต่อ GB การนำเข้าข้อมูล
Datadog $1.50-$1.64 USD ต่อโฮสต์ รวมค่า metrics, events, spans
Dynatrace $16 USD ต่อ 10,000 metrics รวมค่าการเก็บข้อมูลและค่าการค้นหา
Grafana Cloud $8.00 USD สำหรับ 500 metrics/logs/traces มีตัวเลือก self-hosted

ปัญหาประสิทธิภาพของ OpenTelemetry

ในขณะที่ OTel เก่งในการป้องกันการถูกล็อกกับผู้ให้บริการรายเดียว แต่มันก็แนะนำ overhead ของตัวเองที่หลายคนไม่รู้ตัวจนกว่าจะสายเกินไป โปรโตคอลนี้ไม่ได้รับการออกแบบโดยมีประสิทธิภาพต้นทุนเป็นข้อกังวลหลัก ทำให้เกิดการพองตัวของข้อมูลที่ทำให้ปัญหาราคาแย่ลง

ข้อความ syslog ทั่วไปมีน้ำหนักประมาณ 420 ไบต์ในรูปแบบดั้งเดิม แต่เวอร์ชัน OTel สามารถใหญ่กว่า JSON 29% และมากกว่าสองเท่าของขนาดข้อความต้นฉบับ สถานการณ์จะกลายเป็นเรื่องใหญ่มากขึ้นกับ metrics: Prometheus metric มาตรฐานที่ 293 ไบต์จะพองขึ้นเป็น 751 ไบต์เมื่อแปลงเป็นรูปแบบ OTLP

751 metrics ที่ถูกบันทึกควรจะมีเรื่องราวที่น่าทึ่งเกี่ยวกับบริบทเพื่อให้คุ้มค่ากับต้นทุนนั้น

การพองตัวของข้อมูลนี้เกิดขึ้นเพราะ OTel ได้รับการออกแบบในยุคที่วิศวกรกังวลเกี่ยวกับความยากลำบากในการเก็บข้อมูลมากกว่าต้นทุนการจัดเก็บและการส่งผ่าน โปรโตคอลให้ความสำคัญกับบริบทและ metadata ที่ครอบคลุมมากกว่าประสิทธิภาพ สร้างพายุที่สมบูรณ์แบบเมื่อรวมกับการกำหนดราคาตามการใช้งาน

ตัวอย่างค่าใช้จ่ายข้อมูลของ OpenTelemetry

  • ข้อความ Syslog: 420 ไบต์ (เดิม) → ใหญ่ขึ้น 29% ในรูปแบบ OTel
  • เมตริก Prometheus: 293 ไบต์ (JSON) → 751 ไบต์ (รูปแบบ OTLP)
  • ผลกระทบโดยรวม: ขนาดข้อมูลใหญ่ขึ้น 2.5 เท่าโดยทั่วไป

ความท้าทายของการเปลี่ยนแปลงทางวัฒนธรรม

ปัญหาหลักขยายไปเกินกว่าข้อจำกัดทางเทคนิคไปสู่วัฒนธรรมองค์กร หลายทีมยังคงดำเนินงานภายใต้กระบวนทัศน์เก่าที่การจัดเก็บข้อมูลเป็นฟรีหลังจากต้นทุนฮาร์ดแวร์เริ่มแรก ความคิดแบบ เก็บทุกอย่างตลอดไป นี้สมเหตุสมผลเมื่อระบบอยู่ใน on-premises แต่กลายเป็นเรื่องทำลายทางการเงินกับบริการ observability บนคลาวด์

วิศวกรต้องการการติดตั้งเครื่องมือที่ครอบคลุมตามธรรมชาติ เมื่อเพิ่ม metrics ลงในโค้ด ทำไมไม่รวมมากกว่าน้อย? ทำไมไม่เพิ่ม label และ tag ที่เป็นไปได้ทุกตัว? แนวทางนี้สร้างความขาดการเชื่อมต่อระหว่างนักพัฒนาที่เขียนโค้ดการติดตั้งเครื่องมือกับผลกระทบการใช้ทรัพยากรใน observability pipeline

ชุมชนได้เริ่มสนับสนุนแนวทางที่เลือกสรรมากขึ้น คล้ายกับปรัชญาการจัดระเบียบของ Marie Kondo ก่อนที่จะเก็บข้อมูล telemetry ใดๆ ทีมควรถามคำถามพื้นฐาน: ฉันจะทำอะไรกับข้อมูลนี้? ใครจะใช้มัน? ฉันต้องเก็บมันไว้นานแค่ไหน? และที่สำคัญ ใครจะจ่ายเงินสำหรับมัน?

การ Self-Hosting เป็นทางออก

หลายองค์กรกำลังค้นพบคุณค่าของโซลูชัน self-hosted อีกครั้ง Grafana เสนอทางเลือกโอเพ่นซอร์สที่สามารถลดต้นทุนได้อย่างมากสำหรับทีมที่เต็มใจจัดการการปรับใช้และการบำรุงรักษา บางบริษัทรายงานว่าใช้งานการตรวจสอบโครงสร้างพื้นฐานขององค์กรเพียง 90 ดอลลาร์สหรัฐต่อเดือนโดยใช้ Grafana แบบ self-hosted บน AWS ECS เมื่อเปรียบเทียบกับต้นทุนแพลตฟอร์ม observability ระดับองค์กร

อย่างไรก็ตาม การ self-hosting ต้องการความมุ่งมั่นขององค์กรและความเชี่ยวชาญทางเทคนิค ทีมต้องต่อต้านรูปแบบทั่วไปของการเริ่มต้นด้วยโซลูชัน self-hosted การรวมศูนย์เนื่องจากความท้าทายในการขยายขนาด จากนั้นจึง outsource ด้วยต้นทุน 10 เท่าเมื่อทีมรวมศูนย์ประสบปัญหากับความน่าเชื่อถือ

ข้อมูลเชิงลึกสำคัญจากการสนทนาในชุมชนคือทีมส่วนใหญ่ไม่ต้องการแพลตฟอร์ม observability ระดับองค์กร กราฟและการแจ้งเตือนพื้นฐานมักจะเพียงพอ ทำให้แนวทาง Honda Accord ปฏิบัติได้มากกว่าโซลูชัน Cadillac Escalade สำหรับกรณีการใช้งานหลายๆ แบบ

กลยุทธ์การปรับปรุงต้นทุนให้เหมาะสม

  • ใช้นโยบายการสุ่มตัวอย่างข้อมูลและการเก็บรักษาข้อมูล
  • ใช้การติดตั้งเครื่องมือแบบเลือกสรรแทนการ "เก็บข้อมูลทุกอย่าง"
  • พิจารณาโซลูชันที่โฮสต์เองสำหรับการตรวจสอบที่ไม่สำคัญ
  • ถามคำถามเชิงกลยุทธ์: ข้อมูลอะไร? ใครใช้? เก็บไว้นานแค่ไหน?
  • แนวทางแบบผสม: แพลตฟอร์มระดับองค์กรสำหรับระบบสำคัญ โฮสต์เองสำหรับระบบอื่นๆ

การหาสมดุลที่เหมาะสม

อุตสาหกรรม observability ยืนอยู่ที่สี่แยก ในขณะที่การเก็บข้อมูล telemetry ที่ครอบคลุมให้ข้อมูลเชิงลึกที่มีค่า แต่เส้นทางปัจจุบันของการรวบรวมข้อมูลแบบไม่จำกัดนั้นไม่ยั่งยืนทางการเงินสำหรับองค์กรส่วนใหญ่ ทางออกไม่ใช่การละทิ้งเครื่องมือ observability สมัยใหม่ แต่เป็นการพัฒนาแนวทางที่มีกลยุทธ์มากขึ้นสำหรับการเก็บและเก็บรักษาข้อมูล

องค์กรที่ฉลาดกำลังใช้กลยุทธ์การสุ่มตัวอย่าง นโยบายวงจรชีวิตข้อมูล และการติดตั้งเครื่องมือแบบเลือกสรร พวกเขาถามคำถามที่ยากเกี่ยวกับคุณค่าของข้อมูลและใช้การกำกับดูแลเกี่ยวกับการเก็บข้อมูล telemetry บางแห่งใช้แนวทางแบบผสม ใช้แพลตฟอร์มระดับองค์กรสำหรับระบบที่สำคัญในขณะที่พึ่งพาโซลูชัน self-hosted สำหรับความต้องการการตรวจสอบที่สำคัญน้อยกว่า

อนาคตน่าจะมีแนวปฏิบัติ observability ที่คำนึงถึงต้นทุนมากขึ้นเมื่ออุตสาหกรรมเติบโตเกินยุคที่ได้รับทุนจาก venture capital ของการใช้จ่ายแบบไม่จำกัด องค์กรที่ปรับตัวตอนนี้โดยการใช้นโยบายการเก็บข้อมูลเชิงกลยุทธ์จะหลีกเลี่ยงการตกใจจากราคาที่กลายเป็นเรื่องธรรมดาเกินไปในการปรับใช้ observability สมัยใหม่

อ้างอิง: Who the Hell is Going to Pay For This?