อุตสาหกรรม observability กำลังเผชิญกับวิกฤตที่เพิ่มขึ้นซึ่งหลายองค์กรจะค้นพบเมื่อใบเรียกเก็บเงินรายเดือนมาถึงเท่านั้น ในขณะที่ OpenTelemetry ( OTel ) ได้แก้ไขปัญหาสำคัญของการถูกล็อกกับผู้ให้บริการรายเดียว แต่กลับสร้างความท้าทายใหม่โดยไม่ได้ตั้งใจ นั่นคือต้นทุนข้อมูลที่พองตัวอย่างมากซึ่งสามารถเพิ่มขึ้นอย่างรวดเร็วจนควบคุมไม่ได้
คำสัญญาของเครื่องมือ observability สมัยใหม่ดูเหมือนจะตรงไปตรงมา เก็บข้อมูลที่ครอบคลุมเกี่ยวกับระบบของคุณ ได้รับข้อมูลเชิงลึก และป้องกันการขัดข้องก่อนที่จะเกิดขึ้น อย่างไรก็ตาม ความเป็นจริงได้พิสูจน์แล้วว่ามีราคาแพงกว่าที่คาดไว้มาก โดยบางองค์กรได้รับใบเรียกเก็บเงินที่ทำให้แม้แต่ CFO ที่มีประสบการณ์ยังต้องตกใจ
การตรวจสอบความเป็นจริงของราคา
ผู้ให้บริการ observability สมัยใหม่ได้นำแบบจำลองการกำหนดราคาตามการใช้งานมาใช้ซึ่งดูสมเหตุสมผลในแวบแรก New Relic เรียกเก็บประมาณ 0.30 ดอลลาร์สหรัฐต่อกิกะไบต์ ในขณะที่ Datadog เสนอระดับต่างๆ ตั้งแต่ 1.50-1.64 ดอลลาร์สหรัฐต่อโฮสต์ และค่าธรรมเนียมเพิ่มเติมสำหรับ custom metrics และ events Dynatrace ก็ใช้รูปแบบที่คล้ายกันด้วยการเรียกเก็บค่าธรรมเนียมสำหรับ custom metrics การเก็บ log และการประมวลผล span
ตัวเลขเหล่านี้ดูจัดการได้เมื่อดูแยกกัน แต่ workload ในการใช้งานจริงเล่าเรื่องที่แตกต่างออกไป กรณีที่มีชื่อเสียงของใบเรียกเก็บเงิน Datadog มูลค่า 165 ล้านดอลลาร์สหรัฐได้กลายเป็นเรื่องเตือนใจในวงการ observability โดยเน้นให้เห็นว่าต้นทุนสามารถเพิ่มขึ้นได้อย่างรวดเร็วเมื่อองค์กรเก็บทุกอย่างโดยไม่มีการวางแผนเชิงกลยุทธ์
การสนทนาในชุมชนเผยให้เห็นรูปแบบของการตกใจจากราคาทั่วทั้งอุตสาหกรรม องค์กรมักจะเริ่มต้นด้วยการติดตั้งเครื่องมือที่ครอบคลุม เก็บข้อมูล telemetry จำนวนมากเผื่อไว้ เพียงเพื่อจะค้นพบว่าพวกเขากำลังเผาผลาญงบประมาณโดยไม่มีคุณค่าที่ชัดเจน วิศวกรแพลตฟอร์มคนหนึ่งสังเกตว่าทีมไม่มีแผนสำหรับข้อมูลการตรวจสอบของพวกเขา เพียงแค่เปิดใช้งานการติดตั้งเครื่องมือและนโยบายการเก็บรักษาทั้งหมด ส่งผลให้เกิดการใช้จ่ายที่ไร้สาระ
การเปรียบเทียบราคาแพลตฟอร์ม Observability
แพลตฟอร์ม | รูปแบบการตั้งราคา | ค่าใช้จ่ายหลัก |
---|---|---|
New Relic | $0.30 USD ต่อ GB | การนำเข้าข้อมูล |
Datadog | $1.50-$1.64 USD ต่อโฮสต์ | รวมค่า metrics, events, spans |
Dynatrace | $16 USD ต่อ 10,000 metrics | รวมค่าการเก็บข้อมูลและค่าการค้นหา |
Grafana Cloud | $8.00 USD สำหรับ 500 metrics/logs/traces | มีตัวเลือก self-hosted |
ปัญหาประสิทธิภาพของ OpenTelemetry
ในขณะที่ OTel เก่งในการป้องกันการถูกล็อกกับผู้ให้บริการรายเดียว แต่มันก็แนะนำ overhead ของตัวเองที่หลายคนไม่รู้ตัวจนกว่าจะสายเกินไป โปรโตคอลนี้ไม่ได้รับการออกแบบโดยมีประสิทธิภาพต้นทุนเป็นข้อกังวลหลัก ทำให้เกิดการพองตัวของข้อมูลที่ทำให้ปัญหาราคาแย่ลง
ข้อความ syslog ทั่วไปมีน้ำหนักประมาณ 420 ไบต์ในรูปแบบดั้งเดิม แต่เวอร์ชัน OTel สามารถใหญ่กว่า JSON 29% และมากกว่าสองเท่าของขนาดข้อความต้นฉบับ สถานการณ์จะกลายเป็นเรื่องใหญ่มากขึ้นกับ metrics: Prometheus metric มาตรฐานที่ 293 ไบต์จะพองขึ้นเป็น 751 ไบต์เมื่อแปลงเป็นรูปแบบ OTLP
751 metrics ที่ถูกบันทึกควรจะมีเรื่องราวที่น่าทึ่งเกี่ยวกับบริบทเพื่อให้คุ้มค่ากับต้นทุนนั้น
การพองตัวของข้อมูลนี้เกิดขึ้นเพราะ OTel ได้รับการออกแบบในยุคที่วิศวกรกังวลเกี่ยวกับความยากลำบากในการเก็บข้อมูลมากกว่าต้นทุนการจัดเก็บและการส่งผ่าน โปรโตคอลให้ความสำคัญกับบริบทและ metadata ที่ครอบคลุมมากกว่าประสิทธิภาพ สร้างพายุที่สมบูรณ์แบบเมื่อรวมกับการกำหนดราคาตามการใช้งาน
ตัวอย่างค่าใช้จ่ายข้อมูลของ OpenTelemetry
- ข้อความ Syslog: 420 ไบต์ (เดิม) → ใหญ่ขึ้น 29% ในรูปแบบ OTel
- เมตริก Prometheus: 293 ไบต์ (JSON) → 751 ไบต์ (รูปแบบ OTLP)
- ผลกระทบโดยรวม: ขนาดข้อมูลใหญ่ขึ้น 2.5 เท่าโดยทั่วไป
ความท้าทายของการเปลี่ยนแปลงทางวัฒนธรรม
ปัญหาหลักขยายไปเกินกว่าข้อจำกัดทางเทคนิคไปสู่วัฒนธรรมองค์กร หลายทีมยังคงดำเนินงานภายใต้กระบวนทัศน์เก่าที่การจัดเก็บข้อมูลเป็นฟรีหลังจากต้นทุนฮาร์ดแวร์เริ่มแรก ความคิดแบบ เก็บทุกอย่างตลอดไป นี้สมเหตุสมผลเมื่อระบบอยู่ใน on-premises แต่กลายเป็นเรื่องทำลายทางการเงินกับบริการ observability บนคลาวด์
วิศวกรต้องการการติดตั้งเครื่องมือที่ครอบคลุมตามธรรมชาติ เมื่อเพิ่ม metrics ลงในโค้ด ทำไมไม่รวมมากกว่าน้อย? ทำไมไม่เพิ่ม label และ tag ที่เป็นไปได้ทุกตัว? แนวทางนี้สร้างความขาดการเชื่อมต่อระหว่างนักพัฒนาที่เขียนโค้ดการติดตั้งเครื่องมือกับผลกระทบการใช้ทรัพยากรใน observability pipeline
ชุมชนได้เริ่มสนับสนุนแนวทางที่เลือกสรรมากขึ้น คล้ายกับปรัชญาการจัดระเบียบของ Marie Kondo ก่อนที่จะเก็บข้อมูล telemetry ใดๆ ทีมควรถามคำถามพื้นฐาน: ฉันจะทำอะไรกับข้อมูลนี้? ใครจะใช้มัน? ฉันต้องเก็บมันไว้นานแค่ไหน? และที่สำคัญ ใครจะจ่ายเงินสำหรับมัน?
การ Self-Hosting เป็นทางออก
หลายองค์กรกำลังค้นพบคุณค่าของโซลูชัน self-hosted อีกครั้ง Grafana เสนอทางเลือกโอเพ่นซอร์สที่สามารถลดต้นทุนได้อย่างมากสำหรับทีมที่เต็มใจจัดการการปรับใช้และการบำรุงรักษา บางบริษัทรายงานว่าใช้งานการตรวจสอบโครงสร้างพื้นฐานขององค์กรเพียง 90 ดอลลาร์สหรัฐต่อเดือนโดยใช้ Grafana แบบ self-hosted บน AWS ECS เมื่อเปรียบเทียบกับต้นทุนแพลตฟอร์ม observability ระดับองค์กร
อย่างไรก็ตาม การ self-hosting ต้องการความมุ่งมั่นขององค์กรและความเชี่ยวชาญทางเทคนิค ทีมต้องต่อต้านรูปแบบทั่วไปของการเริ่มต้นด้วยโซลูชัน self-hosted การรวมศูนย์เนื่องจากความท้าทายในการขยายขนาด จากนั้นจึง outsource ด้วยต้นทุน 10 เท่าเมื่อทีมรวมศูนย์ประสบปัญหากับความน่าเชื่อถือ
ข้อมูลเชิงลึกสำคัญจากการสนทนาในชุมชนคือทีมส่วนใหญ่ไม่ต้องการแพลตฟอร์ม observability ระดับองค์กร กราฟและการแจ้งเตือนพื้นฐานมักจะเพียงพอ ทำให้แนวทาง Honda Accord ปฏิบัติได้มากกว่าโซลูชัน Cadillac Escalade สำหรับกรณีการใช้งานหลายๆ แบบ
กลยุทธ์การปรับปรุงต้นทุนให้เหมาะสม
- ใช้นโยบายการสุ่มตัวอย่างข้อมูลและการเก็บรักษาข้อมูล
- ใช้การติดตั้งเครื่องมือแบบเลือกสรรแทนการ "เก็บข้อมูลทุกอย่าง"
- พิจารณาโซลูชันที่โฮสต์เองสำหรับการตรวจสอบที่ไม่สำคัญ
- ถามคำถามเชิงกลยุทธ์: ข้อมูลอะไร? ใครใช้? เก็บไว้นานแค่ไหน?
- แนวทางแบบผสม: แพลตฟอร์มระดับองค์กรสำหรับระบบสำคัญ โฮสต์เองสำหรับระบบอื่นๆ
การหาสมดุลที่เหมาะสม
อุตสาหกรรม observability ยืนอยู่ที่สี่แยก ในขณะที่การเก็บข้อมูล telemetry ที่ครอบคลุมให้ข้อมูลเชิงลึกที่มีค่า แต่เส้นทางปัจจุบันของการรวบรวมข้อมูลแบบไม่จำกัดนั้นไม่ยั่งยืนทางการเงินสำหรับองค์กรส่วนใหญ่ ทางออกไม่ใช่การละทิ้งเครื่องมือ observability สมัยใหม่ แต่เป็นการพัฒนาแนวทางที่มีกลยุทธ์มากขึ้นสำหรับการเก็บและเก็บรักษาข้อมูล
องค์กรที่ฉลาดกำลังใช้กลยุทธ์การสุ่มตัวอย่าง นโยบายวงจรชีวิตข้อมูล และการติดตั้งเครื่องมือแบบเลือกสรร พวกเขาถามคำถามที่ยากเกี่ยวกับคุณค่าของข้อมูลและใช้การกำกับดูแลเกี่ยวกับการเก็บข้อมูล telemetry บางแห่งใช้แนวทางแบบผสม ใช้แพลตฟอร์มระดับองค์กรสำหรับระบบที่สำคัญในขณะที่พึ่งพาโซลูชัน self-hosted สำหรับความต้องการการตรวจสอบที่สำคัญน้อยกว่า
อนาคตน่าจะมีแนวปฏิบัติ observability ที่คำนึงถึงต้นทุนมากขึ้นเมื่ออุตสาหกรรมเติบโตเกินยุคที่ได้รับทุนจาก venture capital ของการใช้จ่ายแบบไม่จำกัด องค์กรที่ปรับตัวตอนนี้โดยการใช้นโยบายการเก็บข้อมูลเชิงกลยุทธ์จะหลีกเลี่ยงการตกใจจากราคาที่กลายเป็นเรื่องธรรมดาเกินไปในการปรับใช้ observability สมัยใหม่