ภูมิทัศน์การจัดเก็บข้อมูลได้ต้อนรับผู้เล่นใหม่ด้วย Arc Core แพลตฟอร์ม data lake ประสิทธิภาพสูงที่สร้างขึ้นบน Apache Iceberg อย่างไรก็ตาม การเปิดตัวแพลตฟอร์มนี้ได้จุดประกายการอภิปรายที่น่าสนใจเกี่ยวกับการตั้งชื่อแบรนด์ในระบบนิเวศเทคโนโลยีที่แออัดในปัจจุบัน
ความสับสนของแบรนด์ในระบบนิเวศ Arc
ชุมชนได้ระบุความท้าทายด้านการสร้างแบรนด์ที่อาจเกิดขึ้นกับ Arc Core อย่างรวดเร็ว เมื่อมี Arc browser, Arc Prize และ Arc Institute ที่จัดตั้งขึ้นแล้วในพื้นที่เทคโนโลยี นักพัฒนาบางคนกังวลเกี่ยวกับการมองเห็นแบรนด์และความสับสนในตลาด ผู้สร้างได้ยอมรับความกังวลนี้ แต่อธิบายว่าการเลือกชื่อมาจาก Ark ซึ่งแสดงถึงสิ่งที่เก็บและขนส่งข้อมูล โดยปรับเป็น Arc เพื่อหลีกเลี่ยงความหมายทางศาสนา
การอภิปรายเรื่องการตั้งชื่อนี้เผยให้เห็นความท้าทายที่กว้างขึ้นที่ผลิตภัณฑ์เทคโนโลยีใหม่ต้องเผชิญ: การหาชื่อที่โดดเด่นในตลาดที่อิ่มตัวมากขึ้น แม้ว่าฟังก์ชันการทำงานจะแตกต่างจากผลิตภัณฑ์ Arc ที่มีอยู่โดยสิ้นเชิง แต่ชื่อที่เหมือนกันอาจส่งผลต่อการค้นพบและการรับรู้แบรนด์
ความสามารถทางเทคนิคและกรณีการใช้งาน
Arc Core วางตำแหน่งตัวเองเป็นทั้ง data warehouse และระบบ query แบบ active โดยมุ่งเป้าไปที่ workload ของ IoT และ time-series แพลตฟอร์มจะอนุมาน schema จากข้อมูลที่เข้ามาโดยอัตโนมัติและรองรับการพัฒนา schema โดยไม่มี downtime ซึ่งเป็นคุณสมบัติสำคัญสำหรับโครงสร้างข้อมูลที่เปลี่ยนแปลงอย่างรวดเร็ว
ระบบใช้การแบ่ง partition ตามเวลาเป็นรายชั่วโมงเป็นค่าเริ่มต้น พร้อมแผนสำหรับการแบ่ง partition แบบกำหนดเองตาม tag หรือคุณลักษณะอื่นๆ วิธีการนี้เพิ่มประสิทธิภาพ query ช่วงเวลาที่พบบ่อยในสถานการณ์ observability และ IoT สำหรับการจัดการข้อมูลปริมาณมาก Arc Core จะรวบรวมการเขียนก่อนที่จะ flush และเสนอ compaction job เสริมเพื่อรวม Parquet file ขนาดเล็ก
กรณีการใช้งานของฉันไม่ใช่ IOT แต่ประมาณเดือนละครั้งฉันจะได้รับการถ่ายโอนข้อมูลจำนวนมหาศาลจากผู้ขาย คิดถึงข้อมูลหลายสิบล้านแถวและมากกว่า 100 คอลัมน์ การทำความสะอาด การนำเข้า และการ query ข้อมูลนี้ผ่าน RDBMS มาตรฐานเป็นกระบวนการที่ช้าและเปราะบาง
คุณสมบัติทางเทคนิคหลัก:
- ความเข้ากันได้กับ Apache Iceberg
- การอนุมานและพัฒนาสคีมาอัตโนมัติ
- การแบ่งพาร์ติชันตามเวลา (ค่าเริ่มต้นระดับชั่วโมง)
- รองรับ MessagePack และ Line Protocol
- การจัดเก็บข้อมูลที่เข้ากันได้กับ S3 พร้อมแบ็กเอนด์ MinIO
- สถาปัตยกรรมแบบเพิ่มข้อมูลเท่านั้น พร้อมแผนการอัปเดต/ลบผ่านการเขียนใหม่
![]() |
---|
มุมมองของ GitHub repository สำหรับโครงการ Arc ที่เน้นการพัฒนาและโฟกัสทางเทคนิค |
สถาปัตยกรรมการจัดเก็บและการอ้างสิทธิ์ด้านประสิทธิภาพ
Arc Core ใช้ MinIO เป็น storage backend หลัก โดยผู้สร้างอ้างว่ามีประสิทธิภาพดีกว่า ClickHouse สำหรับ time-range query บน S3 storage อย่างไรก็ตาม ชุมชนได้ตั้งคำถามสำคัญเกี่ยวกับ benchmark เหล่านี้ โดยสังเกตว่าการทดสอบเครือข่ายในพื้นที่อาจไม่สะท้อนสถานการณ์ latency ของ S3 ในโลกจริง
แพลตฟอร์มทำงานแบบ append-only ในตอนนี้ คล้ายกับระบบ time-series ส่วนใหญ่ โดยมีแผนสำหรับการอัปเดตและการลบผ่านการเขียน partition ใหม่ การเลือกออกแบบนี้ให้ความสำคัญกับ write throughput และประสิทธิภาพ analytical query มากกว่าความสามารถ transactional
ผลลัพธ์ประสิทธิภาพการสืบค้น:
- Q0 (การรวบรวมข้อมูลเมตาดาต้า): 3.4ms
- Q1 (ความสามารถในการเขียน): 8.3ms
- Q2 (การจัดกลุ่มที่ซับซ้อน): 133ms
- Q3 (ความล่าช้าในการเขียน): 45.8ms
- Q4 (ตัวกรองหลายแหล่งข้อมูล): 2.38s
การวางตำแหน่งในตลาดและการพัฒนาในอนาคต
ขณะนี้อยู่ในช่วง beta Arc Core มีเป้าหมายที่จะทำหน้าที่เป็นทั้งฐานข้อมูลหลักและโซลูชันการจัดเก็บระยะยาวสำหรับระบบอย่าง TimescaleDB, InfluxDB และ Kafka แผนงานรวมถึงการรวม Grafana การรองรับ Prometheus remote write และการดำเนิน query แบบกระจาย
ความสำเร็จของแพลตฟอร์มน่าจะขึ้นอยู่กับว่าจะแยกความแตกต่างทางเทคนิคจากโซลูชันที่จัดตั้งขึ้นแล้วได้ดีเพียงใด ในขณะที่ต้องจัดการกับความท้าทายด้านการรับรู้แบรนด์ที่มาพร้อมกับการใช้ชื่อที่ได้รับความนิยมในระบบนิเวศเทคโนโลジี
อ้างอิง: Arc Core