แพลตฟอร์ม Arc Core Data Lake เผชิญความท้าทายด้านการรับรู้แบรนด์แม้จะมีคุณสมบัติทางเทคนิคที่แข็งแกร่ง

ทีมชุมชน BigGo
แพลตฟอร์ม Arc Core Data Lake เผชิญความท้าทายด้านการรับรู้แบรนด์แม้จะมีคุณสมบัติทางเทคนิคที่แข็งแกร่ง

ภูมิทัศน์การจัดเก็บข้อมูลได้ต้อนรับผู้เล่นใหม่ด้วย Arc Core แพลตฟอร์ม data lake ประสิทธิภาพสูงที่สร้างขึ้นบน Apache Iceberg อย่างไรก็ตาม การเปิดตัวแพลตฟอร์มนี้ได้จุดประกายการอภิปรายที่น่าสนใจเกี่ยวกับการตั้งชื่อแบรนด์ในระบบนิเวศเทคโนโลยีที่แออัดในปัจจุบัน

ความสับสนของแบรนด์ในระบบนิเวศ Arc

ชุมชนได้ระบุความท้าทายด้านการสร้างแบรนด์ที่อาจเกิดขึ้นกับ Arc Core อย่างรวดเร็ว เมื่อมี Arc browser, Arc Prize และ Arc Institute ที่จัดตั้งขึ้นแล้วในพื้นที่เทคโนโลยี นักพัฒนาบางคนกังวลเกี่ยวกับการมองเห็นแบรนด์และความสับสนในตลาด ผู้สร้างได้ยอมรับความกังวลนี้ แต่อธิบายว่าการเลือกชื่อมาจาก Ark ซึ่งแสดงถึงสิ่งที่เก็บและขนส่งข้อมูล โดยปรับเป็น Arc เพื่อหลีกเลี่ยงความหมายทางศาสนา

การอภิปรายเรื่องการตั้งชื่อนี้เผยให้เห็นความท้าทายที่กว้างขึ้นที่ผลิตภัณฑ์เทคโนโลยีใหม่ต้องเผชิญ: การหาชื่อที่โดดเด่นในตลาดที่อิ่มตัวมากขึ้น แม้ว่าฟังก์ชันการทำงานจะแตกต่างจากผลิตภัณฑ์ Arc ที่มีอยู่โดยสิ้นเชิง แต่ชื่อที่เหมือนกันอาจส่งผลต่อการค้นพบและการรับรู้แบรนด์

ความสามารถทางเทคนิคและกรณีการใช้งาน

Arc Core วางตำแหน่งตัวเองเป็นทั้ง data warehouse และระบบ query แบบ active โดยมุ่งเป้าไปที่ workload ของ IoT และ time-series แพลตฟอร์มจะอนุมาน schema จากข้อมูลที่เข้ามาโดยอัตโนมัติและรองรับการพัฒนา schema โดยไม่มี downtime ซึ่งเป็นคุณสมบัติสำคัญสำหรับโครงสร้างข้อมูลที่เปลี่ยนแปลงอย่างรวดเร็ว

ระบบใช้การแบ่ง partition ตามเวลาเป็นรายชั่วโมงเป็นค่าเริ่มต้น พร้อมแผนสำหรับการแบ่ง partition แบบกำหนดเองตาม tag หรือคุณลักษณะอื่นๆ วิธีการนี้เพิ่มประสิทธิภาพ query ช่วงเวลาที่พบบ่อยในสถานการณ์ observability และ IoT สำหรับการจัดการข้อมูลปริมาณมาก Arc Core จะรวบรวมการเขียนก่อนที่จะ flush และเสนอ compaction job เสริมเพื่อรวม Parquet file ขนาดเล็ก

กรณีการใช้งานของฉันไม่ใช่ IOT แต่ประมาณเดือนละครั้งฉันจะได้รับการถ่ายโอนข้อมูลจำนวนมหาศาลจากผู้ขาย คิดถึงข้อมูลหลายสิบล้านแถวและมากกว่า 100 คอลัมน์ การทำความสะอาด การนำเข้า และการ query ข้อมูลนี้ผ่าน RDBMS มาตรฐานเป็นกระบวนการที่ช้าและเปราะบาง

คุณสมบัติทางเทคนิคหลัก:

  • ความเข้ากันได้กับ Apache Iceberg
  • การอนุมานและพัฒนาสคีมาอัตโนมัติ
  • การแบ่งพาร์ติชันตามเวลา (ค่าเริ่มต้นระดับชั่วโมง)
  • รองรับ MessagePack และ Line Protocol
  • การจัดเก็บข้อมูลที่เข้ากันได้กับ S3 พร้อมแบ็กเอนด์ MinIO
  • สถาปัตยกรรมแบบเพิ่มข้อมูลเท่านั้น พร้อมแผนการอัปเดต/ลบผ่านการเขียนใหม่
มุมมองของ GitHub repository สำหรับโครงการ Arc ที่เน้นการพัฒนาและโฟกัสทางเทคนิค
มุมมองของ GitHub repository สำหรับโครงการ Arc ที่เน้นการพัฒนาและโฟกัสทางเทคนิค

สถาปัตยกรรมการจัดเก็บและการอ้างสิทธิ์ด้านประสิทธิภาพ

Arc Core ใช้ MinIO เป็น storage backend หลัก โดยผู้สร้างอ้างว่ามีประสิทธิภาพดีกว่า ClickHouse สำหรับ time-range query บน S3 storage อย่างไรก็ตาม ชุมชนได้ตั้งคำถามสำคัญเกี่ยวกับ benchmark เหล่านี้ โดยสังเกตว่าการทดสอบเครือข่ายในพื้นที่อาจไม่สะท้อนสถานการณ์ latency ของ S3 ในโลกจริง

แพลตฟอร์มทำงานแบบ append-only ในตอนนี้ คล้ายกับระบบ time-series ส่วนใหญ่ โดยมีแผนสำหรับการอัปเดตและการลบผ่านการเขียน partition ใหม่ การเลือกออกแบบนี้ให้ความสำคัญกับ write throughput และประสิทธิภาพ analytical query มากกว่าความสามารถ transactional

ผลลัพธ์ประสิทธิภาพการสืบค้น:

  • Q0 (การรวบรวมข้อมูลเมตาดาต้า): 3.4ms
  • Q1 (ความสามารถในการเขียน): 8.3ms
  • Q2 (การจัดกลุ่มที่ซับซ้อน): 133ms
  • Q3 (ความล่าช้าในการเขียน): 45.8ms
  • Q4 (ตัวกรองหลายแหล่งข้อมูล): 2.38s

การวางตำแหน่งในตลาดและการพัฒนาในอนาคต

ขณะนี้อยู่ในช่วง beta Arc Core มีเป้าหมายที่จะทำหน้าที่เป็นทั้งฐานข้อมูลหลักและโซลูชันการจัดเก็บระยะยาวสำหรับระบบอย่าง TimescaleDB, InfluxDB และ Kafka แผนงานรวมถึงการรวม Grafana การรองรับ Prometheus remote write และการดำเนิน query แบบกระจาย

ความสำเร็จของแพลตฟอร์มน่าจะขึ้นอยู่กับว่าจะแยกความแตกต่างทางเทคนิคจากโซลูชันที่จัดตั้งขึ้นแล้วได้ดีเพียงใด ในขณะที่ต้องจัดการกับความท้าทายด้านการรับรู้แบรนด์ที่มาพร้อมกับการใช้ชื่อที่ได้รับความนิยมในระบบนิเวศเทคโนโลジี

อ้างอิง: Arc Core