Metaflow ได้รับความสนใจเพิ่มขึ้นเมื่อทีม ML มองหาทางเลือกแทนเครื่องมือ Data Engineering ที่ซับซ้อน

ทีมชุมชน BigGo
Metaflow ได้รับความสนใจเพิ่มขึ้นเมื่อทีม ML มองหาทางเลือกแทนเครื่องมือ Data Engineering ที่ซับซ้อน

เฟรมเวิร์ก Metaflow แบบโอเพ่นซอร์สของ Netflix กำลังได้รับความสนใจอีกครั้งจากทีมแมชชีนเลิร์นนิงที่มองหาทางเลือกที่เรียบง่ายกว่าเครื่องมือออร์เคสเตรชันสำหรับ data engineering แบบดั้งเดิม โดยเดิมที Metaflow ถูกพัฒนาที่ Netflix และปัจจุบันได้รับการสนับสนุนจาก Outerbounds ได้สร้างฐานผู้ใช้อย่างเงียบๆ ในบริษัทต่างๆ ตั้งแต่สตาร์ทอัพไปจนถึงองค์กรขนาดใหญ่อย่าง Amazon , Goldman Sachs และ Doordash

ผู้ใช้งานที่โดดเด่น:

  • Amazon
  • Netflix
  • Doordash
  • Dyson
  • Goldman Sachs
  • Ramp
  • Cloudkitchens
  • Flexport
ภาพรวมของโลโก้ผู้ให้บริการคลาวด์ต่างๆ เน้นสภาพแวดล้อมที่ Metaflow ถูกนำมาใช้งาน
ภาพรวมของโลโก้ผู้ให้บริการคลาวด์ต่างๆ เน้นสภาพแวดล้อมที่ Metaflow ถูกนำมาใช้งาน

การนำไปใช้งานจริงแสดงให้เห็นประโยชน์ในทางปฏิบัติ

ข้อเสนอแนะจากชุมชนเผยให้เห็นว่า Metaflow กำลังพบจุดที่เหมาะสมในเวิร์กโฟลว์ที่เน้น ML ซึ่งเครื่องมือแบบดั้งเดิมอย่าง Airflow ให้ความรู้สึกว่าซับซ้อนเกินความจำเป็น ผู้ใช้รายงานความสำเร็จในการรันทุกอย่างตั้งแต่การคำนวณทางวิศวกรรมโปรตีนไปจนถึงงานประมวลผลแบบขนานขนาดใหญ่ สตาร์ทอัพด้านไบโอเทคแห่งหนึ่งได้ใช้มันในการออร์เคสเตรตการคำนวณหลายพันครั้งที่เกี่ยวข้องกับโมเดลล้ำสมัยอย่าง RFDiffusion , ProteinMPNN และ AlphaFold

แนวทางที่เป็น Python-native ของเฟรมเวิร์กนี้ดูเหมือนจะสร้างความประทับใจให้กับนักวิทยาศาสตร์ข้อมูลที่พบว่าเครื่องมือที่เน้น DAG นั้นใช้งานยากสำหรับงาน ML ต่างจากเครื่องมือ data engineering ที่สร้างขึ้นรอบๆ การจัดตารางเวลาและไปป์ไลน์ ETL , Metaflow เน้นการสร้างต้นแบบอย่างรวดเร็วและการขยายขนาดอย่างราบรื่นจากการพัฒนาในเครื่องไปสู่สภาพแวดล้อมการผลิตบนคลาวด์

การวางตำแหน่งเทียบกับผู้เล่นที่มีชื่อเสียง

การอภิปรายเน้นให้เห็นถึงความท้าทายในการวางตำแหน่งที่น่าสนใจสำหรับ Metaflow ในภูมิทัศน์ออร์เคสเตรชันที่แออัด ในขณะที่เครื่องมืออย่าง Airflow และ Dagster ครองตลาดเวิร์กโฟลว์ data engineering , Metaflow มุ่งเป้าไปที่ความต้องการเฉพาะของผู้ปฏิบัติงาน ML ที่ให้ความสำคัญกับการทดลองและการขยายขนาดการคำนวณมากกว่าข้อกำหนดการจัดตารางเวลาที่ซับซ้อน

อย่างไรก็ตาม ผู้ใช้บางคนสังเกตเห็นข้อจำกัดของระบบนิเวศเมื่อเปรียบเทียบกับแพลตฟอร์มที่มีชื่อเสียงมากกว่า การขาดการรวมระบบแบบ native กับเครื่องมือยอดนิยมอย่าง dbt และ dlt สร้างความยุ่งยากสำหรับทีมที่ต้องการผสมผสาน data engineering แบบดั้งเดิมกับเวิร์กโฟลว์ ML ช่องว่างนี้จะเห็นได้ชัดเจนมากขึ้นเมื่อเวิร์กโหลด AI ต้องการไปป์ไลน์ข้อมูลที่แข็งแกร่งมากขึ้น

ความสามารถทางเทคนิคและการรวมระบบคลาวด์

การเพิ่มฟีเจอร์ล่าสุดแสดงให้เห็นถึงการพัฒนาอย่างต่อเนื่อง รวมถึง composable flows ที่มี custom decorators และการจัดการ dependency ที่ดีขึ้นผ่านการสนับสนุน native uv ความสามารถของเฟรมเวิร์กในการทำให้ความซับซ้อนของโครงสร้างพื้นฐานคลาวด์เป็นนามธรรมในขณะที่สนับสนุน backend หลายตัว ( AWS Batch , Kubernetes , Step Functions ) ตอบสนองจุดเจ็บปวดทั่วไปของทีม ML

หากคุณหรี่ตาดูนิดหน่อย มันจะคล้ายกับ Airflow ที่สามารถรันบน AWS Step Functions ได้ Step Functions ให้คุณได้ออร์เคสเตรชันแบบ serverless อย่างสมบูรณ์ ซึ่งรู้สึกเหมือนเป็นสิ่งที่ควรจะมีอยู่

ความสามารถในการออร์เคสเตรชันแบบ serverless ผ่านการรวมระบบ Step Functions สร้างความสนใจเป็นพิเศษให้กับทีมที่มองหาโครงสร้างพื้นฐานที่จัดการให้อย่างเต็มรูปแบบโดยไม่มีภาระการดำเนินงานในการบำรุงรักษาคลัสเตอร์ออร์เคสเตรชัน

แพลตฟอร์มคลาวด์ที่รองรับ:

  • AWS Batch
  • Kubernetes
  • AWS Step Functions
  • Airflow (เป็นตัวเลือกแบ็กเอนด์)
อินเทอร์เฟซ GitHub repository สำหรับโปรเจกต์ Metaflow ซึ่งแสดงให้เห็นการพัฒนาที่มีความคล่องตัวและการมีส่วนร่วมจากชุมชน
อินเทอร์เฟซ GitHub repository สำหรับโปรเจกต์ Metaflow ซึ่งแสดงให้เห็นการพัฒนาที่มีความคล่องตัวและการมีส่วนร่วมจากชุมชน

การรับรู้ของตลาดและแนวโน้มอนาคต

แม้ว่า Netflix จะมีการมีส่วนร่วมโอเพ่นซอร์สที่แข็งแกร่งในอดีต แต่นักพัฒนาบางคนตั้งคำถามว่า Metaflow มีข้อได้เปรียบเพียงพอเหนือแพลตฟอร์ม ML บนคลาวด์ที่มีอยู่หรือไม่ เฟรมเวิร์กนี้เผชิญกับความท้าทายในการพิสูจน์คุณค่าในสภาพแวดล้อมที่ผู้ให้บริการคลาวด์รายใหญ่เสนอบริการเวิร์กโฟลว์ ML ที่ซับซ้อนมากขึ้น

การมุ่งเน้นล่าสุดในเวิร์กโฟลว์ agentic AI บ่งบอกว่า Metaflow กำลังปรับตัวให้เข้ากับกรณีการใช้งานที่เกิดขึ้นใหม่ ด้วยฟีเจอร์ใหม่ที่มุ่งเป้าไปที่การออร์เคสเตรชัน AI agent ในการพัฒนาโดยเฉพาะ แพลตฟอร์มนี้อาจพบความเกี่ยวข้องใหม่เมื่อองค์กรต่างๆ สำรวจสถาปัตยกรรมระบบ AI ที่ซับซ้อนมากขึ้น

ความสำเร็จของ Metaflow น่าจะขึ้นอยู่กับความสามารถในการรักษาความเรียบง่ายในขณะที่ขยายการรวมระบบนิเวศ โดยเฉพาะอย่างยิ่งเมื่อขอบเขตระหว่าง data engineering แบบดั้งเดิมและการดำเนินงาน ML ยังคงเบลอ

อ้างอิง: Metaflow