Microsoft ได้เปิดตัว Windows ML สำหรับการใช้งานจริงอย่างเป็นทางการแล้ว ซึ่งถือเป็นก้าวสำคัญในการนำความสามารถด้าน AI inference มาสู่อุปกรณ์ Windows โดยตรง runtime ใหม่นี้สัญญาว่าจะช่วยลดความซับซ้อนในการนำ AI ไปใช้งานในฮาร์ดแวร์ประเภทต่างๆ แต่ชุมชนนักพัฒนากำลังหยิบยกความกังวลที่คุ้นเคยเกี่ยวกับการผูกมัดกับผู้ขายที่สะท้อนถึงยุค DirectX
Windows ML ทำหน้าที่เป็นชั้นนามธรรมของฮาร์ดแวร์ที่ทำงานร่วมกับ CPU, GPU และ NPU จากพันธมิตรซิลิคอนรายใหญ่ รวมถึง AMD, Intel, NVIDIA และ Qualcomm ระบบจะตรวจจับฮาร์ดแวร์ของผู้ใช้โดยอัตโนมัติและดาวน์โหลดผู้ให้บริการการประมวลผลที่เหมาะสมในขณะรันไทม์ ซึ่งช่วยลดขนาดแอปและความซับซ้อนสำหรับนักพัฒนาที่ต้องการรองรับอุปกรณ์หลายประเภท
พาร์ทเนอร์สนับสนุนฮาร์ดแวร์ Windows ML:
- AMD: แพลตฟอร์ม Ryzen AI พร้อม XDNA AI execution provider สำหรับ NPU, GPU และ CPU
- Intel: execution provider ที่ขับเคลื่อนด้วย OpenVINO สำหรับโปรเซสเซอร์ Core Ultra
- NVIDIA: TensorRT สำหรับ RTX execution provider สำหรับ GPU GeForce RTX และ RTX PRO
- Qualcomm: QNN execution provider รวมถึงการสนับสนุน GPU/CPU สำหรับแพลตฟอร์ม Snapdragon X Series
DirectX Déjà Vu: ชุมชนเตือนถึงกับดักของ API แบบกรรมสิทธิ์
ชุมชนนักพัฒนากำลังเปรียบเทียบ Windows ML กับกลยุทธ์ DirectX ของ Microsoft จากหลายทศวรรษที่ผ่านมาอย่างชัดเจน หลายคนมองว่านี่เป็นความพยายามของ Microsoft ในการสร้างระบบนิเวศแบบกรรมสิทธิ์อีกตัวหนึ่งที่อาจดักนักพัฒนาให้ติดอยู่ในเส้นทางการพัฒนาเฉพาะ Windows
Windows ML ไปในทิศทางตรงกันข้าม: การรวมเข้ากับ OS อย่างลึกซึ้ง แต่ต้องแลกมาด้วยการผูกมัด stack ของคุณเข้ากับระบบนิเวศ Windows อย่างแน่นหนา ซึ่งทำให้นึกถึง DirectX มาก
อย่างไรก็ตาม ความคิดเห็นยังคงแบ่งออกเป็นสองฝ่ายว่าการเปรียบเทียบนี้เป็นธรรมหรือไม่ นักพัฒนาบางคนโต้แย้งว่า DirectX ในที่สุดก็เป็นประโยชน์ต่ออุตสาหกรรมเกมด้วยการให้ API แบบรวมศูนย์เมื่อทางเลือกอื่นๆ มีการกระจายตัวหรือไม่เพียงพอ ในขณะที่คนอื่นๆ ยืนยันว่างานใดๆ ที่สร้างบน Windows ML จะทำให้แอปพลิเคชันเป็นตัวประกันของ Windows ซึ่งจำกัดตัวเลือกการย้ายไปใช้แพลตฟอร์มอื่นในอนาคต
การถกเถียงนี้เน้นย้ำถึงความตึงเครียดพื้นฐานในชุมชนนักพัฒนาระหว่างการยอมรับโซลูชันที่สะดวกและมีการรวมเข้าด้วยกัน กับการรักษาความเป็นอิสระของแพลตฟอร์มผ่านมาตรฐานเปิด
ความท้าทายด้านการใช้งานทางเทคนิคและการรองรับฮาร์ดแวร์
แม้ว่า Windows ML จะสัญญาการนามธรรมฮาร์ดแวร์ที่ราบรื่น แต่นักพัฒนากำลังแสดงความสงสัยเกี่ยวกับความน่าเชื่อถือในโลกแห่งความเป็นจริง ตัวอย่างเช่น ผู้ให้บริการการประมวลผลของ AMD ในปัจจุบันมีตัวเลือกที่แตกต่างกันสามแบบ (ROCm, MIGraphX และ Vitis) แต่รายงานจากชุมชนชี้ให้เห็นถึงความท้าทายในการใช้งานที่สำคัญ
นักพัฒนาหลายคนรายงานปัญหาในการทำให้เฟรมเวิร์ก AI ต่างๆ ของ AMD ทำงานได้นอกเหนือจากโมเดลสาธิตพื้นฐาน โดย Vitis AI โดนวิจารณ์เป็นพิเศษเรื่องบั๊กและปัญหาความเข้ากันได้ที่ไม่มีเอกสาร สิ่งนี้ทำให้เกิดคำถามว่าชั้นนามธรรมฮาร์ดแวร์ของ Microsoft สามารถส่งมอบสิ่งที่สัญญาไว้เรื่องการปรับใช้ที่ง่ายขึ้นในการกำหนดค่าฮาร์ดแวร์ที่หลากหลายได้จริงหรือไม่
การที่ระบบพึ่งพาผู้ให้บริการการประมวลผลจากพันธมิตรซิลิคอนหมายความว่าปัญหาความเข้ากันได้หรือปัญหาประสิทธิภาพใดๆ อาจส่งผลกระทบต่อเนื่องไปทั่วทั้งระบบนิเวศ Windows ML ซึ่งอาจส่งผลต่ออัตราการยอมรับของนักพัฒนา
ข้อกำหนดทางเทคนิค:
- แพลตฟอร์ม: Windows 11 24H2 หรือใหม่กว่า
- SDK: Windows App SDK เวอร์ชัน 1.4.0 หรือใหม่กว่า
- รูปแบบโมเดล: ONNX ( Open Neural Network Exchange )
- รันไทม์: รองรับ ONNX Runtime ( ORT ) APIs
- ฮาร์ดแวร์: รองรับ CPU, GPU และ NPU ในผู้ผลิตชิปรายใหญ่ทุกราย
ข้อพิจารณาด้านความเป็นส่วนตัวและการผูกมัดกับผู้ขาย
การสนทนาในชุมชนเผยให้เห็นความกังวลเกี่ยวกับทั้งผลกระทบต่อความเป็นส่วนตัวและการพึ่งพากลยุทธ์ระยะยาว แม้ว่า Microsoft จะเน้นย้ำว่าการอนุมานในเครื่องให้ความเป็นส่วนตัวที่ดีกว่าโซลูชันบนคลาวด์ แต่นักพัฒนาสังเกตเห็นการสนทนาที่จำกัดเกี่ยวกับแนวทางการจัดการข้อมูลภายในเฟรมเวิร์ก Windows ML เอง
การเปรียบเทียบกับทางเลือกอื่นเช่น Ollama เน้นให้เห็นแนวทางปรัชญาที่แตกต่างกันในการปรับใช้ AI ในเครื่อง Ollama เริ่มต้นเป็นโซลูชันโอเพนซอร์สสำหรับรันโมเดลในเครื่อง แต่ได้เริ่มรวมบริการแบบเสียเงิน ในขณะที่ Windows ML เสนอการรวมเข้ากับ OS อย่างลึกซึ้งแต่ต้องแลกด้วยการพึ่งพาแพลตฟอร์ม
สิ่งนี้สร้างภูมิทัศน์ที่ท้าทายซึ่งนักพัฒนาต้องเลือกระหว่างความยืดหยุ่นของโอเพนซอร์ส ความสะดวกของคลาวด์ และโซลูชันแพลตฟอร์มแบบรวม โดยแต่ละตัวมีการแลกเปลี่ยนที่แตกต่างกันสำหรับความเป็นส่วนตัว ประสิทธิภาพ และความยั่งยืนระยะยาว
ตัวอย่างการใช้งานหลักที่ใช้ Windows ML:
- Adobe Premiere Pro/After Effects: การค้นหาเชิงความหมาย การติดแท็กเสียง การตรวจจับฉากโดยใช้ NPU
- BUFFERZONE: การวิเคราะห์ความปลอดภัยเว็บแบบเรียลไทม์โดยไม่ต้องส่งข้อมูลไปยังคลาวด์
- Cameo by Reincubate: การแบ่งส่วนภาพแบบเรียลไทม์สำหรับการปรับปรุงเว็บแคม
- Filmora by Wondershare: เอฟเฟกต์ร่างกายที่ขับเคลื่อนด้วย AI พร้อมการเร่งความเร็วด้วย NPU
- McAfee: การตรวจจับวิดีโอ deepfake อัตโนมัติเพื่อการป้องกันโซเชียลมีเดีย
- Topaz Photo: การปรับปรุงและการฟื้นฟูภาพระดับมืออาชีพ
การยอมรับในอุตสาหกรรมและผลกระทบในอนาคต
แม้จะมีความกังวลจากชุมชน แต่บริษัทซอฟต์แวร์รายใหญ่รวมถึง Adobe, McAfee และ Topaz Labs กำลังรวม Windows ML เข้ากับแอปพลิเคชันของพวกเขาแล้ว Adobe วางแผนใช้มันสำหรับการค้นหาความหมายแบบเร่งและการแท็กเสียงใน Premiere Pro และ After Effects ในขณะที่พันธมิตรอื่นๆ กำลังใช้งานฟีเจอร์ตั้งแต่การปรับปรุงวิดีโอแบบเรียลไทม์ไปจนถึงการตรวจจับภัยคุกคามด้านความปลอดภัย
ความสำเร็จของ Windows ML น่าจะขึ้นอยู่กับว่า Microsoft สามารถหลีกเลี่ยงการรับรู้ว่าเป็นการสร้างการผูกมัดแบบกรรมสิทธิ์อีกตัวหนึ่งในขณะที่ส่งมอบคุณค่าที่แท้จริงให้กับนักพัฒนาได้หรือไม่ ขณะที่ภูมิทัศน์ AI inference ยังคงพัฒนาอย่างรวดเร็ว ความสมดุลระหว่างการรวมแพลตฟอร์มและมาตรฐานเปิดยังคงเป็นข้อพิจารณาที่สำคัญสำหรับระบบนิเวศนักพัฒนาในวงกว้าง
อ้างอิง: Windows ML is generally available: Empowering developers to scale local AI across Windows devices