Apple เพิ่งเผยแพร่งานวิจัยสองฉบับที่แสดงให้เห็นผลงานของพวกเขาเกี่ยวกับ Normalizing Flows สำหรับการสร้างภาพ โดยสื่อต่างๆ อธิบายว่าเป็นเทคนิคที่ถูกลืมและถูกค้นพบขึ้นมาใหม่ อย่างไรก็ตาม ชุมชนเทคโนโลยีได้ออกมาคัดค้านการอธิบายลักษณะนี้อย่างแรง จุดประกายการอภิปรายที่กว้างขึ้นเกี่ยวกับการตลาด AI ที่เกินจริงและความเป็นจริงของนวัตกรรมทางเทคนิค
เทคนิคที่ถูกลืมซึ่งจริงๆ แล้วไม่ได้ถูกลืม
ความขัดแย้งมีจุดศูนย์กลางอยู่ที่วิธีการนำเสนองานวิจัยของ Apple ต่อสาธารณะ สมาชิกชุมชนได้ชี้แจงอย่างรวดเร็วว่า Normalizing Flows ได้รับการวิจัยและอภิปรายอย่างต่อเนื่องมาหลายปี ไม่ได้นิ่งเฉยรอให้ถูกค้นพบใหม่ เทคนิคนี้เป็นหัวข้อร้อนในแวดวง AI มาเป็นเวลาห้าปีที่ผ่านมา โดยเฉพาะอย่างยิ่งเมื่อใช้ร่วมกับ Variational Auto-encoders
นักวิจารณ์โต้แย้งว่าการเรียกมันว่าถูกลืมนั้นเป็นการบิดเบือนงานต่อเนื่องที่เกิดขึ้นในสาขานี้ งานวิจัยเหล่านั้นเองมีวันที่ย้อนกลับไปถึงปี 2021 ซึ่งบ่งบอกว่า Apple ได้ทำงานกับแนวทางนี้มาหลายปีแล้ว มากกว่าการสะดุดกับสมบัติที่หายไป
Normalizing Flows: ประเภทของโมเดล AI ที่เรียนรู้การแปลงข้อมูลจากโลกจริงให้เป็นสัญญาณรบกวนที่มีโครงสร้าง และย้อนกลับกระบวนการเพื่อสร้างตัวอย่างใหม่ โดยมีข้อได้เปรียบในการคำนวณความน่าจะเป็นที่แน่นอน
การมุ่งเน้นเชิงกลยุทธ์ของ Apple ในการประมวลผลบนอุปกรณ์
แม้จะมีความขัดแย้งทางการตลาด แต่แนวทางเทคนิคของ Apple เผยให้เห็นทิศทางเชิงกลยุทธ์ที่น่าสนใจ ในขณะที่บริษัทอย่าง OpenAI สร้างระบบขนาดใหญ่บนคลาวด์ Apple กำลังปรับให้เหมาะสมสำหรับอุปกรณ์มือถือและการประมวลผลในเครื่อง โมเดล TarFlow และ STARFlow ของพวกเขาได้รับการออกแบบให้ทำงานภายใต้ข้อจำกัดของสมาร์ทโฟนและแท็บเล็ต
แนวทางนี้ให้ประโยชน์ด้านความเป็นส่วนตัวอย่างชัดเจน เนื่องจากข้อมูลไม่เคยออกจากอุปกรณ์ของผู้ใช้ อย่างไรก็ตาม มันยังนำเสนอโอกาสทางธุรกิจให้กับ Apple - ฟีเจอร์ AI ที่ต้องการมากขึ้นต้องใช้ฮาร์ดแวร์ที่ทรงพลังมากขึ้น ซึ่งอาจผลักดันให้เกิดรอบการอัปเกรดอุปกรณ์
การแลกเปลี่ยนนั้นมีนัยสำคัญ การประมวลผลบนคลาวด์สามารถใช้ประโยชน์จากทรัพยากรที่ใช้ร่วมกันและการอัปเกรดที่ง่ายกว่า ในขณะที่การประมวลผลบนอุปกรณ์เผชิญกับข้อจำกัดของฮาร์ดแวร์ แต่ให้ความเป็นส่วนตัวและการทำงานแบบออฟไลน์
ความแตกต่างในแนวทางเทคนิค:
- Apple: พัฒนาสำหรับอุปกรณ์มือถือ ("ในกระเป๋าของเรา") ด้วยการประมวลผลภายในเครื่อง
- OpenAI: พัฒนาสำหรับศูนย์ข้อมูลด้วยการประมวลผลบนคลาวด์
- วิธีการของ Apple: สร้างพิกเซลโดยตรงโดยไม่ต้องแปลงเป็นโทเค็น
- วิธีการของ OpenAI: สร้างโทเค็นแบบแยกส่วนโดยถือว่าภาพเป็นลำดับข้อความ
ความสงสัยของชุมชนเกี่ยวกับกลยุทธ์ AI ของ Apple
การอภิปรายเผยให้เห็นความสงสัยที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับกลยุทธ์ AI โดยรวมของ Apple ความผิดพลาดล่าสุด เช่น ฟีเจอร์สรุปการแจ้งเตือนที่ต้องถูกปิดใช้งานเนื่องจากประสิทธิภาพที่แย่ ได้ทำให้เกิดคำถามเกี่ยวกับความสามารถด้าน AI ของ Apple
ความจริงที่พวกเขาส่งมันออกมาแสดงให้เห็นว่าพวกเขาไม่รู้ว่าตัวเองกำลังทำอะไร ไม่ว่าจะเป็นส่วนตัวหรือไม่
อย่างไรก็ตาม คนอื่นๆ ปกป้องแนวทางของ Apple โดยสังเกตว่าโมเดลทางสถิติโดยธรรมชาติมีรูปแบบความล้มเหลวที่ยากต่อการทำนาย และการปิดฟีเจอร์ที่มีปัญหาอย่างรวดเร็วมักเป็นวิธีแก้ปัญหาที่ปฏิบัติได้มากที่สุด
การเปรียบเทียบโมเดล AI ของ Apple:
- TarFlow: Transformer AutoRegressive Flow - สร้างค่าพิกเซลโดยตรงโดยไม่ต้องใช้การแปลงเป็นโทเค็น
- STARFlow: Scalable Transformer AutoRegressive Flow - ทำงานกับภาพที่ถูกบีบอัด จากนั้นขยายขนาดเป็นความละเอียดเต็ม
- ข้อได้เปรียบหลัก: สามารถคำนวณความน่าจะเป็นที่แน่นอนของภาพที่สร้างขึ้น (ต่างจากโมเดลแบบ diffusion)
- เป้าหมาย: การประมวลผลบนอุปกรณ์สำหรับฮาร์ดแวร์มือถือ
บริบทที่กว้างขึ้นของการพัฒนา AI
ความขัดแย้งนี้เน้นย้ำรูปแบบทั่วไปในการสื่อสารเทคโนโลยีและการสื่อสารขององค์กร บริษัทต่างๆ มักนำเสนอความก้าวหน้าของการวิจัยแบบค่อยเป็นค่อยไปเป็นการค้นพบที่ก้าวล้ำ ในขณะที่ชุมชนวิทยาศาสตร์จริงเห็นการพัฒนาที่ต่อเนื่องและค่อยเป็นค่อยไป
สถานการณ์นี้ยังสะท้อนการแข่งขันที่รุนแรงใน AI ที่บริษัทต่างๆ รู้สึกถึงแรงกดดันที่จะต้องดูเป็นนวัตกรรมและล้ำสมัย Apple ที่เป็นที่รู้จักในแบบดั้งเดิมสำหรับการทำให้เทคโนโลยีที่มีอยู่สมบูรณ์แบบมากกว่าการประดิษฐ์สิ่งใหม่ทั้งหมด พบว่าตัวเองอยู่ในตำแหน่งที่ไม่คุ้นเคยในการต้องแสดงให้เห็นการเป็นผู้นำด้าน AI
ว่าการมุ่งเน้นของ Apple ในการประมวลผล AI บนอุปกรณ์จะประสบความสำเร็จหรือไม่นั้นยังต้องรอดู แนวทางนี้เผชิญกับความท้าทายทางเทคนิคที่สำคัญ แต่หากประสบความสำเร็จ อาจเสนอทางเลือกที่น่าสนใจต่อภูมิทัศน์ AI ที่ถูกครอบงำโดยคลาวด์ในปัจจุบัน
อ้างอิง: Apple Research just unearthed a forgotten AI technique and is using it to generate images