โมเดลพื้นฐานสำหรับข้อมูลอนุกรมเวลาเผชิญการทดสอบความเป็นจริงในสภาพแวดล้อมการใช้งานจริง

ทีมบรรณาธิการ BigGo
โมเดลพื้นฐานสำหรับข้อมูลอนุกรมเวลาเผชิญการทดสอบความเป็นจริงในสภาพแวดล้อมการใช้งานจริง

การศึกษาเปรียบเทียบโมเดลพื้นฐานสำหรับข้อมูลอนุกรมเวลาเมื่อเร็วๆ นี้ได้จุดประกายการถกเถียงอย่างร้อนแรงในชุมชนเทคโนโลยีเกี่ยวกับว่าระบบ AI เหล่านี้ให้ผลตามที่สัญญาไว้จริงหรือไม่ งานวิจัยได้ทดสอบโมเดลหลักจาก Amazon , Google , IBM และ Datadog กับข้อมูลการใช้งานจริง เผยให้เห็นทั้งจุดแข็งที่น่าประหลาดใจและข้อจำกัดที่น่ากังวล

การตรวจสอบข้อเรียกร้องของโมเดลพื้นฐาน

หลักการหลักของโมเดลพื้นฐานสำหรับข้อมูลอนุกรมเวลานั้นน่าสนใจ คือระบบ AI เดียวที่สามารถพยากรณ์ข้อมูลประเภทใดก็ได้โดยไม่ต้องฝึกใหม่ บริษัทอย่าง Amazon , Google และ IBM ได้วางตำแหน่งสิ่งเหล่านี้เป็น ChatGPT สำหรับข้อมูลอนุกรมเวลา - เครื่องมือสากลที่ทำงานได้ข้ามโดเมนและชุดข้อมูลต่างๆ

อย่างไรก็ตาม ผู้เชี่ยวชาญในชุมชนกำลังตั้งคำถามว่าการเปรียบเทียบนี้ถูกต้องหรือไม่ ปัญหาพื้นฐานอยู่ที่สิ่งที่ทำให้โมเดลเป็นโมเดลพื้นฐานอย่างแท้จริง ในขณะที่โมเดลภาษาสามารถทำงานหลากหลายนอกเหนือจากวัตถุประสงค์การฝึกของพวกมัน โมเดลอนุกรมเวลามักจะเก่งในงานพยากรณ์หลักของพวกมันเป็นหลัก ความแตกต่างนี้ทำให้บางคนโต้แย้งว่าการเรียกระบบเหล่านี้ว่าโมเดลพื้นฐานอาจเป็นการตลาดที่ทำให้เข้าใจผิดมากกว่าการจำแนกทางเทคนิคที่ถูกต้อง

ผลการเปรียบเทียบทำให้เกิดข้อสงสัย

การศึกษาได้ทดสอบโมเดลกับข้อมูลการใช้งานจริงของ Kubernetes โดยวัดการใช้ CPU การใช้หน่วยความจำ และเวลาตอบสนองของคำขอ โมเดล Toto ของ Datadog กลายเป็นผู้ที่มีประสิทธิภาพสูงสุด ซึ่งทำให้เกิดสัญญาณเตือนในหมู่ผู้ตรวจสอบทันที นักวิจารณ์ชี้ให้เห็นว่าการทดสอบหลักๆ กับข้อมูลการตรวจสอบโครงสร้างพื้นฐาน - ความเชี่ยวชาญของ Datadog - สร้างอคติโดยธรรมชาติที่บิดเบือนผลลัพธ์

สิ่งนั้นสรุปได้และไม่น่าแปลกใจเลยว่าทำไมโมเดล toto ของ Datadog จึงทำงานได้ดีเป็นพิเศษ ผลลัพธ์จะมีประโยชน์มากกว่านี้หากพวกเขาเลือกใช้ชุดข้อมูลที่หลากหลาย

ขอบเขตชุดข้อมูลที่จำกัดแสดงถึงจุดอ่อนหลักในการประเมิน การเปรียบเทียบที่ครอบคลุมอย่างแท้จริงจะต้องรวมโดเมนที่หลากหลายเช่น การพยากรณ์ทางการเงิน ข้อมูลสำมะโนประชากร การทดลองทางคลินิก หรือการขายปลีก - ไม่ใช่เพียงแค่เมตริกโครงสร้างพื้นฐานประเภทเดียว

สรุปการเปรียบเทียบโมเดล

โมเดล ผู้เผยแพร่ พารามิเตอร์ ตัวแปรเดียว หลายตัวแปร
Amazon Forecast AWS ~10M
Google TimesFM Google ~10M
IBM Tiny Time Mixers IBM ~100K
Datadog Toto Datadog ~5M
ภาพนี้เปรียบเทียบกระบวนทัศน์การคำนวณแบบคลาสสิกกับแบบควอนตัม ซึ่งเป็นสัญลักษณ์ของการอภิปรายเกี่ยวกับประสิทธิภาพของโมเดลการพยากรณ์แบบดั้งเดิมและแบบสมัยใหม่
ภาพนี้เปรียบเทียบกระบวนทัศน์การคำนวณแบบคลาสสิกกับแบบควอนตัม ซึ่งเป็นสัญลักษณ์ของการอภิปรายเกี่ยวกับประสิทธิภาพของโมเดลการพยากรณ์แบบดั้งเดิมและแบบสมัยใหม่

ข้อกังวลเกี่ยวกับวิธีการเพิ่มขึ้น

นอกจากข้อจำกัดของชุดข้อมูลแล้ว วิธีการวิจัยเองก็ได้รับการวิจารณ์อย่างรุนแรง การเลือกใช้ MAPE (Mean Absolute Percentage Error) เป็นเมตริกการประเมินหลักได้รับการโต้แย้งเป็นพิเศษ MAPE เป็นที่รู้จักว่ามีข้อบกพร่องที่สำคัญ รวมถึงอคติต่อการพยากรณ์ต่ำเกินไปและปัญหากับค่าศูนย์

ขั้นตอนการประมวลผลข้อมูลล่วงหน้าก็ทำให้เกิดข้อกังวลเช่นกัน การเติมค่าที่ขาดหายไปแบบไปข้างหน้าและเทคนิคการประมาณค่าอื่นๆ อาจทำให้ประสิทธิภาพของโมเดลดีขึ้นอย่างเทียมในลักษณะที่ไม่สะท้อนสภาพโลกแห่งความจริง นอกจากนี้ การศึกษายังอ้างว่าเหนือกว่าโมเดลคลาสสิก แต่ไม่ได้รวมวิธีการพยากรณ์แบบดั้งเดิมใดๆ ในการเปรียบเทียบผลลัพธ์

ประเด็นสำคัญในการประเมินที่ชุมชนตั้งข้อสังเกต

  • ความลำเอียงของชุดข้อมูล: การทดสอบที่เน้นไปที่ข้อมูลการตรวจสอบโครงสร้างพื้นฐานส่วนใหญ่ ทำให้เอื้อประโยชน์ต่อโมเดลเฉพาะทางของ Datadog
  • ปัญหาเกี่ยวกับเมตริก: MAPE มีข้อบกพร่องที่ทราบกันดีรวมถึงความลำเอียงในการพยากรณ์ต่ำกว่าความเป็นจริงและปัญหาค่าศูนย์
  • ขาดเกณฑ์อ้างอิงพื้นฐาน: ไม่มีวิธีการพยากรณ์แบบคลาสสิกรวมอยู่ในการเปรียบเทียบประสิทธิภาพ
  • ขอบเขตจำกัด: การทดสอบในโดเมนเดียวไม่สามารถยืนยันการอ้างว่าเป็น "foundation model" ได้
  • สิ่งประดิษฐ์จากการประมวลผลล่วงหน้า: การเติมข้อมูลไปข้างหน้าและการประมาณค่าอาจทำให้ผลลัพธ์ดีขึ้นแบบประดิษฐ์

โมเดลคลาสสิกยังคงแข่งขันได้

แม้จะมีการโฆษณาเกี่ยวกับโมเดลพื้นฐาน แนวทางการพยากรณ์แบบดั้งเดิมยังคงมีประสิทธิภาพอย่างน่าประหลาดใจ วิธีการคลาสสิกเช่น ARIMA และ Prophet สามารถฝึกใหม่กับชุดข้อมูลใหม่ได้ในเวลาไม่กี่วินาทีบนฮาร์ดแวร์สมัยใหม่ ทำให้ข้อได้เปรียบแบบ zero-shot มีความน่าสนใจน้อยกว่าที่อ้างไว้ในตอนแรก

สำหรับภาระงานที่เสถียรและคาดเดาได้ โมเดลคลาสสิกมักให้ความแม่นยำที่ดีกว่าด้วยต้นทุนการคำนวณที่ต่ำกว่า สิ่งนี้ท้าทายสมมติฐานที่ว่าโมเดลที่ใหญ่กว่าและซับซ้อนกว่าจะให้ผลลัพธ์ที่ดีกว่าโดยอัตโนมัติ

เส้นทางข้างหน้า

การถกเถียงนี้เน้นย้ำถึงปัญหาที่กว้างขึ้นในการวิจัย AI คือช่องว่างระหว่างการอ้างทางการตลาดและประสิทธิภาพในทางปฏิบัติ ในขณะที่โมเดลพื้นฐานสำหรับอนุกรมเวลาแสดงให้เห็นความสัญญาในการจัดการกับกระแสข้อมูลหลายตัวแปรที่ซับซ้อน พวกมันไม่ใช่โซลูชันสากลที่ผู้ขายบางรายแนะนำ

การประเมินในอนาคตต้องการชุดข้อมูลที่หลากหลายมากขึ้น เมตริกที่ดีกว่า และการเปรียบเทียบที่ซื่อสัตย์กับวิธีการคลาสสิก ชุมชนกำลังเรียกร้องให้มีมาตรฐานการเปรียบเทียบเช่นกรอบการแข่งขัน M4 เพื่อให้การประเมินประสิทธิภาพที่เชื่อถือได้มากขึ้น

เทคโนโลยีกำลังพัฒนาอย่างรวดเร็ว แต่ผู้ใช้ควรเข้าหาข้อเรียกร้องของโมเดลพื้นฐานด้วยความสงสัยที่ดีต่อสุขภาพ สำหรับการประยุกต์ใช้หลายๆ อย่าง วิธีการดั้งเดิมที่ง่ายกว่าอาจยังคงเป็นตัวเลือกที่ดีกว่า

อ้างอิง: Zero-Shot Forecasting: Our Search for a Time-Series Foundation Model