การศึกษาเปรียบเทียบโมเดลพื้นฐานสำหรับข้อมูลอนุกรมเวลาเมื่อเร็วๆ นี้ได้จุดประกายการถกเถียงอย่างร้อนแรงในชุมชนเทคโนโลยีเกี่ยวกับว่าระบบ AI เหล่านี้ให้ผลตามที่สัญญาไว้จริงหรือไม่ งานวิจัยได้ทดสอบโมเดลหลักจาก Amazon , Google , IBM และ Datadog กับข้อมูลการใช้งานจริง เผยให้เห็นทั้งจุดแข็งที่น่าประหลาดใจและข้อจำกัดที่น่ากังวล
การตรวจสอบข้อเรียกร้องของโมเดลพื้นฐาน
หลักการหลักของโมเดลพื้นฐานสำหรับข้อมูลอนุกรมเวลานั้นน่าสนใจ คือระบบ AI เดียวที่สามารถพยากรณ์ข้อมูลประเภทใดก็ได้โดยไม่ต้องฝึกใหม่ บริษัทอย่าง Amazon , Google และ IBM ได้วางตำแหน่งสิ่งเหล่านี้เป็น ChatGPT สำหรับข้อมูลอนุกรมเวลา - เครื่องมือสากลที่ทำงานได้ข้ามโดเมนและชุดข้อมูลต่างๆ
อย่างไรก็ตาม ผู้เชี่ยวชาญในชุมชนกำลังตั้งคำถามว่าการเปรียบเทียบนี้ถูกต้องหรือไม่ ปัญหาพื้นฐานอยู่ที่สิ่งที่ทำให้โมเดลเป็นโมเดลพื้นฐานอย่างแท้จริง ในขณะที่โมเดลภาษาสามารถทำงานหลากหลายนอกเหนือจากวัตถุประสงค์การฝึกของพวกมัน โมเดลอนุกรมเวลามักจะเก่งในงานพยากรณ์หลักของพวกมันเป็นหลัก ความแตกต่างนี้ทำให้บางคนโต้แย้งว่าการเรียกระบบเหล่านี้ว่าโมเดลพื้นฐานอาจเป็นการตลาดที่ทำให้เข้าใจผิดมากกว่าการจำแนกทางเทคนิคที่ถูกต้อง
ผลการเปรียบเทียบทำให้เกิดข้อสงสัย
การศึกษาได้ทดสอบโมเดลกับข้อมูลการใช้งานจริงของ Kubernetes โดยวัดการใช้ CPU การใช้หน่วยความจำ และเวลาตอบสนองของคำขอ โมเดล Toto ของ Datadog กลายเป็นผู้ที่มีประสิทธิภาพสูงสุด ซึ่งทำให้เกิดสัญญาณเตือนในหมู่ผู้ตรวจสอบทันที นักวิจารณ์ชี้ให้เห็นว่าการทดสอบหลักๆ กับข้อมูลการตรวจสอบโครงสร้างพื้นฐาน - ความเชี่ยวชาญของ Datadog - สร้างอคติโดยธรรมชาติที่บิดเบือนผลลัพธ์
สิ่งนั้นสรุปได้และไม่น่าแปลกใจเลยว่าทำไมโมเดล toto ของ Datadog จึงทำงานได้ดีเป็นพิเศษ ผลลัพธ์จะมีประโยชน์มากกว่านี้หากพวกเขาเลือกใช้ชุดข้อมูลที่หลากหลาย
ขอบเขตชุดข้อมูลที่จำกัดแสดงถึงจุดอ่อนหลักในการประเมิน การเปรียบเทียบที่ครอบคลุมอย่างแท้จริงจะต้องรวมโดเมนที่หลากหลายเช่น การพยากรณ์ทางการเงิน ข้อมูลสำมะโนประชากร การทดลองทางคลินิก หรือการขายปลีก - ไม่ใช่เพียงแค่เมตริกโครงสร้างพื้นฐานประเภทเดียว
สรุปการเปรียบเทียบโมเดล
โมเดล | ผู้เผยแพร่ | พารามิเตอร์ | ตัวแปรเดียว | หลายตัวแปร |
---|---|---|---|---|
Amazon Forecast | AWS | ~10M | ✓ | ✓ |
Google TimesFM | ~10M | ✓ | ||
IBM Tiny Time Mixers | IBM | ~100K | ✓ | |
Datadog Toto | Datadog | ~5M | ✓ |
![]() |
---|
ภาพนี้เปรียบเทียบกระบวนทัศน์การคำนวณแบบคลาสสิกกับแบบควอนตัม ซึ่งเป็นสัญลักษณ์ของการอภิปรายเกี่ยวกับประสิทธิภาพของโมเดลการพยากรณ์แบบดั้งเดิมและแบบสมัยใหม่ |
ข้อกังวลเกี่ยวกับวิธีการเพิ่มขึ้น
นอกจากข้อจำกัดของชุดข้อมูลแล้ว วิธีการวิจัยเองก็ได้รับการวิจารณ์อย่างรุนแรง การเลือกใช้ MAPE (Mean Absolute Percentage Error) เป็นเมตริกการประเมินหลักได้รับการโต้แย้งเป็นพิเศษ MAPE เป็นที่รู้จักว่ามีข้อบกพร่องที่สำคัญ รวมถึงอคติต่อการพยากรณ์ต่ำเกินไปและปัญหากับค่าศูนย์
ขั้นตอนการประมวลผลข้อมูลล่วงหน้าก็ทำให้เกิดข้อกังวลเช่นกัน การเติมค่าที่ขาดหายไปแบบไปข้างหน้าและเทคนิคการประมาณค่าอื่นๆ อาจทำให้ประสิทธิภาพของโมเดลดีขึ้นอย่างเทียมในลักษณะที่ไม่สะท้อนสภาพโลกแห่งความจริง นอกจากนี้ การศึกษายังอ้างว่าเหนือกว่าโมเดลคลาสสิก แต่ไม่ได้รวมวิธีการพยากรณ์แบบดั้งเดิมใดๆ ในการเปรียบเทียบผลลัพธ์
ประเด็นสำคัญในการประเมินที่ชุมชนตั้งข้อสังเกต
- ความลำเอียงของชุดข้อมูล: การทดสอบที่เน้นไปที่ข้อมูลการตรวจสอบโครงสร้างพื้นฐานส่วนใหญ่ ทำให้เอื้อประโยชน์ต่อโมเดลเฉพาะทางของ Datadog
- ปัญหาเกี่ยวกับเมตริก: MAPE มีข้อบกพร่องที่ทราบกันดีรวมถึงความลำเอียงในการพยากรณ์ต่ำกว่าความเป็นจริงและปัญหาค่าศูนย์
- ขาดเกณฑ์อ้างอิงพื้นฐาน: ไม่มีวิธีการพยากรณ์แบบคลาสสิกรวมอยู่ในการเปรียบเทียบประสิทธิภาพ
- ขอบเขตจำกัด: การทดสอบในโดเมนเดียวไม่สามารถยืนยันการอ้างว่าเป็น "foundation model" ได้
- สิ่งประดิษฐ์จากการประมวลผลล่วงหน้า: การเติมข้อมูลไปข้างหน้าและการประมาณค่าอาจทำให้ผลลัพธ์ดีขึ้นแบบประดิษฐ์
โมเดลคลาสสิกยังคงแข่งขันได้
แม้จะมีการโฆษณาเกี่ยวกับโมเดลพื้นฐาน แนวทางการพยากรณ์แบบดั้งเดิมยังคงมีประสิทธิภาพอย่างน่าประหลาดใจ วิธีการคลาสสิกเช่น ARIMA และ Prophet สามารถฝึกใหม่กับชุดข้อมูลใหม่ได้ในเวลาไม่กี่วินาทีบนฮาร์ดแวร์สมัยใหม่ ทำให้ข้อได้เปรียบแบบ zero-shot มีความน่าสนใจน้อยกว่าที่อ้างไว้ในตอนแรก
สำหรับภาระงานที่เสถียรและคาดเดาได้ โมเดลคลาสสิกมักให้ความแม่นยำที่ดีกว่าด้วยต้นทุนการคำนวณที่ต่ำกว่า สิ่งนี้ท้าทายสมมติฐานที่ว่าโมเดลที่ใหญ่กว่าและซับซ้อนกว่าจะให้ผลลัพธ์ที่ดีกว่าโดยอัตโนมัติ
เส้นทางข้างหน้า
การถกเถียงนี้เน้นย้ำถึงปัญหาที่กว้างขึ้นในการวิจัย AI คือช่องว่างระหว่างการอ้างทางการตลาดและประสิทธิภาพในทางปฏิบัติ ในขณะที่โมเดลพื้นฐานสำหรับอนุกรมเวลาแสดงให้เห็นความสัญญาในการจัดการกับกระแสข้อมูลหลายตัวแปรที่ซับซ้อน พวกมันไม่ใช่โซลูชันสากลที่ผู้ขายบางรายแนะนำ
การประเมินในอนาคตต้องการชุดข้อมูลที่หลากหลายมากขึ้น เมตริกที่ดีกว่า และการเปรียบเทียบที่ซื่อสัตย์กับวิธีการคลาสสิก ชุมชนกำลังเรียกร้องให้มีมาตรฐานการเปรียบเทียบเช่นกรอบการแข่งขัน M4 เพื่อให้การประเมินประสิทธิภาพที่เชื่อถือได้มากขึ้น
เทคโนโลยีกำลังพัฒนาอย่างรวดเร็ว แต่ผู้ใช้ควรเข้าหาข้อเรียกร้องของโมเดลพื้นฐานด้วยความสงสัยที่ดีต่อสุขภาพ สำหรับการประยุกต์ใช้หลายๆ อย่าง วิธีการดั้งเดิมที่ง่ายกว่าอาจยังคงเป็นตัวเลือกที่ดีกว่า
อ้างอิง: Zero-Shot Forecasting: Our Search for a Time-Series Foundation Model