นักวิจัยจาก Stanford ได้เปิดตัว OpenTSLM ซึ่งเป็นโมเดลพื้นฐานประเภทใหม่ที่จัดการข้อมูลอนุกรมเวลาเป็นรูปแบบข้อมูลหลักควบคู่ไปกับข้อความ นวัตกรรมครั้งนี้ช่วยแก้ไขช่องว่างสำคัญในระบบ AI ปัจจุบันที่มีความเชี่ยวชาญในการประมวลผลข้อความ ภาพ เสียง และวิดีโอ แต่ยังมีปัญหาในการจัดการกับสตรีมข้อมูลเชิงเวลา เช่น การเต้นของหัวใจ ราคาหุ้น ข้อมูลเซ็นเซอร์ และบันทึกเครื่องจักรที่ขับเคลื่อนการใช้งานในโลกจริง
สถาปัตยกรรมทางเทคนิค:
- สถาปัตยกรรม cross-attention สำหรับจัดการกระแสข้อมูล time-series หลายสาย
- ตัวเข้ารหัส 1D convolutional ที่ผสมผสานกับสถาปัตยกรรม transformer
- รูปแบบข้อมูล time-series ดั้งเดิมควบคู่ไปกับการประมวลผลข้อความ
- ความสามารถในการประมวลผล time-series ที่มีความยาวแตกต่างกันพร้อมกัน
การปรับปรุงประสิทธิภาพอย่างมหาศาลด้วยโมเดลขนาดเล็กกว่า
การวิจัยแสดงให้เห็นถึงการเพิ่มประสิทธิภาพที่น่าทึ่งในหลายสาขา ในการวิเคราะห์ระยะการนอนหลับ OpenTSLM ทำได้ดีกว่า 4.4 เท่าในด้านความแม่นยำโดยใช้โมเดลที่เล็กกว่าแนวทางดั้งเดิม 200 เท่า ส่งผลให้มีประสิทธิภาพดีกว่าประมาณ 880 เท่า รูปแบบที่คล้ายกันปรากฏในการจดจำกิจกรรมที่มีความแม่นยำดีกว่า 6 เท่า และการตีความ ECG ที่แสดงความแม่นยำดีขึ้น 2 เท่า โดยทั้งสองใช้โมเดลที่เล็กกว่าอย่างมีนัยสำคัญ
ชุมชนแสดงความสนใจเป็นพิเศษในการประยุกต์ใช้ทางการแพทย์ โดยเฉพาะความสามารถของโมเดลในการประมวลผลสัญญาณ ECG แบบ 12 ลีดพร้มคำอธิบายภาษาธรรมชาติที่ได้รับการตรวจสอบโดยแพทย์โรคหัวใจ ความสามารถนี้ช่วยแก้ไขความท้าทายที่มีมายาวนานใน AI ทางการแพทย์ ซึ่งสัญญาณโรคที่ละเอียดอ่อนมักจะไม่สามารถตรวจจับได้โดยผู้เชี่ยวชาญ แต่สามารถจับได้โดยอัลกอริทึมขั้นสูง
การปรับปรุงประสิทธิภาพ:
- การจำแนกระยะการนอนหลับ: ความแม่นยำดีขึ้น 4.4 เท่า ด้วยโมเดลที่เล็กกว่า 200 เท่า (ประสิทธิภาพเพิ่มขึ้น ~880 เท่า)
- การจดจำกิจกรรม: ความแม่นยำดีขึ้น ~6 เท่า ด้วยโมเดลที่เล็กกว่า 200 เท่า (ประสิทธิภาพเพิ่มขึ้น ~1,000 เท่า)
- การตีความ ECG: ความแม่นยำดีขึ้น ~2 เท่า ด้วยโมเดลที่เล็กกว่า 200 เท่า (ประสิทธิภาพเพิ่มขึ้น ~400 เท่า)
สถาปัตยกรรมเทคนิคและการประยุกต์ใช้ในโลกจริง
แตกต่างจากแนวทางก่อนหน้าที่เพียงแค่แปลงข้อมูลอนุกรมเวลาเป็นโทเค็นสำหรับโมเดลภาษามาตรฐาน OpenTSLM ใช้สถาปัตยกรรม cross-attention ที่สามารถจัดการกับสตรีมข้อมูลอนุกรมเวลาหลายสายที่มีความยาวแตกต่างกันได้พร้อมกัน ระบบนี้ผสมผสาน encoder แบบ 1D convolutional กับสถาปัตยกรรม transformer ทำให้โมเดลภาษาสามารถสอบถาม encoder ข้อมูลอนุกรมเวลาเพื่อขอข้อมูลรายละเอียดได้ ขณะเดียวกันยังคงความสามารถในการสร้างคำอธิบายภาษาธรรมชาติ
อย่างไรก็ตาม ชุมชนยังคงแบ่งแยกความเห็นเกี่ยวกับความจำเป็นของแนวทางนี้ ผู้ปฏิบัติงานบางคนรายงานความสำเร็จในการใช้โมเดลที่มีอยู่แล้วเช่น Claude 3.5 สำหรับการวิเคราะห์อนุกรมเวลาโดยการจัดรูปแบบข้อมูลเป็นโทเค็นข้อความ คนอื่น ๆ โต้แย้งว่าสถาปัตยกรรมเฉพาะทางเป็นสิ่งจำเป็นสำหรับการจับรูปแบบที่ละเอียดอ่อนที่โมเดลทั่วไปอาจพลาดไป
ความสนใจจากอุตสาหกรรมการเงินและผลกระทบในวงกว้าง
การประกาศนี้ได้จุดประกายการอภิปรายอย่างมีนัยสำคัญเกี่ยวกับการประยุกต์ใช้ในตลาดการเงิน ซึ่งโมเดลอนุกรมเวลาที่ซับซ้อนได้รับการปกป้องเป็นความลับมายาวนาน สมาชิกชุมชนสังเกตว่า hedge fund น่าจะใช้ระบบพยากรณ์เชิงเวลาขั้นสูงอยู่แล้ว แม้ว่าระบบเหล่านี้จะยังคงเป็นกรรมสิทธิ์และไม่สามารถเข้าถึงได้แม้แต่นักวิจัยที่มีทุนสนับสนุนดี
แนวทางสองทิศทางของ OpenTSLM สะท้อนความเป็นจริงนี้ - โมเดลพื้นฐานขนาดเล็กที่ฝึกฝนด้วยข้อมูลสาธารณะจะได้รับการเปิดเผยอย่างเปิดกว้าง ขณะที่เวอร์ชันกรรมสิทธิ์ขั้นสูงจะขับเคลื่อนการประยุกต์ใช้เชิงพาณิชย์ กลยุทธ์นี้มีเป้าหมายเพื่อส่งเสริมระบบนิเวศการวิจัยระดับโลกขณะเดียวกันก็รักษาข้อได้เปรียบในการแข่งขันสำหรับการประยุกต์ใช้ในองค์กร
การวิจัยชี้ไปสู่อนาคตที่ระบบ AI สามารถให้การตรวจสอบสุขภาพเชิงป้องกัน การควบคุมหุ่นยนต์แบบปรับตัวได้ และการจัดการโครงสร้างพื้นฐานที่ยืดหยุ่นผ่านการใช้เหตุผลเชิงเวลาโดยตรงแทนการวิเคราะห์ข้อความแบบอ้อม
อ้างอิง: OpenTSLM