งานวิจัยใหม่ได้จุดประกายการถกเถียงอย่างรุนแรงในชุมชน AI โดยอ้างว่าโมเดลขนาดเล็ก 7 ล้านพารามิเตอร์สามารถเหนือกว่าโมเดลภาษาขนาดมหึมาในงานการใช้เหตุผลที่ซับซ้อน Tiny Recursion Model ( TRM ) รายงานว่าบรรลุความแม่นยำ 45% ใน ARC-AGI-1 และ 8% ใน ARC-AGI-2 benchmarks โดยใช้พารามิเตอร์น้อยกว่า 0.01% ของที่พบในโมเดลอย่าง DeepSeek R1 หรือ Gemini 2.5 Pro
การเปรียบเทียบประสิทธิภาพระหว่าง TRM กับ Large Language Models
โมเดล | พารามิเตอร์ | ความแม่นยำ ARC-AGI-1 | ความแม่นยำ ARC-AGI-2 |
---|---|---|---|
TRM | 7M | 45% | 8% |
DeepSeek R1 | ~70B+ | ต่ำกว่า TRM* | ต่ำกว่า TRM* |
Gemini 2.5 Pro | ~1.5T+ | ต่ำกว่า TRM* | ต่ำกว่า TRM* |
o3-mini | ไม่ทราบ | ต่ำกว่า TRM* | ต่ำกว่า TRM* |
*ไม่มีคะแนนที่ระบุเฉพาะเจาะจงในเอกสารต้นฉบับ
![]() |
---|
งานวิจัยที่กล่าวถึง Tiny Recursion Model ( TRM ) และประสิทธิภาพที่น่าประหลาดใจในงานให้เหตุผลเชิงซับซ้อนด้วยพารามิเตอร์เพียง 7 ล้านตัว |
ความสงสัยของชุมชนเกี่ยวกับเงื่อนไข Benchmark
ชุมชนวิจัย AI ได้แสดงความกังวลอย่างมากเกี่ยวกับวิธีการประเมินที่ใช้ในการศึกษานี้ นักวิจารณ์ชี้ไปที่การวิเคราะห์โดยละเอียดของผู้จัดงาน ARC-AGI ที่เปิดเผยว่าการอ้างความก้าวหน้าที่คล้ายกันจาก Hierarchical Reasoning Model ( HRM ) ก่อนหน้านี้เป็นเรื่องที่ทำให้เข้าใจผิด เมื่อทดสอบภายใต้เงื่อนไขมาตรฐานที่ใช้โดยโมเดลภาษาเชิงพาณิชย์ ผลประกอบการที่ดีขึ้นส่วนใหญ่หายไป ชุมชนสังเกตว่าทั้ง HRM และ TRM ใช้การตั้งค่าการฝึกอบรมเฉพาะรวมถึง data augmentation และ test-time training ที่โดยทั่วไปไม่มีให้กับโมเดลอเนกประสงค์
ARC-AGI benchmark ซึ่งเน้นไปที่งานการใช้เหตุผลเชิงพื้นที่ ได้กลายเป็นแหล่งของการถกเถียงเนื่องจากสิ่งที่บางคนเห็นว่าเป็นการอ้างที่เกินจริง สมาชิกชุมชนคนหนึ่งสังเกตว่าเมื่อ transformer มาตรฐานถูกทดสอบภายใต้เงื่อนไขเฉพาะเดียวกันกับ HRM มันบรรลุประสิทธิภาพที่เทียบเท่า ซึ่งแสดงให้เห็นว่าสถาปัตยกรรมเองไม่ใช่ปัจจัยสำคัญ
ขอบเขตที่จำกัดและการประยุกต์ใช้ในทางปฏิบัติ
แม้ว่าผลลัพธ์จะดูน่าประทับใจบนกระดาษ ผู้เชี่ยวชาญเน้นข้อจำกัดที่สำคัญซึ่งจำกัดความมีประโยชน์ในโลกแห่งความเป็นจริง โมเดลนี้เป็นเลิศโดยเฉพาะในปริศนาการใช้เหตุผลเชิงพื้นที่ แต่ไม่ได้แสดงให้เห็นถึงความสามารถที่กว้างขวางที่จำเป็นสำหรับการประยุกต์ใช้ AI ทั่วไป ซึ่งแตกต่างจากโมเดลภาษาขนาดใหญ่ที่สามารถจัดการงานที่หลากหลายตั้งแต่การเขียนไปจนถึงคำถามเชิงข้อเท็จจริง โมเดล recursive ขนาดเล็กเหล่านี้จะต้องการระบบหน่วยความจำภายนอกและไม่สามารถพึ่งพาความรู้ที่เก็บไว้ได้
มันจะไม่เก่งในคำถามเชิงข้อเท็จจริงเลย มันจะต้องพึ่งพาหน่วยความจำภายนอก ทุกอย่างจะต้องใช้เหตุผลจากหลักการพื้นฐาน โดยไม่มีความรู้
ข้อจำกัดนี้หมายความว่าแนวทางนี้อาจทำงานได้ดีที่สุดในฐานะโมดูลการใช้เหตุผลเฉพาะทางมากกว่าการทดแทนระบบ AI อเนกประสงค์ ชุมชนแนะนำว่าโมเดลเหล่านี้สามารถทำหน้าที่เป็นเครื่องมือเฉพาะสำหรับงานตรรกะเฉพาะ ในขณะที่โมเดลขนาดใหญ่จัดการการดึงความรู้และการสร้างภาษา
ข้อมูลจำเพาะทางเทคนิคหลัก
- สถาปัตยกรรม: เครือข่ายขนาดเล็กเพียงชั้นเดียวที่มีเพียง 2 ชั้น
- ข้อมูลการฝึก: ชุดข้อมูลขนาดเล็ก (~1,000 ตัวอย่าง)
- กระบวนการแบบเรียกซ้ำ: ขั้นตอนการปรับปรุงสูงสุด K ขั้นตอนพร้อมการอัปเดตสถานะแฝง
- ความเชี่ยวชาญ: งานการใช้เหตุผลเชิงพื้นที่ (มาตรฐาน ARC-AGI )
- ข้อจำกัด: ไม่มีการจัดเก็บความรู้ข้อเท็จจริง ต้องการระบบหน่วยความจำภายนอก
ผลกระทบทางเศรษฐกิจและเทคนิค
แม้จะมีความสงสัย สมาชิกชุมชนบางคนเห็นศักยภาพสำหรับการเปลี่ยนแปลงอย่างมากในเศรษฐกิจ AI หากแนวทางนี้พิสูจน์ได้ว่าใช้งานได้ในระดับใหญ่ ความเป็นไปได้ของการบรรลุประสิทธิภาพการใช้เหตุผลที่แข็งแกร่งด้วยทรัพยากรการคำนวณที่น้อยที่สุดอาจปรับโฉมการลงทุนในศูนย์ข้อมูลและทำให้ AI เข้าถึงได้มากขึ้น อย่างไรก็ตาม คนอื่น ๆ โต้แย้งว่าแม้จะมีโมเดลที่มีประสิทธิภาพมากขึ้น ความต้องการพลังการคำนวณก็จะเปลี่ยนไปสู่การประยุกต์ใช้อื่น ๆ เช่นการสร้างวิดีโอ
การอภิปรายเผยให้เห็นความตึงเครียดที่กว้างขึ้นในการพัฒนา AI ระหว่างการขยายสถาปัตยกรรมที่มีอยู่และการสำรวจแนวทางที่แตกต่างโดยพื้นฐาน ในขณะที่โมเดลภาษาปัจจุบันพึ่งพาชุดข้อมูลขนาดใหญ่และพลังการคำนวณ วิธีการใช้เหตุผล recursive เหล่านี้พยายามบรรลุความฉลาดผ่านนวัตกรรมสถาปัตยกรรมมากกว่าการขยายแบบ brute force
การวิจัยนี้แสดงถึงทิศทางที่น่าสนใจสำหรับการพัฒนา AI แต่ฉันทามติของชุมชนแนะนำว่าจำเป็นต้องมีการประเมินที่เข้มงวดมากขึ้นภายใต้เงื่อนไขมาตรฐานก่อนที่จะสรุปเกี่ยวกับศักยภาพที่แท้จริงของมัน
อ้างอิง: Less is More: Recursive Reasoning with Tiny Networks