ในอุตสาหกรรมที่หมกมุ่นกับการสร้างโมเดลขนาดใหญ่ขึ้นเรื่อยๆ ทีมวิจัย AI ของ Samsung ได้ใช้แนวทางที่แตกต่างอย่างสิ้นเชิง ซึ่งท้าทายสมมติฐานพื้นฐานเกี่ยวกับปัญญาประดิษฐ์ การค้นพบครั้งสำคัญของพวกเขาคือ Tiny Recursive Model (TRM) ที่มีพารามิเตอร์เพียงเจ็ดล้านตัว แต่กลับมีความสามารถในการใช้เหตุผลที่เทียบเคียงหรือเหนือกว่าโมเดลขนาดใหญ่กว่าหลายพันเท่า ซึ่งอาจปรับเปลี่ยนวิธีคิดของเราเกี่ยวกับประสิทธิภาพและประสิทธิผลของ AI ไปอย่างสิ้นเชิง
![]() |
---|
Tiny Recursive Model (TRM) ที่ก้าวล้ำแสดงให้เห็นแนวทางที่เป็นนวัตกรรมของ Samsung ในด้าน AI โดยเน้นประสิทธิภาพและความสามารถในการให้เหตุผลขั้นสูง |
การปฏิวัติโครงสร้างแบบเรียกซ้ำในสถาปัตยกรรม AI
นวัตกรรมหลักของ TRM จาก Samsung อยู่ที่ปรัชญาการออกแบบแบบเรียกซ้ำ ซึ่งเป็นการจินตนาการใหม่ถึงวิธีที่โมเดล AI ประมวลผลข้อมูล แทนที่จะสร้างเครือข่ายที่ลึกขึ้นด้วยเลเยอร์จำนวนมากขึ้น นักวิจัยได้สร้างระบบที่ปรับปรุงผลลัพธ์ของตัวเองซ้ำแล้วซ้ำเล่าผ่านหลายรอบ วิธีการนี้เลียนแบบการแก้ปัญหาของมนุษย์ ที่เราปรับปรุงคำตอบของเราอย่างต่อเนื่องผ่านการสะท้อนคิดและแก้ไข โมเดลนี้ใช้สิ่งที่นักวิจัยเรียกว่าการปรับปรุงแบบเรียกซ้ำของสถานะแฝงและสถานะผลลัพธ์ โดยไม่สมมติว่ามีการลู่เข้า ซึ่งหมายความว่าโมเดลจะไม่ยึดติดกับคำตอบก่อนวัยอันควร แต่จะปรับปรุงคำตอบเหล่านั้นผ่านการประมวลผลแบบวนซ้ำ
คุณสมบัติทางสถาปัตยกรรมที่สำคัญ:
- โมเดลชั้นเดียวแบบ 2 ชั้นพร้อมการประมวลผลแบบเรียกซ้ำ
- กลไกการหยุดแบบปรับตัวเพื่อกำหนดจุดหยุดที่เหมาะสมที่สุด
- การกำกับดูแลเชิงลึกพร้อมข้อมูลย้อนกลับในหลายขั้นตอนการประมวลผล
- การปรับปรุงผลลัพธ์ผ่านวงจรการให้เหตุผลแบบทำซ้ำ
ประสิทธิภาพอันน่าประทับใจเมื่อเทียบกับยักษ์ใหญ่ในอุตสาหกรรม
โมเดลขนาดจิ๋วของ Samsung ได้แสดงความสามารถที่น่าทายAcross งานใช้เหตุผลที่ท้าทายหลายประเภท ในปริศนา Sudoku-Extreme โมเดล TRM ทำได้ความแม่นยำ 87.4% ซึ่งสูงกว่าความแม่นยำ 55% ของ Hierarchical Reasoning Models อย่างมีนัยสำคัญ ระบบยังแสดงความแม่นยำ 85% ในปริศนา Maze-Hard ที่ซับซ้อน และทำได้ความแม่นยำ 45% ในแบบทดสอบ ARC-AGI-1 ที่มีความต้องการสูง ซึ่งทดสอบความสามารถในการใช้เหตุผลเชิงนามธรรมที่มักเชื่อมโยงกับปัญญาประดิษฐ์ทั่วไป ที่น่าสังเกตที่สุดคือ ผลลัพธ์เหล่านี้เทียบเคียงหรือแซงหน้าผลงานของโมเดลขนาดมหึมาอย่าง Google's Gemini 2.5 Pro, OpenAI's o3-mini และ DeepSeek R1 ทั้งที่ใช้ทรัพยากรการคำนวณเพียงเสี้ยวเล็กๆ ของโมเดลเหล่านั้น
ผลการทดสอบประสิทธิภาพของ TRM:
- Sudoku-Extreme: ความแม่นยำ 87.4%
- Maze-Hard puzzles: ความแม่นยำ 85%
- ARC-AGI-1: ความแม่นยำ 45%
- ARC-AGI-2: ความแม่นยำ 8%
ข้อได้เปรียบด้านประสิทธิภาพในการประยุกต์ใช้จริง
ความหมายของความก้าวหน้าด้านประสิทธิภาพนี้ขยายไปไกลกว่าความอยากรู้ทางวิชาการ การรันโมเดลที่มีพารามิเตอร์เป็นล้านล้านตัว ต้องการคลัสเตอร์ขนาดใหญ่ของชิปเฉพาะทางและงบประมาณพลังงานที่บริษัทเทคโนโลยีขนาดใหญ่เท่านั้นที่สามารถจ่ายได้ ในทางตรงกันข้าม ขนาดเพียงเจ็ดล้านพารามิเตอร์ของ TRM สามารถทำงานบนฮาร์ดแวร์ทั่วไปได้ โดยใช้พลังงานต่ำกว่ามาก สิ่งนี้เปิดโอกาสให้สตาร์ทอัพ มหาวิทยาลัย และโครงการเอจคอมพิวติ้ง ที่ก่อนหน้านี้ไม่สามารถมีส่วนร่วมในการวิจัย AI ล้ำสมัยได้เนื่องจากข้อจำกัดด้านทรัพยากร ขนาดเล็กของโมเดลยังช่วยให้สามารถปรับใช้ในเครื่องได้ ซึ่งแก้ไขข้อกังวลด้านความเป็นส่วนตัวที่เกี่ยวข้องกับบริการ AI แบบคลาวด์
การเปรียบเทียบขนาดของโมเดล:
- Samsung TRM: 7 ล้านพารามิเตอร์
- โมเดลภาษาขนาดใหญ่ทั่วไป: หลายพันล้านพารามิเตอร์
- การเปรียบเทียบประสิทธิภาพ: TRM มีประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลอย่าง Gemini 2.5 Pro, o3-mini และ DeepSeek R1
การเปลี่ยนแปลงของอุตสาหกรรมสู่การพัฒนา AI ที่ยั่งยืน
ความสำเร็จของ Samsung มาถึงในเวลาที่สำคัญ เมื่ออุตสาหกรรม AI กำลังเผชิญกับการตรวจสอบมากขึ้นเรื่อยๆ เกี่ยวกับผลกระทบต่อสิ่งแวดล้อมและต้นทุนการดำเนินงาน ในขณะที่บริษัทต่างๆ เช่น Meta และ Google ยังคงไล่ตามโมเดลขนาดใหญ่ พวกเขาก็ลงทุนในเทคนิคต่างๆ เช่น pruning และ quantization เพื่อลดความต้องการในการคำนวณไปพร้อมๆ กัน แนวโน้มของ Apple เกี่ยวกับปัญญาประดิษฐ์ในอุปกรณ์ ก็เป็นไปตามหลักการประสิทธิภาพที่คล้ายกัน แนวทาง TRM ชี้ให้เห็นว่านวัตกรรมทางสถาปัตยกรรม แทนที่จะเป็นเพียงการบีบอัดโมเดลที่มีอยู่ อาจเป็นก้าวกระโดดครั้งสำคัญต่อไปในประสิทธิภาพของ AI ดังที่ Alexia Jolicoeur-Martineau นักวิทยาศาสตร์วิจัยและทีมของเธอให้เหตุผลว่า สาขานี้เข้าใจผิดมากขึ้นเรื่อยๆ ว่าปริมาณคือความฉลาด และงานของพวกเขาแสดงให้เห็นว่าการออกแบบที่ชาญฉลาดสามารถทดแทนการขยายขนาดแบบใช้กำลัง brute-force ได้
การประยุกต์ใช้ในอนาคตและทิศทางการวิจัย
ในขณะที่ TRM ในปัจจุบันทำได้ดีในงานใช้เหตุผลที่มีโครงสร้าง เช่น ปริศนาตรรกะและการหาเส้นทาง การประยุกต์ใช้ที่มีศักยภาพของมันครอบคลุมหลายโดเมน องค์กรต่างๆ สามารถปรับใช้ micro-model เฉพาะทางสำหรับงานใช้เหตุผลเฉพาะทาง ในขณะที่สงวน large language model สำหรับการสร้างข้อความ สร้างระบบไฮบริดที่ปรับประสิทธิภาพทั้งด้านประสิทธิภาพและต้นทุน แนวทางแบบเรียกซ้ำอาจเสริมระบบ AI ที่มีอยู่เป็นโมดูลย่อยเฉพาะทางสำหรับการให้เหตุผลทางคณิตศาสตร์หรือตรรกะ Samsung ได้เปิดเผยทั้งโค้ดและรายละเอียดการฝึกฝนบน GitHub สาธารณะ ส่งเสริมให้ชุมชนวิจัยนำไปใช้และปรับปรุงอย่างกว้างขวาง ในขณะที่อุตสาหกรรม AI กำลังต่อสู้กับความท้าทายด้านความยั่งยืน TRM เป็นตัวแทนของเส้นทางทางเลือกที่น่าสนใจ — เส้นทางที่ปัญญาไม่ได้เกิดจากขนาด แต่เกิดจากการออกแบบทางสถาปัตยกรรมที่ซับซ้อน