NVIDIA เปิดตัวโมเดล OpenReasoning-Nemotron ที่กลั่นมาจาก DeepSeek R1

ทีมชุมชน BigGo
NVIDIA เปิดตัวโมเดล OpenReasoning-Nemotron ที่กลั่นมาจาก DeepSeek R1

NVIDIA ได้เปิดตัวตระกูลโมเดล AI เชิงเหตุผลใหม่ที่เรียกว่า OpenReasoning-Nemotron อย่างเงียบๆ ซึ่งถือเป็นการเปลี่ยนแปลงที่สำคัญในแนวทางของบริษัทต่อการพัฒนา AI แบบโอเพนซอร์ส แม้ว่าการประกาศครั้งแรกจะเน้นไปที่ตระกูล Llama Nemotron แต่การเปิดตัวจริงกลับเผยให้เห็นรากฐานทางเทคนิคที่แตกต่างออกไป ซึ่งได้ดึงดูดความสนใจจากชุมชน AI

โมเดลที่สร้างบนสถาปัตยกรรม DeepSeek R1

สิ่งที่โดดเด่นที่สุดของการเปิดตัวครั้งนี้คือโมเดล OpenReasoning-Nemotron ของ NVIDIA นั้นถูกกลั่นมาจากโมเดล R1 0528 ขนาดใหญ่ 671 พันล้านพารามิเตอร์ของ DeepSeek จริงๆ แทนที่จะถูกสร้างบนสถาปัตยกรรม Llama ของ Meta ตามที่เสนอไว้ในตอนแรก สิ่งนี้แสดงถึงการเปลี่ยนแปลงที่น่าสังเกตจากความร่วมมือครั้งก่อนๆ ของ NVIDIA และเน้นย้ำถึงอิทธิพลที่เพิ่มขึ้นของความสามารถในการใช้เหตุผลของ DeepSeek ในภูมิทัศน์ AI

ตระกูลโมเดลนี้ประกอบด้วยสี่รูปแบบที่มีพารามิเตอร์ 1.5B, 7B, 14B และ 32B แต่ละรูปแบบถูกออกแบบมาเพื่อรองรับความต้องการด้านการคำนวณและสถานการณ์การใช้งานที่แตกต่างกัน ช่วงนี้ช่วยให้นักพัฒนาสามารถเลือกขนาดโมเดลที่เหมาะสมตามข้อจำกัดของฮาร์ดแวร์และความต้องการด้านประสิทธิภาพเฉพาะของตน

DeepSeek R1: โมเดลภาษาขนาดใหญ่ที่พัฒนาโดยบริษัท AI จีน DeepSeek ซึ่งเป็นที่รู้จักในด้านความสามารถในการใช้เหตุผลที่แข็งแกร่งและจำนวนพารามิเตอร์ที่มหาศาล

รุ่นต่างๆ ของโมเดล OpenReasoning-Nemotron :

  • 1.5B พารามิเตอร์ - ปรับให้เหมาะสมสำหรับอุปกรณ์ edge และเครื่องคอมพิวเตอร์ส่วนบุคคล
  • 7B พารามิเตอร์ - ประสิทธิภาพที่สมดุลสำหรับการติดตั้งบน GPU เดี่ยว
  • 14B พารามิเตอร์ - ความสามารถในการใช้เหตุผลที่ดีขึ้นสำหรับเซิร์ฟเวอร์ระดับกลาง
  • 32B พารามิเตอร์ - ความแม่นยำสูงสุดสำหรับระบบองค์กรที่ใช้ GPU หลายตัว

การตอบสนองของชุมชนและรายละเอียดทางเทคนิค

ชุมชนนักพัฒนา AI แสดงปฏิกิริยาที่หลากหลายต่อระยะเวลาการเปิดตัวและข้อมูลจำเพาะทางเทคนิค นักพัฒนาบางคนได้สังเกตเห็นความสับสนระหว่างการประกาศครั้งแรกในเดือนมีนาคมกับการเปิดตัวในปัจจุบัน โดยชี้ให้เห็นว่าการสื่อสารของ NVIDIA เกี่ยวกับการเปิดตัวผลิตภัณฑ์นี้ไม่ค่อยชัดเจนนัก

การเข้าถึงโมเดลต้องมีการยืนยันตัวตนผ่านแพลตฟอร์ม build ของ NVIDIA ซึ่งสร้างความยุ่งยากบางประการสำหรับนักพัฒนาที่กระตือรือร้นที่จะทดลองกับความสามารถในการใช้เหตุผลใหม่ โมเดลเหล่านี้สามารถเข้าถึงได้ผ่านทั้งช่องทางอย่างเป็นทางการของ NVIDIA และ Hugging Face ซึ่งให้เส้นทางหลายทางสำหรับการรวมเข้ากับเวิร์กโฟลว์ AI ที่มีอยู่

รากฐานทางเทคนิค:

  • สกัดมาจาก DeepSeek R1 0528 (671B พารามิเตอร์)
  • เข้าถึงได้ผ่าน NVIDIA build.nvidia.com และ Hugging Face
  • ต้องการการยืนยันตัวตนสำหรับการเข้าถึงโมเดล
  • เป็นส่วนหนึ่งของแพลตฟอร์มซอฟต์แวร์ NVIDIA AI Enterprise

การอ้างสิทธิ์ด้านประสิทธิภาพและการประยุกต์ใช้ในโลกจริง

NVIDIA อ้างว่าโมเดลใหม่ให้ความแม่นยำที่ดีขึ้นถึง 20% เมื่อเปรียบเทียบกับโมเดลพื้นฐาน และบรรลุความเร็วในการอนุมานที่เร็วขึ้น 5 เท่าเมื่อเปรียบเทียบกับโมเดลเชิงเหตุผลแบบเปิดที่แข่งขัน การปรับปรุงประสิทธิภาพเหล่านี้อาจส่งผลกระทบอย่างมีนัยสำคัญต่อการยอมรับในองค์กร โดยเฉพาะในสถานการณ์ที่ต้องการการตัดสินใจที่ซับซ้อนและงานการใช้เหตุผลแบบหลายขั้นตอน

บริษัทได้วางตำแหน่งโมเดลเหล่านี้เป็นเครื่องมือพื้นฐานสำหรับการสร้างระบบ AI แบบ agentic - เอเจนต์ AI อัตโนมัติที่สามารถทำงานอย่างอิสระหรือเป็นทีมเพื่อแก้ปัญหาที่ซับซ้อน สิ่งนี้สอดคล้องกับแนวโน้มของอุตสาหกรรมโดยรวมที่มุ่งสู่การประยุกต์ใช้ AI ที่ซับซ้อนมากขึ้น ซึ่งสามารถจัดการกับความท้าทายทางธุรกิจในโลกจริงด้วยการแทรกแซงจากมนุษย์เพียงเล็กน้อย

การเปิดตัว OpenReasoning-Nemotron แสดงถึงการผลักดันอย่างต่อเนื่องของ NVIDIA เข้าสู่ภูมิทัศน์การแข่งขันของโมเดล AI เชิงเหตุผล แม้ว่ารากฐานทางเทคนิคอาจแตกต่างจากการประกาศครั้งแรก แต่การมุ่งเน้นไปที่การประยุกต์ใช้ในองค์กรเชิงปฏิบัติและตัวชี้วัดประสิทธิภาพที่ปรับปรุงแล้ว ชี้ให้เห็นว่าโมเดลเหล่านี้อาจมีบทบาทสำคัญในระยะต่อไปของการใช้งาน AI ในอุตสาหกรรมต่างๆ

อ้างอิง: NVIDIA Launches Family of Open Reasoning AI Models for Developers and Enterprises to Build Agentic AI Platforms