DeepSeek ได้เปิดตัว V3.1-Terminus ซึ่งเป็นเวอร์ชันที่อัปเดตของโมเดลภาษาของพวกเขา โดยตอบสนองโดยตรงต่อความคิดเห็นจากชุมชนเกี่ยวกับการเปิดตัว V3.1 ก่อนหน้านี้ การอัปเดตนี้มุ่งเน้นไปที่การแก้ไขปัญหาการผสมภาษาและการปรับปรุงความสามารถของ agent ในขณะที่ยังคงประสิทธิภาพที่แข่งขันได้ในเกณฑ์มาตรฐานต่างๆ
การปรับปรุงที่สำคัญใน V3.1-Terminus:
- ความสอดคล้องของภาษา: กำจัดปัญหาการผสมภาษาจีน/อังกฤษและปัญหาตัวอักษรแบบสุ่ม
- ประสิทธิภาพของ Agent: เพิ่มขีดความสามารถของ Code Agent และ Search Agent
- การปรับปรุงเกณฑ์มาตรฐาน: การปรับปรุงที่น่าสังเกตในงานที่ใช้ agent และการใช้เหตุผลที่ซับซ้อน
- ความพร้อมใช้งาน: เข้าถึงได้ผ่าน App, Web, API พร้อมน้ำหนักโอเพนซอร์สบน Hugging Face
- ใบอนุญาต: ใบอนุญาต MIT ที่อนุญาตให้ใช้เชิงพาณิชย์
![]() |
---|
ภาพนี้เน้นย้ำการเปรียบเทียบประสิทธิภาพระหว่างโมเดล DeepSeek รุ่น V31 และ V31-Terminus โดยเน้นการอัปเดตและการปรับปรุงที่ทำในเวอร์ชันล่าสุด |
ปัญหาความสอดคล้องของภาษาได้รับการแก้ไขในที่สุด
หนึ่งในการปรับปรุงที่สำคัญที่สุดใน V3.1-Terminus คือการแก้ไขปัญหาการผสมภาษาที่น่าหงุดหงิดซึ่งเกิดขึ้นกับเวอร์ชันก่อนหน้า ผู้ใช้เคยประสบปัญหาการแทรกตัวอักษรแบบสุ่มและการเปลี่ยนไปมาระหว่างข้อความภาษาจีนและภาษาอังกฤษที่ไม่ต้องการระหว่างการสนทนา ชุมชนได้แสดงความคิดเห็นอย่างชัดเจนเกี่ยวกับปัญหาเหล่านี้ โดยหลายคนพบว่าปัญหาเหล่านี้รบกวนมากพอที่จะเปลี่ยนไปใช้โมเดลทางเลือกอื่น แม้ว่า V3.1 จะมีประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานก็ตาม
เวอร์ชันใหม่สัญญาว่าจะให้ผลลัพธ์ภาษาที่สะอาดและสอดคล้องกันมากขึ้น ซึ่งควรทำให้เชื่อถือได้มากขึ้นสำหรับการใช้งานจริงที่คุณภาพของข้อความมีความสำคัญเท่ากับความสามารถทางเทคนิค
ประสิทธิภาพ Agent ที่เพิ่มขึ้นสำหรับงานในโลกแห่งความจริง
V3.1-Terminus แสดงการปรับปรุงที่น่าสังเกตในงานที่ใช้ agent โดยเฉพาะในสถานการณ์การสร้างโค้ดและการเรียกดูเว็บ โมเดลแสดงให้เห็นความก้าวหน้าที่สำคัญในเกณฑ์มาตรฐานเชิงปฏิบัติหลายตัว รวมถึงการเพิ่มขึ้นจาก 30.0 เป็น 38.5 ใน BrowseComp และการปรับปรุงในงานวิศวกรรมซอฟต์แวร์เช่น SWE Verified และ SWE-bench Multilingual
การปรับปรุง agent เหล่านี้แก้ไขความกังวลอีกประการหนึ่งของชุมชนเกี่ยวกับความสามารถของโมเดลในการจัดการงานที่ซับซ้อนและมีหลายขั้นตอนที่ต้องการการใช้เครื่องมือและการโต้ตอบภายนอก
การเปรียบเทียบประสิทธิภาพ: DeepSeek-V3.1 เทียบกับ V3.1-Terminus
Benchmark | V3.1 | V3.1-Terminus | Change |
---|---|---|---|
งานด้านการใช้เหตุผล | |||
MMLU-Pro | 84.8 | 85.0 | +0.2 |
GPQA-Diamond | 80.1 | 80.7 | +0.6 |
Humanity's Last Exam | 15.9 | 21.7 | +5.8 |
งานด้าน Agent | |||
BrowseComp | 30.0 | 38.5 | +8.5 |
SimpleQA | 93.4 | 96.8 | +3.4 |
SWE Verified | 66.0 | 68.4 | +2.4 |
Terminal-bench | 31.3 | 36.7 | +5.4 |
การตอบรับจากชุมชนและความกังวลที่ยังคงอยู่
แม้ว่าการอัปเデตจะแก้ไขปัญหาทางเทคนิคที่สำคัญ แต่สมาชิกชุมชนบางคนยังคงระมัดระวังเกี่ยวกับแนวโน้มของโมเดลที่จะสร้างข้อสมมติฐานเกี่ยวกับข้อมูลนำเข้าของผู้ใช้ ผู้ใช้ได้รายงานกรณีที่โมเดลเพิกเฉยต่อรายละเอียดเฉพาะหรือแก้ไขคำขอของผู้ใช้ตามสิ่งที่มันพิจารณาว่าสมเหตุสมผล แทนที่จะปฏิบัติตามคำแนะนำอย่างแม่นยำ
ฉันลอง V3.1 แต่มันทำให้ฉันคลั่งเพราะเพิกเฉยต่อส่วนหนึ่งของข้อมูลนำเข้าของผู้ใช้ ซึ่ง R1 ไม่เคยทำ
โมเดลนี้พร้อมใช้งานแล้วผ่านแอป DeepSeek อินเทอร์เฟซเว็บ และ API โดยมีการเปิดตัว open-source weights บน Hugging Face ภายใต้ใบอนุญาต MIT วิธีการออกใบอนุญาตนี้สืบต้องความมุ่งมั่นของ DeepSeek ในการทำให้โมเดลของพวกเขาเข้าถึงได้สำหรับทั้งการวิจัยและการใช้งานเชิงพาณิชย์
แม้จะมีการปรับปรุง แต่ชุมชน AI ยังคงถกเถียงเกี่ยวกับการแลกเปลี่ยนระหว่างประสิทธิภาพของเกณฑ์มาตรฐานและการใช้งานจริง โดยผู้ใช้บางคนชอบโมเดลเก่าที่อาจได้คะแนนต่ำกว่าในการทดสอบ แต่ทำงานได้คาดเดาได้มากกว่าในสถานการณ์โลกแห่งความจริง
อ้างอิง: DeepSeek-V3.1-Terminus