DeepSeek-V3.1-Terminus ตอบสนองความคิดเห็นของผู้ใช้ด้วยการแก้ไขความสอดคล้องของภาษาและการเพิ่มประสิทธิภาพของ Agent

ทีมชุมชน BigGo

DeepSeek-V3.1-Terminus ตอบสนองความคิดเห็นของผู้ใช้ด้วยการแก้ไขความสอดคล้องของภาษาและการเพิ่มประสิทธิภาพของ Agent

DeepSeek ได้เปิดตัว V3.1-Terminus ซึ่งเป็นเวอร์ชันที่อัปเดตของโมเดลภาษาของพวกเขา โดยตอบสนองโดยตรงต่อความคิดเห็นจากชุมชนเกี่ยวกับการเปิดตัว V3.1 ก่อนหน้านี้ การอัปเดตนี้มุ่งเน้นไปที่การแก้ไขปัญหาการผสมภาษาและการปรับปรุงความสามารถของ agent ในขณะที่ยังคงประสิทธิภาพที่แข่งขันได้ในเกณฑ์มาตรฐานต่างๆ

การปรับปรุงที่สำคัญใน V3.1-Terminus:

ความสอดคล้องของภาษา: กำจัดปัญหาการผสมภาษาจีน/อังกฤษและปัญหาตัวอักษรแบบสุ่ม
ประสิทธิภาพของ Agent: เพิ่มขีดความสามารถของ Code Agent และ Search Agent
การปรับปรุงเกณฑ์มาตรฐาน: การปรับปรุงที่น่าสังเกตในงานที่ใช้ agent และการใช้เหตุผลที่ซับซ้อน
ความพร้อมใช้งาน: เข้าถึงได้ผ่าน App, Web, API พร้อมน้ำหนักโอเพนซอร์สบน Hugging Face
ใบอนุญาต: ใบอนุญาต MIT ที่อนุญาตให้ใช้เชิงพาณิชย์


ภาพนี้เน้นย้ำการเปรียบเทียบประสิทธิภาพระหว่างโมเดล DeepSeek รุ่น V31 และ V31-Terminus โดยเน้นการอัปเดตและการปรับปรุงที่ทำในเวอร์ชันล่าสุด

ปัญหาความสอดคล้องของภาษาได้รับการแก้ไขในที่สุด

หนึ่งในการปรับปรุงที่สำคัญที่สุดใน V3.1-Terminus คือการแก้ไขปัญหาการผสมภาษาที่น่าหงุดหงิดซึ่งเกิดขึ้นกับเวอร์ชันก่อนหน้า ผู้ใช้เคยประสบปัญหาการแทรกตัวอักษรแบบสุ่มและการเปลี่ยนไปมาระหว่างข้อความภาษาจีนและภาษาอังกฤษที่ไม่ต้องการระหว่างการสนทนา ชุมชนได้แสดงความคิดเห็นอย่างชัดเจนเกี่ยวกับปัญหาเหล่านี้ โดยหลายคนพบว่าปัญหาเหล่านี้รบกวนมากพอที่จะเปลี่ยนไปใช้โมเดลทางเลือกอื่น แม้ว่า V3.1 จะมีประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานก็ตาม

เวอร์ชันใหม่สัญญาว่าจะให้ผลลัพธ์ภาษาที่สะอาดและสอดคล้องกันมากขึ้น ซึ่งควรทำให้เชื่อถือได้มากขึ้นสำหรับการใช้งานจริงที่คุณภาพของข้อความมีความสำคัญเท่ากับความสามารถทางเทคนิค

ประสิทธิภาพ Agent ที่เพิ่มขึ้นสำหรับงานในโลกแห่งความจริง

V3.1-Terminus แสดงการปรับปรุงที่น่าสังเกตในงานที่ใช้ agent โดยเฉพาะในสถานการณ์การสร้างโค้ดและการเรียกดูเว็บ โมเดลแสดงให้เห็นความก้าวหน้าที่สำคัญในเกณฑ์มาตรฐานเชิงปฏิบัติหลายตัว รวมถึงการเพิ่มขึ้นจาก 30.0 เป็น 38.5 ใน BrowseComp และการปรับปรุงในงานวิศวกรรมซอฟต์แวร์เช่น SWE Verified และ SWE-bench Multilingual

การปรับปรุง agent เหล่านี้แก้ไขความกังวลอีกประการหนึ่งของชุมชนเกี่ยวกับความสามารถของโมเดลในการจัดการงานที่ซับซ้อนและมีหลายขั้นตอนที่ต้องการการใช้เครื่องมือและการโต้ตอบภายนอก

การเปรียบเทียบประสิทธิภาพ: DeepSeek-V3.1 เทียบกับ V3.1-Terminus

Benchmark	V3.1	V3.1-Terminus	Change
งานด้านการใช้เหตุผล
MMLU-Pro	84.8	85.0	+0.2
GPQA-Diamond	80.1	80.7	+0.6
Humanity's Last Exam	15.9	21.7	+5.8
งานด้าน Agent
BrowseComp	30.0	38.5	+8.5
SimpleQA	93.4	96.8	+3.4
SWE Verified	66.0	68.4	+2.4
Terminal-bench	31.3	36.7	+5.4

การตอบรับจากชุมชนและความกังวลที่ยังคงอยู่

แม้ว่าการอัปเデตจะแก้ไขปัญหาทางเทคนิคที่สำคัญ แต่สมาชิกชุมชนบางคนยังคงระมัดระวังเกี่ยวกับแนวโน้มของโมเดลที่จะสร้างข้อสมมติฐานเกี่ยวกับข้อมูลนำเข้าของผู้ใช้ ผู้ใช้ได้รายงานกรณีที่โมเดลเพิกเฉยต่อรายละเอียดเฉพาะหรือแก้ไขคำขอของผู้ใช้ตามสิ่งที่มันพิจารณาว่าสมเหตุสมผล แทนที่จะปฏิบัติตามคำแนะนำอย่างแม่นยำ

ฉันลอง V3.1 แต่มันทำให้ฉันคลั่งเพราะเพิกเฉยต่อส่วนหนึ่งของข้อมูลนำเข้าของผู้ใช้ ซึ่ง R1 ไม่เคยทำ

โมเดลนี้พร้อมใช้งานแล้วผ่านแอป DeepSeek อินเทอร์เฟซเว็บ และ API โดยมีการเปิดตัว open-source weights บน Hugging Face ภายใต้ใบอนุญาต MIT วิธีการออกใบอนุญาตนี้สืบต้องความมุ่งมั่นของ DeepSeek ในการทำให้โมเดลของพวกเขาเข้าถึงได้สำหรับทั้งการวิจัยและการใช้งานเชิงพาณิชย์

แม้จะมีการปรับปรุง แต่ชุมชน AI ยังคงถกเถียงเกี่ยวกับการแลกเปลี่ยนระหว่างประสิทธิภาพของเกณฑ์มาตรฐานและการใช้งานจริง โดยผู้ใช้บางคนชอบโมเดลเก่าที่อาจได้คะแนนต่ำกว่าในการทดสอบ แต่ทำงานได้คาดเดาได้มากกว่าในสถานการณ์โลกแห่งความจริง

อ้างอิง: DeepSeek-V3.1-Terminus

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌