DeepSeek-V3.1-Terminus ตอบสนองความคิดเห็นของผู้ใช้ด้วยการแก้ไขความสอดคล้องของภาษาและการเพิ่มประสิทธิภาพของ Agent

ทีมชุมชน BigGo
DeepSeek-V3.1-Terminus ตอบสนองความคิดเห็นของผู้ใช้ด้วยการแก้ไขความสอดคล้องของภาษาและการเพิ่มประสิทธิภาพของ Agent

DeepSeek ได้เปิดตัว V3.1-Terminus ซึ่งเป็นเวอร์ชันที่อัปเดตของโมเดลภาษาของพวกเขา โดยตอบสนองโดยตรงต่อความคิดเห็นจากชุมชนเกี่ยวกับการเปิดตัว V3.1 ก่อนหน้านี้ การอัปเดตนี้มุ่งเน้นไปที่การแก้ไขปัญหาการผสมภาษาและการปรับปรุงความสามารถของ agent ในขณะที่ยังคงประสิทธิภาพที่แข่งขันได้ในเกณฑ์มาตรฐานต่างๆ

การปรับปรุงที่สำคัญใน V3.1-Terminus:

  • ความสอดคล้องของภาษา: กำจัดปัญหาการผสมภาษาจีน/อังกฤษและปัญหาตัวอักษรแบบสุ่ม
  • ประสิทธิภาพของ Agent: เพิ่มขีดความสามารถของ Code Agent และ Search Agent
  • การปรับปรุงเกณฑ์มาตรฐาน: การปรับปรุงที่น่าสังเกตในงานที่ใช้ agent และการใช้เหตุผลที่ซับซ้อน
  • ความพร้อมใช้งาน: เข้าถึงได้ผ่าน App, Web, API พร้อมน้ำหนักโอเพนซอร์สบน Hugging Face
  • ใบอนุญาต: ใบอนุญาต MIT ที่อนุญาตให้ใช้เชิงพาณิชย์
ภาพนี้เน้นย้ำการเปรียบเทียบประสิทธิภาพระหว่างโมเดล DeepSeek รุ่น V31 และ V31-Terminus โดยเน้นการอัปเดตและการปรับปรุงที่ทำในเวอร์ชันล่าสุด
ภาพนี้เน้นย้ำการเปรียบเทียบประสิทธิภาพระหว่างโมเดล DeepSeek รุ่น V31 และ V31-Terminus โดยเน้นการอัปเดตและการปรับปรุงที่ทำในเวอร์ชันล่าสุด

ปัญหาความสอดคล้องของภาษาได้รับการแก้ไขในที่สุด

หนึ่งในการปรับปรุงที่สำคัญที่สุดใน V3.1-Terminus คือการแก้ไขปัญหาการผสมภาษาที่น่าหงุดหงิดซึ่งเกิดขึ้นกับเวอร์ชันก่อนหน้า ผู้ใช้เคยประสบปัญหาการแทรกตัวอักษรแบบสุ่มและการเปลี่ยนไปมาระหว่างข้อความภาษาจีนและภาษาอังกฤษที่ไม่ต้องการระหว่างการสนทนา ชุมชนได้แสดงความคิดเห็นอย่างชัดเจนเกี่ยวกับปัญหาเหล่านี้ โดยหลายคนพบว่าปัญหาเหล่านี้รบกวนมากพอที่จะเปลี่ยนไปใช้โมเดลทางเลือกอื่น แม้ว่า V3.1 จะมีประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานก็ตาม

เวอร์ชันใหม่สัญญาว่าจะให้ผลลัพธ์ภาษาที่สะอาดและสอดคล้องกันมากขึ้น ซึ่งควรทำให้เชื่อถือได้มากขึ้นสำหรับการใช้งานจริงที่คุณภาพของข้อความมีความสำคัญเท่ากับความสามารถทางเทคนิค

ประสิทธิภาพ Agent ที่เพิ่มขึ้นสำหรับงานในโลกแห่งความจริง

V3.1-Terminus แสดงการปรับปรุงที่น่าสังเกตในงานที่ใช้ agent โดยเฉพาะในสถานการณ์การสร้างโค้ดและการเรียกดูเว็บ โมเดลแสดงให้เห็นความก้าวหน้าที่สำคัญในเกณฑ์มาตรฐานเชิงปฏิบัติหลายตัว รวมถึงการเพิ่มขึ้นจาก 30.0 เป็น 38.5 ใน BrowseComp และการปรับปรุงในงานวิศวกรรมซอฟต์แวร์เช่น SWE Verified และ SWE-bench Multilingual

การปรับปรุง agent เหล่านี้แก้ไขความกังวลอีกประการหนึ่งของชุมชนเกี่ยวกับความสามารถของโมเดลในการจัดการงานที่ซับซ้อนและมีหลายขั้นตอนที่ต้องการการใช้เครื่องมือและการโต้ตอบภายนอก

การเปรียบเทียบประสิทธิภาพ: DeepSeek-V3.1 เทียบกับ V3.1-Terminus

Benchmark V3.1 V3.1-Terminus Change
งานด้านการใช้เหตุผล
MMLU-Pro 84.8 85.0 +0.2
GPQA-Diamond 80.1 80.7 +0.6
Humanity's Last Exam 15.9 21.7 +5.8
งานด้าน Agent
BrowseComp 30.0 38.5 +8.5
SimpleQA 93.4 96.8 +3.4
SWE Verified 66.0 68.4 +2.4
Terminal-bench 31.3 36.7 +5.4

การตอบรับจากชุมชนและความกังวลที่ยังคงอยู่

แม้ว่าการอัปเデตจะแก้ไขปัญหาทางเทคนิคที่สำคัญ แต่สมาชิกชุมชนบางคนยังคงระมัดระวังเกี่ยวกับแนวโน้มของโมเดลที่จะสร้างข้อสมมติฐานเกี่ยวกับข้อมูลนำเข้าของผู้ใช้ ผู้ใช้ได้รายงานกรณีที่โมเดลเพิกเฉยต่อรายละเอียดเฉพาะหรือแก้ไขคำขอของผู้ใช้ตามสิ่งที่มันพิจารณาว่าสมเหตุสมผล แทนที่จะปฏิบัติตามคำแนะนำอย่างแม่นยำ

ฉันลอง V3.1 แต่มันทำให้ฉันคลั่งเพราะเพิกเฉยต่อส่วนหนึ่งของข้อมูลนำเข้าของผู้ใช้ ซึ่ง R1 ไม่เคยทำ

โมเดลนี้พร้อมใช้งานแล้วผ่านแอป DeepSeek อินเทอร์เฟซเว็บ และ API โดยมีการเปิดตัว open-source weights บน Hugging Face ภายใต้ใบอนุญาต MIT วิธีการออกใบอนุญาตนี้สืบต้องความมุ่งมั่นของ DeepSeek ในการทำให้โมเดลของพวกเขาเข้าถึงได้สำหรับทั้งการวิจัยและการใช้งานเชิงพาณิชย์

แม้จะมีการปรับปรุง แต่ชุมชน AI ยังคงถกเถียงเกี่ยวกับการแลกเปลี่ยนระหว่างประสิทธิภาพของเกณฑ์มาตรฐานและการใช้งานจริง โดยผู้ใช้บางคนชอบโมเดลเก่าที่อาจได้คะแนนต่ำกว่าในการทดสอบ แต่ทำงานได้คาดเดาได้มากกว่าในสถานการณ์โลกแห่งความจริง

อ้างอิง: DeepSeek-V3.1-Terminus