DeepSeek-V3.1 แสดงผลการปรับปรุงที่แข็งแกร่งในเบนช์มาร์ก แต่เผชิญปัญหารูปแบบเครื่องมือและความกังวลเรื่องราคา

ทีมชุมชน BigGo
DeepSeek-V3.1 แสดงผลการปรับปรุงที่แข็งแกร่งในเบนช์มาร์ก แต่เผชิญปัญหารูปแบบเครื่องมือและความกังวลเรื่องราคา

DeepSeek ได้เปิดตัวโมเดล AI รุ่นล่าสุด DeepSeek-V3.1 ซึ่งบริษัทเรียกว่าเป็นก้าวแรกของเราสู่ยุคเอเจนต์ โมเดลการใช้เหตุผลแบบไฮบริดนี้นำเสนอทั้งโหมดการคิดและไม่คิดในระบบเดียว โดยสัญญาว่าจะมีการประมวลผลที่เร็วขึ้นและความสามารถของเอเจนต์ที่แข็งแกร่งขึ้น อย่างไรก็ตาม ประสบการณ์ของผู้ใช้ในช่วงแรกเผยให้เห็นการตอบรับที่หลากหลาย โดยการปรับปรุงเบนช์มาร์กที่น่าประทับใจถูกบดบังด้วยความท้าทายในการนำไปใช้งานจริง

ข้อมูลจำเพาะของโมเดลและการอัปเดต

  • โมเดลพื้นฐาน: การฝึกอบรมต่อเนื่องด้วย 840B tokens เพื่อขยายบริบทที่ยาวขึ้น
  • ฟีเจอร์ใหม่: โหมดผสมผสาน Think/Non-Think ผ่านปุ่ม " DeepThink "
  • การสนับสนุน API: ความเข้ากันได้กับรูปแบบ Anthropic API
  • การเรียกใช้ฟังก์ชัน: Strict Function Calling ใน Beta API
  • โอเพนซอร์ส: พร้อมใช้งานบน Hugging Face (เวอร์ชัน Base และ Chat)
  • Tokenizer: การกำหนดค่า tokenizer ที่อัปเดตและเทมเพลตแชท

การปรับปรุงประสิทธิภาพที่สำคัญในเบนช์มาร์กหลัก

โมเดลใหม่แสดงให้เห็นการปรับปรุงที่สำคัญในหลายเมตริกการประเมิน ในการทดสอบ SWE-bench Verified โมเดล DeepSeek-V3.1 ได้คะแนน 66.0 ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นก่อนหน้า V3-0324 (45.4) และโมเดล R1-0528 (44.6) อย่างมีนัยสำคัญ การปรับปรุงขยายไปถึงงานเขียนโค้ดหลายภาษาและการดำเนินการเทอร์มินัล โดยโมเดลได้คะแนน 54.5 ใน SWE-bench Multilingual และ 31.3 ใน Terminal-Bench ผลลัพธ์เหล่านี้ทำให้โมเดลมีความสามารถในการแข่งขันในหมู่ทางเลือกแบบ open-weight แม้ว่าการอภิปรายในชุมชนจะระบุว่ายังคงล้าหลังโมเดลที่เป็นกรรมสิทธิ์เช่น GPT-5 และ Claude 4 ในเบนช์มาร์กบางตัว

การเปรียบเทียบประสิทธิภาพเบนช์มาร์กของ DeepSeek-V3.1

เบนช์มาร์ก DeepSeek-V3.1 DeepSeek-V3-0324 DeepSeek-R1-0528
SWE-bench Verified 66.0 45.4 44.6
SWE-bench Multilingual 54.5 29.3 30.5
Terminal-Bench 31.3 13.3 5.7
Browsecomp 30.0 - 8.9
xbench-DeepSearch 71.2 - 55.0

ความไม่สอดคล้องของรูปแบบเครื่องมือสร้างความท้าทายในการผสานรวม

แม้จะมีการปรับปรุงประสิทธิภาพ แต่นักพัฒนารายงานปัญหาความเข้ากันได้ที่น่าหงุดหงิดกับฟังก์ชันการเรียกใช้เครื่องมือ โมเดลสลับไปมาระหว่างมาตรฐานการจัดรูปแบบที่แตกต่างกันอย่างไม่สม่ำเสมอ บางครั้งใช้แท็กสไตล์ XML และบางครั้งใช้ระบบตัวคั่นแบบกำหนดเองแทนรูปแบบ JSON มาตรฐาน ความไม่สามารถคาดเดาได้นี้บังคับให้นักพัฒนาต้องสร้างการสนับสนุนสำหรับหลายรูปแบบในแอปพลิเคชันของพวกเขา ซึ่งสร้างความซับซ้อนเพิ่มเติมที่โมเดลคู่แข่งเช่น Claude และ GPT-5 ไม่ต้องการ

บางครั้งมันจะสุ่มสร้างสิ่งแบบนี้ในเนื้อหาของข้อความ... การกระตุ้นให้ใช้รูปแบบที่ถูกต้องดูเหมือนจะไม่ได้ผล

ภาพรวมการเปิดตัว DeepSeek-V31 API เน้นการอัปเดตสำคัญและความท้าทายที่อาจเกิดขึ้นในการรวมระบบเครื่องมือ
ภาพรวมการเปิดตัว DeepSeek-V31 API เน้นการอัปเดตสำคัญและความท้าทายที่อาจเกิดขึ้นในการรวมระบบเครื่องมือ

กลยุทธ์การกำหนดราคาทำให้เกิดคำถามเกี่ยวกับการเข้าถึงได้

โครงสร้างราคาของโมเดลได้จุดประกายการถกเถียงเกี่ยวกับความคุ้มค่า โดยต้นทุนอินพุตตั้งแต่ 0.07 ดอลลาร์สหรัฐต่อล้านโทเค็นสำหรับการตีแคชถูกต้องถึง 0.56 ดอลลาร์สหรัฐสำหรับการพลาดแคช และราคาเอาต์พุตที่ 1.68 ดอลลาร์สหรัฐต่อล้านโทเค็น ผู้ใช้บางคนแสดงความกังวลเกี่ยวกับความสามารถในการจ่าย การเปลี่ยนแปลงราคามีผลตั้งแต่วันที่ 5 กันยายน 2025 เวลา 16:00 UTC ทำให้ผู้ใช้มีเวลาประเมินอัตราส่วนต้นทุน-ผลประโยชน์เทียบกับการปรับปรุงประสิทธิภาพ

โครงสร้างราคา API (มีผลตั้งแต่วันที่ 5 กันยายน 2025 เวลา 16:00 UTC)

  • ราคา Input:
    • Cache hit: $0.07 USD / 1M tokens
    • Cache miss: $0.56 USD / 1M tokens
  • ราคา Output: $1.68 USD / 1M tokens
  • ความยาว Context: 128K tokens สำหรับทั้งสองโหมด
  • API Endpoints:
    • deepseek-chat → โหมดไม่มีการคิด
    • deepseek-reasoner → โหมดการคิด

การแข่งขันจากโมเดลทางเลือก

การอภิปรายในชุมชนเน้นการแข่งขันที่แข็งแกร่งจากรุ่นที่เปิดตัวล่าสุดอื่นๆ โดยเฉพาะโมเดล Qwen3 235B 2507 Reasoning ซึ่งผู้ใช้บางคนชอบสำหรับสถานการณ์การติดตั้งในเครื่อง ความพร้อมใช้งานของทางเลือกที่มีประสิทธิภาพที่สามารถทำงานบนฮาร์ดแวร์ผู้บริโภคด้วย RAM 24-32GB ให้ตัวเลือกที่น่าสนใจสำหรับนักพัฒนาที่แสวงหาโซลูชันที่คุ้มค่าโดยไม่ต้องพึ่งพาบริการ API

การเปิดตัวนี้แสดงถึงความก้าหน้าทางเทคนิคที่น่าสังเกตในความสามารถการใช้เหตุผลของ AI แต่การนำไปใช้งานจริงอาจขึ้นอยู่กับการแก้ไขปัญหาการผสานรวมเครื่องมือและการแสดงให้เห็นถึงคุณค่าที่ชัดเจนในระดับราคาที่ประกาศ ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ การทดสอบในโลกแห่งความเป็นจริงมักให้ข้อมูลเชิงลึกที่ดีกว่าคะแนนเบนช์มาร์กเพียงอย่างเดียว

อ้างอิง: DeepSeek-V3.1 Release