DeepSeek ได้เปิดตัวโมเดล AI รุ่นล่าสุด DeepSeek-V3.1 ซึ่งบริษัทเรียกว่าเป็นก้าวแรกของเราสู่ยุคเอเจนต์ โมเดลการใช้เหตุผลแบบไฮบริดนี้นำเสนอทั้งโหมดการคิดและไม่คิดในระบบเดียว โดยสัญญาว่าจะมีการประมวลผลที่เร็วขึ้นและความสามารถของเอเจนต์ที่แข็งแกร่งขึ้น อย่างไรก็ตาม ประสบการณ์ของผู้ใช้ในช่วงแรกเผยให้เห็นการตอบรับที่หลากหลาย โดยการปรับปรุงเบนช์มาร์กที่น่าประทับใจถูกบดบังด้วยความท้าทายในการนำไปใช้งานจริง
ข้อมูลจำเพาะของโมเดลและการอัปเดต
- โมเดลพื้นฐาน: การฝึกอบรมต่อเนื่องด้วย 840B tokens เพื่อขยายบริบทที่ยาวขึ้น
- ฟีเจอร์ใหม่: โหมดผสมผสาน Think/Non-Think ผ่านปุ่ม " DeepThink "
- การสนับสนุน API: ความเข้ากันได้กับรูปแบบ Anthropic API
- การเรียกใช้ฟังก์ชัน: Strict Function Calling ใน Beta API
- โอเพนซอร์ส: พร้อมใช้งานบน Hugging Face (เวอร์ชัน Base และ Chat)
- Tokenizer: การกำหนดค่า tokenizer ที่อัปเดตและเทมเพลตแชท
การปรับปรุงประสิทธิภาพที่สำคัญในเบนช์มาร์กหลัก
โมเดลใหม่แสดงให้เห็นการปรับปรุงที่สำคัญในหลายเมตริกการประเมิน ในการทดสอบ SWE-bench Verified โมเดล DeepSeek-V3.1 ได้คะแนน 66.0 ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นก่อนหน้า V3-0324 (45.4) และโมเดล R1-0528 (44.6) อย่างมีนัยสำคัญ การปรับปรุงขยายไปถึงงานเขียนโค้ดหลายภาษาและการดำเนินการเทอร์มินัล โดยโมเดลได้คะแนน 54.5 ใน SWE-bench Multilingual และ 31.3 ใน Terminal-Bench ผลลัพธ์เหล่านี้ทำให้โมเดลมีความสามารถในการแข่งขันในหมู่ทางเลือกแบบ open-weight แม้ว่าการอภิปรายในชุมชนจะระบุว่ายังคงล้าหลังโมเดลที่เป็นกรรมสิทธิ์เช่น GPT-5 และ Claude 4 ในเบนช์มาร์กบางตัว
การเปรียบเทียบประสิทธิภาพเบนช์มาร์กของ DeepSeek-V3.1
เบนช์มาร์ก | DeepSeek-V3.1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
---|---|---|---|
SWE-bench Verified | 66.0 | 45.4 | 44.6 |
SWE-bench Multilingual | 54.5 | 29.3 | 30.5 |
Terminal-Bench | 31.3 | 13.3 | 5.7 |
Browsecomp | 30.0 | - | 8.9 |
xbench-DeepSearch | 71.2 | - | 55.0 |
ความไม่สอดคล้องของรูปแบบเครื่องมือสร้างความท้าทายในการผสานรวม
แม้จะมีการปรับปรุงประสิทธิภาพ แต่นักพัฒนารายงานปัญหาความเข้ากันได้ที่น่าหงุดหงิดกับฟังก์ชันการเรียกใช้เครื่องมือ โมเดลสลับไปมาระหว่างมาตรฐานการจัดรูปแบบที่แตกต่างกันอย่างไม่สม่ำเสมอ บางครั้งใช้แท็กสไตล์ XML และบางครั้งใช้ระบบตัวคั่นแบบกำหนดเองแทนรูปแบบ JSON มาตรฐาน ความไม่สามารถคาดเดาได้นี้บังคับให้นักพัฒนาต้องสร้างการสนับสนุนสำหรับหลายรูปแบบในแอปพลิเคชันของพวกเขา ซึ่งสร้างความซับซ้อนเพิ่มเติมที่โมเดลคู่แข่งเช่น Claude และ GPT-5 ไม่ต้องการ
บางครั้งมันจะสุ่มสร้างสิ่งแบบนี้ในเนื้อหาของข้อความ... การกระตุ้นให้ใช้รูปแบบที่ถูกต้องดูเหมือนจะไม่ได้ผล
![]() |
---|
ภาพรวมการเปิดตัว DeepSeek-V31 API เน้นการอัปเดตสำคัญและความท้าทายที่อาจเกิดขึ้นในการรวมระบบเครื่องมือ |
กลยุทธ์การกำหนดราคาทำให้เกิดคำถามเกี่ยวกับการเข้าถึงได้
โครงสร้างราคาของโมเดลได้จุดประกายการถกเถียงเกี่ยวกับความคุ้มค่า โดยต้นทุนอินพุตตั้งแต่ 0.07 ดอลลาร์สหรัฐต่อล้านโทเค็นสำหรับการตีแคชถูกต้องถึง 0.56 ดอลลาร์สหรัฐสำหรับการพลาดแคช และราคาเอาต์พุตที่ 1.68 ดอลลาร์สหรัฐต่อล้านโทเค็น ผู้ใช้บางคนแสดงความกังวลเกี่ยวกับความสามารถในการจ่าย การเปลี่ยนแปลงราคามีผลตั้งแต่วันที่ 5 กันยายน 2025 เวลา 16:00 UTC ทำให้ผู้ใช้มีเวลาประเมินอัตราส่วนต้นทุน-ผลประโยชน์เทียบกับการปรับปรุงประสิทธิภาพ
โครงสร้างราคา API (มีผลตั้งแต่วันที่ 5 กันยายน 2025 เวลา 16:00 UTC)
- ราคา Input:
- Cache hit: $0.07 USD / 1M tokens
- Cache miss: $0.56 USD / 1M tokens
- ราคา Output: $1.68 USD / 1M tokens
- ความยาว Context: 128K tokens สำหรับทั้งสองโหมด
- API Endpoints:
deepseek-chat
→ โหมดไม่มีการคิดdeepseek-reasoner
→ โหมดการคิด
การแข่งขันจากโมเดลทางเลือก
การอภิปรายในชุมชนเน้นการแข่งขันที่แข็งแกร่งจากรุ่นที่เปิดตัวล่าสุดอื่นๆ โดยเฉพาะโมเดล Qwen3 235B 2507 Reasoning ซึ่งผู้ใช้บางคนชอบสำหรับสถานการณ์การติดตั้งในเครื่อง ความพร้อมใช้งานของทางเลือกที่มีประสิทธิภาพที่สามารถทำงานบนฮาร์ดแวร์ผู้บริโภคด้วย RAM 24-32GB ให้ตัวเลือกที่น่าสนใจสำหรับนักพัฒนาที่แสวงหาโซลูชันที่คุ้มค่าโดยไม่ต้องพึ่งพาบริการ API
การเปิดตัวนี้แสดงถึงความก้าหน้าทางเทคนิคที่น่าสังเกตในความสามารถการใช้เหตุผลของ AI แต่การนำไปใช้งานจริงอาจขึ้นอยู่กับการแก้ไขปัญหาการผสานรวมเครื่องมือและการแสดงให้เห็นถึงคุณค่าที่ชัดเจนในระดับราคาที่ประกาศ ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ การทดสอบในโลกแห่งความเป็นจริงมักให้ข้อมูลเชิงลึกที่ดีกว่าคะแนนเบนช์มาร์กเพียงอย่างเดียว
อ้างอิง: DeepSeek-V3.1 Release