DeepSeek ได้เปิดตัว V3.2-Exp ซึ่งเป็นโมเดล AI ทดลองที่กำลังสร้างความฮือฮาในชุมชนเทคโนโลยีอย่างมาก เนื่องจากสามารถทำสิ่งที่หลายคนคิดว่าเป็นเรื่องยาก นั่นคือการลดต้นทุนอย่างมากในขณะที่รักษาประสิทธิภาพให้คงที่ โมเดลนี้ได้นำเสนอ DeepSeek Sparse Attention (DSA) ซึ่งเป็นแนวทางใหม่ที่ทำให้การประมวลผลลำดับข้อความยาวมีประสิทธิภาพมากขึ้น
การลดราคาอย่างมากต่อเนื่องตามแนวโน้มของอุตสาหกรรม
การเปิดตัวครั้งนี้มาพร้อมกับการลดราคา API อย่างมาก 50% ทำให้ราคาลดลงเหลือ 0.28 ดอลลาร์สหรัฐต่อหนึ่งล้าน input tokens และ 0.42 ดอลลาร์สหรัฐต่อหนึ่งล้าน output tokens การตั้งราคาแบบก้าวร้าวนี้ได้ดึงดูดความสนใจจากนักพัฒนาที่ติดตามการลดลงอย่างรวดเร็วของต้นทุน AI inference ชุมชนรู้สึกตื่นเต้นเป็นพิเศษเกี่ยวกับแนวโน้มนี้ โดยบางคนสังเกตว่าราคา inference ลดลง 10 เท่าต่อปีตามการศึกษาล่าสุด
สิ่งที่ทำให้การลดราคาครั้งนี้น่าสนใจเป็นพิเศษคือมันไม่ใช่แค่การเคลื่อนไหวเชิงส่งเสริมการขายชั่วคราว การลดต้นทุนเกิดจากการปรับปรุงทางเทคนิคที่แท้จริงในสถาปัตยกรรมของโมเดล โดยเฉพาะกลไก sparse attention ที่ลดความต้องการในการคำนวณระหว่าง inference
การเปรียบเทียบราคา API
- ราคาใหม่ของ V3.2-Exp : $0.28/M input tokens, $0.42/M output tokens
- แสดงถึงการลดราคา 50% จากเวอร์ชันก่อนหน้า
- ราคา Cache hit : $0.028/M tokens
นวัตกรรมทางเทคนิคขับเคลื่อนการเพิ่มประสิทธิภาพ
ดาวเด่นของ V3.2-Exp คือระบบ DeepSeek Sparse Attention ซึ่งแสดงให้เห็นถึงก้าวสำคัญในการทำให้โมเดล AI มีประสิทธิภาพมากขึ้น ต่างจากกลไก attention แบบดั้งเดิมที่ประมวลผลทุกส่วนของ input อย่างเท่าเทียมกัน sparse attention มุ่งเน้นทรัพยากรการคำนวณไปที่ส่วนที่เกี่ยวข้องที่สุดของลำดับข้อความยาว
นวัตกรรมนี้มีคุณค่าเป็นพิเศษสำหรับแอปพลิเคชันที่เกี่ยวข้องกับเอกสารขนาดใหญ่ การสนทนาแบบขยาย หรืองานเขียนโค้ดที่ซับซ้อน โมเดลรักษาคุณภาพ output ที่เหมือนกันเกือบทุกประการเมื่อเปรียบเทียบกับรุ่นก่อนหน้า ในขณะที่ใช้ทรัพยากรการคำนวณน้อยลงอย่างมาก
Sparse attention: เทคนิคที่เลือกมุ่งเน้นไปที่ส่วนที่เกี่ยวข้องของข้อมูล input แทนที่จะประมวลผลทุกอย่างอย่างเท่าเทียมกัน ซึ่งช่วยลด computational overhead
ข้อมูลจำเพาะทางเทคนิค
- สถาปัตยกรรม: DeepSeek Sparse Attention (DSA)
- ใบอนุญาต: MIT License
- แพลตฟอร์มที่รองรับ: HuggingFace, SGLang, VLLM
- เคอร์เนลที่มีให้บริการ: TileLang (สำหรับการวิจัย), CUDA (ประสิทธิภาพสูง)
- การรองรับ Docker: หลายรูปแบบสำหรับฮาร์ดแวร์ที่แตกต่างกัน (H200, M1350, NPUs)
ประสิทธิภาพ Benchmark ยังคงแข่งขันได้
แม้จะเน้นไปที่ประสิทธิภาพ แต่ V3.2-Exp ยังคงยืนหยัดในเมตริกประสิทธิภาพต่าง ๆ ในงานเหตุผลโดยไม่ใช้เครื่องมือ โมเดลนี้เทียบเท่าหรือเกินกว่ารุ่นก่อนหน้าเล็กน้อยในหลายพื้นที่ สำหรับความท้าทายในการเขียนโค้ด มันได้คะแนน Codeforces rating 2121 เพิ่มขึ้นจาก 2046 ในรุ่นก่อนหน้า
โมเดลยังแสดงการปรับปรุงในหลายสถานการณ์การใช้เครื่องมือแบบ agentic โดยมีการเพิ่มขึ้นที่น่าสังเกตในงาน browsing และรักษาประสิทธิภาพที่แข็งแกร่งใน software engineering benchmarks ความสม่ำเสมอนี้ในงานที่หลากหลายแสดงให้เห็นว่าการปรับปรุงประสิทธิภาพไม่ได้มาแลกกับความสามารถ
เกณฑ์มาตรฐานประสิทธิภาพหลัก
เกณฑ์มาตรฐาน | V3.1-Terminus | V3.2-Exp |
---|---|---|
MMLU-Pro | 85.0 | 85.0 |
AIME 2025 | 88.4 | 89.3 |
Codeforces | 2046 | 2121 |
SimpleQA | 96.8 | 97.1 |
BrowseComp | 38.5 | 40.1 |
ความมุ่งมั่นต่อ Open Source เสริมสร้างระบบนิเวศ
DeepSeek ยังคงความมุ่งมั่นต่อการพัฒนา open source โดยเปิดตัวโมเดลภายใต้ MIT License และให้รายละเอียดการใช้งานที่ครอบคลุม บริษัทได้เผยแพร่ทั้ง TileLang kernels ที่เน้นการวิจัยและ CUDA kernels ที่มีประสิทธิภาพสูงผ่าน repositories ต่าง ๆ
แนวทางนี้ได้รับการยกย่องจากชุมชนนักพัฒนาที่ชื่นชมการเข้าถึงทั้งน้ำหนักโมเดลและรายละเอียดการใช้งานพื้นฐาน ความพร้อมใช้งานของตัวเลือก inference หลายแบบ รวมถึงการสนับสนุน HuggingFace, SGLang และ VLLM ทำให้โมเดลเข้าถึงได้สำหรับผู้ใช้และสถานการณ์การปรับใช้ประเภทต่าง ๆ
การเปิดตัว V3.2-Exp แสดงให้เห็นมากกว่าแค่การอัปเดตโมเดลอีกครั้ง มันแสดงให้เห็นว่าอุตสาหกรรม AI สามารถมอบอัตราส่วนราคาต่อประสิทธิภาพที่ดีขึ้นต่อไปผ่านนวัตกรรมทางเทคนิคที่แท้จริง แทนที่จะเป็นแค่การขยายฮาร์ดแวร์ ขณะที่ชุมชนยังคงสำรวจความสามารถของกลไก sparse attention การเปิดตัวทดลองนี้อาจชี้ทางไปสู่อนาคตของระบบ AI ที่มีประสิทธิภาพ
อ้างอิง: DeepSeek-V3.2-Exp