DeepSeek-V3.2-Exp ลดราคา 50% พร้อมรักษาประสิทธิภาพผ่านนวัตกรรม Sparse Attention

ทีมชุมชน BigGo
DeepSeek-V3.2-Exp ลดราคา 50% พร้อมรักษาประสิทธิภาพผ่านนวัตกรรม Sparse Attention

DeepSeek ได้เปิดตัว V3.2-Exp ซึ่งเป็นโมเดล AI ทดลองที่กำลังสร้างความฮือฮาในชุมชนเทคโนโลยีอย่างมาก เนื่องจากสามารถทำสิ่งที่หลายคนคิดว่าเป็นเรื่องยาก นั่นคือการลดต้นทุนอย่างมากในขณะที่รักษาประสิทธิภาพให้คงที่ โมเดลนี้ได้นำเสนอ DeepSeek Sparse Attention (DSA) ซึ่งเป็นแนวทางใหม่ที่ทำให้การประมวลผลลำดับข้อความยาวมีประสิทธิภาพมากขึ้น

การลดราคาอย่างมากต่อเนื่องตามแนวโน้มของอุตสาหกรรม

การเปิดตัวครั้งนี้มาพร้อมกับการลดราคา API อย่างมาก 50% ทำให้ราคาลดลงเหลือ 0.28 ดอลลาร์สหรัฐต่อหนึ่งล้าน input tokens และ 0.42 ดอลลาร์สหรัฐต่อหนึ่งล้าน output tokens การตั้งราคาแบบก้าวร้าวนี้ได้ดึงดูดความสนใจจากนักพัฒนาที่ติดตามการลดลงอย่างรวดเร็วของต้นทุน AI inference ชุมชนรู้สึกตื่นเต้นเป็นพิเศษเกี่ยวกับแนวโน้มนี้ โดยบางคนสังเกตว่าราคา inference ลดลง 10 เท่าต่อปีตามการศึกษาล่าสุด

สิ่งที่ทำให้การลดราคาครั้งนี้น่าสนใจเป็นพิเศษคือมันไม่ใช่แค่การเคลื่อนไหวเชิงส่งเสริมการขายชั่วคราว การลดต้นทุนเกิดจากการปรับปรุงทางเทคนิคที่แท้จริงในสถาปัตยกรรมของโมเดล โดยเฉพาะกลไก sparse attention ที่ลดความต้องการในการคำนวณระหว่าง inference

การเปรียบเทียบราคา API

  • ราคาใหม่ของ V3.2-Exp : $0.28/M input tokens, $0.42/M output tokens
  • แสดงถึงการลดราคา 50% จากเวอร์ชันก่อนหน้า
  • ราคา Cache hit : $0.028/M tokens

นวัตกรรมทางเทคนิคขับเคลื่อนการเพิ่มประสิทธิภาพ

ดาวเด่นของ V3.2-Exp คือระบบ DeepSeek Sparse Attention ซึ่งแสดงให้เห็นถึงก้าวสำคัญในการทำให้โมเดล AI มีประสิทธิภาพมากขึ้น ต่างจากกลไก attention แบบดั้งเดิมที่ประมวลผลทุกส่วนของ input อย่างเท่าเทียมกัน sparse attention มุ่งเน้นทรัพยากรการคำนวณไปที่ส่วนที่เกี่ยวข้องที่สุดของลำดับข้อความยาว

นวัตกรรมนี้มีคุณค่าเป็นพิเศษสำหรับแอปพลิเคชันที่เกี่ยวข้องกับเอกสารขนาดใหญ่ การสนทนาแบบขยาย หรืองานเขียนโค้ดที่ซับซ้อน โมเดลรักษาคุณภาพ output ที่เหมือนกันเกือบทุกประการเมื่อเปรียบเทียบกับรุ่นก่อนหน้า ในขณะที่ใช้ทรัพยากรการคำนวณน้อยลงอย่างมาก

Sparse attention: เทคนิคที่เลือกมุ่งเน้นไปที่ส่วนที่เกี่ยวข้องของข้อมูล input แทนที่จะประมวลผลทุกอย่างอย่างเท่าเทียมกัน ซึ่งช่วยลด computational overhead

ข้อมูลจำเพาะทางเทคนิค

  • สถาปัตยกรรม: DeepSeek Sparse Attention (DSA)
  • ใบอนุญาต: MIT License
  • แพลตฟอร์มที่รองรับ: HuggingFace, SGLang, VLLM
  • เคอร์เนลที่มีให้บริการ: TileLang (สำหรับการวิจัย), CUDA (ประสิทธิภาพสูง)
  • การรองรับ Docker: หลายรูปแบบสำหรับฮาร์ดแวร์ที่แตกต่างกัน (H200, M1350, NPUs)

ประสิทธิภาพ Benchmark ยังคงแข่งขันได้

แม้จะเน้นไปที่ประสิทธิภาพ แต่ V3.2-Exp ยังคงยืนหยัดในเมตริกประสิทธิภาพต่าง ๆ ในงานเหตุผลโดยไม่ใช้เครื่องมือ โมเดลนี้เทียบเท่าหรือเกินกว่ารุ่นก่อนหน้าเล็กน้อยในหลายพื้นที่ สำหรับความท้าทายในการเขียนโค้ด มันได้คะแนน Codeforces rating 2121 เพิ่มขึ้นจาก 2046 ในรุ่นก่อนหน้า

โมเดลยังแสดงการปรับปรุงในหลายสถานการณ์การใช้เครื่องมือแบบ agentic โดยมีการเพิ่มขึ้นที่น่าสังเกตในงาน browsing และรักษาประสิทธิภาพที่แข็งแกร่งใน software engineering benchmarks ความสม่ำเสมอนี้ในงานที่หลากหลายแสดงให้เห็นว่าการปรับปรุงประสิทธิภาพไม่ได้มาแลกกับความสามารถ

เกณฑ์มาตรฐานประสิทธิภาพหลัก

เกณฑ์มาตรฐาน V3.1-Terminus V3.2-Exp
MMLU-Pro 85.0 85.0
AIME 2025 88.4 89.3
Codeforces 2046 2121
SimpleQA 96.8 97.1
BrowseComp 38.5 40.1

ความมุ่งมั่นต่อ Open Source เสริมสร้างระบบนิเวศ

DeepSeek ยังคงความมุ่งมั่นต่อการพัฒนา open source โดยเปิดตัวโมเดลภายใต้ MIT License และให้รายละเอียดการใช้งานที่ครอบคลุม บริษัทได้เผยแพร่ทั้ง TileLang kernels ที่เน้นการวิจัยและ CUDA kernels ที่มีประสิทธิภาพสูงผ่าน repositories ต่าง ๆ

แนวทางนี้ได้รับการยกย่องจากชุมชนนักพัฒนาที่ชื่นชมการเข้าถึงทั้งน้ำหนักโมเดลและรายละเอียดการใช้งานพื้นฐาน ความพร้อมใช้งานของตัวเลือก inference หลายแบบ รวมถึงการสนับสนุน HuggingFace, SGLang และ VLLM ทำให้โมเดลเข้าถึงได้สำหรับผู้ใช้และสถานการณ์การปรับใช้ประเภทต่าง ๆ

การเปิดตัว V3.2-Exp แสดงให้เห็นมากกว่าแค่การอัปเดตโมเดลอีกครั้ง มันแสดงให้เห็นว่าอุตสาหกรรม AI สามารถมอบอัตราส่วนราคาต่อประสิทธิภาพที่ดีขึ้นต่อไปผ่านนวัตกรรมทางเทคนิคที่แท้จริง แทนที่จะเป็นแค่การขยายฮาร์ดแวร์ ขณะที่ชุมชนยังคงสำรวจความสามารถของกลไก sparse attention การเปิดตัวทดลองนี้อาจชี้ทางไปสู่อนาคตของระบบ AI ที่มีประสิทธิภาพ

อ้างอิง: DeepSeek-V3.2-Exp