การพัฒนาโมเดลภาษาขนาดใหญ่ของ DeepSeek แบบโอเพนซอร์สเวอร์ชันใหม่ได้จุดประกายการอภิปรายอย่างเข้มข้นเกี่ยวกับต้นทุนที่แท้จริงของ AI inference และอัตรากำไรขั้นต้นที่อาจมีขนาดใหญ่มหาศาลที่ผู้ให้บริการเชิงพาณิชย์อาจได้รับ การพัฒนานี้สร้างขึ้นโดยใช้ SGLang บน GPU H100 จำนวน 96 ตัว สามารถทำงานได้ใกล้เคียงกับระบบ DeepSeek อย่างเป็นทางการ ขณะเดียวกันก็เผยให้เห็นต้นทุนการดำเนินงานที่ต่ำกว่าสิ่งที่ผู้ให้บริการส่วนใหญ่เรียกเก็บจากลูกค้าอย่างมาก
เมตริกประสิทธิภาพ
- ปริมาณงาน Input: 52,300 โทเค็นต่อวินาทีต่อโหนด
- ปริมาณงาน Output: 22,300 โทเค็นต่อวินาทีต่อโหนด
- ระบบทั้งหมด: 96 H100 GPUs ใน 12 โหนด
- ความยาวลำดับ Input: 2,000 โทเค็น
![]() |
---|
สไลด์นี้แสดงให้เห็นการปรับใช้งานโมเดลภาษาของ DeepSeek โดยนำเสนอสถาปัตยกรรมและเทคนิคขั้นสูงที่ใช้เพื่อประสิทธิภาพที่เหมาะสมบน GPU หลายตัว |
การวิเคราะห์ต้นทุนเผยช่องว่างราคาในอุตสาหกรรม
ชุมชนได้มีการคำนวณที่วาดภาพที่น่าประทับใจของธุรกิจ AI inference การพัฒนาแบบโอเพนซอร์สนี้ทำงานที่ต้นทุนประมาณ 0.20 ดอลลาร์สหรัฐต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น ซึ่งต่ำกว่าต้นทุนของ API อย่างเป็นทางการของ DeepSeek ประมาณหนึ่งในห้า ที่น่าตื่นตาตื่นใจยิ่งกว่านั้นคือการเปรียบเทียบกับผู้ให้บริการรายอื่น ซึ่งสมาชิกชุมชนบางคนพบว่าต้นทุนการพัฒนานี้ถูกกว่าตัวเลือกที่ถูกที่สุดบนแพลตฟอร์มอย่าง OpenRouter ถึง 10 เท่า
เมื่อผู้ใช้ขุดลึกเข้าไปในการคำนวณโดยใช้ราคาคลาวด์ พวกเขาค้นพบว่าแม้จะนับรวมอัตรา on-demand ของ AWS สำหรับอินสแตนซ์ H100 ต้นทุนการคำนวณจริงออกมาอยู่ที่ประมาณ 2-4.70 ดอลลาร์สหรัฐต่อโทเค็นหนึ่งล้านโทเค็น อย่างไรก็ตาม ทีมใช้การโฮสต์ Atlas Cloud ที่ 1.80 ดอลลาร์สหรัฐต่อ H100 ต่อชั่วโมง ทำให้ต้นทุนลดลงมาอยู่ที่ประมาณ 0.92-2.15 ดอลลาร์สหรัฐต่อโทเค็นหนึ่งล้านโทเค็น สิ่งนี้ชี้ให้เห็นว่าผู้ให้บริการ AI รายใหญ่อาจดำเนินงานด้วยอัตรากำไรขั้นต้นที่สูงมาก
GPU H100 เป็นหน่วยประมวลผลกราฟิกระดับไฮเอนด์ที่ออกแบบมาเป็นพิเศษสำหรับงาน AI และงานแมชชีนเลิร์นนิง
การเปรียบเทียบต้นทุน (ต่อหนึ่งล้าน output tokens)
- การใช้งานแบบ open-source: $0.20 USD
- Official DeepSeek API: ~$1.00 USD (แพงกว่า 5 เท่า)
- ตัวเลือกที่ถูกที่สุดของ OpenRouter: ~$2.00 USD (แพงกว่า 10 เท่า)
- ต้นทุนที่คำนวณได้ของ AWS H100: $2.00-4.70 USD
- ต้นทุนที่คำนวณได้ของ Atlas Cloud: $0.92-2.15 USD
![]() |
---|
แผนภูมิแท่งนี้เปรียบเทียบประโยชน์ด้านประสิทธิภาพของ Token-Based Optimization ในระหว่างขั้นตอน prefill และ decode โดยเน้นแง่มุมของประสิทธิภาพด้านต้นทุนที่กล่าวถึงในบทความ |
ความท้าทายในการใช้งานจริง
แม้ว่าตัวเลขดิบจะดูน่าประทับใจ แต่ผู้สังเกตการณ์ที่มีประสบการณ์ในอุตสาหกรรมได้ชี้ให้เห็นข้อควรระวังที่สำคัญซึ่งส่งผลต่อความสามารถในการทำกำไรในโลกแห่งความเป็นจริง ความท้าทายที่ใหญ่ที่สุดคือการบรรลุการใช้งาน GPU อย่างสม่ำเสมอในสภาพแวดล้อมการผลิต
การใช้งาน GPU อยู่ที่ 10-20% ตอนนี้ หากคุณเป็นบริษัทขนาดใหญ่ที่ใช้เงินจำนวนมากในการฝึกโมเดลใหม่ คุณสามารถจัดให้มีการ inference RL หรือการฝึกโมเดลเกิดขึ้นในช่วงเวลาที่ไม่ใช่ช่วงเวลาที่มีการใช้งานสูงสุดเหล่านี้ เพื่อเพิ่มการใช้งานให้สูงสุด
ความเป็นจริงของการดำเนินบริการ inference รวมถึงต้นทุนที่ซ่อนอยู่หลายประการ บริษัทต่าง ๆ มักต้องการสัญญา GPU หลายปีแทนที่จะเป็นราคา on-demand ต้องวางแผนสำหรับการใช้งานสูงสุดที่อาจสูงกว่าค่าเฉลี่ย 2-3 เท่า และเผชิญกับข้อจำกัดในระดับภูมิภาคที่ป้องกันการกระจายโหลดทั่วโลก ปัจจัยเหล่านี้สามารถกัดกินอัตรากำไรขั้นต้นที่ดูเหมือนจะมหาศาลเหล่านั้นได้อย่างมีนัยสำคัญ
![]() |
---|
แผนภาพไทม์ไลน์นี้แสดงการทำงานร่วมกันอย่างละเอียดระหว่าง Prefill Server และ Decode Server โดยเน้นความท้าทายในการดำเนินงานเพื่อให้บรรลุประสิทธิภาพการใช้งาน GPU ใน AI inference |
นวัตกรรมทางเทคนิคที่อยู่เบื้องหลังประสิทธิภาพ
การพัฒนานี้บรรลุผลลัพธ์ที่น่าประทับใจผ่านนวัตกรรมหลักหลายประการ ทีมได้แยกขั้นตอน prefill และ decode ของการ inference โมเดลภาษา ทำให้แต่ละขั้นตอนสามารถปรับให้เหมาะสมได้อย่างอิสระ พวกเขายังได้ใช้ expert parallelism ขนาดใหญ่เพื่อจัดการสถาปัตยกรรม Mixture of Experts ของ DeepSeek อย่างมีประสิทธิภาพ
ระบบประมวลผล 52,300 โทเค็นอินพุตและ 22,300 โทเค็นเอาต์พุตต่อวินาทีต่อโหนด ซึ่งเป็นการพัฒนาแบบโอเพนซอร์สครั้งแรกที่เกือบจะเทียบเท่าประสิทธิภาพ DeepSeek อย่างเป็นทางการในระดับนี้ ความสำเร็จนี้ต้องการการจัดการหน่วยความจำที่ซับซ้อนและการปรับปรุงการสื่อสารข้ามคลัสเตอร์ 12 โหนด
Prefill และ decode เป็นสองขั้นตอนของการสร้างข้อความ AI - prefill ประมวลผลพรอมต์อินพุต ขณะที่ decode สร้างโทเค็นใหม่ทีละตัว
สถาปัตยกรรมทางเทคนิค
- การแยก Prefill-Decode: แยกระยะ prefill ที่ใช้การคำนวณเข้มข้นออกจากระยะ decode ที่ใช้หน่วยความจำเข้มข้น
- Expert Parallelism (EP): กระจายน้ำหนัก Mixture of Experts ไปยังอุปกรณ์หลายตัว
- Data Parallelism (DP): ใช้สำหรับชั้น attention, dense FFNs และ LM head
- การรวม DeepEP: รองรับโหมด normal dispatch (prefill) และโหมด low-latency dispatch (decode)
- การถ่ายโอน RDMA: ใช้ Remote Direct Memory Access เพื่อการถ่ายโอนข้อมูลที่มีประสิทธิภาพระหว่างโหนด
ผลกระทบต่ออุตสาหกรรม
ลักษณะโอเพนซอร์สของการพัฒนานี้อาจเปลี่ยนแปลงพลวัตการแข่งขันในตลาด AI inference โดยการทำให้เทคโนโลยีการให้บริการประสิทธิภาพสูงพร้อมใช้งานฟรี มันลดอุปสรรคสำหรับผู้เข้าใหม่และสร้างแรงกดดันต่อผู้ให้บริการที่มีอยู่ให้ปรับราคาของตน
อย่างไรก็ตาม ไม่ควรประเมินความซับซ้อนทางเทคนิคที่เกี่ยวข้องต่ำไป การปรับใช้ระบบดังกล่าวให้สำเร็จต้องการความเชี่ยวชาญเชิงลึกในการคำนวณแบบกระจาย การปรับปรุง GPU และการจัดการโครงสร้างพื้นฐานขนาดใหญ่ สำหรับองค์กรหลายแห่ง การจ่ายอัตราพรีเมียมสำหรับบริการที่มีการจัดการอาจยังคงสมเหตุสมผลทางเศรษฐกิจแม้จะมีความแตกต่างของต้นทุนที่เห็นได้ชัด
การอภิปรายได้เน้นย้ำว่าตลาด AI inference ยังคงพัฒนาอย่างรวดเร็ว เมื่อการพัฒนาที่มีประสิทธิภาพมากขึ้นพร้อมใช้งานและต้นทุนฮาร์ดแวร์ยังคงพัฒนาต่อไป เราสามารถคาดหวังแรงกดดันต่อเนื่องต่อการกำหนดราคาทั่วทั้งอุตสาหกรรม
อ้างอิง: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs