DeepSeek開源周系列活動近日迎來了第四波高潮,此次發(fā)布的焦點集中在三項針對并行計算的優(yōu)化策略上。這些策略通過GitHub平臺向公眾詳細揭示了DeepSeek-V3和R1模型背后的技術(shù)細節(jié),展示了團隊如何通過精細的計算和通信優(yōu)化,最大化利用GPU的性能。
其中,DualPipe技術(shù)尤為引人注目。這是一項專為V3/R1模型訓練設計的雙向流水線并行算法,旨在實現(xiàn)計算與通信階段的完美重疊。通過減少“流水線氣泡”,即設備空閑等待的時間,DualPipe顯著提升了訓練效率。值得注意的是,該技術(shù)的開發(fā)團隊中包括DeepSeek的創(chuàng)始人梁文鋒。

第二項優(yōu)化策略是EPLB(Expert Parallelism Load Balancer),專注于解決MoE(混合專家)模型在分布式訓練和推理中的負載不平衡問題。在MoE模型中,不同的專家被分配到不同的GPU上,而EPLB通過采用冗余專家策略,確保不同GPU之間的負載保持平衡,從而提高了整體訓練效率。
DeepSeek還分享了來自訓練和推理框架的性能分析數(shù)據(jù),這些數(shù)據(jù)通過PyTorch Profiler采集,并可在Chrome或Edge瀏覽器中可視化分析。這些分析數(shù)據(jù)不僅揭示了通信計算重疊策略的有效性,還提供了低級實現(xiàn)細節(jié),有助于社區(qū)更好地理解并應用這些優(yōu)化技術(shù)。
DeepSeek此次發(fā)布的優(yōu)化策略,被視為對AI基礎設施層的一次深入探索。OpenCSG(開放傳神)創(chuàng)始人陳冉對此表示,DeepSeek過去更像是直接展示了一輛續(xù)航900公里的車,而現(xiàn)在則是在深入剖析如何達到這一續(xù)航能力的技術(shù)細節(jié)。這些“腳手架”的開源,無疑為未來的生態(tài)搭建奠定了堅實基礎。
陳冉還指出,DeepSeek的代碼開源可能對AI基礎設施層的從業(yè)者產(chǎn)生深遠影響。一方面,它可能促使從業(yè)者尋找新的研究方向;另一方面,如果利用好這些開源內(nèi)容,也可能帶來顯著利益,否則就可能面臨競爭壓力。
在DeepSeek開源周的前三天,團隊已經(jīng)陸續(xù)發(fā)布了多項重要成果,包括讓大模型在GPU上運行更快的MLA解碼核FlashMLA、用于MoE模型訓練和推理的DeepEP通信庫,以及支持MoE的FP8 GEMM代碼庫DeepGEMM。這些項目在GitHub上獲得了廣泛關(guān)注和好評,F(xiàn)lashMLA的星標數(shù)已超過1萬,DeepEP和DeepGEMM也分別獲得了6000和3700以上的星標。
DeepSeek還宣布了一項API錯峰優(yōu)惠政策,鼓勵用戶在夜間空閑時段使用其服務。自2月26日起,在北京時間每日00:30至08:30期間,DeepSeek-V3的API調(diào)用價格降至原價的一半,而DeepSeek-R1的調(diào)用價格更是低至原價的25%。這一政策旨在讓用戶享受更經(jīng)濟、更流暢的服務體驗。
有消息稱,DeepSeek正加速推進R2模型的發(fā)布計劃,以鞏固其在AI領(lǐng)域的優(yōu)勢地位。盡管DeepSeek尚未對此作出正式回應,但業(yè)界普遍認為,DeepSeek-R2的發(fā)布將成為AI行業(yè)的一個重要里程碑。






