近日,華為技術有限公司攜手北京大學高性能計算校級公共平臺,正式揭曉了DeepSeek全棧開源推理方案,這一發布標志著雙方在人工智能推理領域的深度合作邁出了重要一步。
DeepSeek方案依托北京大學自主研發的SCOW算力平臺系統與鶴思調度系統,并巧妙融合了DeepSeek、openEuler、MindSpore及vLLM/RAY等多個開源社區組件。該方案專為華為昇騰系列硬件設計,旨在實現高效推理,并支持大規模算力集群的訓推一體化部署。尤為所有開發者均可自由獲取源碼,并根據實際需求進行二次開發,其性能表現已接近市面上的閉源方案。
相較于傳統的閉源方案,DeepSeek在硬件配置上展現出了顯著優勢。以DeepSeek-R1-w8a8配置為例,在2臺Atlas 800I A2服務器的支持下,輸入長度為4096時,輸出長度可達1024,系統吞吐量高達1198,而在用戶并發測試中,同樣達到了128的并發處理能力。
目前,DeepSeek方案已成功部署于北京大學未名卓越一號集群。該集群由北京大學計算中心負責運維,是北大鯤鵬昇騰科教創新卓越中心的重要算力支撐。作為國內首個基于高校自研基礎軟件的國產智算平臺,未名卓越一號集群自2024年11月18日上線以來,已集成了20臺昇騰AI服務器與10臺鯤鵬通用服務器,其AI算力規模達到了30.64PFlops(半精度),為科研與教學提供了強大的算力保障。
DeepSeek推理方案的核心優勢在于其全棧開源組件的構建與深度優化。在openEuler開源操作系統層面,方案進行了全面優化,通過異構調度負載感知MoE冷熱專家,實現了更精細的任務調度。同時,方案還采用了異構融合技術,有效管理內存,大幅減少了系統內存碎片。畢昇編譯器的進一步優化,更是顯著減少了算子下發耗時,從而提升了推理的整體性能。

上圖展示了算力集群全棧開源推理方案的架構圖,從中不難看出,DeepSeek方案在設計與實施上均體現出了高度的專業性與創新性。此次合作不僅展示了華為與北京大學在人工智能領域的深厚積累,更為國內AI推理技術的發展注入了新的活力。






