在兔年春節的熱鬧氛圍中,DeepSeek如同一顆璀璨的新星,瞬間照亮了全球科技界的天際。從各大媒體的頭條報道到科技巨頭的財報分析,DeepSeek的名字無處不在,成為了業內外關注的焦點。

在AI領域極具影響力的播客節目Lex Fridman Podcast,也專門推出了一期長達五小時的深度訪談,深入探討了DeepSeek對全球AI發展趨勢的深遠影響及其背后的技術優勢。此次訪談的嘉賓包括半導體行業咨詢公司SemiAnalysis的創始人Dylan Patel,以及艾倫人工智能研究院的研究科學家Nathan Lambert。
Lambert將DeepSeek在強化學習領域的突破形象地稱為“DeepSeek時刻”。針對OpenAI對DeepSeek的抄襲指控,Lambert堅定地認為,DeepSeek-R1的推理能力并非源自對OpenAI o1推理鏈數據的竊取,而是通過強化學習的“試錯”模式,讓模型自然而然地發展出了推理能力。
兩位嘉賓還詳細剖析了DeepSeek的技術亮點。與初代的注意力機制相比,DeepSeek創新的MLA機制在內存使用上降低了80%-90%。同時,DeepSeek通過對MoE架構路由機制的革新,顯著提升了專家模型的使用效率,實現了降本增效的目標。
訪談中的三位嘉賓都對DeepSeek的開源模式表示了高度贊賞。Lambert稱其為“真正的開源”,而Fridman則稱贊其技術報告詳盡且操作性強,是開源界的一股積極力量。本地運行開源模型還能有效保護用戶的隱私數據。
在計算資源方面,Patel認為DeepSeek的實力在全球名列前茅,僅次于OpenAI、Anthropic、meta等少數幾家公司。他推測DeepSeek可能擁有約50000張GPU,雖然與國際巨頭的十萬量級儲備相比仍有差距,但考慮到巨頭們需要將算力分配給其他業務,DeepSeek的算力儲備已相當可觀。
DeepSeek的貢獻不僅在于其技術的突破,更在于其對AI知識的普及。DeepSeek-R1上線后立即開源,并采用了寬松的MIT許可證,沒有對商用和具體用例進行限制。這意味著其他開發者可以利用這款模型輸出合成數據,訓練出高質量的模型。DeepSeek的技術報告不僅詳細披露了技術細節,還分享了開發過程中的困難與挑戰,為全球其他團隊改進訓練技術提供了寶貴的參考。
DeepSeek團隊中不乏能夠優化芯片底層代碼、實現高效訓練的人才。這類人才在全球范圍內都極為稀缺,主要集中在美國的前沿實驗室和像DeepSeek這樣的企業中。DeepSeek的開源模式也意味著用戶不必聯網使用AI服務,從而對自己的數據擁有完全的掌控權。
DeepSeek-R1的推理能力是其最引人注目的特點之一。它不僅會展示完整的思維鏈,讓思考過程本身成為一種獨特的美感,還在許多問題上展現出了出色的表現。與DeepSeek-V3相比,R1更傾向于先呈現大量的思維鏈過程,然后再給出最終答案。這種呈現方式不僅增加了答案的深度和可信度,也讓用戶能夠更直觀地理解模型的思考過程。
在技術突破方面,DeepSeek的多頭注意力機制在長上下文處理過程中展現出了巨大的優勢。與初代注意力機制相比,這一創新能夠顯著降低內存占用。同時,DeepSeek還顯著改進了專家混合模型(MoE)的路由機制,通過引入額外的參數并不斷更新,使模型能夠更均衡地使用所有專家。DeepSeek還進行了CUDA層以下的超底層編程優化,精細地控制核心間的計算和通信任務,從而實現了性能的最大化。
DeepSeek的訓練過程也充滿了啟示。在深度學習領域,那些具有可擴展性的學習和搜索方法最終會勝出。DeepSeek通過大量小規模的失敗逐漸積累經驗,最終找到了超參數的成功組合。這一過程中不斷試錯的精神是至關重要的。同時,在試錯到一定階段時,開發者也需要有All-in的勇氣,將全部資源押注于一條路徑上。DeepSeek早期就幾乎賭上了全部資源,這種大膽的舉措最終成就了其在AI領域的領先地位。
在計算資源方面,DeepSeek與幻方量化共享基礎設施。幻方量化在2021年就宣稱擁有萬卡A100集群,后期又持續購入更多的GPU。DeepSeek論文中提到V3模型訓練時用了2000個H800 GPU,但SemiAnalysis推測他們實際擁有的GPU數可能接近50000個。這一規模在全球范圍內名列前茅,僅次于少數幾家公司。
DeepSeek的出現不僅讓中美雙方都更為直接地感受到了AGI(通用人工智能)的影響,還可能開啟一場AI領域的冷戰。雖然AGI競賽不會是“贏家通吃”的局面,但目前各大玩家都還在牌桌上。DeepSeek時刻很可能是冷戰的開始,但這不是DeepSeek的錯,而是多種因素共同作用的結果。隨著AI技術的不斷發展和算力需求的指數級增長,即便是DeepSeek這樣的中國企業也會在大規模普及AI的過程中面臨挑戰。
盡管未來充滿不確定性,但DeepSeek已經以其卓越的技術實力和開源精神贏得了業界的廣泛認可。它的出現不僅推動了AI知識的普及,更為全球AI領域的發展注入了新的活力。






