在科技界掀起波瀾的并非總是那些財大氣粗的行業巨頭,DeepSeek公司以其R1模型的發布,向世界展示了低成本高效能的AI開發新路徑。這一創新不僅震撼了整個科技領域,還迫使行業內的領頭羊重新審視并調整其AI研發策略。
DeepSeek的成功并非依賴于突破性的新功能,而是其利用有限資源創造出了與科技巨頭比肩的成果。面對美國對高端AI芯片的出口限制,DeepSeek沒有被困境束縛,而是選擇了一條優化現有資源的道路。當其他公司競相追逐更強大的硬件和更大的模型時,DeepSeek卻以出色的執行力,將已知的理念轉化為現實,展現了在限制條件下創新的力量。
值得注意的是,DeepSeek在芯片方面的劣勢并非不可逾越的障礙。美國的出口管制主要限制了計算能力,而對內存和網絡的影響相對較小,而這兩者是AI發展的關鍵要素。因此,DeepSeek所使用的芯片在內存和網絡功能方面表現出色,能夠在多個單元之間并行執行操作,這對于高效運行大型模型至關重要。中國在人工智能基礎設施垂直堆棧上的大力推動,也為DeepSeek的創新提供了有力支持。
DeepSeek在訓練數據方法上也獨樹一幟。它并非僅僅依賴于從網絡上抓取的內容,而是大量利用了合成數據和其他專有模型的輸出。這種方法雖然可能引發西方企業客戶對數據隱私和治理的擔憂,但卻彰顯了DeepSeek注重結果、不拘一格的務實態度。DeepSeek等基于Transformer且采用混合專家(MoE)架構的模型,在整合合成數據時表現出更強的穩健性,而傳統密集架構的模型則可能因過度使用合成數據而導致性能下降甚至崩潰。DeepSeek的工程團隊在模型架構設計時,就充分考慮了合成數據的集成,從而在不犧牲性能的前提下,充分利用了合成數據的成本效益。
DeepSeek的崛起已經引發了行業領導者的戰略調整。OpenAI首席執行官Sam Altman近期宣布計劃發布公司自2019年以來的首個“開放權重”語言模型,這一變化顯然受到了DeepSeek和Llama等模型成功的影響。DeepSeek推出僅一個月后,Altman就承認OpenAI在開源AI方面“站錯了歷史的一邊”。面對高達每年70億至80億美元的運營成本,DeepSeek等高效替代方案帶來的經濟壓力已經不容忽視。盡管OpenAI進行了高達400億美元的融資,公司估值達到3000億美元,但其方法比DeepSeek耗費更多資源的根本問題依然存在。
DeepSeek還在推動AI系統自主評估和改進方面取得了進展。隨著預訓練模型對公共數據的利用接近飽和,數據稀缺正在成為制約預訓練進一步改進的瓶頸。為解決這一問題,DeepSeek與清華大學合作,實現了“自我原則性評論調優”(SPCT),即AI開發自己的內容評判規則,并利用這些規則提供詳細評論,包含內置的“評委”實時評估AI的答案。這一進展標志著AI系統開始利用推理時間來改進結果,而非僅僅依賴于增大模型規模。然而,這種方法也伴隨著風險:如果AI制定了自己的評判標準,可能會偏離人類價值觀、倫理道德,甚至強化錯誤的假設或幻覺,從而引發對AI自主判斷的擔憂。
DeepSeek的異軍突起,不僅展示了在限制條件下創新的可能性,還預示了人工智能行業將朝著并行創新軌道發展的趨勢。各大公司在繼續構建更強大的計算集群的同時,也將更加關注通過軟件工程和模型架構改進來提升效率。微軟已經停止了全球多個地區的數據中心建設,轉向更加分布式、高效的基礎設施建設,并計劃重新分配資源以應對DeepSeek帶來的效率挑戰。meta也發布了首次采用MoE架構的Llama4模型系列,并將其與DeepSeek模型進行基準測試,這標志著中國AI模型已經成為硅谷公司值得參考的基準。






