近期,杭州的AI創(chuàng)業(yè)公司DeepSeek憑借其開源模型DeepSeek-V3在業(yè)界引起了軒然大波。這款模型在各類基準測試中展現(xiàn)出了與付費版GPT-4o相當?shù)男阅芩剑渌蕾嚨挠柧毘杀緟s遠低于后者。
尤為值得注意的是,DeepSeek-V3是在中國公司面臨制裁、算力受限且無法購買足量顯卡的背景下誕生的。通過采用小數(shù)據(jù)集蒸餾等創(chuàng)新方法,DeepSeek成功降低了模型訓練的成本,其總訓練成本僅為557.6萬美元,相比之下GPT-4o等模型的訓練成本高達1億美元。因此,DeepSeek被形象地稱為“AI界的拼多多”。
這一消息不僅挑戰(zhàn)了“大模型的智能程度=英偉達提供的算力”這一傳統(tǒng)認知,還在一定程度上影響了英偉達的股價。在消息傳播的過程中,出現(xiàn)了一種有趣的“出口轉(zhuǎn)內(nèi)銷”再傳出的現(xiàn)象。國外媒體引述國內(nèi)消息時,特別強調(diào)了DeepSeek對GPU需求降低的突破,這標志著美國對中國的AI封鎖戰(zhàn)略并未如愿,無需搭建大型GPU集群也能取得顯著效果。這一觀點在Twitter等社交媒體上被重新譯介后,引起了硅谷業(yè)內(nèi)人士的廣泛關(guān)注。
與此同時,DeepSeek的團隊成員也備受矚目。此前,DeepSeek的前員工羅福莉加入小米的消息在業(yè)界流傳甚廣,盡管她早已自我官宣,但“95后天才少女”的稱號無疑為這一消息增添了更多的話題性。這一事件不僅提升了小米的關(guān)注度,更從側(cè)面證明了DeepSeek團隊的實力和吸引力。
在DeepSeek出圈之前,AI業(yè)界對其評價頗高。盡管有人指出其訓練數(shù)據(jù)集可能使用了ChatGPT的輸出結(jié)果,但這一插曲并未影響DeepSeek的聲譽。畢竟,如果僅憑ChatGPT的輸出就能取得如此成果,那么任何人都可以嘗試。事實上,谷歌也在采用類似的方法,其Gemini模型的事實核查人員是外包的,并允許他們借助其他模型生成的結(jié)果來核對答案。
在AI領(lǐng)域,提出新概念往往意味著巨大的商業(yè)機會。DeepSeek提出的“低成本訓練”概念正是如此。與此類似,月之暗面(Kimi)因提出“超長文本(tokens)”概念而走紅,并獲得了大量的融資和關(guān)注。然而,隨著時間的推移,Kimi的產(chǎn)品發(fā)布和創(chuàng)新能力逐漸放緩,其關(guān)注度也有所下降。這再次證明了新概念對于創(chuàng)業(yè)公司的重要性。
相比之下,DeepSeek憑借其低成本訓練概念在業(yè)界嶄露頭角。如果今年各大廠商還在尋找新的投資標的,那么DeepSeek無疑是一個值得考慮的選擇。畢竟,能夠定義一個新概念并引領(lǐng)行業(yè)潮流的創(chuàng)業(yè)公司并不多見。對于DeepSeek來說,其未來的發(fā)展前景充滿了無限可能。






