近日,一款名為DeepSeek的國產(chǎn)AI大模型在國際舞臺上大放異彩,其背后的故事同樣引人矚目,特別是關(guān)于一位95后的AI“天才少女”羅福莉。
DeepSeek由中國知名量化私募公司幻方量化旗下的AI大模型研究開發(fā)部門——深度求索公司推出。最近,深度求索宣布其最新版本的DeepSeek-V3模型已正式上線并同步開源。這款由深度求索自研的MoE(混合專家大模型)不僅性能卓越,能夠媲美甚至超越全球頂級的開源及閉源模型,而且訓(xùn)練成本極低,被譽為“AI界的拼多多”,引發(fā)了國內(nèi)外AI領(lǐng)域的高度關(guān)注。

與此同時,羅福莉這個名字也隨DeepSeek一起走進了公眾視野。作為DeepSeek-V2的關(guān)鍵開發(fā)者之一,羅福莉在AI領(lǐng)域的才華得到了廣泛認可。據(jù)報道,小米創(chuàng)始人雷軍已向她拋出橄欖枝,以千萬年薪邀請她加入小米AI實驗室,領(lǐng)導(dǎo)大模型團隊。
羅福莉的學(xué)術(shù)背景同樣令人矚目。她本科就讀于北京師范大學(xué)計算機專業(yè),碩士則畢業(yè)于北京大學(xué)計算語言學(xué)專業(yè)。早在2019年,還在北大讀碩士的她就在人工智能領(lǐng)域頂級國際會議ACL上發(fā)表了8篇論文,其中2篇為第一作者,這一成就迅速登上了知乎熱搜。羅福莉在回應(yīng)這一熱搜時表示,這是她近一年的努力成果,同時也承認有運氣的成分。
畢業(yè)后,羅福莉加入了阿里達摩院,從事預(yù)訓(xùn)練語言模型相關(guān)研究,并主導(dǎo)開發(fā)了多語言預(yù)訓(xùn)練模型VECO。2022年,她加入幻方量化,從事深度學(xué)習(xí)相關(guān)策略建模和算法研究。隨后,她跳槽到DeepSeek,參與了MoE大模型DeepSeek-V2的研發(fā)。
在DeepSeek-V2發(fā)布后,羅福莉在知乎上發(fā)表了對該模型的看法,她認為DeepSeek-V2的中文水平處于國內(nèi)外閉源模型的第一梯隊,而且性價比極高,價格僅為GPT4的百分之一。這一觀點得到了業(yè)內(nèi)人士的廣泛認同。
羅福莉被小米重金招入,也是小米全面發(fā)力AI大模型的一個縮影。2023年4月,小米正式組建了AI實驗室大模型團隊,并表示將不斷挖掘AI相關(guān)的用戶場景,發(fā)揮自身技術(shù)優(yōu)勢,與合作伙伴共同開拓更多機會。今年11月,小米還成立了專門的AI平臺部,由小米的元老級技術(shù)大牛張鐸負責(zé)。張鐸本碩畢業(yè)于清華計算機系,是雷軍公開稱贊的“小米的大神”。
為了在大模型研發(fā)上取得突破,小米不僅在招募人才方面下足了功夫,還在算力儲備上持續(xù)投入。據(jù)報道,小米正著手搭建自己的GPU萬卡集群,并在過去幾個月里不斷提升算力供給。雷軍在公開演講中表示,小米做大模型的思路與其他公司不同,更注重輕量化和本地部署。對于小米這樣注重“性價比”的公司而言,如何在燒錢的大模型業(yè)務(wù)中平衡成本,是雷軍考慮的核心問題。而羅福莉的加入,或許正是小米在這一領(lǐng)域取得突破的關(guān)鍵。






