近期,人工智能領域的一則新聞激起了廣泛討論。據透露,斯坦福大學與華盛頓大學的科研團隊,在李飛飛的帶領下,僅憑不到50美元的云計算成本,就成功研發出了一款名為s1的人工智能推理模型。該模型在數學與編程能力測試中的成績,據傳與OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。
這一消息在AI界猶如一顆震撼彈,引發了諸多疑問與好奇。為了探究真相,《科創板日報》記者深入調查并采訪了多位業內人士。調查結果顯示,s1模型的訓練并非完全從零開始,而是基于阿里云的通義千問(Qwen)模型進行了監督微調。這意味著,s1模型之所以能以如此低的成本實現卓越性能,是因為它站在了一個已經具備強大能力的開源基礎模型之上。
根據李飛飛團隊的研究論文,s1模型的訓練僅使用了1000個樣本數據。在AI訓練領域,這一數據量可以說是微不足道,通常不足以訓練出一個具備推理能力的模型。上海交通大學人工智能學院的謝偉迪副教授表示,仔細研讀斯坦福s1的論文后不難發現,s1模型的神奇之處在于它是以通義千問模型為基座進行微調,那1000個樣本數據更像是對整體性能的一種“潤色”,而非模型訓練的全部。
國內一家知名大模型公司的CEO也向《科創板日報》記者透露:“從論文原文來看,所謂用50美元訓練出具有推理能力的新模型,實際上只是用從谷歌模型中提煉的1000個樣本對通義千問模型進行了監督微調。這種微調的成本確實很低,但明顯是站在了既有領先模型的肩膀上。”

斯坦福s1論文原文中明確注明,模型是以阿里通義千問模型為基礎進行了微調。謝偉迪指出,國內外還有其他團隊也聲稱以極低的成本訓練出了具備推理能力的新模型,但深入閱讀其論文原文后,會發現它們都是基于通義模型作為基座進行的。

國外多位人工智能研究者也指出,許多所謂的“新”模型實際上都是建立在通義模型的基礎之上的。謝偉迪強調:“以通義千問模型作為基座,確實可以用很少的樣本數據就達到產生新的推理模型的效果,但如果換成其他基座模型,新模型的能力卻不會有任何提升。所以,真正神奇的是Qwen模型,而不是s1?!?/p>
盡管s1模型的低成本訓練在一定程度上展示了AI訓練的潛力,但其局限性同樣不容忽視。首先,這種低成本訓練方法依賴于已有的強大基座模型,如阿里通義千問模型。如果沒有這樣的基座模型,低成本訓練的效果將大打折扣。其次,1000個樣本數據的訓練量在大多數情況下是遠遠不夠的,尤其是在處理復雜任務時。低成本訓練的成功也引發了關于AI模型知識產權和倫理問題的廣泛討論。
如果越來越多的研究依賴于已有的基座模型進行微調,那么這些基座模型的開發者是否應該獲得相應的回報?如何確保AI技術的公平使用和共享?這些問題都需要業界進行深入探討和解決。盡管s1模型的低成本訓練方法引發了諸多爭議,但其背后的研究思路無疑為AI領域帶來了新的啟示和思考。






