亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

近日,人工智能領域傳來一則引人矚目的新聞。據多方報道,斯坦福大學和華盛頓大學的研究團隊,在李飛飛等人的帶領下,以極其低廉的成本——不足50美元的云計算費用,成功打造出一款名為s1的人工智能推理模型。該模型在數學和編程能力測試中,表現與OpenAI的O1和DeepSeek的R1等業界頂尖推理模型難分伯仲。

這一消息迅速在AI界掀起了軒然大波,引發了廣泛討論。為了揭開s1模型低成本訓練的真相,《科創板日報》記者進行了深入調查和多方采訪。

經過細致研究,記者發現s1模型的訓練并非從零開始,而是基于阿里云的通義千問(Qwen)模型進行了監督微調。這一發現意味著,s1模型之所以能夠以如此低的成本實現高性能,是因為它站在了一個已經具備強大能力的開源基礎模型之上。換句話說,s1模型的“神奇”之處,在于它巧妙地利用了已有的基座模型。

上海交通大學人工智能學院的謝偉迪副教授指出,如果仔細閱讀斯坦福s1的論文,不難發現,s1模型的訓練過程實際上是在通義千問模型的基礎上進行微調。那1000個樣本數據,更像是對已有模型能力的“錦上添花”,而非從零開始的全新訓練。這一觀點得到了國內某知名大模型公司CEO的佐證。他表示,從論文原文來看,所謂的50美元訓練新模型,實際上是使用從谷歌模型中提煉的1000個樣本,對通義千問模型進行了監督微調。這種微調的成本確實低廉,但顯然是在已有領先模型的“肩膀”上實現的。

斯坦福s1論文原文也明確指出了這一點,即模型是以阿里通義千問模型為基礎進行微調的。謝偉迪副教授進一步指出,國內外還有其他團隊也聲稱以極低成本訓練出了具有推理能力的新模型,但無一例外都是基于通義模型作為基座進行的。這一觀點得到了國外多位人工智能研究者的支持,他們指出,許多所謂的“新”模型,實際上都是建立在通義模型的基礎之上的。

謝偉迪副教授強調,以通義千問模型作為基座,確實可以用很少的樣本數據就達到產生新的推理模型的效果。但如果換成其他基座模型,新模型的能力卻不會有任何提升。因此,他認為,真正神奇的是Qwen模型,而不是s1模型。

盡管s1模型的低成本訓練在一定程度上展示了AI訓練的潛力,但其局限性也不容忽視。首先,這種低成本訓練依賴于已有的強大基座模型,如阿里通義千問模型。如果沒有這樣的基座模型作為支撐,低成本訓練的效果將大打折扣。其次,1000個樣本數據的訓練量在大多數情況下是不夠的,尤其是在需要處理復雜任務的場景中。低成本訓練的成功還引發了對AI模型知識產權和倫理問題的討論。如果越來越多的研究依賴于已有的基座模型進行微調,那么這些基座模型的開發者是否應該獲得相應的回報?如何確保AI技術的公平使用和共享?這些問題都需要業界進行深入探討和妥善解決。

盡管如此,s1模型的低成本訓練仍然為AI領域提供了新的思考方向。如何在保證模型性能的前提下,降低訓練成本,成為AI研究的一個重要課題。未來,或許我們能夠看到更多低成本、高性能的AI模型問世,但這需要技術的不斷進步和算法的不斷優化。

分享到:
標簽:斯坦福 阿里 微調 低成本 真相
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定