【ITBEAR】8月26日消息,在人工智能領域,一場關于模型規模的變革正在悄然發生。長久以來,科技巨頭們競相追逐龐大語言模型的開發,但如今,小型語言模型(SLM)正逐步嶄露頭角,挑戰著“規模越大越好”的傳統觀念。
據ITBEAR了解,8月21日,微軟和英偉達分別發布了其最新的小型語言模型——Phi-3.5-mini-instruct和Mistral-NeMo-Minitron8B。這兩款模型因在計算資源使用和功能表現之間找到了良好的平衡點而備受矚目,在某些方面的性能甚至能與大型模型相媲美。
人工智能初創公司Hugging Face的首席執行官Clem Delangue指出,高達99%的使用場景都可以通過SLM來解決,并預言2024年將是SLM的崛起之年。據統計,包括meta、微軟、谷歌在內的科技巨頭今年已經發布了多達9款小型模型。
SLM的興起并非偶然現象,而是與大模型(LLM)在性能提升與資源消耗方面面臨的挑戰密切相關。AI初創公司Vellum和Hugging Face今年4月發布的性能比較顯示,頂級LLM之間的性能差距正在迅速縮小,特別是在特定任務中,如多項選擇題、推理和數學問題,模型之間的差異極小。
Uber AI的前負責人Gary Marcus指出:“盡管普遍認為GPT-4相比GPT-3.5有所進步,但此后的一年多里并未出現質的飛躍。”與有限的性能提升相比,LLM的訓練成本卻在不斷攀升。這些模型需要海量數據和數以億計甚至萬億個參數,導致了極高的資源消耗。訓練和運行LLM所需的計算能力和能源消耗令人咋舌,小型組織或個人難以參與核心LLM的開發。
國際能源署估計,到2026年,數據中心、加密貨幣和人工智能相關的電力消耗將大致相當于日本全國的用電量。OpenAI首席執行官阿爾特曼曾表示,訓練GPT-4的成本至少為1億美元,而Anthropic首席執行官Dario Amodei預測,未來訓練模型的成本可能高達1000億美元。
此外,使用LLM所需的工具和技術的復雜性也增加了開發人員的學習曲線。從訓練到部署,整個過程耗時漫長,減緩了開發速度。劍橋大學的一項研究顯示,公司可能需要90天或更長時間才能部署一個機器學習模型。LLM的另一個重大問題是容易產生“幻覺”,即模型生成的輸出看似合理,但實際上并不正確。這是由于LLM的訓練方式是根據數據中的模式預測下一個最可能的單詞,而非真正理解信息。
面對LLM的巨大能源需求以及為企業提供更多樣化AI選項的市場機會,科技公司逐漸將注意力轉向了SLM。不論是AI初創公司如Arcee、Sakana AI和Hugging Face,還是科技巨頭,都在通過SLM和更經濟的方式吸引投資者和客戶。
此前,谷歌、meta、OpenAI和Anthropic都發布了比旗艦LLM更緊湊、更靈活的小模型。這不僅降低了開發和部署的成本,也為商業客戶提供了更便宜的解決方案。鑒于投資者越來越擔心AI企業的高成本和不確定的回報,更多的科技公司可能會選擇這條道路。即便是微軟和英偉達,如今也先后推出了自己的小模型(SLM)。
SLM是LLM的精簡版本,具有更少的參數和更簡單的設計。它們需要更少的數據和訓練時間,只需幾分鐘或幾小時。這使得SLM更高效,更易于在小型設備上部署。例如,它們可以嵌入到手機中,而無需占用超算資源,從而降低成本,并顯著提升響應速度。
SLM的另一個主要優勢是其針對特定應用的專業化。SLM專注于特定任務或領域,這使它們在實際應用中更加高效。例如,在情緒分析、命名實體識別或特定領域的問答中,SLM的表現往往優于通用模型。這種定制化使得企業能夠創建高效滿足其特定需求的模型。SLM在特定領域內也不易出現“幻覺”,因為它們通常在更窄、更有針對性的數據集上訓練,這有助于模型學習與其任務最相關的模式和信息。