文 | 新浪科技 彥殊
百度創(chuàng)始人、董事長(zhǎng)兼CEO李彥宏近期的言論,遭到了多名企業(yè)家反駁,并得罪了一大批開源軟件的擁護(hù)者。
李彥宏近期兩次談及開源時(shí),都提出了“開源模型會(huì)越來越落后”的結(jié)論。
除了360集團(tuán)創(chuàng)始人周鴻祎的公開言論外,近期,獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛、昆侖萬維(38.600, -0.58, -1.48%)董事長(zhǎng)兼CEO方漢,以及全球最大開源基金會(huì) Apache成員、linux 基金會(huì)人工智能子基金會(huì)董事會(huì)主席等人,分別向新浪科技表達(dá)了“更認(rèn)可開源”的觀點(diǎn)。
眾人紛紛表達(dá)更認(rèn)可開源的觀點(diǎn)。
傅盛更是直言,“李彥宏之所以認(rèn)為閉源模型更好,一個(gè)更重要的原因是——搜索的生意模式是構(gòu)建在算法優(yōu)秀度之上的,所以搜索肯定不能開源,如果開源了,別人基于百度的能力去做更多新的創(chuàng)新,百度的競(jìng)爭(zhēng)優(yōu)勢(shì)將因此削弱。”
其實(shí),口水戰(zhàn)的背后,是一場(chǎng)關(guān)系企業(yè)的利益之爭(zhēng)。
閉源好? Meta等用數(shù)據(jù)“打臉”
近日,李彥宏兩次對(duì)“大模型開源與閉源”進(jìn)行了分析。第一次出現(xiàn)在百度內(nèi)部講話上,他直言“閉源模型在能力上會(huì)持續(xù)地領(lǐng)先,而不是一時(shí)地領(lǐng)先。”
依據(jù)是,他認(rèn)為模型開源的意義不是很大,這些開源模型都是在外頭零零散散小規(guī)模地去做各種各樣的驗(yàn)證應(yīng)用,它沒有經(jīng)過大算力的驗(yàn)證。而且,模型開源也不是一個(gè)眾人拾柴火焰高的情況,這跟傳統(tǒng)的軟件開源——比如Linux、Android/ target=_blank class=infotextkey>安卓等很不一樣。
第二次出現(xiàn)在百度自家舉辦的Create 2024百度AI開發(fā)者大會(huì)上,李彥宏再次強(qiáng)調(diào),“通過降維剪裁出來的模型,比直接用開源模型調(diào)出來的模型,同等尺寸下,效果明顯更好;同等效果下,成本明顯更低,所以開源模型會(huì)越來越落后。”
這一觀點(diǎn),遭到了周鴻祎的反駁。
在李彥宏內(nèi)部信流出后,周鴻祎便在公開場(chǎng)合發(fā)表觀點(diǎn)稱,“我是一直相信開源的,至于說網(wǎng)上有些名人胡說八道,你們別被忽悠了,他說開源不如閉源好?連說這話的公司自己都是借助了開源的力量才成長(zhǎng)到今天。”
后來周鴻祎又解釋稱,“自己說開源好,不是針對(duì)李廠長(zhǎng),只是從產(chǎn)業(yè)發(fā)展的角度來看開源和閉源。”隨即話鋒一轉(zhuǎn),再次批判稱,“聽到說大模型閉源一定超過開源的言論很詫異,我一直以為每個(gè)互聯(lián)網(wǎng)人對(duì)開源的理解都很深刻,因?yàn)闆]有開源就沒有 Linux,沒有php,沒有MySQL,甚至沒有互聯(lián)網(wǎng),包括在人工智能在內(nèi),如果沒有當(dāng)初谷歌開源Transformer,就不會(huì)有 OpenAl和 GPT。”
就在兩人“隔空”爭(zhēng)論不休時(shí),海外知名開源大模型平臺(tái)Stability.ai在官網(wǎng)宣布,最新文生圖模型Stable Diffusion 3 (簡(jiǎn)稱“SD3”)和 SD3 Turbo可以在API中使用。在Stability.ai官網(wǎng)上,公司也直接申明,“目前開源的文生圖能力已經(jīng)比Midjourney v6版本收費(fèi)軟件還要好。”
與此同時(shí),Meta公司同樣發(fā)布了號(hào)稱“最強(qiáng)大開源大語言模型”的新一代Llama 3開源模型,共有80億和700億參數(shù)兩種版本,宣布超越了閉源的谷歌等模型。
海外知名開源大模型平臺(tái),用自己的行動(dòng),回敬了李彥宏的言論。
傅盛也感慨道:“SD3參數(shù)量只有80億,一個(gè)游戲本就可以把它下載下來免費(fèi)使用,而Midjourney 每個(gè)月還要花你幾十美元,而且還有限制,這再次說明了開源社區(qū)的能力,是完全能夠追得上閉源的。”
在與新浪科技溝通中,傅盛直言,“在特別大的參數(shù)量的模型上,閉源確實(shí)是有優(yōu)勢(shì)的,但在真正實(shí)用方面,開源是有優(yōu)勢(shì)的,我還認(rèn)為低成本這條路兩者的距離會(huì)越走越近,而不是越來越遠(yuǎn)。”
此外,昆侖萬維董事長(zhǎng)兼CEO方漢也在采訪中表示,“開源大模型跟閉源大模型的差別其實(shí)是在縮小。”他援引業(yè)內(nèi)評(píng)測(cè)機(jī)構(gòu)數(shù)據(jù)稱,“2023年到2024年這一年間,開源大模型與閉源大模型之間的差距,已經(jīng)從落后2年以上進(jìn)化到落后4至6個(gè)月以內(nèi)。”開源大模型的發(fā)展,并不會(huì)“越來越落后”。
“李總,別鬧了!”
企業(yè)家外,包括全球最大開源基金會(huì) Apache、Linux等在內(nèi)的一些國際頂尖開源機(jī)構(gòu)成員,也對(duì)李彥宏的觀點(diǎn)給予了“回敬”。
在與新浪科技溝通中,Zilliz 公司創(chuàng)始人、Linux 基金會(huì)人工智能子基金會(huì)前董事會(huì)主席星爵表示,“我并不贊同他的觀點(diǎn)。我認(rèn)為,對(duì)于 AI 大型模型而言,開源的重要性超越了歷史上的任何時(shí)期。”
在他看來,這主要由三方面的原因:
第一,通過開源能夠讓更多的人參與進(jìn)來,這樣才能有更多的算法、算力、數(shù)據(jù)以及場(chǎng)景參與進(jìn)來,這對(duì)AI的訓(xùn)練、模型的進(jìn)步有更加重要的意義。
第二,其實(shí)AI模型要得到更大范圍的部署,成本一定要繼續(xù)降低,如果模型只掌握在幾個(gè)閉源公司手上,其實(shí)不利于模型迭代,也不利于降低成本,因此也不利于AI模型在更多的場(chǎng)景的應(yīng)用。
第三,對(duì)于AI模型來說,最重要的一點(diǎn)是,我們需要保證它是安全可控、符合人類價(jià)值觀的,因此模型的可觀測(cè)性、數(shù)據(jù)的透明性,一直是AI安全上的一個(gè)重大研究話題。對(duì)于一個(gè)完完全全閉源的模型來說,它的訓(xùn)練數(shù)據(jù)集、訓(xùn)練方法、權(quán)重等,各方面都沒有開放,其實(shí)對(duì)整個(gè)人類未來的發(fā)展,對(duì)模型和AI的安全性是有巨大隱患的。
在星爵看來,只有通過開源,才可以把AI從一個(gè)黑盒子慢慢變成一個(gè)灰色的盒子,最后可能變成個(gè)白盒子。“我們是希望有一個(gè)可控的可信的AI模型,而不是少數(shù)幾個(gè)AI模型來統(tǒng)治世界,來代替我們做任何的一個(gè)決定,尤其在一個(gè)不透明的環(huán)境下。”
“李彥宏認(rèn)為閉源大模型能通過蒸餾等方式降低成本的觀點(diǎn)是很偏頗的,不管是開源模型還是閉源模型,都可以通過模型蒸餾、降維裁剪等方法,降低模型的規(guī)模,從而使這個(gè)模型有更高的運(yùn)行效率。這不是閉源模型獨(dú)有的,更不是閉源模型和開源模型的重大差異點(diǎn)。”星爵表示。
在與新浪科技溝通中,全球最大開源基金會(huì) Apache成員我思故我同樣表示:“李總,別鬧了!”他援引google在開源領(lǐng)域的不懈努力表示,“看看你的老大哥Google如何用開源Android征服手機(jī),用開源K8s制霸云原生,用開源TensorFlow影響機(jī)器學(xué)習(xí)領(lǐng)域的生態(tài),用開源Transformer開啟了AIGC新時(shí)代,隨后也推出了開源LLM Gemma。”
在他看來,Google之所以不斷地開源,是因?yàn)樗麄冎溃?ldquo;面對(duì)開源自己沒有護(hù)城河”。對(duì)于百度而言,面對(duì)開源,“同樣也不會(huì)有機(jī)會(huì)”。“如果硬將谷歌這樣全球龍頭企業(yè)‘創(chuàng)新、生態(tài)、人才’大戰(zhàn)略中的主要發(fā)動(dòng)機(jī)——開源,與舊時(shí)代的量販和閉鎖的商業(yè)模式混為一談,則是倒果為因。”
口水戰(zhàn),背后是利益之爭(zhēng)
在程序員群體間,開源、閉源路線的爭(zhēng)端,始終是開發(fā)群體關(guān)注的焦點(diǎn)。
對(duì)于開源路線擁簇者而言,開源降低了新人獲取相關(guān)能力的門檻,快速拉齊了他們進(jìn)入開源項(xiàng)目相關(guān)領(lǐng)域的能力,讓他們站在巨人的肩膀上,能夠快速地迭代并反哺開源項(xiàng)目,最終推動(dòng)整個(gè)開源項(xiàng)目滾動(dòng)發(fā)展的飛輪,快速迭代進(jìn)步,最終也能夠取得一定的商業(yè)回報(bào)。
但開源背后的問題是,“由于缺乏成熟商業(yè)模式的支撐,大多數(shù)開源項(xiàng)目往往容易半途而廢,早期發(fā)展不確定性高,缺乏可持續(xù)性。”
對(duì)于支持閉源路線的開發(fā)者而言,閉源的方式雖然少了開源那樣呼朋引伴、快速提升影響力的途徑,但好處是因?yàn)椴荒敲撮_放所以保留了一定的技術(shù)壁壘,其他企業(yè)想要獲得閉源項(xiàng)目支撐的能力就得付費(fèi),而這種商業(yè)能力的建立,使得閉源項(xiàng)目天然能夠更好地盈利,進(jìn)而獲得可持續(xù)發(fā)展的資本。
此前,百川智能CEO王小川在談及開源與閉源之爭(zhēng)時(shí)也曾表示,“開源確實(shí)容易建立人品,朋友多多的,能讓大家迅速了解和評(píng)測(cè)。”“開源和閉源并不像手機(jī)中IOS或者安卓操作系統(tǒng)只能二選一,從To B角度,開源閉源其實(shí)都需要的,預(yù)計(jì)未來80%的企業(yè)會(huì)用到開源的大模型。”
金沙江創(chuàng)投主管合伙人朱嘯虎在談及大模型開源時(shí)也表示,“現(xiàn)在開源比非開源落后一代,但長(zhǎng)遠(yuǎn)來看,開源肯定會(huì)趕上來。 ”這背后的判斷邏輯是,“OpenAI就一兩百個(gè)工程師,開源的全世界幾百萬、幾千萬工程師在用,怎么可能一直比非開源的落后?就像安卓,今天比iOS差嗎?肯定不會(huì)。”
而在更早之前,Meta開源LLaMA系列大模型,Google開源Gemma系列大模型,國內(nèi)通義千問開源320億參數(shù)模型Qwen1.5-32B等7款大模型……一系列舉動(dòng)背后,占據(jù)全球AI大模型領(lǐng)域半壁江山的企業(yè)或者相關(guān)領(lǐng)導(dǎo)人們,均已經(jīng)通過自己的實(shí)際行動(dòng),宣稱成為開源擁簇者。
另有知名開源項(xiàng)目負(fù)責(zé)人王某對(duì)新浪科技表示,“目前李彥宏認(rèn)為開源模型會(huì)越來越落后,最主要的理由還是訓(xùn)練和推理成本高。”但事實(shí)上,“office、數(shù)據(jù)庫等人力成本很高的項(xiàng)目也有許多不錯(cuò)的開源項(xiàng)目,為何大模型就不行了呢?”
“如果百度市占率高,那你的對(duì)手可能就會(huì)考慮推開源版本,哪怕是不如閉源版本好,但是客觀上也是一個(gè)選擇,有些客戶的需求也未必很高,那開源版本就足夠了。”在他看來,“開源閉源都是一種選擇,很難一刀切地評(píng)價(jià)開源好壞。畢竟,開源賺的是名氣和社區(qū),閉源做的是收入。”






