| 甲子光年科技產(chǎn)業(yè)智庫(kù),作者|羅鴻胤,編輯|王博、蘇霍伊
*本文為麻省理工學(xué)院(MIT)學(xué)者羅鴻胤獨(dú)家供稿,「甲子光年」經(jīng)其授權(quán)后編輯發(fā)布。羅鴻胤是人工智能領(lǐng)域的青年科學(xué)家、MIT 計(jì)算機(jī)學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的博士后研究員,主要關(guān)注自然語(yǔ)言處理方向,包括自訓(xùn)練算法、蘊(yùn)含模型、語(yǔ)言模型推理問(wèn)題。他博士畢業(yè)于 MIT 電子工程與計(jì)算機(jī)科學(xué)系,師從 Jim Glass 博士;本科畢業(yè)于清華大學(xué)計(jì)算機(jī)系,師從劉知遠(yuǎn)教授。
人工智能領(lǐng)域一直存在著學(xué)派之爭(zhēng)。
曾經(jīng),“建制派”的符號(hào)主義 AI 被看作“唯一的主導(dǎo)力量”,“邏輯驅(qū)動(dòng)”的人工智能曾主宰數(shù)十年;另一派則是代表經(jīng)驗(yàn)主義 AI 的深度學(xué)習(xí),不追求解釋和邏輯,以神經(jīng)網(wǎng)絡(luò)和大數(shù)據(jù)開(kāi)啟”暴力美學(xué)“的大門(mén)。
以 GPT 系列為代表的大語(yǔ)言模型就是這條“暴力美學(xué)”路線(xiàn)的產(chǎn)物。這條路現(xiàn)在看來(lái)是成功的,但也存在一定的局限性。
從人工智能誕生的第一天起,計(jì)算機(jī)科學(xué)家們一直在比較以神經(jīng)網(wǎng)絡(luò)為代表的經(jīng)驗(yàn)主義AI與以數(shù)理邏輯為代表的符號(hào)主義AI的優(yōu)劣。簡(jiǎn)單來(lái)說(shuō),經(jīng)驗(yàn)主義AI主張通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí)來(lái)獲取知識(shí),而符號(hào)主義AI則強(qiáng)調(diào)精確的任務(wù)定義和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)工具。
隨著近十年的算力進(jìn)化,神經(jīng)網(wǎng)絡(luò)這一最典型的經(jīng)驗(yàn)主義 AI 模型得到了飛速的發(fā)展。由于無(wú)法匹敵神經(jīng)網(wǎng)絡(luò)處理非結(jié)構(gòu)化信息的能力和泛用性、無(wú)法生成非結(jié)構(gòu)化數(shù)據(jù)(如自然語(yǔ)言),符號(hào)主義 AI 的存在感和影響力快速降低。
但是在我看來(lái),基于符號(hào)和邏輯的推理 (reasoning) 遠(yuǎn)比基于經(jīng)驗(yàn)和數(shù)據(jù)的感知 (perception) 復(fù)雜。經(jīng)驗(yàn)主義 AI發(fā)展的頂點(diǎn),正是符號(hào)主義AI大放異彩的起點(diǎn)。
著名語(yǔ)言模型批評(píng)者 Gary Marcus 博士曾銳評(píng)道:“大語(yǔ)言模型沒(méi)法做一些有嚴(yán)格定義的工作:遵守國(guó)際象棋規(guī)則、五位數(shù)字相乘、在家譜中進(jìn)行可靠的推理、比較不同物體的重量等等。”
“火力全開(kāi)”的 Marcus 博士指出了目前大語(yǔ)言模型存在的問(wèn)題,但是這個(gè)問(wèn)題并非沒(méi)有解決方法,我認(rèn)為:大語(yǔ)言模型(LLM)只是不能通過(guò)生成文本做有嚴(yán)格定義的工作。大語(yǔ)言模型可以通過(guò)生成 “自然語(yǔ)言嵌入式程序”(natural language embedded program, NLEP)準(zhǔn)確完成上述工作。
NLEP 是我與麻省理工學(xué)院(MIT)、香港中文大學(xué)(CUHK)研究團(tuán)隊(duì)共同研發(fā)的一種兼顧符號(hào)推理和自然語(yǔ)言生成的程序。它將語(yǔ)言智能抽象為「“思維”編程 + 程序執(zhí)行」兩個(gè)步驟,能讓大語(yǔ)言模型同時(shí)具有生成自然語(yǔ)言和精確執(zhí)行復(fù)雜推理任務(wù)的能力。
在傳統(tǒng)認(rèn)知里,符號(hào) AI 無(wú)法處理非結(jié)構(gòu)化數(shù)據(jù)和生成自然語(yǔ)言。而NLEP的方法證明,符號(hào)AI可以處理非結(jié)構(gòu)化數(shù)據(jù)、自然語(yǔ)言,還可以強(qiáng)化非結(jié)構(gòu)化數(shù)據(jù)深層的結(jié)構(gòu)規(guī)律和推理能力。
或許在不久的將來(lái),符號(hào)主義有潛力替代經(jīng)驗(yàn)主義。
接下來(lái),我將從 Marcus 博士的銳評(píng)出發(fā),討論以下內(nèi)容:
01 大模型與醉酒的人相似
當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型其實(shí)與醉酒的人相似。
他們都努力與人互動(dòng)、跟隨簡(jiǎn)單指令生成信息,少數(shù)還試圖駕駛交通工具。同時(shí),他們也都帶來(lái)了商業(yè)機(jī)遇和社會(huì)風(fēng)險(xiǎn),并可能引起廣泛討論。
人類(lèi)認(rèn)知功能不完整時(shí)(如醉酒、夢(mèng)囈、疾病等),語(yǔ)言行為往往是脫離邏輯思維的。
這時(shí),人類(lèi)只是依賴(lài)語(yǔ)言本能,把輸入信號(hào)強(qiáng)行拼湊成有一定語(yǔ)法結(jié)構(gòu)的句子(文本補(bǔ)全)。表達(dá)的內(nèi)容可能是如李白斗酒詩(shī)百篇般的藝術(shù)瑰寶,也可能只是毫無(wú)意義的胡言亂語(yǔ)。
事實(shí)上,人類(lèi)大腦語(yǔ)言區(qū)域的發(fā)現(xiàn)正是基于臨床醫(yī)生對(duì)認(rèn)知功能受損、保留了部分語(yǔ)言能力患者的研究。類(lèi)似的科學(xué)方法也被大量應(yīng)用于探索 AI 模型行為和規(guī)律的研究中。
隨著算力的快速發(fā)展,OpenAI 等機(jī)構(gòu)花費(fèi)數(shù)百億美元構(gòu)建了參數(shù)量遠(yuǎn)超人類(lèi)語(yǔ)言器官的神經(jīng)網(wǎng)絡(luò),和文本量遠(yuǎn)超人類(lèi)閱讀極限的訓(xùn)練數(shù)據(jù),為體積遠(yuǎn)大于人腦的機(jī)器賦予了類(lèi)似的文本補(bǔ)全能力。
但此類(lèi)模型生成的究竟是 “語(yǔ)言” 還是 “夢(mèng)囈”?
這個(gè)問(wèn)題已經(jīng)在學(xué)術(shù)界引起了激烈爭(zhēng)論。爭(zhēng)論的結(jié)果關(guān)乎社會(huì)和業(yè)界對(duì) AI可解釋性、可靠性、安全性的認(rèn)可程度。而決定結(jié)果的關(guān)鍵就在于語(yǔ)言模型是否存在可控、準(zhǔn)確的思維能力。
為了回答這一核心問(wèn)題,谷歌旗下研究機(jī)構(gòu) DeepMind 的最新論文指出,語(yǔ)言模型本質(zhì)上是信息的壓縮模型。
只要模型的表示能力足夠強(qiáng)(參數(shù)量足夠)、被壓縮的訓(xùn)練數(shù)據(jù)量足夠大,語(yǔ)言模型就能在壓縮信息的過(guò)程中抽象出一定的思維能力,包括推理、計(jì)算、預(yù)測(cè)等等。
最先進(jìn)的語(yǔ)言模型(例如 GPT-4)展現(xiàn)出的回答問(wèn)題、跟隨指令、編寫(xiě)代碼的能力顯然早已超越了任何人類(lèi)的 “夢(mèng)囈”。但如果說(shuō) GPT-4 和基于 GPT-4 的種種 Agent 足夠可靠,似乎為時(shí)尚早。
GPT-4 是極端經(jīng)驗(yàn)主義 AI 的代表:把世界上所有的高質(zhì)量文本、程序、數(shù)學(xué)、對(duì)話(huà)數(shù)據(jù)壓縮到算力允許的最大模型里,再抽象出這一技術(shù)路線(xiàn)蘊(yùn)含的最強(qiáng)思維能力。它沒(méi)有可靠推理引擎的支撐,完全依賴(lài)簡(jiǎn)單粗暴、類(lèi)似“死記硬背”的大量訓(xùn)練。無(wú)論多少計(jì)算和數(shù)據(jù)資源,都無(wú)法掩蓋和彌補(bǔ) GPT-4 本質(zhì)的推理缺陷。就如同酒駕的司機(jī),無(wú)論酒量多好、多么僥幸,都無(wú)法避免酒精對(duì)人反應(yīng)和判斷能力的本質(zhì)危害。
正如不同的任務(wù)對(duì)人的思維嚴(yán)謹(jǐn)程度有不同要求,當(dāng)前的語(yǔ)言模型更適用于能容忍甚至歡迎一些噪聲的應(yīng)用場(chǎng)景,但在需要執(zhí)行準(zhǔn)確、可控的復(fù)雜推理任務(wù)時(shí),其可靠性有根本的缺陷。GPT-4 甚至?xí)诨卮鹨恍┎⒉粡?fù)雜的問(wèn)題時(shí)生成自相矛盾的文本,如下圖所示:
實(shí)際上,吳丹(U Thant)是第一位來(lái)自于亞洲的聯(lián)合國(guó)秘書(shū)長(zhǎng),潘基文(Ban Ki-moon)是第二位來(lái)自于亞洲的聯(lián)合國(guó)秘書(shū)長(zhǎng),上圖中 GPT-4 的回答并不準(zhǔn)確。
能力如此強(qiáng)大的 GPT-4,卻依然會(huì)在簡(jiǎn)單的問(wèn)答中生成自相矛盾的語(yǔ)言,這也佐證了現(xiàn)階段語(yǔ)言模型推理的不可靠性。
02 文本補(bǔ)全模型的瓶頸就在文本
人類(lèi)運(yùn)用語(yǔ)言的能力可以抽象成知識(shí)、推理、計(jì)算三大模塊,并且語(yǔ)言絕對(duì)不等于文本。
許多語(yǔ)言模型(文本補(bǔ)全模型)的問(wèn)題難以解決,絕非模型不夠強(qiáng)大,而是因?yàn)樽匀徽Z(yǔ)言文本是思維結(jié)果的表達(dá),并不是思維過(guò)程的載體。
比如,我們想要學(xué)好物理,“事半功倍”的辦法就需要從物理定律、求解問(wèn)題、設(shè)計(jì)實(shí)驗(yàn)的思路出發(fā);反之“事倍功半”的辦法則是死記硬背一百本物理習(xí)題卻不理解牛頓定律。采用這種方法的學(xué)習(xí)者花費(fèi)更多的時(shí)間,但還是無(wú)法融會(huì)貫通地解決沒(méi)見(jiàn)過(guò)的問(wèn)題。
這個(gè)缺陷并不是解題模型——人類(lèi)大腦的問(wèn)題,而是訓(xùn)練數(shù)據(jù)的缺陷——問(wèn)題的答案只是物理定律的表象,而解題思維代表著對(duì)物理定律的直接應(yīng)用。
不可否認(rèn),“死記硬背”是實(shí)現(xiàn)“答對(duì)考題”的技術(shù)路線(xiàn)之一。與之相似,使用大型神經(jīng)網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)文本補(bǔ)全能力,也是當(dāng)前 AI“獲得思維”的技術(shù)路線(xiàn)。
雖然巨量的計(jì)算資源與數(shù)據(jù)的投入讓這種技術(shù)路線(xiàn)取得了成功,但諸多的研究和應(yīng)用已經(jīng)證明,這種技術(shù)路線(xiàn)的可靠性瓶頸會(huì)帶來(lái)諸多挑戰(zhàn):臆想、推理能力有限、隱私泄露、合規(guī)問(wèn)題等等。
大語(yǔ)言模型的能力是一把雙刃劍:可以處理不存在于訓(xùn)練數(shù)據(jù)中的新問(wèn)題,但也會(huì)在其不知情的情況下,輸出錯(cuò)誤的推理結(jié)果。
作為通過(guò)壓縮文本提煉思維的黑盒模型,其知識(shí)、思維、推理能力都儲(chǔ)存在神經(jīng)網(wǎng)絡(luò)的權(quán)重中。AI 的優(yōu)勢(shì)和不足都體現(xiàn)在以下幾個(gè)方面:
- 抽取真實(shí)或失實(shí)的知識(shí)和信息;
- 規(guī)劃非結(jié)構(gòu)化的推理流程;
- 由模型執(zhí)行有誤差的計(jì)算。
由于以上三個(gè)模塊都有可能出錯(cuò),大模型的行為難以驗(yàn)證、解釋、控制、改進(jìn)。
針對(duì)“在美國(guó),哪種新冠病毒造成了最高的 ICU 占用量”這個(gè)問(wèn)題,GPT-4模型的回答是“德?tīng)査兎N導(dǎo)致的 ICU 占用量最高”。
那真實(shí)的情況是什么?
在 11 月 6 日的 OpenAI 開(kāi)發(fā)日前,沒(méi)有搜索引擎增強(qiáng)的 GPT-4 模型會(huì)給出定性的回答和解釋?zhuān)?/p>
開(kāi)發(fā)日后的 GPT-4 系統(tǒng)默認(rèn)調(diào)用必應(yīng)搜索引擎,會(huì)基于搜索結(jié)果給出數(shù)據(jù)、作出一定解釋和參考資料引用:
中文翻譯:
獲得搜索增強(qiáng)的 ChatGPT 生成了更有說(shuō)服力、文本更專(zhuān)業(yè)的回復(fù)。尤其是在其中三處引用了參考資料網(wǎng)址,更加提高了用戶(hù)閱讀答案后的滿(mǎn)意度(和被誤導(dǎo)的可能性)。
遺憾的是, ChatGPT 的用戶(hù)很難驗(yàn)證答案的正確性。事實(shí)上,重復(fù)問(wèn)最新的(2023 年 11 月 13 日)、搜索引擎加持的 GPT-4 同樣的問(wèn)題,它還會(huì)生成各種不同的回答:
- 回答 a:“奧密克戎變異 – 占用了高達(dá) 30.4% 的 ICU 病床。”
- 回答 b:“雖然感染了德?tīng)査儺惖牟∪俗疃嗾加昧?31% 的 ICU 病床,但奧密克戎病人占用了更多。”
- 回答 c:“好像不是奧密克戎變異,好像是德?tīng)査儺悺?rdquo;
雖然在不同嘗試中 GPT-4 的回答自相矛盾,但是每一次回答生成的文本看起來(lái)都很正式、客觀、有說(shuō)服力、甚至附帶搜索引擎給出的參考文獻(xiàn)。未經(jīng)多次驗(yàn)證答案的讀者很容易受到誤導(dǎo)。
語(yǔ)言模型的這種能力非常適合于創(chuàng)作和想象:給一個(gè)標(biāo)題,寫(xiě)三個(gè)小故事之類(lèi)的任務(wù)對(duì)于 ChatGPT 而言恰到好處。但遺憾的是,這種不可控的行為模式,在回答需要嚴(yán)謹(jǐn)推理的問(wèn)題時(shí)應(yīng)該被盡量避免。
更遺憾的是,雖然給了 GPT-4 多次嘗試的機(jī)會(huì)甚至搜索引擎的加持,上述新老 GPT-4 猜測(cè)的答案中沒(méi)有一個(gè)是正確的。
根據(jù)權(quán)威統(tǒng)計(jì)機(jī)構(gòu)數(shù)據(jù)看世界(Our World in Data)信息,美國(guó)因新冠病毒導(dǎo)致的 ICU 病床日占用量峰值應(yīng)發(fā)生在 2020 年冬天阿爾法變異流行期間。GPT-4 基于必應(yīng)搜索引擎提供的大量“比較德?tīng)査c奧密克戎變種病毒”的文章得出“德?tīng)査驃W密克戎變異造成了最高的 ICU 病床占用量”是不準(zhǔn)確的。
那么,GPT-4 在知識(shí)、推理、計(jì)算的哪一步出現(xiàn)了錯(cuò)誤?是搜索的數(shù)據(jù)出了問(wèn)題,還是對(duì)于三個(gè)峰值比較大小的運(yùn)算出了問(wèn)題?用戶(hù)并不了解。
在上述例子中,GPT-4 的可解釋性和可靠性都會(huì)受到質(zhì)疑。為了改進(jìn)語(yǔ)言模型的事實(shí)性、可解釋性、可控性和可靠性,OpenAI、Meta、麻省理工學(xué)院、香港中文大學(xué)(CUHK)、卡耐基梅隆大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究人員分別提出了不同的基于編程語(yǔ)言以及程序解釋器增強(qiáng)的技術(shù)方案。
其中,比較廣為人知的方案是 OpenAI 開(kāi)發(fā)的 ChatGPT 代碼解釋器和 Meta 提出的 Toolformer 模型。它們?cè)谖谋旧傻倪^(guò)程中將一部分內(nèi)容“外包”給程序或 API,例如數(shù)學(xué)運(yùn)算。
代碼解釋器或者可靠 API 能夠保證在輸入正確的情況下永遠(yuǎn)計(jì)算出一致、正確的結(jié)果,并將結(jié)果返回到語(yǔ)言模型生成的內(nèi)容里,比如:
最后的總分是由一段 Python/ target=_blank class=infotextkey>Python 代碼計(jì)算得到:
雖然“外包”了一部分推理任務(wù)給可靠的代碼解釋器,ChatGPT 的主干仍然是自然語(yǔ)言。上述例子只在最后一步計(jì)算總分時(shí)調(diào)用了代碼解釋器,而步驟 3 中 “30 分” 的中間結(jié)果仍然是由自然語(yǔ)言完成的推理。
最新的研究表明,在很多任務(wù)上 ChatGPT 負(fù)責(zé)調(diào)用代碼解釋器的數(shù)據(jù)分析(Data Analysis) Agent 仍不能取得準(zhǔn)確的推理效果。比如,它拒絕用代碼解決一些非結(jié)構(gòu)化問(wèn)題中的結(jié)構(gòu)化推理任務(wù),因此得到錯(cuò)誤的結(jié)果:
在這個(gè)例子中,我們的問(wèn)題是“有幾位聯(lián)合國(guó)秘書(shū)長(zhǎng)不是來(lái)自歐洲?”雖然使用了 ChatGPT 的數(shù)據(jù)分析 agent,但它拒絕使用代碼分析,而是使用自然語(yǔ)言“敷衍了事”。這也就造成了,雖然 GPT-4 生成了正確的人物列表及國(guó)籍,最后的計(jì)數(shù)卻漏了來(lái)自亞洲的潘基文秘書(shū)長(zhǎng)。
這里正確答案應(yīng)為 5 位聯(lián)合國(guó)秘書(shū)長(zhǎng)來(lái)自歐洲,而 ChatGPT 數(shù)據(jù)分析 Agent 偷工減料推理得到的結(jié)果是 4 位。
03 NLEP方案:符號(hào)主義AI的極致嘗試
NLEP 是一種同時(shí)提高自然語(yǔ)言、符號(hào)推理能力的神經(jīng)符號(hào) (neuro-symbolic) 方法。
針對(duì) ChatGPT 代碼解釋器的種種痛點(diǎn),麻省理工學(xué)院(MIT)和香港中文大學(xué)(CUHK)的研究人員提出了一個(gè)大膽的假設(shè):“哪里有自然語(yǔ)言,哪里就有不嚴(yán)謹(jǐn)?shù)乃季S。”
基于這種假設(shè),我們提出了一種獨(dú)特的語(yǔ)言生成方案:natural language embedded program (NLEP,自然語(yǔ)言嵌入式程序)。
OpenAI 采取了“文本補(bǔ)全+代碼解釋器插件”的范式,在自然語(yǔ)言中必要處添加代碼和插件的調(diào)用。NLEP 則通過(guò)生成可一鍵運(yùn)行的程序解決一切自然語(yǔ)言、數(shù)學(xué)、符號(hào)推理、編程問(wèn)題,只在程序中必要的地方嵌入自然語(yǔ)言。
在完成程序生成后,點(diǎn)擊“運(yùn)行”按鈕,由程序打印出自然語(yǔ)言的回答。例如在之前的聯(lián)合國(guó)秘書(shū)長(zhǎng)計(jì)數(shù)問(wèn)題中,NLEP 生成的內(nèi)容如下:
在圖中可以看到,語(yǔ)言模型生成了一段逐步解決問(wèn)題的程序:定義結(jié)構(gòu)化知識(shí)、實(shí)現(xiàn)計(jì)算結(jié)果的函數(shù)、打印自然語(yǔ)言回復(fù)。完成程序的生成后,運(yùn)行完整的程序,即可得到正確的結(jié)果。在五次獨(dú)立重復(fù)實(shí)驗(yàn)中, GPT-4 API 的正確率為 40%,ChatGPT 代碼解釋器的正確率為 60%,而 NLEP 的正確率為 100%。
NLEP 與 ChatGPT 代碼解釋器相比有顯著的區(qū)別:
ChatGPT以自然語(yǔ)言文本為主干回復(fù)用戶(hù)輸入。在生成某個(gè)詞的時(shí)候切換到代碼運(yùn)行,再將代碼運(yùn)行結(jié)果添加到生成的內(nèi)容里,然后繼續(xù)生成文本;而 NLEP以程序?yàn)橹鞲桑紫壬赏暾某绦颍缓髨?zhí)行程序、打印出包含自然語(yǔ)言文本、圖表等要素的回復(fù)。
同時(shí),NLEP 的編程語(yǔ)言框架也可以比自然語(yǔ)言框架更自然地鏈接數(shù)據(jù)。
相比于自然語(yǔ)言框架,NLEP 作為完整的可運(yùn)行程序,可以更自然地鏈接知識(shí)庫(kù)和數(shù)據(jù)庫(kù)。NLEP 可以準(zhǔn)確調(diào)用谷歌知識(shí)圖譜里的真實(shí)數(shù)據(jù),回答此前“哪個(gè)新冠變種導(dǎo)致了最高的 ICU 日占用率”的問(wèn)題并提供數(shù)據(jù)可視化作為解釋?zhuān)?/p>
NLEP 的回答是“The COVID variant caused the highest daily ICU occupation in United States is Alpha (在美國(guó)造成最高 ICU 占用的新冠病毒變種是阿爾法).”并以此生成出自動(dòng)可視化數(shù)據(jù):
以上功能由 NLEP 的生成工具 LangCode 實(shí)現(xiàn)。
此外,NLEP 還可以自動(dòng)生成結(jié)構(gòu)化 Agent。
NLEP 與 ChatGPT 的本質(zhì)區(qū)別在于是否采用結(jié)構(gòu)化的語(yǔ)言生成框架。ChatGPT 以非結(jié)構(gòu)化的自然語(yǔ)言文本補(bǔ)全為基本范式。因此在上周的 OpenAI 開(kāi)發(fā)日,OpenAI 公布的 GPT store 也更多集中于非結(jié)構(gòu)化的 agent,即 chatbot 的自動(dòng)搭建。
而早在 OpenAI 公布 GPT store 一個(gè)月前,我們就利用融合了符號(hào)、結(jié)構(gòu)、自然語(yǔ)言的能力的 NLEP 為 Anchoring AI 平臺(tái)實(shí)現(xiàn)了自動(dòng)生成結(jié)構(gòu)化 Agent 的功能。
如圖所示,Anchoring AI Agent 可以服務(wù)結(jié)構(gòu)化的輸入和輸出。其推理過(guò)程、自動(dòng)生成的提示信息也顯示在自動(dòng)生成的獨(dú)立模塊中,透明可控、清晰準(zhǔn)確,便于團(tuán)隊(duì)協(xié)作開(kāi)發(fā)AI應(yīng)用。
如 GPTs Agent:
以及根據(jù)一句自然語(yǔ)言指令自動(dòng)生成的Anchoring.ai Agent:
04 符號(hào)主義終將“接棒”
經(jīng)驗(yàn)主義與符號(hào)主義AI爭(zhēng)議紛擾六十余年,其核心矛盾在于:經(jīng)驗(yàn)主義AI側(cè)重強(qiáng)大的泛化能力,而符號(hào)主義AI側(cè)重精確地推理能力。
近二十年來(lái),拔地而起、粗放增長(zhǎng)的 AI 研究和產(chǎn)業(yè)強(qiáng)調(diào)擴(kuò)展 AI 的應(yīng)用場(chǎng)景。因此,泛化能力成為了近十年 AI 的主題。尤其在 ChatGPT 橫空出世的 2022 年底,經(jīng)驗(yàn)主義 AI 發(fā)展到了極致:GPT 模型有著極強(qiáng)的泛化性能,能夠處理非常廣泛的數(shù)據(jù)和應(yīng)用。
但在后 GPT-4 時(shí)代,AI 的粗放增長(zhǎng)會(huì)迅速來(lái)到瓶頸期,轉(zhuǎn)而進(jìn)入精益發(fā)展的階段。下一個(gè)十年AI領(lǐng)域的主題將是精確推理、可解釋性、安全可控。依托于經(jīng)驗(yàn)主義AI的堅(jiān)實(shí)基礎(chǔ)和強(qiáng)大泛化能力,符號(hào)主義將接過(guò)解決AI諸多挑戰(zhàn)的重任,在未來(lái)的AI發(fā)展中大放異彩,帶來(lái)無(wú)數(shù)嶄新的可能。
甲小姐對(duì)本文亦有貢獻(xiàn)
*本文配圖由作者提供