在人工智能領(lǐng)域的最新動(dòng)態(tài)中,meta首席人工智能科學(xué)家楊立昆在巴黎舉辦的AI Action Summit上發(fā)表了引人深思的見解。他指出,盡管人工智能在多個(gè)領(lǐng)域已展現(xiàn)出驚人的能力,但仍未能掌握理解物理世界、持久記憶、邏輯推理以及分層規(guī)劃這四大人類智能的核心特征。
楊立昆,這位圖靈獎(jiǎng)得主,與IBM AI負(fù)責(zé)人安東尼·安農(nóng)齊亞塔共同探討了智能行為的基準(zhǔn)定義。他們一致認(rèn)為,從相對(duì)聰明的動(dòng)物到人類,都具備這四種基本智能特征。然而,當(dāng)前的AI,尤其是大語言模型,尚未觸及這一門檻。楊立昆認(rèn)為,要實(shí)現(xiàn)這些能力,必須對(duì)訓(xùn)練范式進(jìn)行根本性的變革。

據(jù)他所述,目前科技巨頭們?yōu)楝F(xiàn)有AI模型添加的種種功能,如為理解物理世界而訓(xùn)練的獨(dú)立視覺系統(tǒng),或?yàn)閷?shí)現(xiàn)記憶功能而采用的檢索增強(qiáng)生成技術(shù)等,都只是權(quán)宜之計(jì)。楊立昆倡導(dǎo)的“世界模型”架構(gòu),則是一種更具前瞻性的解決方案。這種架構(gòu)通過現(xiàn)實(shí)場(chǎng)景的訓(xùn)練,具備比傳統(tǒng)模式識(shí)別AI更高的認(rèn)知水平。
“世界模型”能夠獲取某一時(shí)間點(diǎn)的世界狀態(tài),并預(yù)測(cè)采取特定行動(dòng)后的新狀態(tài)。然而,由于現(xiàn)實(shí)世界的演化充滿無限不可預(yù)測(cè)性,楊立昆認(rèn)為,抽象化是訓(xùn)練“世界模型”的唯一途徑。meta開源的V-JEPA模型正在進(jìn)行相關(guān)實(shí)驗(yàn),通過預(yù)測(cè)視頻缺失片段來學(xué)習(xí),關(guān)鍵在于構(gòu)建視頻的抽象表征,而非進(jìn)行像素級(jí)的預(yù)測(cè)。

在硅谷舉行的Google I/O 2025開發(fā)者大會(huì)上,谷歌也透露了打造AI時(shí)代操作系統(tǒng)的計(jì)劃,這一操作系統(tǒng)能夠理解物理環(huán)境并代人類進(jìn)行推理決策,本質(zhì)上也是一個(gè)“世界模型”。自2024年末以來,DeepMind首席執(zhí)行官德米斯·哈薩比斯一直在完善“世界模型→通用AI助手”的理論體系。此次I/O大會(huì)上,谷歌CEO桑達(dá)爾·皮查伊與Gemini負(fù)責(zé)人喬希·伍德沃德共同強(qiáng)調(diào)了這一愿景。

谷歌的這一舉措,不僅展現(xiàn)了其對(duì)“世界模型”的重視,更將其與短期戰(zhàn)略緊密結(jié)合,獨(dú)樹一幟。若能成功打造出理解物理環(huán)境的“通用AI助手”,谷歌或?qū)⒊蔀檫B接用戶、企業(yè)與技術(shù)的關(guān)鍵橋梁。對(duì)于追求尖端AI技術(shù)的企業(yè)而言,利用谷歌的“世界模型”研究、多模態(tài)能力及其AGI發(fā)展路徑,將開啟全新的創(chuàng)新篇章。
楊立昆揭示的AI四大能力鴻溝,不僅揭示了現(xiàn)有模型的局限性,更為技術(shù)突破指明了方向。meta通過V-JEPA模型探索抽象表征訓(xùn)練,谷歌將“世界模型”納入操作系統(tǒng)級(jí)戰(zhàn)略,這些行動(dòng)本質(zhì)上都在重構(gòu)AI與物理世界的交互方式。這場(chǎng)角逐的深層意義在于,將AI從模式識(shí)別的工具升級(jí)為具備物理世界理解能力的認(rèn)知主體。隨著行業(yè)從“打補(bǔ)丁”式優(yōu)化轉(zhuǎn)向架構(gòu)級(jí)創(chuàng)新,我們或許正站在通用人工智能(AGI)發(fā)展的關(guān)鍵節(jié)點(diǎn)上。






