【ITBEAR】在自動駕駛技術(shù)的浩瀚星空中,一條名為“端到端+大模型”的軌跡似乎正逐漸清晰,成為眾多行業(yè)巨擘心中的終極方向。
然而,正如自動駕駛技術(shù)的多樣性與復(fù)雜性,大模型的構(gòu)建亦無固定模板可循。技術(shù)的海洋總是波瀾壯闊,隨著時光的流逝與新技術(shù)的涌現(xiàn),自動駕駛技術(shù)也在不斷進(jìn)化,展現(xiàn)出千姿百態(tài)的面貌。
自2022年末ChatGPT橫空出世以來,生成式AI大模型逐漸分化為兩大流派:語言模型與世界模型。語言模型在數(shù)字世界深耕細(xì)作,從單一文本模態(tài)拓展至包含圖片、視頻的多模態(tài),實(shí)現(xiàn)了文生圖、看圖說話、圖生圖、文生視頻等能力,Sora與GPT4-o便是其中的佼佼者。而世界模型則跨越數(shù)字與物理的界限,從一維的數(shù)字智能邁向三維的空間智能。

李飛飛,這位出生于北京、在美國成就輝煌的AI先驅(qū),對空間智能有著獨(dú)到的見解。她認(rèn)為,空間智能意味著AI能在三維空間與時間中以三維方式感知、推理并行動,與現(xiàn)實(shí)世界進(jìn)行交互。相較于大語言模型以文本序列對世界進(jìn)行一維表示,空間智能將三維視為表達(dá)的核心。

從自動駕駛大模型的賽道來看,小鵬與理想的選擇更偏向于在文本基礎(chǔ)上疊加圖片和視頻模態(tài)的語言模型,而蔚來與特斯拉則傾向于空間智能的世界模型。語言模型如東北大哥,先聲奪人,再決定行動;世界模型則如湖南老表,干脆利落,直接給出行駛軌跡。

在自動駕駛技術(shù)的激烈競爭中,數(shù)據(jù)標(biāo)注成為關(guān)鍵一環(huán)。然而,隨著端到端范式的到來,許多數(shù)據(jù)需要重新標(biāo)注。語言模型依賴于海量的有監(jiān)督學(xué)習(xí)數(shù)據(jù)標(biāo)注,而世界模型則通過無監(jiān)督學(xué)習(xí),無需數(shù)據(jù)標(biāo)注,便能應(yīng)對海量數(shù)據(jù)的新范式。蔚來汽車的世界模型通過推演萬千平行世界,選擇最優(yōu)行駛軌跡,這一能力不僅直接給出行駛結(jié)果,更通過無監(jiān)督學(xué)習(xí)訓(xùn)練出對駕駛場景的深度理解能力,實(shí)現(xiàn)了從感知到認(rèn)知的躍升。

相較于傳統(tǒng)的BEV+OCC感知能力,世界模型展現(xiàn)出更加細(xì)膩的場景理解能力。它能夠理解當(dāng)前的光照條件、天氣情況,這些對自動駕駛至關(guān)重要的因素。通過海量數(shù)據(jù)的無監(jiān)督訓(xùn)練,世界模型建立了對當(dāng)前世界的深度理解能力,為準(zhǔn)確推演未來世界奠定了堅(jiān)實(shí)基礎(chǔ)。
在這場自動駕駛技術(shù)的革命中,算力成為制約發(fā)展的關(guān)鍵。蔚來選擇世界模型,或許正是基于其對算力的更高要求。而隨著算力的不斷升級,理想和小鵬從語言模型向世界模型的過渡,似乎已成為一個可期的未來。






