多模態(tài)技術(shù)正成為智能座艙的新熱點。隨著技術(shù)的不斷迭代,大模型正逐步從單一模態(tài)向多模態(tài)演進,預(yù)計將成為人機交互的重要入口。咨詢公司Gartner預(yù)測,基于多模態(tài)大模型的生成式AI應(yīng)用將在未來幾年內(nèi)激增,從2023年的1%增長至2027年的40%,展現(xiàn)出巨大的發(fā)展?jié)摿Α?/p>
智能汽車成為原生多模態(tài)大模型的理想應(yīng)用場景。GPT-4o和商湯絕影的最新版本已經(jīng)能夠感知外部環(huán)境、人的情緒以及其他非語音信號,實現(xiàn)了多模態(tài)實時交互,為車企帶來了更多商業(yè)落地的可能性。商湯認(rèn)為,多模態(tài)大模型的引入突破了空間限制,實現(xiàn)了車內(nèi)用戶與更廣闊物理和數(shù)字世界的聯(lián)接,推動了智能汽車向超級智能體的進化。
火山引擎汽車行業(yè)總經(jīng)理楊立偉也持相似觀點,認(rèn)為大模型天生跨終端,能夠生態(tài)打通,將來大模型在座艙的最大價值在于幫助集成生態(tài)并打通各個終端。中國企業(yè)在這一領(lǐng)域的快速發(fā)展,正硬剛國際巨頭如GPT-4o。
那么,何為原生多模態(tài)?原生多模態(tài)指從訓(xùn)練階段開始,模型就利用大量不同模態(tài)的數(shù)據(jù)進行預(yù)訓(xùn)練,實現(xiàn)緊密的耦合。它不僅可以在輸入和輸出端實現(xiàn)多模態(tài),還具備強大的多模態(tài)推理能力以及跨模態(tài)遷移能力。商湯絕影已率先實現(xiàn)原生多模態(tài)大模型的車端部署,展示了強大的車端推理能力。
然而,大模型在車載應(yīng)用中也面臨挑戰(zhàn)。科大訊飛智能汽車事業(yè)部智能座艙業(yè)務(wù)總經(jīng)理呂思南指出,多模態(tài)大模型的引入對算力和算法提出了更高要求。如何在多樣化的芯片選擇中更優(yōu)地使用算力,以及實現(xiàn)跨模態(tài)數(shù)據(jù)的全鏈路打通,是當(dāng)前亟需解決的問題。
智能座艙在實際應(yīng)用中也面臨取舍問題。火山引擎座艙大模型負責(zé)人張航強調(diào),座艙內(nèi)的用戶需求近幾年沒有太大變化,其核心是與車的交互。因此,當(dāng)前的重心應(yīng)是改變車內(nèi)場景的交互效率,而非急于產(chǎn)品創(chuàng)新。百度智艙業(yè)務(wù)部總經(jīng)理李濤也表達了類似觀點,指出頻繁使用的功能可能反映了整體車輛設(shè)計的智能化程度較低。