4月6日,Meta推出了一個(gè)AI模型Segment Anything Model(SAM,分割一切模型),能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割,而且萬(wàn)物皆可識(shí)別和一鍵摳圖。
想必很多小伙伴已經(jīng)看到了這個(gè)東西的介紹。對(duì)于XR的從業(yè)者來(lái)說(shuō),Meta的這個(gè)SAM模型可謂石破天驚,XR的發(fā)展突然就這么迎來(lái)了個(gè)強(qiáng)大的核動(dòng)力引擎。
這個(gè)模型看起來(lái)是說(shuō)可以“摳圖”,但本質(zhì)上它是實(shí)現(xiàn)了對(duì)圖像的徹底的結(jié)構(gòu)化。我們說(shuō)文字類信息是結(jié)構(gòu)化信息,但圖像是非結(jié)構(gòu)化的,而很多AI算法就是要解決圖像數(shù)據(jù)結(jié)構(gòu)化問題。但即使經(jīng)歷的多年的發(fā)展,此前AI也就能能夠?qū)σ恍┨囟愋偷膱D像進(jìn)行結(jié)構(gòu)化,比如說(shuō)數(shù)字、文字、人臉等。而Meta的SAM模型一次性實(shí)現(xiàn)了對(duì)圖像中任意類型的目標(biāo)進(jìn)行結(jié)構(gòu)化。
那么為什么說(shuō)這個(gè)SAM對(duì)于XR的發(fā)展將起到核動(dòng)力引擎的作用呢?
作為XR來(lái)說(shuō),一是要人感知世界,二是要世界感知人。但無(wú)論怎樣感知,XR都需要首先能夠理解世界上的萬(wàn)物,然后才能對(duì)其進(jìn)行處理。但一直以來(lái),都沒有一個(gè)很高效的辦法讓XR通過(guò)圖像去理解他“看到”的世界。
舉個(gè)例子來(lái)說(shuō),假設(shè)小明戴著AR眼鏡,拿起一根鐵絲,走到一個(gè)插座面前,拿著鐵絲去捅進(jìn)插座,直到小明被活活電死,AR眼鏡對(duì)這整個(gè)過(guò)程也會(huì)無(wú)動(dòng)于衷,因?yàn)樗鼰o(wú)法通過(guò)圖像識(shí)別對(duì)象,自然也無(wú)法理解小明在干嘛,更談不上給小明發(fā)出任何的提醒了。
如果有了SAM模型的加持,AR眼鏡就能夠理解手、鐵絲、插座等對(duì)象,當(dāng)小明手持鐵絲去做出危險(xiǎn)動(dòng)作時(shí),AI就能通過(guò)AR眼鏡給他發(fā)出危險(xiǎn)提示。
當(dāng)然,有了SAM模型加持的AR眼鏡,不僅能夠幫助人規(guī)避風(fēng)險(xiǎn),也能夠幫助人學(xué)做菜、學(xué)開車、學(xué)飛行、學(xué)織毛衣、學(xué)飼養(yǎng)小寵物,至于說(shuō)學(xué)編程、學(xué)視頻剪輯等更是不在話下。
警長(zhǎng)現(xiàn)在能夠想象到的場(chǎng)景一定只是SAM應(yīng)用的一小部分??偠灾?,XR在SAM的賦能下具備了通過(guò)圖像理解現(xiàn)實(shí)的能力,無(wú)論是“增強(qiáng)現(xiàn)實(shí)”還是“虛擬現(xiàn)實(shí)”,在內(nèi)容制作成本上會(huì)大幅降低,在使用場(chǎng)景上會(huì)大幅增加。SAM的出現(xiàn),無(wú)異于為XR行業(yè)安裝了一臺(tái)核動(dòng)力引擎,而且,已然按下了啟動(dòng)鍵。