蘋果公司與學(xué)術(shù)界攜手,在人工智能領(lǐng)域取得了一項(xiàng)突破性進(jìn)展。據(jù)最新消息,蘋果機(jī)器學(xué)習(xí)團(tuán)隊(duì)與南京大學(xué)及香港科技大學(xué)的科研團(tuán)隊(duì)共同研發(fā)出一款名為Matrix3D的3D人工智能模型,該模型能夠在僅依靠少量二維照片的情況下,實(shí)現(xiàn)三維物體與場(chǎng)景的精確重建。
傳統(tǒng)的攝影測(cè)量技術(shù)依賴于復(fù)雜的流程,包括姿態(tài)估計(jì)和深度預(yù)測(cè)等多個(gè)步驟,不僅耗時(shí)較長(zhǎng),而且容易出現(xiàn)誤差。而Matrix3D則通過(guò)創(chuàng)新的方式,簡(jiǎn)化了這一繁瑣過(guò)程。它能夠接收?qǐng)D像、相機(jī)參數(shù)以及深度數(shù)據(jù),利用統(tǒng)一的架構(gòu)一次性完成所有處理任務(wù),不僅顯著提升了工作效率,同時(shí)也提高了重建的準(zhǔn)確性。
Matrix3D的訓(xùn)練方式也別具一格。研究人員借鑒了Transformer架構(gòu)中的掩蔽學(xué)習(xí)策略,通過(guò)在訓(xùn)練過(guò)程中隨機(jī)隱藏部分輸入數(shù)據(jù),迫使模型學(xué)習(xí)如何填補(bǔ)這些信息空白。這一策略使得Matrix3D即使在面對(duì)較小或不完整的數(shù)據(jù)集時(shí),也能實(shí)現(xiàn)有效的訓(xùn)練,從而保證了其強(qiáng)大的泛化能力。
實(shí)驗(yàn)結(jié)果顯示,Matrix3D僅需三張輸入圖像,便能夠生成出物體乃至整個(gè)環(huán)境的詳細(xì)3D重建。這一成果無(wú)疑為蘋果公司的沉浸式頭顯產(chǎn)品,如Apple Vision Pro等,提供了極為豐富的應(yīng)用場(chǎng)景和想象空間。用戶可以通過(guò)這些重建的3D模型,更加直觀地了解物體和環(huán)境的真實(shí)情況,從而獲得更加沉浸式的體驗(yàn)。
為了推動(dòng)Matrix3D的進(jìn)一步發(fā)展和應(yīng)用,研究人員已經(jīng)在GitHub上公開了模型的源代碼,并在學(xué)術(shù)平臺(tái)arXiv上發(fā)表了相關(guān)論文。他們還創(chuàng)建了一個(gè)官方網(wǎng)站,用戶可以在其中觀看更多示例視頻,并親自體驗(yàn)與一些物體和環(huán)境的點(diǎn)云重建進(jìn)行交互的奇妙過(guò)程。






