在科技界引發廣泛關注的最新消息中,谷歌旗下的DeepMind人工智能研究實驗室通過CBS知名欄目《60分鐘》向公眾展示了其最新研發的AI模型——Genie2。這一突破性技術能夠將單一的圖像或簡單文本描述轉化為高度精細的3D交互式環境,為機器人訓練、虛擬世界的構建乃至通用人工智能(AGI)的發展開辟了全新的道路。
據深入了解,Genie2的核心優勢在于其端到端的3D環境生成能力。用戶只需提供一張靜態圖片,比如瀑布的風景照,或者輸入一段文字描述,如“雪地中的戰士”,Genie2就能自動生成一個可自由探索的3D交互環境,且無需人工參與設計。這一特性使得Genie2在技術的創新性上得到了廣泛認可,并在社交平臺上引發了熱烈討論。
更為引人注目的是,Genie2所生成的3D環境不僅高度逼真,還支持物理模擬,如重力、水流和煙霧效果,以及動態光影和角色動畫。用戶或AI代理可以通過鍵盤和鼠標在環境中進行跳躍、游泳等互動操作,體驗極為真實。Genie2還具備環境一致性功能,能夠記住未顯示的場景部分,如轉角后的地形,生成時長可達10至60秒,多數示例在10至20秒之間。
在技術上,Genie2基于DeepMind的Gemini架構和大規模視頻數據集,結合了先進的生成技術。其核心技術包括時空視頻分詞器、自回歸動態模型、潛在動作模型等。這些技術共同作用于Genie2,使其能夠逐幀生成視頻,根據用戶操作和先前幀預測后續場景,確保環境的連貫性。同時,通過無監督學習從視頻中提取可控動作,支持交互性,并利用未標注的互聯網視頻數據集訓練模型理解物理、材質和光影,生成多樣化的3D世界。
在應用方面,Genie2的多樣化功能使其在多個領域展現出廣闊的應用前景。在游戲開發領域,Genie2能夠快速將概念藝術或草圖轉化為可玩3D環境,大大縮短了原型設計時間,對獨立開發者和AAA游戲工作室來說無疑是一個巨大的福音。在虛擬現實與數字藝術領域,Genie2能夠生成沉浸式的VR場景或交互式藝術作品,提升用戶體驗;在機器人訓練方面,Genie2為AI代理提供多樣化的3D訓練環境,模擬現實場景,如工廠和城市,加速機器人導航和操作能力的開發。
目前,Genie2主要定位為研究與原型工具,尚未向公眾開放。但開發者可以通過DeepMind或Hugging Face的測試通道申請訪問權限。在申請成功后,開發者需要準備輸入數據,如高分辨率照片,以優化生成質量,并配置高性能的運行環境,如A100GPU或高性能集群,以支持實時生成。同時,開發者還可以使用鍵盤和鼠標測試交互功能,或集成DeepMind的SIMA代理執行任務。
自Genie2亮相《60分鐘》以來,社區對其3D交互生成與機器人訓練潛力給予了高度評價。許多開發者認為,Genie2將靜態圖像轉化為動態世界的過程令人嘆為觀止,具有在游戲和VR領域的顛覆性潛力。然而,也有部分用戶指出,Genie2的生成時長和圖像質量衰減問題限制了其商業化應用,并期待DeepMind能夠延長一致性時間和優化渲染效率。
DeepMind對此表示,將持續優化Genie2的一致性和渲染效率,并考慮未來與Gemini Robotics整合,以增強機器人交互。同時,社區也在探討將Genie2與其他AI技術整合,構建從環境生成到任務自動化的閉環生態。隨著技術的不斷進步,Genie2有望在未來成為3D世界平臺,提供共享環境模板和API,推動AI技術的進一步發展。






