(ChinaZ.com)5月29日 消息:雖然像Runway ML這樣的公司在將文本轉換為視頻方面取得了長足的進步,但 VideoChatGPT卻另辟蹊徑,賦予語言模型分析視頻的能力。Video-ChatGPT 可以用文本描述視頻的內容,例如,通過突出顯示不尋常的元素來解釋為什么剪輯可能很有趣。
開發人員通過一段長頸鹿從跳水板上跳入水中的視頻來演示這一點。Video-ChatGPT 指出:“這并不常見,因為長頸鹿并不擅長雜技或潛水。”
鏈接到開源語言模型的預訓練視頻編碼器
研究人員將 Video-ChatGPT 的設計描述為簡單且易于擴展。它使用預訓練的視頻編碼器,并將其與預訓練然后微調的語言模型相結合。
盡管名稱如此,阿布扎比穆罕默德·本·扎耶德人工智能大學的項目并未使用 OpenAI 技術。相反,研究人員嵌入了一個線性層,將視頻編碼器連接到語言模型。
除了要求特定任務的用戶提示外,語言模型還會使用定義其角色和一般工作的系統命令進行提示。
人機增強數據集
研究人員結合使用人工注釋和半自動化方法來生成高質量數據,以微調 Vicuna 模型。這些數據的范圍從詳細描述到創造性任務和訪談,涵蓋了各種不同的概念。
總的來說,該數據集包含大約86,000個高質量的問答,一些由人類注釋,一些由 GPT 模型注釋,一些由圖像分析系統的上下文注釋。
Video-ChatGPT 的核心是其結合視頻理解和文本生成的能力。它在視頻推理、創造力和對時間和空間的理解方面的能力已經過廣泛測試。
多模態人工智能未來
在最近文本生成取得重大進展之后,OpenAI 和谷歌等公司正在轉向多模態模型。Bard 理解并可以對圖像做出反應,并在其正式發布時展示了這些能力。
從圖像到移動圖像將是下一個合乎邏輯的步驟。谷歌已經宣布開發一款將于今年晚些時候發布的 帶有 Project Gemini 的大型多模式 AI 模型。