日本爽爽爽爽爽爽免费,亚洲精品一区二区三区在线观看,国产高清不卡码一区二区三区

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

Stable Video Diffusion來了，代碼權(quán)重已上線

發(fā)布時(shí)間：2023-12-08 21:41:00 作者：網(wǎng)友整理

機(jī)器之心報(bào)道

機(jī)器之心編輯部

Stability AI 的視頻生成模型看來效果不錯(cuò)。

AI 畫圖的著名公司 Stability AI，終于入局 AI 生成視頻了。

本周二，基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來了，AI 社區(qū)馬上開始了熱議。

Stable Video Diffusion來了，代碼權(quán)重已上線

很多人都表示「我們終于等到了」。

Stable Video Diffusion來了，代碼權(quán)重已上線

項(xiàng)目地址：https://Github.com/Stability-AI/generative-models

現(xiàn)在，你可以基于原有的靜止圖像來生成一段幾秒鐘的視頻。

基于 Stability AI 原有的 Stable Diffusion 文生圖模型，Stable Video Diffusion 成為了開源或已商業(yè)行列中為數(shù)不多的視頻生成模型之一。

Stable Video Diffusion來了，代碼權(quán)重已上線

但目前還不是所有人都可以使用，Stable Video Diffusion 已經(jīng)開放了用戶候補(bǔ)名單注冊（

https://stability.ai/contact）。

據(jù)介紹，Stable Video Diffusion 可以輕松適應(yīng)各種下游任務(wù)，包括通過對多視圖數(shù)據(jù)集進(jìn)行微調(diào)從單個(gè)圖像進(jìn)行多視圖合成。Stability AI 表示，正在計(jì)劃建立和擴(kuò)展這個(gè)基礎(chǔ)的各種模型，類似于圍繞 stable diffusion 建立的生態(tài)系統(tǒng)。

Stable Video Diffusion來了，代碼權(quán)重已上線

Stable Video Diffusion 以兩種圖像到視頻模型的形式發(fā)布，能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。

在外部評估中，Stability AI 證實(shí)這些模型超越了用戶偏好研究中領(lǐng)先的閉源模型：

Stable Video Diffusion來了，代碼權(quán)重已上線

Stability AI 強(qiáng)調(diào)，Stable Video Diffusion 現(xiàn)階段不適用于現(xiàn)實(shí)世界或直接的商業(yè)應(yīng)用，后續(xù)將根據(jù)用戶對安全和質(zhì)量的見解和反饋完善該模型。

Stable Video Diffusion來了，代碼權(quán)重已上線

論文地址：https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各樣的開源模型大家族中的一員。現(xiàn)在看來，他們的產(chǎn)品已經(jīng)橫跨圖像、語言、音頻、三維和代碼等多種模態(tài)，這是他們致力于提升 AI 最好的證明。

Stable Video Diffusion 的技術(shù)層面

Stable Video Diffusion 作為一種高分辨率的視頻潛在擴(kuò)散模型，達(dá)到了文本到視頻或圖像到視頻的 SOTA 水平。近期，通過插入時(shí)間層并在小型高質(zhì)量視頻數(shù)據(jù)集上進(jìn)行微調(diào)，為 2D 圖像合成訓(xùn)練的潛在擴(kuò)散模型已轉(zhuǎn)變?yōu)樯梢曨l模型。然而，文獻(xiàn)中的訓(xùn)練方法千差萬別，該領(lǐng)域尚未就視頻數(shù)據(jù)整理的統(tǒng)一策略達(dá)成一致。

在 Stable Video Diffusion 的論文中，Stability AI 確定并評估了成功訓(xùn)練視頻潛在擴(kuò)散模型的三個(gè)不同階段：文本到圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和高質(zhì)量視頻微調(diào)。他們還證明了精心準(zhǔn)備的預(yù)訓(xùn)練數(shù)據(jù)集對于生成高質(zhì)量視頻的重要性，并介紹了訓(xùn)練出一個(gè)強(qiáng)大基礎(chǔ)模型的系統(tǒng)化策劃流程，其中包括了字幕和過濾策略。

Stability AI 在論文中還探討了在高質(zhì)量數(shù)據(jù)上對基礎(chǔ)模型進(jìn)行微調(diào)的影響，并訓(xùn)練出一個(gè)可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征，例如圖像到視頻的生成以及對攝像機(jī)運(yùn)動(dòng)特定的 LoRA 模塊的適應(yīng)性。除此之外，該模型還能夠提供強(qiáng)大的多視圖 3D 先驗(yàn)，這可以作為多視圖擴(kuò)散模型的基礎(chǔ)，模型以前饋方式生成對象的多個(gè)視圖，只需要較小的算力需求，性能還優(yōu)于基于圖像的方法。

Stable Video Diffusion來了，代碼權(quán)重已上線

具體而言，成功訓(xùn)練該模型包括以下三個(gè)階段：

階段一：圖像預(yù)訓(xùn)練。本文將圖像預(yù)訓(xùn)練視為訓(xùn)練 pipeline 的第一階段，并將初始模型建立在 Stable Diffusion 2.1 的基礎(chǔ)上，這樣一來為視頻模型配備了強(qiáng)大的視覺表示。為了分析圖像預(yù)訓(xùn)練的效果，本文還訓(xùn)練并比較了兩個(gè)相同的視頻模型。圖 3a 結(jié)果表明，圖像預(yù)訓(xùn)練模型在質(zhì)量和提示跟蹤方面都更受青睞。

Stable Video Diffusion來了，代碼權(quán)重已上線

階段 2：視頻預(yù)訓(xùn)練數(shù)據(jù)集。本文依靠人類偏好作為信號來創(chuàng)建合適的預(yù)訓(xùn)練數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集為 LVD（Large Video Dataset ），由 580M 對帶注釋的視頻片段組成。

進(jìn)一步的研究表明生成的數(shù)據(jù)集包含可能會(huì)降低最終視頻模型性能的示例。因此，本文還采用了密集光流來注釋數(shù)據(jù)集。

Stable Video Diffusion來了，代碼權(quán)重已上線