亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

機(jī)器之心報(bào)道

機(jī)器之心編輯部

Stability AI 的視頻生成模型看來效果不錯(cuò)。

AI 畫圖的著名公司 Stability AI,終于入局 AI 生成視頻了。

本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來了,AI 社區(qū)馬上開始了熱議。

Stable Video Diffusion來了,代碼權(quán)重已上線

很多人都表示「我們終于等到了」。

Stable Video Diffusion來了,代碼權(quán)重已上線

項(xiàng)目地址:https://Github.com/Stability-AI/generative-models

現(xiàn)在,你可以基于原有的靜止圖像來生成一段幾秒鐘的視頻。

基于 Stability AI 原有的 Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開源或已商業(yè)行列中為數(shù)不多的視頻生成模型之一。

Stable Video Diffusion來了,代碼權(quán)重已上線

Stable Video Diffusion來了,代碼權(quán)重已上線

但目前還不是所有人都可以使用,Stable Video Diffusion 已經(jīng)開放了用戶候補(bǔ)名單注冊(

https://stability.ai/contact)。

據(jù)介紹,Stable Video Diffusion 可以輕松適應(yīng)各種下游任務(wù),包括通過對多視圖數(shù)據(jù)集進(jìn)行微調(diào)從單個(gè)圖像進(jìn)行多視圖合成。Stability AI 表示,正在計(jì)劃建立和擴(kuò)展這個(gè)基礎(chǔ)的各種模型,類似于圍繞 stable diffusion 建立的生態(tài)系統(tǒng)。

Stable Video Diffusion來了,代碼權(quán)重已上線

Stable Video Diffusion來了,代碼權(quán)重已上線

Stable Video Diffusion 以兩種圖像到視頻模型的形式發(fā)布,能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。

在外部評估中,Stability AI 證實(shí)這些模型超越了用戶偏好研究中領(lǐng)先的閉源模型:

Stable Video Diffusion來了,代碼權(quán)重已上線

Stability AI 強(qiáng)調(diào),Stable Video Diffusion 現(xiàn)階段不適用于現(xiàn)實(shí)世界或直接的商業(yè)應(yīng)用,后續(xù)將根據(jù)用戶對安全和質(zhì)量的見解和反饋完善該模型。

Stable Video Diffusion來了,代碼權(quán)重已上線

論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各樣的開源模型大家族中的一員。現(xiàn)在看來,他們的產(chǎn)品已經(jīng)橫跨圖像、語言、音頻、三維和代碼等多種模態(tài),這是他們致力于提升 AI 最好的證明。

Stable Video Diffusion 的技術(shù)層面

Stable Video Diffusion 作為一種高分辨率的視頻潛在擴(kuò)散模型,達(dá)到了文本到視頻或圖像到視頻的 SOTA 水平。近期,通過插入時(shí)間層并在小型高質(zhì)量視頻數(shù)據(jù)集上進(jìn)行微調(diào),為 2D 圖像合成訓(xùn)練的潛在擴(kuò)散模型已轉(zhuǎn)變?yōu)樯梢曨l模型。然而,文獻(xiàn)中的訓(xùn)練方法千差萬別,該領(lǐng)域尚未就視頻數(shù)據(jù)整理的統(tǒng)一策略達(dá)成一致。

在 Stable Video Diffusion 的論文中,Stability AI 確定并評估了成功訓(xùn)練視頻潛在擴(kuò)散模型的三個(gè)不同階段:文本到圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和高質(zhì)量視頻微調(diào)。他們還證明了精心準(zhǔn)備的預(yù)訓(xùn)練數(shù)據(jù)集對于生成高質(zhì)量視頻的重要性,并介紹了訓(xùn)練出一個(gè)強(qiáng)大基礎(chǔ)模型的系統(tǒng)化策劃流程,其中包括了字幕和過濾策略。

Stability AI 在論文中還探討了在高質(zhì)量數(shù)據(jù)上對基礎(chǔ)模型進(jìn)行微調(diào)的影響,并訓(xùn)練出一個(gè)可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征,例如圖像到視頻的生成以及對攝像機(jī)運(yùn)動(dòng)特定的 LoRA 模塊的適應(yīng)性。除此之外,該模型還能夠提供強(qiáng)大的多視圖 3D 先驗(yàn),這可以作為多視圖擴(kuò)散模型的基礎(chǔ),模型以前饋方式生成對象的多個(gè)視圖,只需要較小的算力需求,性能還優(yōu)于基于圖像的方法

Stable Video Diffusion來了,代碼權(quán)重已上線

具體而言,成功訓(xùn)練該模型包括以下三個(gè)階段:

階段一:圖像預(yù)訓(xùn)練。本文將圖像預(yù)訓(xùn)練視為訓(xùn)練 pipeline 的第一階段,并將初始模型建立在 Stable Diffusion 2.1 的基礎(chǔ)上,這樣一來為視頻模型配備了強(qiáng)大的視覺表示。為了分析圖像預(yù)訓(xùn)練的效果,本文還訓(xùn)練并比較了兩個(gè)相同的視頻模型。圖 3a 結(jié)果表明,圖像預(yù)訓(xùn)練模型在質(zhì)量和提示跟蹤方面都更受青睞。

Stable Video Diffusion來了,代碼權(quán)重已上線

階段 2:視頻預(yù)訓(xùn)練數(shù)據(jù)集。本文依靠人類偏好作為信號來創(chuàng)建合適的預(yù)訓(xùn)練數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集為 LVD(Large Video Dataset ),由 580M 對帶注釋的視頻片段組成。

進(jìn)一步的研究表明生成的數(shù)據(jù)集包含可能會(huì)降低最終視頻模型性能的示例。因此,本文還采用了密集光流來注釋數(shù)據(jù)集。

Stable Video Diffusion來了,代碼權(quán)重已上線

此外,本文還應(yīng)用光學(xué)字符識(shí)別來清除包含大量文本的剪輯。最后,本文使用 CLIP 嵌入來注釋每個(gè)剪輯的第一幀、中間幀和最后一幀。下表提供了 LVD 數(shù)據(jù)集的一些統(tǒng)計(jì)信息:

Stable Video Diffusion來了,代碼權(quán)重已上線

階段 3:高質(zhì)量微調(diào)。為了分析視頻預(yù)訓(xùn)練對最后階段的影響,本文對三個(gè)模型進(jìn)行了微調(diào),這些模型僅在初始化方面有所不同。圖 4e 為結(jié)果。

Stable Video Diffusion來了,代碼權(quán)重已上線

看起來這是個(gè)好的開始。什么時(shí)候,我們能用 AI 直接生成一部電影呢?

參考內(nèi)容:

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

https://news.ycombinator.com/item?id=38368287

分享到:
標(biāo)簽:Stable
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定