近期,視頻生成技術(shù)領(lǐng)域取得了突破性進(jìn)展,特別是在超長(zhǎng)視頻的創(chuàng)作上。上海人工智能實(shí)驗(yàn)室攜手南京大學(xué)、復(fù)旦大學(xué)、南洋理工大學(xué)S-Lab及英偉達(dá)等頂尖機(jī)構(gòu),聯(lián)合推出了LongVie框架,成功攻克了制作高質(zhì)量且風(fēng)格一致的長(zhǎng)視頻所面臨的難題。
LongVie框架致力于提升超長(zhǎng)視頻生成的可控性和一致性。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)視頻生成模型在處理長(zhǎng)時(shí)間視頻時(shí),往往會(huì)出現(xiàn)時(shí)序不連貫和視覺(jué)質(zhì)量下降的問(wèn)題。時(shí)序不連貫表現(xiàn)為視頻內(nèi)容在細(xì)節(jié)上缺乏流暢性,而視覺(jué)質(zhì)量下降則是指隨著視頻時(shí)長(zhǎng)增加,畫(huà)面顏色和清晰度逐漸變差。
為了應(yīng)對(duì)這些挑戰(zhàn),LongVie采取了雙重策略:優(yōu)化控制信號(hào)和統(tǒng)一噪聲初始化。團(tuán)隊(duì)創(chuàng)新性地提出了控制信號(hào)全局歸一化方法,即在視頻生成過(guò)程中,不再局限于單個(gè)片段的歸一化處理,而是對(duì)整個(gè)視頻序列的控制信號(hào)進(jìn)行統(tǒng)一,從而增強(qiáng)了視頻片段之間的連貫性。同時(shí),通過(guò)引入統(tǒng)一噪聲初始化策略,確保所有片段從相同的初始噪聲開(kāi)始生成,有效減少了不同片段間的視覺(jué)差異。
在解決視覺(jué)退化問(wèn)題上,LongVie框架采用了多模態(tài)精細(xì)控制技術(shù)。團(tuán)隊(duì)指出,單一模態(tài)的控制往往難以提供足夠的穩(wěn)定性約束。因此,LongVie結(jié)合了密集控制信號(hào)(例如深度圖)和稀疏控制信號(hào)(如關(guān)鍵點(diǎn)),并引入了退化感知訓(xùn)練策略。這一組合使得模型在處理長(zhǎng)視頻時(shí)能夠保持更高的畫(huà)質(zhì)和細(xì)節(jié)表現(xiàn)力。
LongVie還推出了LongVGenBench基準(zhǔn)數(shù)據(jù)集,這是首個(gè)專為可控超長(zhǎng)視頻生成設(shè)計(jì)的測(cè)試集。該數(shù)據(jù)集包含100個(gè)時(shí)長(zhǎng)超過(guò)1分鐘的高分辨率視頻,旨在為該領(lǐng)域的研究和評(píng)估提供有力支持。通過(guò)定量分析和用戶評(píng)測(cè),LongVie在多個(gè)評(píng)估指標(biāo)上超越了現(xiàn)有技術(shù),贏得了用戶的高度認(rèn)可,達(dá)到了行業(yè)領(lǐng)先水平。
LongVie框架的問(wèn)世標(biāo)志著超長(zhǎng)視頻生成技術(shù)邁入了一個(gè)全新階段,為創(chuàng)作者提供了更大的自由度和創(chuàng)意空間。項(xiàng)目詳細(xì)信息可訪問(wèn)LongVie官方網(wǎng)站獲取。






