在北京市大興區,一場聚焦全球化和人工智能的科技盛宴于2024年12月6日至7日盛大舉行。這場名為2024T-EDGE創新大會暨鈦媒體財經年會的活動,匯聚了全球科技和商業領域的精英,共同探討企業全球化增長的新趨勢,以及人工智能對全球各行業的深遠影響。
在影視制作領域,一個長期存在的挑戰是如何精準捕捉人物的面部、嘴型、表情和肢體動作,尤其是在視頻生成過程中。細微的動作位移和差異都可能導致失真,而要達到好萊塢級別的影視效果,往往需要巨大的投入。然而,隨著生成式AI技術的迅猛發展,這一難題正在被逐步攻克。

MARZ,一家著名的視覺效果(VFX)工作室和AI技術初創公司,于2023年8月推出了新一代AI視效產品——LipDub。這款產品的誕生,旨在解決影視配音中口型不同步的頑疾。在演講中,LipDub的首席執行官Jonathan Bronfman詳細介紹了這款產品的技術原理和應用場景。他透露,LipDub采用了三種方案來實現口形同步:直接對視頻進行翻譯、通過定制虛擬形象進行對話調整,以及通過一段語料實現角色的量身定制。
MARZ的AI研究團隊由特拉維夫大學計算機科學系的知名教授Danny Cohen-Or領導,他是ACM研究員和Isaias Nizri視覺計算主席。Cohen-Or教授與西蒙弗雷澤大學的助理教授Ali Mahdavi-Amiri長期合作,共同領導了MARZ的AI研究。他們此前已成功開展了Vanity AI的研究,這是MARZ開發的第一個AI解決方案。Vanity AI能夠通過AI美妝技術,針對人物面部皺紋進行年輕化處理,已在45多個好萊塢作品中使用。
Jonathan在演講中指出,生成式AI技術已經演進到文生圖、圖生視頻的階段。對于營銷人員和內容創作者來說,這意味著他們可以在極短的時間內生成視頻內容,從而快速驗證視頻效果。然而,視頻內容生成的挑戰依然存在,即速度慢且成本高。但隨著技術的進步,用戶現在可以在幾分鐘內生成一段視頻,并且同一段視頻素材也可以反復使用。
LipDub的口形同步技術不僅適用于真人片段,還進一步擴展到了CG角色制作。Jonathan強調,好萊塢影視畫面的要求不僅僅是口型同步,而是要確保對原始人物/角色表演進行1比1的還原,同時傳遞出飽滿的情緒。為了實現這一目標,LipDub采用了Language Agnostic模型,以實現跨語言無關特征學習。
目前,LipDub已經宣布了beta版,并預計在今年年底取得新的進展。除了服務于好萊塢電影外,LipDub還擴展到了廣告、在線教育、企業宣傳片等多個領域。在在線教育視頻場景中,LipDub能夠營造出真實的聽眾體驗,讓人感覺就像是說話人自己的語言。LipDub還提供了初級和高級兩種模式供用戶選擇,以滿足不同需求。
在演講的最后部分,Jonathan展示了LipDub的新功能——替換對話框(Replace Dialogue)。這一功能類似于文本到語音的轉換,但更加靈活和準確。用戶可以輕松修改視頻中的對話內容,并確保跨語言轉換時能夠恰當地傳遞情感。






