MiniMax公司近期震撼發(fā)布了其視頻人工智能模型Hailuo02的升級版本,這一新版本在性能和價格上均實現(xiàn)了重大飛躍。此次升級的核心在于引入了噪聲感知計算重分配(NCR)架構(gòu),據(jù)MiniMax宣稱,這一創(chuàng)新技術(shù)將模型的訓(xùn)練和推理效率提升了高達2.5倍。
NCR架構(gòu)在處理視頻數(shù)據(jù)時展現(xiàn)出了獨特的靈活性。在訓(xùn)練的初期階段,為了提升效率,模型會引入大量人工噪聲,并對視頻進行高度壓縮。隨著訓(xùn)練的深入,當(dāng)視頻逐漸呈現(xiàn)出更高的清晰度時,模型則切換至全分辨率處理,以確保最終輸出的高質(zhì)量。
與舊版相比,Hailuo02不僅在參數(shù)數(shù)量上實現(xiàn)了三倍的增長,訓(xùn)練數(shù)據(jù)集的規(guī)模也擴大了四倍。MiniMax強調(diào),這些數(shù)據(jù)不僅在數(shù)量上有所增加,更在質(zhì)量和多樣性上實現(xiàn)了顯著提升。盡管具體參數(shù)和數(shù)據(jù)集規(guī)模未公開,但Hailuo02在處理復(fù)雜場景和模擬物理過程方面所取得的進步已得到了廣泛認可。
尤為Hailuo02是目前市場上唯一能準(zhǔn)確生成復(fù)雜場景(例如體操動作)的視頻AI模型。這一突破使得MiniMax在視頻生成領(lǐng)域站穩(wěn)了腳跟,并吸引了全球創(chuàng)作者的廣泛關(guān)注。目前,Hailuo02提供了三種不同的變體供用戶選擇,包括768p分辨率的六秒和十秒視頻,以及1080p分辨率的六秒視頻。
在人工分析視頻競賽(Artificial Analysis Video Arena)的基準(zhǔn)測試中,Hailuo02在圖像到視頻類別中取得了令人矚目的成績,僅次于字節(jié)跳動的Seedance,并領(lǐng)先于谷歌備受期待的Veo3。然而,值得注意的是,當(dāng)前版本的Veo3并不支持音頻功能,這在一定程度上限制了其吸引力。
自去年八月發(fā)布以來,Hailuo平臺已見證了超過37億個視頻的誕生。MiniMax表示,盡管初期的推廣策略相對隨機,但很快就引起了全球創(chuàng)作者的濃厚興趣。用戶可以通過多種渠道訪問該模型,包括網(wǎng)頁界面、移動應(yīng)用以及API接口。
在價格方面,Hailuo02也展現(xiàn)出了極高的競爭力。對于API用戶而言,生成一段六秒的768p視頻僅需0.28美元,而1080p版本的費用也僅為0.49美元。相比之下,使用谷歌的Veo3生成一段八秒的1080p視頻可能需要花費高達3美元,具體費用根據(jù)用戶選擇的計劃而定。
MiniMax透露,他們正在不斷努力提升生成速度、增強穩(wěn)定性,并計劃推出更多超越當(dāng)前文本到視頻和圖像到視頻選項的新功能。然而,面對來自Runway等競爭平臺的挑戰(zhàn),這些平臺已經(jīng)提供了如跟蹤鏡頭等更先進的功能,MiniMax仍需加快步伐以保持領(lǐng)先地位。
作為MiniMax周期間活動的一部分,該公司還推出了一個開源語言模型MiniMax-M1,并附上了詳細的參數(shù)計數(shù)和技術(shù)論文。然而,關(guān)于Hailuo02訓(xùn)練架構(gòu)的具體技術(shù)細節(jié),MiniMax目前仍選擇保持神秘,未向外界公開。






