金山云近期宣布,已經成功適配了階躍星辰最新推出的兩款多模態大模型,為用戶帶來了前所未有的體驗。這兩款模型分別是全球參數量最大的開源視頻生成模型Step-Video-T2V,以及業界首款產品級開源語音交互模型Step-Audio。現在,用戶只需登錄金山云官方網站,即可輕松體驗。
在Step-Video-T2V模型的適配上,金山云憑借強大的算力支持和穩定的運行環境,充分釋放了模型的性能,為用戶帶來了流暢的視頻生成體驗。據了解,Step-Video-T2V模型擁有高達300億的參數,能夠直接生成204幀、540P分辨率的高質量視頻。在各項評測中,該模型在指令遵循、運動平滑性、物理合理性以及美感度等方面,均顯著超越了目前市面上效果最佳的開源視頻生成模型。
為了支持Step-Video-T2V模型的多卡并行部署,階躍星辰官方提供了全面的支持。其中,文本編碼器和VAE部分由獨立的進程維護,而DiT部分則可以選擇4卡并行或8卡并行,每張卡至少需要80G的顯存。對于單臺機器的運行,推薦使用5個80G顯存的GPU。在部署方面,金山云已經為用戶預裝好了ubuntu22.04系統,并內置了Step-Video-T2V模型和依賴環境的鏡像。通過金山云的云計算環境,可以精準協調各卡資源,確保文本編碼器、VAE和DiT等部分協同工作,大幅提升視頻生成效率。

用戶只需在金山云裸金屬服務器控制臺選擇內置Step-Video-T2V的自定義鏡像進行創建,創建完成后即可啟動模型并使用。啟動服務也非常簡單,用戶只需登錄服務器進入Step-Video-T2V-main目錄,運行相應的Python腳本即可。當看到“Running on all addresses (0.0.0.0)”的提示時,即表示服務已成功啟動。
除了Step-Video-T2V模型外,金山云還完成了實時語音對話系統Step-Audio模型的適配工作。通過先進的云計算技術,金山云降低了模型的響應延遲,讓用戶與模型的對話更加自然流暢。無論是實時語音聊天還是語音指令控制,Step-Audio模型都能快速準確地響應,為用戶提供優質的語音交互服務。Step-Audio作為業內創新性的開源語音模型,能夠根據不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達,并與用戶進行高質量對話。
在各項主流公開評測中,Step-Audio模型均表現出色,位列第一。特別是在HSK-6(漢語水平考試六級)評測中,Step-Audio模型更是展現出了卓越的性能,成為最懂中國話的開源語音交互大模型。
在部署方面,金山云同樣為用戶預裝好了ubuntu22.04系統,并內置了Step-Audio模型和依賴環境的鏡像。用戶只需在金山云裸金屬服務器控制臺選擇內置Step-Audio的自定義鏡像進行創建,創建完成后即可啟動模型并使用。啟動服務同樣簡單,用戶只需登錄服務器進入Step-Audio-main目錄,運行相應的Python腳本即可。

隨著人工智能技術的快速發展,金山云始終與前沿技術保持同步,不斷攜手生態合作伙伴,為前沿技術的落地轉化提供有力支持。通過此次對階躍星辰兩款多模態大模型的適配,金山云再次展現了其在云計算領域的強大實力和技術創新能力。






