摘要:作為智能視音頻解決方案解決方案的服務商,美攝科技致力于為移動互聯(lián)網(wǎng)、智能手機、智能硬件、傳統(tǒng)廣電及通信運營商等行業(yè)機構提供最前沿的整體視音頻解決方案,為開發(fā)者與行業(yè)合作伙伴提供高效、穩(wěn)定的底層技術支撐,助力合作伙伴實現(xiàn)業(yè)務創(chuàng)新并創(chuàng)造巨大的用戶價值。
2020年10月31日,LiveVideoStackCon 2020 音視頻技術大會在北京麗亭華苑酒店舉行,會議聚焦音視頻技術與全球化、AI與多媒體處理、教育與多媒體、視頻編解碼、服務端開發(fā)優(yōu)化、教育與多媒體等音視頻技術與行業(yè)應用相關熱點話題。匯集 500多位來自泛娛、教育、視頻會議、社交、游戲、電商、金融、物聯(lián)網(wǎng)等行業(yè)資深技術專家與頂尖學者共聚本次多媒體開發(fā)領域盛會。

會議中,北京美攝網(wǎng)絡科技有限公司AI研究組負責人侯康先生受邀出席并分享主題演講《AI合成虛擬人物的技術框架與挑戰(zhàn)》,演講內容從AI合成虛擬人物的技術框架出發(fā),介紹了AI合成虛擬人物技術的背景,該技術通過輸入一段文字,生成接近真實拍攝的主播視頻。進一步詳細介紹了AI合成虛擬人物不同技術路徑之間的差異和優(yōu)缺點,表情和口型預測模型的設計和優(yōu)化思路,3D人臉重建和渲染技術、對抗生成網(wǎng)絡,視頻幀渲染和融合等關鍵技術。針對口型抖動和失真,GAN渲染結果中面部細節(jié)失真,最終視頻的前后幀之間的平滑過渡等難點分享了解決方案。

美攝科技AI合成虛擬主播,將人工智能與計算機圖形學相結合。當計算機獲取語音或者文本中的內容信息后,即可通過計算機圖形學合成技術對虛擬形象的面部進行驅動,渲染及融合,經(jīng)過海量的面部數(shù)據(jù)進行生成對抗網(wǎng)絡的訓練,實現(xiàn)極具逼真感的表情還原,最終實現(xiàn)精細的唇音同步、表情姿態(tài)生動與真人無異的虛擬主播。在新聞播報、虛擬客服、互聯(lián)網(wǎng)教學等領域有豐富的應用場景。

目前美攝科技的產(chǎn)品矩陣包括:視頻高清拍攝及深度編輯SDK、智能視頻生產(chǎn)服務平臺、智能剪輯解決方案、智能手機解決方案、人臉+美顏/貼紙解決方案、云剪輯、虛擬主播、視頻包裝定制設計等服務。覆蓋移動端、PC端、Web端,其從拍攝到編輯的全流程功能,實現(xiàn)當前所有主流視頻的玩法。擁有靈活的技術架構,使用多線程和GPU、CPU協(xié)同預處理機制、自然語言處理演算法等技術,受到各行業(yè)的頭部廠商一致認可,現(xiàn)與如小米、OPPO、ViVO、華碩、獵豹移動、嗶哩嗶哩、新浪、KEEP等各領域頭部客戶展開深度技術合作。并與國家電網(wǎng)、廣電等傳統(tǒng)企業(yè)合作,推動頭條APP、融媒體在政企中的運用。除國內客戶外,美攝科技也布局國外市場,在國際上填補海外市場智能視音頻解決方案的空白。目前,已在美國、韓國、印度、新加坡等多個國家與當?shù)鼗ヂ?lián)網(wǎng)企業(yè)提供深度技術服務,輻射數(shù)千萬海外用戶,助力合作伙伴實現(xiàn)業(yè)務創(chuàng)新并創(chuàng)造巨大的用戶價值。






