互聯(lián)網(wǎng)經(jīng)歷從圖文至短視頻、直播發(fā)展之后,人們對視頻視頻畫質(zhì)的追求也越來越高。但這一趨勢也帶來了新的矛盾點,一方面是日益增長的視覺體驗需求,一方面是設(shè)備性能、傳輸成本、用戶帶寬的限制。
隨著實時互動場景的爆發(fā),很多RTE場景集中在移動端,在移動終端用戶的設(shè)備性能參差不齊,這就要求移動端實時超分的復(fù)雜度必須極低,這樣才能在大部分移動設(shè)備中做到實時處理。
如何在超低計算量的情況下還保持較好的視頻超分效果,聲網(wǎng)人工智能算法團隊經(jīng)過持續(xù)的技術(shù)鉆研,正式推出了業(yè)內(nèi)首個基于移動端實時處理的多倍超分算法,該算法的優(yōu)勢是成本低、功耗小,不需要部署 GPU服務(wù)器,僅依靠移動端設(shè)備自身的CPU、GPU或NPU來實時超分,以較小的算法計算量實現(xiàn)視頻分辨率的多倍超分,有效增強了視頻的畫質(zhì),并降低視頻傳輸?shù)某杀尽?nbsp;
由于移動端的算力有限,并且對算法的功耗、模型大小要求十分苛刻,這類算法的研發(fā)難度是極具挑戰(zhàn)性的,既要保持較好超分效果,也要滿足移動端實時處理的要求。傳統(tǒng)超分的技術(shù)原理可以簡單理解為插值+銳化,插值是將低分辨圖像放大為高分辨率圖像,銳化是使圖像邊緣更清晰的一種圖像處理方法,插值法和銳化方法,都是人工基于觀察、總結(jié)和試驗出來的方法,存在一定的局限性,常常出現(xiàn)圖像放大后出現(xiàn)模糊、銳化過度的現(xiàn)象。
而聲網(wǎng)移動端實時超分的技術(shù)原理是基于深度學(xué)習(xí)算法進行豐富的視頻數(shù)據(jù)訓(xùn)練,從大量的低分辨圖像和高分辨圖像對,有監(jiān)督地學(xué)習(xí)低分辨到高分辨率的映射關(guān)系,實現(xiàn)圖像放大后,細(xì)節(jié)豐富、畫面清晰的效果,其超分效果、自適應(yīng)能力明顯優(yōu)于傳統(tǒng)的超分方法。
從之前聲網(wǎng)發(fā)布的一個視頻demo可以看到,360p 視頻在開啟多倍超分后,畫質(zhì)實現(xiàn)了明顯的增強,視頻中的鵝卵石與遠處山脈的分辨率變的更加清晰,不僅保證了視頻畫質(zhì),還降低了視頻的實時傳輸成本。
目前聲網(wǎng)多倍超分已跟多個客戶進行了集成,并得到客戶高度認(rèn)可,并為行業(yè)提供了全新的解決方案。