“喂喂,大家能聽得清我說話嗎,我這邊有點吵“。在視頻會議、語聊房、游戲語音等眾多場景中,相信很多人都有過類似的經歷,尤其在疫情發生后,在線辦公變的越來越普遍,但復雜的辦公場景卻常常伴隨吵鬧的環境噪聲影響視頻會議的效果,例如同事們的鍵盤敲擊聲、家里寵物的吵鬧聲、孩子的哭鬧聲、家人的剁菜聲等,都會通過視頻會議傳送到各個參會者的耳中,讓會議過程非常糟心。
面對這些實時互動場景里的環境噪聲,到底該怎么處理?聲網音頻技術團隊自研了基于海量數據訓練的 AI 降噪算法,可以有效抑制在音視頻通話過程中的上百種背景噪聲,并保證語音無損傷,最終有效提升在多種復雜場景下的實時互動體驗,讓通話體驗更佳。
我們可以通過下方的兩組場景海報更直觀的了解聲網 AI 降噪在實時互動場景的應用。
聲網 AI 降噪:兼顧強降噪與高保真,實現遠場去混響
相比于傳統的一些降噪算法,聲網 AI 降噪的效果有巨大提升,可以一次性解決上百種突發性噪聲,比如在會議場景可能經常會遇到敲鍵盤,裝修、背景討論等噪聲;居家辦公可能會遇到小孩哭叫、廚房做飯等噪聲,這些噪聲通通可以抑制干凈。
聲網 AI 降噪在強降噪的同時還能兼顧高保真,即使在多人同時說話的場景下,做到在抑制噪聲的同時不對說話人語音產生損傷,使每個人的聲音都聽得清晰。
我們還實現了在不增加額外運算量的前提下,對遠場語音具有明顯的混響抑制能力,如果你在一個房間里面離麥克風比較遠,這時候對方聽你的聲音是模糊的,使用了聲網的 AI 降噪算法,可以使對端也能清晰地聽到你的聲音。
此外,聲網自研的 AI 推理引擎還可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平臺以低精度損傷、高性能、低功耗方式運行,使用戶的設備不卡不燙。
我們可以通過聲網公眾號找到這篇文章,通過微信文章中的 AI 降噪音頻Demo 更直觀的體驗聲網 AI 降噪帶來的遠場去混響和噪聲抑制能力,Demo中依次展示敲擊鍵盤音、辦公室噪聲等典型非穩態噪聲以及室內去混響的效果,因為這是AI降噪相對于傳統降噪所具有的核心價值;
行業同類降噪算法對比:聲網 AI 降噪更優概率超過47%
在聲網推出 AI降噪前,行業已存在一些降噪算法,但大多數傳統的語音降噪算法是基于嚴密的數學推導而來的,其中存在一些嚴格的假設條件,實際上很多時候這些假設條件并不都是成立的。例如傳統降噪算法在處理穩態噪聲(噪聲功率起伏比較平緩)這類符合假設條件的情況效果較好,在處理非穩態噪聲這類不符合假設條件的情況,降噪效果會有明顯回退。而隨著深度學習的發展,當前基于數據驅動的 AI 語音降噪算法發展迅猛,它們相較于傳統的語音降噪算法的一大優勢是不依賴于任何假設條件,處理非穩態噪聲效果顯著。
此外,隨著算力持續增長,基于大數據訓練的 AI 語音降噪算法具有強大的擬合能力和魯棒性(系統性能的健壯性),使實時 AI 語音降噪算法商業化落地成為可能。
于是,聲網的 AI 降噪算法融合了傳統語音降噪算法與AI語音降噪算法的各自優勢,通過采用兼顧強降噪和高保真的損失函數、自研的 AI 推理引擎等一系列技術手段,同時實現了優秀的噪聲抑制和遠場去混響功能,可以很好的應用在視頻會議、語聊房、遠程問診等實時互動場景中。
此外,為了更清晰的了解聲網 AI 降噪在用戶端的體驗評價,我們還選取了一些行業同類的降噪算法進行效果對比,在由真實數據組成的大規模測試集上,和行業標桿國際友商 A 和友商 B 對比,聲網均取得了最高的 MOS 分數(平均主觀意見分)。參與測試的人員,在體驗后給出的推薦評分中,聲網明顯占優;聲網優于友商 A 和友商 B 的概率分別是 47.4067% 和 48.1341%,聲網輸給友商 A 和友商 B 的概率分別是 31.4674% 和 30.7717%,聲網和友商 A 和友商 B 打平的概率分別是 21.1259% 和 21.0942%。
目前聲網 WebSDK AI 降噪插件和 Native SDK AI 降噪動態庫已跟多個客戶進行了集成,得到了客戶的高度認可;聲網也將持續提升 AI 降噪算法的性能,目前基于最新 AI 降噪算法的 AI 降噪插件可以與 Web SDK v4.10.0 及以上配合使用,同時也推出了基于最新 AI 降噪算法的 AI 降噪動態庫可以與 Native SDK v3.7.0 及以上配合使用,如您想進一步體驗或者接入聲網 AI 降噪,可以通過聲網微信公眾號找到這篇文章, 點擊文章最下方閱讀原文,與我們進行聯系。