亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

當(dāng)前直播行業(yè)愈發(fā)火熱,用戶通常處于不同的環(huán)境中,身邊的鍵盤聲,敲擊聲,空調(diào)聲,喧嘩聲等噪聲有時(shí)會(huì)對(duì)實(shí)時(shí)互動(dòng)產(chǎn)生嚴(yán)重的干擾。然而傳統(tǒng)的降噪算法針對(duì)平穩(wěn)噪聲有比較好的降噪效果,針對(duì)上述這一類非平穩(wěn)噪聲,比較難處理,收效甚微,降噪效果很差。

隨著近年深度學(xué)習(xí)的廣泛應(yīng)用,使用神經(jīng)網(wǎng)絡(luò)的降噪算法噴涌而出,而且這類算法不管是在降噪力度上,還是魯棒性上,都要優(yōu)于傳統(tǒng)降噪,是當(dāng)前處理各種不同場(chǎng)景噪音的首選方案。

但是,在實(shí)時(shí)互動(dòng)環(huán)境下,對(duì)于音頻實(shí)時(shí)處理和性能要求比較高,這對(duì)于AI模型的設(shè)計(jì)和效果的平衡帶來(lái)了的巨大的挑戰(zhàn)。

基于上述挑戰(zhàn),荔枝集團(tuán)音頻團(tuán)隊(duì)提出了一種輕量的降噪方案--LizhiAiDenoiser,該方案不僅能處理日常生活中常見的平穩(wěn)和非平穩(wěn)噪聲,而且能很好的保留語(yǔ)音的音質(zhì),同時(shí)該AI降噪模型在運(yùn)行時(shí)占用的內(nèi)存和cpu消耗都極低,滿足了全量iPhone機(jī)型以及大部分Android中低端機(jī)型。

一、基本原理

LizhiAiDenoiser采用傳統(tǒng)算法和深度學(xué)習(xí)結(jié)合的混合結(jié)構(gòu)。為了可實(shí)際在移動(dòng)端部署,LizhiAiDenoiser采用了比較精細(xì)的模型結(jié)構(gòu),主要使用低性能消耗的CNN-RNN結(jié)構(gòu)。

1. 數(shù)據(jù)和增強(qiáng)

訓(xùn)練深度學(xué)習(xí)降噪模型的數(shù)據(jù)集是通過(guò)混合純凈語(yǔ)音和噪音音頻的方式。純凈語(yǔ)音主要使用的是開源數(shù)據(jù)集,包括英文數(shù)據(jù)集和中文數(shù)據(jù)集,英文數(shù)據(jù)集300小時(shí),中文數(shù)據(jù)集200小時(shí)。噪音音頻由兩部分構(gòu)成,一部分是開源噪音集audioset,大約120小時(shí),一部分是自己錄制的噪音集,大約60小時(shí)。數(shù)據(jù)增強(qiáng)的方法被應(yīng)用于語(yǔ)音和噪聲樣本,目的是進(jìn)一步擴(kuò)展模型在訓(xùn)練的過(guò)程中看到的數(shù)據(jù)分布。當(dāng)前,LizhiAiDenoiser支持以下隨機(jī)增強(qiáng)的方法:

? 重采樣速度和改變pitch

? 添加混響,在純凈語(yǔ)音中添加少量混響

? 使用[-5,25]的信噪比來(lái)混合純凈語(yǔ)音和噪音

2. 模型目標(biāo)

語(yǔ)音降噪通常采用有噪聲語(yǔ)音的短時(shí)傅里葉變換(STFT),只增強(qiáng)幅度譜,而保持相位譜不變。這樣做是因?yàn)槿藗兿嘈?相位譜對(duì)語(yǔ)音增強(qiáng)并不重要。然而,最近的研究表明,相位對(duì)感知質(zhì)量很重要。我們的方法使用深度神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)在復(fù)數(shù)域中的理想比值Mask的實(shí)部分量和虛部分量,這種方法更好的保留了語(yǔ)音的質(zhì)量

同時(shí)以更小的模型參數(shù)達(dá)到了大模型同樣的降噪效果。原始的AI降噪模型,模型大小大概3M,固定測(cè)試集mos分為3.1。對(duì)模型做一些剪枝同時(shí)調(diào)整模型結(jié)構(gòu),再針對(duì)模型輸出目標(biāo)進(jìn)行調(diào)整,在保持3.1的mos的情況下,最終模型大小降為900k。

復(fù)數(shù)理想比值Mask的推導(dǎo)過(guò)程如下:

S(t,f) = M(t,f) * Y(t,f) .........(1)

公式 (1) 中 S (t,f) 代表純凈語(yǔ)音,Y (t,f) 代表帶噪語(yǔ)音,M (t,f) 代表模型估計(jì)出來(lái)的復(fù)數(shù)域中的理想比值 Mask。

為了方便起見,上式?jīng)]有體現(xiàn)出時(shí)間和頻率的下標(biāo),但給出了每個(gè) T-F 單元的定義。公式 (1) 可以擴(kuò)展為:

S(r)+iS(i)= (M(r) +iM(i)*(Y(r)+iY(i))=(M(r)Y(r)-M(i)Y(i)+i(M(r)Y(i)+M(i)Y(r)) .........(2)

純凈語(yǔ)音的實(shí)部分量和虛部分量為:

S(r) = M(r)Y(r) - M(i)Y(i) .........(3)

S(i) = M(r)Y(i) + M(i)Y(t) .........(4)

根據(jù)公式 (3) 和公式 (4) 可以得到 M 的實(shí)部和虛部分量:

M(r)=(Y(r)S(r)+Y(i)S(i))/(Y(r)2+Y(i)2).........(5)

M(i)=(Y(r)S(i)-Y(i)S(r))/(Y(r)2+Y(i)2).........(6)

從而得到復(fù)數(shù)域理想比值的 Mask:

M=(Y(r)S(r)+Y(i)S(i))/(Y(r)2+Y(i)2)+i((Y(r)S(i)-Y(i)S(r))/(Y(r)2+Y(i)2)).........(7)

3. 網(wǎng)絡(luò)模型

從上圖可以看出,我們使用的模型結(jié)構(gòu)極其簡(jiǎn)單,并且CNN能夠很好的提取local feature,GRU能夠?qū)W習(xí)時(shí)序上的特征,這對(duì)于模型的泛化和推理實(shí)時(shí)性都起到了很好的正向作用。

二、效果和性能

效果

在效果驗(yàn)證上,我們采用日常常見的八種噪音不同的信噪比與傳統(tǒng)降噪進(jìn)行對(duì)比測(cè)試,使用POLQA測(cè)試降噪后的音頻mos分,對(duì)比結(jié)果如下:

0.png

如上效果所示,LizhiAiDenoiser在不同信噪比和場(chǎng)景下,取得了不錯(cuò)的效果。

這里測(cè)試40db和50db的音頻,主要是為了測(cè)試LizhiAiDenoiser對(duì)近乎純凈語(yǔ)音有沒有損傷,從最終結(jié)果能夠看出,LizhiAiDenoiser對(duì)于純凈語(yǔ)音幾乎不產(chǎn)生損傷情況。

音質(zhì)保護(hù)示例

1.png

結(jié)論:在語(yǔ)音的中頻部分能看到LizhiAiDenoiser降噪后對(duì)語(yǔ)音保留的更好。

降噪示例

2.png

性能

在LizhiDenoiser的模型前向推理過(guò)程中,我們沒有使用開源的推理框架,而是使用自研的推理框架,不使用開源推理框架原因有:

• 不依賴第三方推理框架,使得前向推理更加靈活多變;

• 減少LizhiDenoiser模塊占包大小;

• 更加自由靈活的針對(duì)模型結(jié)構(gòu)做極致的推理速度優(yōu)化

分別測(cè)試了iPhone和Android較低機(jī)型的性能,這里主要采用cpu消耗和實(shí)時(shí)率來(lái)度量LizhiAiDenoiser的性能。

cpu消耗

因?yàn)槟P驮O(shè)計(jì)比較精細(xì),參數(shù)占用比較小,cpu占用不超過(guò)3%。

實(shí)時(shí)率

實(shí)時(shí)率是指處理每幀音頻所要花費(fèi)的時(shí)間,通常是處理整個(gè)音頻來(lái)統(tǒng)計(jì)總的耗時(shí),再除以音頻的總幀數(shù),得到平均每幀耗時(shí),這種方式在實(shí)時(shí)率要求比較高的任務(wù)中是很難有說(shuō)服力的,因?yàn)榇藭r(shí)任務(wù)比較單一,CPU利用率比較高,所以總的耗時(shí)統(tǒng)計(jì)大大減少。

我們?cè)诮y(tǒng)計(jì)實(shí)時(shí)率時(shí)采用最真實(shí)的統(tǒng)計(jì)方法,即在RTC應(yīng)用中統(tǒng)計(jì)每幀音頻的真實(shí)耗時(shí)情況。統(tǒng)計(jì)情況如下:

3.png

說(shuō)明:上圖中橫坐標(biāo)是音頻幀數(shù),每一幀10毫秒,縱坐標(biāo)是每一幀經(jīng)過(guò)LizhiAiDenoiser降噪耗時(shí),單位是微秒。

從圖中可以看出,android較低機(jī)型實(shí)時(shí)率不超過(guò)0.3,iPhone較低機(jī)型實(shí)時(shí)率不超過(guò)0.2。

三、規(guī)劃

AI降噪在RTC任務(wù)中還有很多優(yōu)化的空間:

實(shí)時(shí)率的優(yōu)化

進(jìn)一步對(duì)模型進(jìn)行剪枝和使用更低計(jì)算消耗的網(wǎng)絡(luò),同時(shí)進(jìn)一步優(yōu)化我們的AI推理框架,以及對(duì)模型進(jìn)行量化,通過(guò)這幾個(gè)維度的優(yōu)化來(lái)進(jìn)一步提升我們AI降噪的實(shí)時(shí)率。

全頻帶AI降噪

因?yàn)槿l帶AI降噪不管是在特征輸入上還是網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上都比較大,很難在RTC這種對(duì)實(shí)時(shí)率要求比較高的任務(wù)達(dá)到好的效果,所以我們接下來(lái)準(zhǔn)備將音頻轉(zhuǎn)換到比較小的特征維度上,通過(guò)設(shè)計(jì)比較小的網(wǎng)絡(luò)來(lái)擬合該任務(wù)。

模型的壓縮

在算法落地上,對(duì)于模型大小有時(shí)也有一定的要求,同時(shí)也是模型輕量的一個(gè)體現(xiàn),更少的占用設(shè)備資源。所以在模型落地時(shí),一般會(huì)對(duì)模型大小進(jìn)行壓縮,接下來(lái)我們會(huì)使用占用內(nèi)存更小的數(shù)據(jù)類型來(lái)存儲(chǔ)數(shù)據(jù),優(yōu)化模型存儲(chǔ)的格式以進(jìn)一步減少模型存儲(chǔ)的大小。

作者:

邱威:荔枝音視頻研發(fā)中心高級(jí)音頻算法工程師,主要從事音頻相關(guān)AI算法研究和AI模型在移動(dòng)端部署的工作。

分享到:
標(biāo)簽:荔枝 音質(zhì) 高保真 降噪 實(shí)踐 研究 技術(shù)
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定