近日,全球頂級(jí)音頻技術(shù)會(huì)議 ICASSP 2022 公布了論文入選名單。網(wǎng)易云信音頻實(shí)驗(yàn)室論文——《一種針對(duì)實(shí)時(shí)通信的基于神經(jīng)網(wǎng)絡(luò)的嘯叫檢測(cè)方法》(A Neural Network-based Howling Detection Method for Real-time Communication Applications)被大會(huì)接收,并受邀于今年5月在會(huì)議上向?qū)W術(shù)和工業(yè)界做研究報(bào)告。
這是網(wǎng)易云信音頻實(shí)驗(yàn)室創(chuàng)新成果連續(xù)兩年受到世界頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議,是IEEE信號(hào)處理協(xié)會(huì)主辦的全球最大、最全面的音頻領(lǐng)域頂級(jí)會(huì)議,具有權(quán)威、廣泛的學(xué)界及工業(yè)界影響力,在國(guó)際上享有盛譽(yù)。
隨著AI的迅速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在聲音場(chǎng)景分類(lèi)(ASC, Acoustic Scene Classification)和聲音事件檢測(cè)(AED, Acoustic Event Detection)任務(wù)中的應(yīng)用已越來(lái)越多,并且明顯優(yōu)于傳統(tǒng)的信號(hào)處理方法。網(wǎng)易云信音頻實(shí)驗(yàn)室本次研究則是將AI技術(shù)應(yīng)用于嘯叫檢測(cè)中,該論文為AI嘯叫檢測(cè)領(lǐng)域在全球范圍內(nèi)首個(gè)公開(kāi)發(fā)表的研究成果。
當(dāng)揚(yáng)聲器和話(huà)筒之間的聲學(xué)耦合產(chǎn)生正反饋時(shí),嘯叫便會(huì)產(chǎn)生。傳統(tǒng)的公共廣播系統(tǒng)和助聽(tīng)器設(shè)備利用傳統(tǒng)的嘯叫功能檢測(cè)和抑制嘯叫。然而,實(shí)時(shí)通信(RTC)中的傳統(tǒng)嘯叫功能會(huì)受到非線(xiàn)性和不確定性的影響,如各種揚(yáng)聲器/麥克風(fēng)響應(yīng)、多種非線(xiàn)性音頻處理、不穩(wěn)定的網(wǎng)絡(luò)傳輸抖動(dòng)、聲學(xué)路徑變化和環(huán)境影響等。在嘯叫檢測(cè)中,使用特定時(shí)間-頻率特征的信號(hào)處理方法對(duì)RTC場(chǎng)景是無(wú)效的。
云信音頻實(shí)驗(yàn)室提出了一種基于卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN)的方法,用于RTC應(yīng)用中的嘯叫檢測(cè),實(shí)現(xiàn)了出色的準(zhǔn)確性和低誤報(bào)率。該篇文章使用不同的移動(dòng)設(shè)備收集和標(biāo)記嘯叫數(shù)據(jù)集用于模型訓(xùn)練,并選擇對(duì)數(shù)梅爾譜作為輸入特征,實(shí)現(xiàn)了 89.46% 的檢測(cè)率和 0.40% 的誤報(bào)率。 此外,所提出方法的模型大小僅為 121kB,并且已在實(shí)時(shí)運(yùn)行的移動(dòng)設(shè)備中實(shí)現(xiàn)。
作為行業(yè)內(nèi)首批音視頻 AI 實(shí)驗(yàn)室之一,網(wǎng)易云信音頻實(shí)驗(yàn)室不斷探索“AI+音頻”前沿技術(shù)方向,連續(xù)取得業(yè)界權(quán)威認(rèn)可。2021年,實(shí)驗(yàn)室在 AI 音頻降噪和 AI 音樂(lè)檢測(cè)的研究成果被第 50 屆國(guó)際噪聲控制工程會(huì)議(INTER-NOISE 2021)收錄,自建的國(guó)內(nèi)行業(yè)中首個(gè) AI 音樂(lè)檢測(cè)模型受到了高度關(guān)注。本次AI嘯叫檢測(cè)成果被 ICASSP 2022接收,再次證明了網(wǎng)易云信在音頻技術(shù)領(lǐng)域的頂尖研究實(shí)力。
未來(lái),網(wǎng)易云信音頻實(shí)驗(yàn)室將持續(xù)引領(lǐng)新技術(shù)發(fā)展方向,并將先進(jìn)的算法模型應(yīng)用于產(chǎn)品和場(chǎng)景中,為全球用戶(hù)打造極致聽(tīng)覺(jué)體驗(yàn)。