利用深度學(xué)習(xí)來提升語音增強(qiáng)效果和魯棒性,已成為實時音視頻通信領(lǐng)域研究的熱點之一。釘釘蜂鳴鳥音頻實驗室提出了一種新的窄帶濾波網(wǎng)絡(luò)架構(gòu),可大幅提升去噪和去混響聯(lián)合語音增強(qiáng)效果,提升音頻質(zhì)量,相關(guān)論文已被語音領(lǐng)域頂會INTERSPEECH 2022收錄。
INTERSPEECH是由國際語音通訊協(xié)會(ISCA)創(chuàng)辦的頂級學(xué)術(shù)會議,也是全球最大的綜合性語音領(lǐng)域的科技盛會,在國際上享有極高盛譽并具有廣泛的學(xué)術(shù)影響力,歷屆INTERSPEECH會議都倍受全球各地語音研究領(lǐng)域人士的關(guān)注。
不同于目前普遍以全頻帶語音信息作為輸入的實現(xiàn)方式,釘釘蜂鳴鳥音頻實驗室提出的窄帶濾波網(wǎng)絡(luò)架構(gòu),是以每個頻帶信息作為輸入,讓每個頻帶共享網(wǎng)絡(luò)參數(shù),并引入聽覺研究領(lǐng)域的頻-時調(diào)制譜感受區(qū)(spectro-temporal receptive fields,STRFs)。
窄帶濾波網(wǎng)絡(luò)架構(gòu)的目的,是從本質(zhì)上提高輸入的頻帶信息對語音和非語音的鑒別力,從而大幅提升窄帶濾波網(wǎng)絡(luò)消除噪音和混響的算法效能。

測試證明,相比帶寬濾波網(wǎng)絡(luò),這種輕量的模型能得到更好的實時單通道語音增強(qiáng)效果,可提升20%的語音質(zhì)量,并減少約70%的網(wǎng)絡(luò)模型大小,大幅降低推理的復(fù)雜度,可應(yīng)用于在噪雜的辦公室、大會議室等復(fù)雜場景中提升語音質(zhì)量。
值得一提的是,該研究也驗證了僅用一個神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多項語音增強(qiáng)任務(wù)的可行性。過去,在音頻鏈路中部署過多不同神經(jīng)網(wǎng)絡(luò)模型,會導(dǎo)致消耗過多的運算資源,而采用一個模型,將有效緩解神經(jīng)網(wǎng)絡(luò)在落地過程中遇到的難點。
據(jù)介紹,釘釘蜂鳴鳥音頻實驗室提出的關(guān)于「兼容指向型麥克風(fēng)的波達(dá)方向與距離的聯(lián)合估計框架」的論文一并入選INTERSPEECH,該框架是用于提升聲源定位的精度和效果。
實驗室研究人員表示:“波達(dá)方向與距離估計對于聲源定位技術(shù)是相當(dāng)關(guān)鍵的信息。我們提出的算法首先對聲音信號傳播進(jìn)行建模,融合不同傳感器/麥克風(fēng)類型(全向和指向型),再利用稀疏貝葉斯學(xué)習(xí)框架準(zhǔn)確地聯(lián)合判斷出波達(dá)方向與距離信息,可應(yīng)用于多聲源定位。”
實驗證明,在雙聲源場景下,當(dāng)信噪比(signal-to-noise ratio SNR)達(dá)到8dB,波達(dá)方向估計誤差即能控制在1度以內(nèi),距離估計誤差能控制在0.1米之內(nèi)。
釘釘蜂鳴鳥音頻實驗室旨在用傳統(tǒng)信號處理結(jié)合深度學(xué)習(xí)算法,來解決實時語音通信碰到的復(fù)雜問題,提升釘釘會議、直播以及合作會議硬件的產(chǎn)品體驗,并探索下一代音視頻形態(tài)。其重點研究方向包括音頻3A算法、單通道/多通道語音增強(qiáng)、聲源定位等。






