亚洲一区二区三区在线,成人在线欧美,日韩久久精品视频

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

釘釘會議兩篇論文入選國際語音頂會INTERSPEECH 2022

發(fā)布時間：2022-09-06 14:36:00 作者：網(wǎng)友整理

利用深度學(xué)習(xí)來提升語音增強(qiáng)效果和魯棒性，已成為實時音視頻通信領(lǐng)域研究的熱點之一。釘釘蜂鳴鳥音頻實驗室提出了一種新的窄帶濾波網(wǎng)絡(luò)架構(gòu)，可大幅提升去噪和去混響聯(lián)合語音增強(qiáng)效果，提升音頻質(zhì)量，相關(guān)論文已被語音領(lǐng)域頂會INTERSPEECH 2022收錄。

INTERSPEECH是由國際語音通訊協(xié)會（ISCA）創(chuàng)辦的頂級學(xué)術(shù)會議，也是全球最大的綜合性語音領(lǐng)域的科技盛會，在國際上享有極高盛譽并具有廣泛的學(xué)術(shù)影響力，歷屆INTERSPEECH會議都倍受全球各地語音研究領(lǐng)域人士的關(guān)注。

不同于目前普遍以全頻帶語音信息作為輸入的實現(xiàn)方式，釘釘蜂鳴鳥音頻實驗室提出的窄帶濾波網(wǎng)絡(luò)架構(gòu)，是以每個頻帶信息作為輸入，讓每個頻帶共享網(wǎng)絡(luò)參數(shù)，并引入聽覺研究領(lǐng)域的頻-時調(diào)制譜感受區(qū)（spectro-temporal receptive fields，STRFs）。

窄帶濾波網(wǎng)絡(luò)架構(gòu)的目的，是從本質(zhì)上提高輸入的頻帶信息對語音和非語音的鑒別力，從而大幅提升窄帶濾波網(wǎng)絡(luò)消除噪音和混響的算法效能。

測試證明，相比帶寬濾波網(wǎng)絡(luò)，這種輕量的模型能得到更好的實時單通道語音增強(qiáng)效果，可提升20%的語音質(zhì)量，并減少約70%的網(wǎng)絡(luò)模型大小，大幅降低推理的復(fù)雜度，可應(yīng)用于在噪雜的辦公室、大會議室等復(fù)雜場景中提升語音質(zhì)量。

值得一提的是，該研究也驗證了僅用一個神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多項語音增強(qiáng)任務(wù)的可行性。過去，在音頻鏈路中部署過多不同神經(jīng)網(wǎng)絡(luò)模型，會導(dǎo)致消耗過多的運算資源，而采用一個模型，將有效緩解神經(jīng)網(wǎng)絡(luò)在落地過程中遇到的難點。

據(jù)介紹，釘釘蜂鳴鳥音頻實驗室提出的關(guān)于「兼容指向型麥克風(fēng)的波達(dá)方向與距離的聯(lián)合估計框架」的論文一并入選INTERSPEECH，該框架是用于提升聲源定位的精度和效果。

實驗室研究人員表示：“波達(dá)方向與距離估計對于聲源定位技術(shù)是相當(dāng)關(guān)鍵的信息。我們提出的算法首先對聲音信號傳播進(jìn)行建模，融合不同傳感器/麥克風(fēng)類型（全向和指向型），再利用稀疏貝葉斯學(xué)習(xí)框架準(zhǔn)確地聯(lián)合判斷出波達(dá)方向與距離信息，可應(yīng)用于多聲源定位。”

實驗證明，在雙聲源場景下，當(dāng)信噪比(signal-to-noise ratio SNR）達(dá)到8dB，波達(dá)方向估計誤差即能控制在1度以內(nèi)，距離估計誤差能控制在0.1米之內(nèi)。

釘釘蜂鳴鳥音頻實驗室旨在用傳統(tǒng)信號處理結(jié)合深度學(xué)習(xí)算法，來解決實時語音通信碰到的復(fù)雜問題，提升釘釘會議、直播以及合作會議硬件的產(chǎn)品體驗，并探索下一代音視頻形態(tài)。其重點研究方向包括音頻3A算法、單通道/多通道語音增強(qiáng)、聲源定位等。

分享到：

標(biāo)簽：入選兩篇語音會議論文國際 INTERSPEECH