ICASSP是由IEEE電氣電子工程師學(xué)會(huì)主辦的信號(hào)處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,是IEEE
下語(yǔ)音方向最具代表性、最高榮譽(yù)的會(huì)議,在國(guó)際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。
今年是ICASSP的第47屆會(huì)議,會(huì)議主題為“以人為本的信號(hào)處理”。
本屆大會(huì)同時(shí)在線(xiàn)上和線(xiàn)下(新加坡)舉辦。“云知聲-上師大自然人機(jī)交互”聯(lián)合實(shí)驗(yàn)室提出的語(yǔ)音分離-DPCCN和目標(biāo)語(yǔ)音分離-sDPCCN技術(shù)論文被收錄且在線(xiàn)上會(huì)議平臺(tái)展示了相關(guān)算法細(xì)節(jié),代表了云知聲在語(yǔ)音信號(hào)處理領(lǐng)域的底層技術(shù)的創(chuàng)新,與國(guó)際學(xué)術(shù)界對(duì)云知聲技術(shù)創(chuàng)新的認(rèn)可。
此外,這已經(jīng)不是云知聲在語(yǔ)音信號(hào)處理方向第一次獲得國(guó)際認(rèn)可,早在2020年就已獲得ICASSP DNS國(guó)際評(píng)測(cè)第四,2021獲得Interspeech 2021 DNS 第二,Interspeech 2021 AEC Challenge 第二等多項(xiàng)國(guó)際肯定。
此次被錄取的論文主要利用語(yǔ)音分離的技術(shù)突破來(lái)處理雞尾酒會(huì)問(wèn)題,涉及語(yǔ)音識(shí)別、降噪、語(yǔ)音質(zhì)量分析等諸多方向。
雞尾酒會(huì)問(wèn)題:在復(fù)雜場(chǎng)景下,人類(lèi)可以輕易地關(guān)注于自身感興趣的語(yǔ)音,但是對(duì)于機(jī)
器來(lái)說(shuō)卻顯得尤為困難,這種現(xiàn)象被稱(chēng)為雞尾酒會(huì)問(wèn)題。
在本次論文中,聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)從時(shí)頻域的角度出發(fā),提出了一種基于U-Net結(jié)構(gòu)的
語(yǔ)音分離模型DPCCN(Densely-connectedPyramidComplexConvolutionalNetwork),并在DPCCN基礎(chǔ)上,設(shè)計(jì)了一個(gè)特殊的目標(biāo)說(shuō)話(huà)人聲紋編碼模塊來(lái)對(duì)目標(biāo)說(shuō)話(huà)人的注冊(cè)語(yǔ)音進(jìn)行聲紋信息提取,從而監(jiān)督DPCCN分離網(wǎng)絡(luò)提取出相應(yīng)的目標(biāo)說(shuō)話(huà)人語(yǔ)音sDPCCN。在業(yè)界公開(kāi)帶噪帶混響的LibriSpeech數(shù)據(jù)集合上,實(shí)驗(yàn)結(jié)果顯示所提出的DPCCN方法顯著超過(guò)了目前業(yè)界主流技術(shù)。
另外,目前大多數(shù)主流的目標(biāo)語(yǔ)音提取系統(tǒng)都是受監(jiān)督學(xué)習(xí)驅(qū)動(dòng)的,它們對(duì)訓(xùn)練數(shù)據(jù)
有著很強(qiáng)的依賴(lài)。由于源域和目標(biāo)域的聲學(xué)特性之間存在著一定程度的不匹配,域內(nèi)和跨域
條件下的目標(biāo)語(yǔ)音提取之間通常有著巨大的性能差異。因此,論文還提出了一種Mixture-Remix機(jī)制(Fig2所示)來(lái)提高跨域條件下的目標(biāo)語(yǔ)音提取性能。
在Libri2Mix和Aishell2Mix構(gòu)建的英文-中文跨域目標(biāo)語(yǔ)音分離任務(wù)上,文中提出的
Mixture-Remix機(jī)制不管在sDPCCN還是經(jīng)典的TD-SpeakerBeam(TSB)結(jié)構(gòu)上都體現(xiàn)
出了顯著效果。
在此之前,云知聲就已經(jīng)在語(yǔ)音識(shí)別,降噪領(lǐng)域有了諸多建樹(shù),并將相關(guān)技術(shù)在多個(gè)領(lǐng)域、多個(gè)項(xiàng)目、多個(gè)產(chǎn)品、多款芯片中落地。比如云知聲的遠(yuǎn)場(chǎng)陣列處理技術(shù)已被廣泛應(yīng)用于多種智能家電,(如智能音箱、智能空調(diào)、智能抽油煙機(jī));智慧交通設(shè)備(如智慧軌交、8mic大陣列地鐵問(wèn)詢(xún)機(jī)、購(gòu)票機(jī)),三代共6款專(zhuān)用AI語(yǔ)音芯片(截止目前,已達(dá)到千萬(wàn)級(jí)出貨)等產(chǎn)品。
其中智慧交通的相關(guān)產(chǎn)品與設(shè)備已在上海、廣州、徐州、深圳、合肥、三亞、蘇州、昆明、無(wú)錫、南寧等全國(guó)10余個(gè)城市、20余條地鐵線(xiàn)路的200余個(gè)地鐵站落地,其中包括云知聲傾力打造的全國(guó)首個(gè)智慧軌交標(biāo)桿示范站——廣州地鐵廣州塔(“小蠻腰”)站,以及無(wú)人地鐵示范線(xiàn)路——深圳地鐵20號(hào)線(xiàn)等。
另外,針對(duì)低功耗可穿戴設(shè)備,云知聲基于深度學(xué)習(xí)技術(shù)構(gòu)建了近場(chǎng)降噪技術(shù),語(yǔ)音質(zhì)
量客觀指標(biāo)SNR、PESQ、STOI已處于國(guó)際領(lǐng)先水平,在目前大火的智能AR工業(yè)眼鏡,藍(lán)牙智能眼鏡等產(chǎn)品中都有它的身影。
未來(lái),云知聲將不斷探索科技新高度,促進(jìn)AI系統(tǒng)的“智力”提升,讓后者更好地應(yīng)用于千行百業(yè),為用戶(hù)締造更加出色的智能體驗(yàn)。