“荔枝音頻處理目標(biāo)就是兩個(gè)字:清靜——清晰、安靜。讓用戶聽得更清晰、更真切、更好。”荔枝集團(tuán)技術(shù)副總裁劉曉宇談及音頻技術(shù)要攻克的幾個(gè)難點(diǎn)時(shí)一針見血地提到。

隨著疫情下直播、在線社交、在線課堂、在線會(huì)議等快速發(fā)展和元宇宙產(chǎn)業(yè)不斷壯大,音頻技術(shù)在其中扮演的角色越來(lái)越重要。但當(dāng)下流行視頻直播、音視頻群聊、1對(duì)1語(yǔ)音匹配聊天等社交場(chǎng)景,卻常常伴隨吵鬧的環(huán)境噪聲,如鍵盤敲擊聲、家里寵物吵鬧聲、兒童哭鬧聲等,這些都會(huì)通過(guò)互動(dòng)場(chǎng)景傳送到接受者耳中,語(yǔ)音社交過(guò)程充滿干擾。
近日,從位于大灣區(qū)“中國(guó)音頻第一股”荔枝集團(tuán)獲悉,該公司大灣區(qū)的音頻技術(shù)團(tuán)隊(duì)使用硬件或軟件降噪、不同軟件降噪算法、降噪與場(chǎng)景結(jié)合等方法,引入AI降噪,可以有效抑制互動(dòng)文娛場(chǎng)景下音視頻通話過(guò)程中的背景噪聲,并保證語(yǔ)音無(wú)損傷,最終有效提升在多種復(fù)雜場(chǎng)景下的實(shí)時(shí)互動(dòng)體驗(yàn)。目前,荔枝集團(tuán)音質(zhì)高保真的降噪技術(shù)領(lǐng)跑全球。

荔枝集團(tuán)技術(shù)副總裁劉曉宇此前參加華為開發(fā)者大會(huì)
1. 大灣區(qū)團(tuán)隊(duì)AI降噪實(shí)現(xiàn)強(qiáng)降噪、高保真,領(lǐng)跑世界
隨著疫情在線互動(dòng)娛樂(lè)普及,直播互動(dòng)文娛場(chǎng)景重要性凸顯。荔枝集團(tuán)音頻技術(shù)負(fù)責(zé)人魏敦曉介紹,不同的在線場(chǎng)景對(duì)于音頻高音質(zhì)的體驗(yàn)需求不一樣。比如教育類場(chǎng)景中,其著重在于知識(shí)的獲取和聲音清晰,及時(shí)互動(dòng);會(huì)議類場(chǎng)景則看重語(yǔ)音的流暢度和清晰度;而文娛場(chǎng)景中,除了有趣的內(nèi)容吸引用戶外,音頻的高音質(zhì)體驗(yàn)和互動(dòng)性功能,是讓用戶愿意持續(xù)參與的其中一個(gè)最重要因素。
隨著算力持續(xù)增長(zhǎng),基于大數(shù)據(jù)訓(xùn)練的AI語(yǔ)音降噪算法具有強(qiáng)大的能力,使實(shí)時(shí)AI語(yǔ)音降噪算法在互動(dòng)娛樂(lè)場(chǎng)景中成為可能。相比于傳統(tǒng)的降噪算法,荔枝集團(tuán)技術(shù)團(tuán)隊(duì)自研的 AI 降噪的效果有巨大提升,對(duì)直播場(chǎng)景可能經(jīng)常會(huì)遇到敲鍵盤、喝飲料、背景討論等噪聲能進(jìn)行有效抑制乃至降低到最低影響。
“互動(dòng)娛樂(lè)業(yè)務(wù)場(chǎng)景中要求對(duì)全頻帶進(jìn)行降噪,考慮到CPU性能和降噪處理時(shí)間,采用一種混合架構(gòu)來(lái)對(duì)全頻帶進(jìn)行降噪,低頻采用AI模型處理,高頻采用傳統(tǒng)降噪處理。”魏敦曉表示。
在大量的用戶使用和反饋中,荔枝集團(tuán)音頻技術(shù)團(tuán)隊(duì)發(fā)現(xiàn),互動(dòng)娛樂(lè)社交產(chǎn)品使用場(chǎng)景中,瞬態(tài)噪聲占比較多,特別是觸碰聲、吃薯片等居家場(chǎng)景這類聲音占比很大。
荔枝集團(tuán)技術(shù)團(tuán)隊(duì)利用站內(nèi)海量的語(yǔ)音樣本,訓(xùn)練的這個(gè) AI降噪模型,能夠過(guò)濾掉不需要的聲音,因此每個(gè)人的音頻都可以更加清晰傳遞到接收者耳朵里,即使大家同時(shí)發(fā)言,特別是荔枝App內(nèi)多人語(yǔ)音連麥場(chǎng)景下。“AI降噪與傳統(tǒng)降噪相比,有更強(qiáng)的降噪能力,但對(duì)語(yǔ)音損傷的可能性較大,但是荔枝AI降噪對(duì)語(yǔ)音幾乎沒有損傷,使每個(gè)人的聲音高保真地傳輸。”
此外,荔枝集團(tuán)音頻研發(fā)人員選擇業(yè)務(wù)占比前10的手機(jī)機(jī)型進(jìn)行大量實(shí)驗(yàn)和反饋,確保主流平臺(tái)以低音質(zhì)損傷、高性能、低功耗方式運(yùn)行,使用戶的設(shè)備不卡、不燙。
據(jù)介紹,荔枝集團(tuán)在音頻互動(dòng)文娛場(chǎng)景下的音質(zhì)高保真的AI降噪技術(shù)已經(jīng)領(lǐng)跑全球,為大灣區(qū)乃至國(guó)內(nèi)下一步的互動(dòng)娛樂(lè)場(chǎng)景下音頻娛樂(lè)沉浸式體驗(yàn)開發(fā)奠定了良好的基礎(chǔ)。

2. 互動(dòng)娛樂(lè)場(chǎng)景理解新突破
音頻行業(yè)AI技術(shù)發(fā)展到目前,算法、數(shù)據(jù)外場(chǎng)景和行業(yè)知識(shí)成為了一個(gè)關(guān)鍵。發(fā)展就是要讓聲音做到“聲臨其境”。消滅所有會(huì)影響現(xiàn)場(chǎng)感的因素像噪聲、回聲、雜音等,然后根據(jù)所處的真實(shí)或虛擬的環(huán)境,重塑其中的音源和空間感知。
荔枝APP常見場(chǎng)景是直播+連麥的場(chǎng)景,即主播大部分時(shí)間是單人直播,用戶一般以聽眾角色收聽,但有時(shí)也可以通過(guò)點(diǎn)代表連麥的按鈕上線,主播收到連麥請(qǐng)求后,若通過(guò),則此用戶可與主播在RTC的系統(tǒng)里進(jìn)行實(shí)時(shí)互動(dòng)。
主播可以依賴強(qiáng)大的主播引擎為直播添加音樂(lè)或音效播放、也可以調(diào)用調(diào)音臺(tái)進(jìn)行聲音美化或通過(guò)變聲增強(qiáng)互動(dòng)的娛樂(lè)性。此場(chǎng)景下,多個(gè)主播在房間中進(jìn)行互動(dòng)或娛樂(lè)表演,而用戶既可以收聽、也可以上麥和主播們互動(dòng)社交。主播或用戶是處在一個(gè)RTC系統(tǒng)里,而聽眾既可以加入RTC系統(tǒng),也可以通過(guò)CDN進(jìn)行拉流。
要做降噪首先就是做聲音理解,通過(guò)聲音理解去分析場(chǎng)景中各種音頻。用戶玩荔枝社交產(chǎn)品時(shí)候,喜歡吃著薯片、敲著鍵盤、喝著冰鎮(zhèn)汽水,然后各種觸碰聲音。生活中噪音類型很多,甚至是在家做飯的聲音、家用電器掃地、臺(tái)風(fēng)天氣風(fēng)噪。這些聲音要處理好的話,行業(yè)內(nèi)公認(rèn)技術(shù)是最難的。
“深入理解降噪需要先理解我們的產(chǎn)品要解決什么噪聲,再去降噪抑制這些噪聲,這是跟業(yè)務(wù)場(chǎng)景很貼合的一種創(chuàng)造。”
荔枝集團(tuán)音頻技術(shù)魏敦曉介紹,互動(dòng)娛樂(lè)場(chǎng)景相比其他場(chǎng)景,其技術(shù)差異方向主要在不同外設(shè)的接入、多條通道的支持、AI變聲需求、聲音的理解以及鏈路音質(zhì)的提升等方面。跟會(huì)議場(chǎng)景聲音源主要來(lái)源采集輸入通道不一樣,文娛場(chǎng)景為了豐富娛樂(lè)性,在主播端要支持音樂(lè)播放通道、音效播放通道、屏幕共享通道等。當(dāng)主播進(jìn)行才藝表演或播放音樂(lè)時(shí),整個(gè)互動(dòng)娛樂(lè)場(chǎng)景對(duì)于音質(zhì)的要求就會(huì)提高。從音頻體驗(yàn)來(lái)講,要讓用戶像在本地一樣聲臨其境沉浸式的參與到互動(dòng)場(chǎng)景當(dāng)中,不受各種身邊噪音輸入干擾,這也成為了音頻行業(yè)的一大技術(shù)難點(diǎn)。
“荔枝音頻的AI降噪是找到那些噪音的特征進(jìn)行針對(duì)性的降。AI就是喂它什么,它就能干什么。我們把敲擊聲、碰撞聲、噪音灌到這個(gè)學(xué)習(xí)系統(tǒng)里,AI認(rèn)識(shí)了這個(gè)東西,后面可以把它處理掉。”荔枝集團(tuán)技術(shù)人員會(huì)針對(duì)性錄一些聲音訓(xùn)練算法。
不過(guò),荔枝集團(tuán)技術(shù)副總裁劉曉宇也補(bǔ)充到,在主要語(yǔ)音場(chǎng)景上,算法帶來(lái)的差異并不大(硬件會(huì)掩蓋差距),在一些硬件不覆蓋的場(chǎng)景,比如音樂(lè)場(chǎng)景,屏幕分享中的視頻聲音場(chǎng)景,對(duì)音質(zhì)有較高要求,這要求在核心算法上有突破,“目前看,這對(duì)整個(gè)行業(yè)都是比較大挑戰(zhàn),團(tuán)隊(duì)正在做相關(guān)的技術(shù)研究以應(yīng)對(duì)將來(lái)的場(chǎng)景。”
有大廠的業(yè)內(nèi)資深人士評(píng)價(jià)此項(xiàng)技術(shù)表示,荔枝集團(tuán)的AI降噪在音質(zhì)保護(hù)方面達(dá)到了“出乎意料的高水準(zhǔn)”。
荔枝集團(tuán)技術(shù)副總裁劉曉宇總結(jié),隨著元宇宙的到來(lái),用戶對(duì)聲音的質(zhì)量、沉浸式體驗(yàn)要求越來(lái)越高,接入設(shè)備的效果、低延時(shí)、空間音頻技術(shù)、環(huán)境聲學(xué)模擬等,均是目前音頻互動(dòng)娛樂(lè)需要攻克的難點(diǎn)。荔枝集團(tuán)技術(shù)團(tuán)隊(duì)正在不斷奮力向前,繼續(xù)推動(dòng)中國(guó)互聯(lián)網(wǎng)音頻社交技術(shù)處于世界領(lǐng)先地位。






