你走進(jìn)澡堂,霧氣彌漫。眼睛看到的人影模模糊糊。既看不清楚細(xì)節(jié),也不知道是誰,只能看到大概輪廓。
你覺得手足無措,一分鐘都不想待在那里。
你看到的情景,就是聽障人士在真實(shí)世界里聽到的情況。霧氣相當(dāng)于他們聽到的嘈雜的聲音。所有聲音的細(xì)節(jié)統(tǒng)統(tǒng)丟失,聽到的人聲和音樂聲,都淹沒在一片非常濃厚嘈雜的噪音里。
對我們健全人來說,一直在霧氣彌漫的場景里看東西,可以想象多么痛苦。對于聽障人士而言,他們一輩子,7×24小時,都被困在了這樣的環(huán)境里。
“如果能幫助他們,讓他們聽得見、聽得清、聽得真,聽到我們健全人能聽見的聲音,那真是一件非常有意義的事情。”騰訊多媒體實(shí)驗室高級總監(jiān)商世東表示。
剛過去的9月27日,國際聾人日當(dāng)天,騰訊多媒體實(shí)驗室聯(lián)合騰訊公益慈善基金會、深圳市信息無障礙研究會等機(jī)構(gòu)召開發(fā)布會,宣布發(fā)起“天籟行動”——面向公益開發(fā)者、設(shè)備廠商、相關(guān)機(jī)構(gòu)開放騰訊天籟AI音頻技術(shù),應(yīng)用于聽障人群無障礙建設(shè)等相關(guān)社會責(zé)任領(lǐng)域。

天籟行動,是騰訊“科技向善”的一次最新實(shí)踐。從2019年11月11日開始,騰訊將“科技向善”寫進(jìn)公司最新的使命與愿景之中。
科技與人類的關(guān)系,在近年越發(fā)受到關(guān)注和討論。事實(shí)上,不只騰訊,諸多科技公司都開始重視和強(qiáng)調(diào)用好科技,以科技為善:騰訊強(qiáng)調(diào)“科技向善”,華為強(qiáng)調(diào)“科技至善”。
如何讓“科技向善”不是一句簡單的口號,更要真正成為一個持續(xù)落地的使命。其背后的驅(qū)動機(jī)制,來自科技公司的技術(shù)外溢與產(chǎn)品力,帶來持續(xù)不斷的技術(shù)進(jìn)步、產(chǎn)品落地和公益體系化建設(shè)。
騰訊天籟行動,正是這一科技向善機(jī)制的典型體現(xiàn)。騰訊分三步,實(shí)現(xiàn)了用AI幫助聽障人士的科技實(shí)踐:釋放20余年音頻技術(shù)積累,以產(chǎn)品力將技術(shù)落地于聽障人群,為不同定制化場景研發(fā)針對性降噪解決方案。最終實(shí)現(xiàn)將人工耳蝸語音清晰度和識別度提升40%,極大改善聽障人士的聽覺體驗,讓他們“聽得見”,更“聽得清”。
1、從技術(shù),到場景
優(yōu)秀的技術(shù)研究團(tuán)隊,都有一個共同的特質(zhì):喜歡迎接未知的挑戰(zhàn),不斷突破;越是遇到棘手的挑戰(zhàn),就會越興奮。商世東和他所在的騰訊多媒體實(shí)驗室,就是這樣一支團(tuán)隊。
騰訊多媒體實(shí)驗室,是騰訊公司前沿技術(shù)實(shí)驗室之一,專注音視頻通信技術(shù)的前瞻性研究,最擅長語音增強(qiáng)和降噪技術(shù)。針對語音在嘈雜環(huán)境中的情況,他們把經(jīng)典信號處理和機(jī)器學(xué)習(xí)技術(shù)融合在一起,加上聲學(xué)場景分析技術(shù),打造了一套降噪解決方案。他們把降噪技術(shù)應(yīng)用在包括騰訊會議等多個產(chǎn)品里,經(jīng)過各種場景,各種設(shè)備,各樣用戶的體驗和打磨,成功實(shí)現(xiàn)了國際領(lǐng)先的核心語音增強(qiáng)和降噪技術(shù)指標(biāo)。
作為一個專注聲音的研究團(tuán)隊,商世東和同事們在公司的一些無障礙項目交流當(dāng)中,不止一次接觸到聽障人群。他們對聲音的渴望,以及很多家庭為了孩子獲得聽的權(quán)利,付出了很多常人無法想象的努力,他們的堅持和努力,讓人觸動。
“一開始,這個技術(shù)是用在健全人的通信當(dāng)中。但其實(shí)聽障人員更需要語音增強(qiáng)和降噪技術(shù),是用來解決他們聽得見、聽得懂的問題。”商世東說,”降噪技術(shù)對健全人是錦上添花,對聽障人士是雪中送炭。”
世界衛(wèi)生組織(WHO)數(shù)據(jù)顯示,全球有約11億年輕人(12-35歲之間)面臨聽力損失的風(fēng)險,約4.66億人患有殘疾性聽力損失。據(jù)第二次全國殘疾人抽樣調(diào)查結(jié)果顯示,我國有聽力殘疾患者2780萬人。而這2780萬聽障人士,通過科技填補(bǔ)自身缺陷的,不到5%。
商世東和騰訊多媒體實(shí)驗室的同事們決定,將降噪技術(shù)貢獻(xiàn)出來,提供給人工耳蝸廠商,讓他們可以把采集到的聲音信號進(jìn)行降噪,幫助聽障人士擺脫噪音煩惱,聽到的干凈得多、安靜得多的聲音世界。
但當(dāng)他們試圖把技術(shù)運(yùn)用到人工耳蝸場景時,商世東和團(tuán)隊發(fā)現(xiàn),他們遇到了前所未有的挑戰(zhàn):技術(shù)不是拿過來就可以用的,他們需要真正了解,對人工耳蝸用戶來說,他們感到最痛的問題是什么。
“技術(shù)應(yīng)用必須要場景驅(qū)動。我們需要了解,什么樣的場景,人工耳蝸用戶他們有最迫切的需要。” 商世東說。
“我們應(yīng)該為他們做點(diǎn)什么?我們能為他們做點(diǎn)什么?”這是商世東和團(tuán)隊討論最多的問題。
AI降噪技術(shù)需要在降噪和聽覺感受之間取得平衡——人們可以聽到一些場景聲音,但不能太吵;不是一點(diǎn)噪聲都沒有,但要能把噪聲能量控制在可接受的范圍之內(nèi)。
商世東和團(tuán)隊針對人工耳蝸的用戶痛點(diǎn),展開了深入調(diào)研。他們發(fā)現(xiàn),對于人工耳蝸用戶來說,有四類典型場景:第一類是音樂場景,他們想聽音樂或看電視。第二類是干凈的純凈語音場景,例如在家里只有跟家人的對話,沒有太多嘈雜的聲音。第三類是純噪聲的場景,比如戴著人工耳蝸的孩子想出去走一走,馬路上有噪聲,如果除了噪音什么都聽不見就比較危險。第四類是帶噪的語音場景,比如他們走在嘈雜的街道上,還能聽得清,知道誰在跟他們講話。
第三和第四類場景,是人工耳蝸用戶們最痛的地方。沒有AI降噪技術(shù)之前,技術(shù)很多時候顧此失彼,把所有的聲音都放大了。他們在家里跟家人對話能聽到,但是出去之后,有一些不想聽到的聲音就沒辦法屏蔽,特別吵。這時候又不能關(guān)掉人工耳蝸,否則什么都聽不見了。

聽障人士和健全人聽到的聲音波形對比
這個過程中最難的地方在于,如何判斷哪些是噪音,哪些是有用的背景音?你去聽一場交響樂,主旋律之外的鼓點(diǎn)、人們鼓掌的聲音,都是突發(fā)的聲音,機(jī)器很難判斷是噪音,還是音樂。技術(shù)很容易把噪聲識別成音樂。這給他們的研發(fā)進(jìn)程帶來了很大困擾。
“機(jī)器對連續(xù)的音樂很容易判斷出來,但打擊樂混在里面,機(jī)器很難講它是噪聲還是什么。就像打個噴嚏,我們語音特征也會顯示是突發(fā)的噪聲。噪聲需要消除,但音樂不能消除,需要把音樂盡可能地保留住。” 商世東說。
為了解決這個困難,騰訊多媒體實(shí)驗室針對性開發(fā)了針對人工耳蝸用戶的多場景識別技術(shù)。通過人工智能深度學(xué)習(xí)做場景分類,用戶常見的幾種場景都能準(zhǔn)確識別。比如聽障兒童打電話的場景,聲音里從電話里出來,跟聲音從日常自然界出來又是不一樣的,這個技術(shù)能把電話場景進(jìn)一步識別出來。
針對人工耳蝸用戶常見的4類聲學(xué)場景,騰訊多媒體實(shí)驗室在業(yè)界首次采用了基于深度學(xué)習(xí)的殘差網(wǎng)絡(luò)結(jié)構(gòu),在多尺度和多級別的網(wǎng)絡(luò)架構(gòu)環(huán)境之下,對收集到的再造語音進(jìn)一步的處理。多尺度的架構(gòu)可以有效的區(qū)分上面顯示的4位的聲學(xué)場景,而多級別的網(wǎng)絡(luò)架構(gòu)可以進(jìn)一步區(qū)分易于混淆的代造和代造語言的場景。
經(jīng)過這樣的處理,降噪技術(shù)總體上取得了96.2%的場景識別準(zhǔn)確率。這個結(jié)果超過的人工標(biāo)注的結(jié)果,為下一步做進(jìn)一步增強(qiáng)和語音處理奠定了扎實(shí)的基礎(chǔ)。
2、是技術(shù),更是藝術(shù)
人工耳蝸雖然小,但是面臨的挑戰(zhàn)巨大。將降噪技術(shù)與聽障場景相結(jié)合,比起純技術(shù)研究的直線突破,更像一場“在針尖上起舞”的藝術(shù)。
商世東和團(tuán)隊必須要解決一個兩難的應(yīng)用問題:如何在極其有限的算力條件約束下,處理高復(fù)雜度的現(xiàn)實(shí)噪聲?
使用人工耳蝸的聽障用戶,聽到的聲音跟健全人聽到的聲音有很大區(qū)別。一個關(guān)鍵原因是,他們本身聽覺細(xì)胞比健全人要少得多。
15歲的曉婷,是廣東佛山的高一學(xué)生,也是這次天籟行動中的聽障用戶之一。曉婷在兩年前,裝上人工耳蝸,第一次聽到了這個世界的聲音。可她卻無法認(rèn)出媽媽的聲音。在曉婷聽來,男人的聲音是低沉的,女人的聲音是尖細(xì)的,但她無法分辨每個人的聲音有什么不同。
健全人有15000個聽覺細(xì)胞,能夠讓你聽到非常精細(xì)的,帶有非常豐富音頻細(xì)節(jié)的聲音。而聽障人群的聽覺細(xì)胞顯著低于健全人,可能只有幾千個、幾百個,甚至于最差的只有幾十個,對聲音的解析力不夠。所以他們聽到的聲音非常模糊,聽不清、聽不見。
助聽器和人工耳蝸,最主要的功能是把音量放大。但是在把音量放大的同時,把很多很多的環(huán)境噪聲也放大了。
人耳對噪聲非常敏感,不同頻段的敏感程度也不一樣。當(dāng)把音量放大以后,健全人覺得并不是太吵的環(huán)境噪聲,比方說空調(diào)聲、風(fēng)扇聲,或者是馬路上的聲音,聽障人士聽起來會覺得嘈雜得不得了。
經(jīng)典的聲音處理,很難提升人工耳蝸對聽障人士帶來的聽覺體驗。經(jīng)典聲音信號處理時,如果要達(dá)到很好的降噪效果,需要很強(qiáng)的計算能力。人工耳蝸是戴在耳朵上的,既要輕,又沒有電源(現(xiàn)在都是電池供電),所以運(yùn)算能力非常有限。
當(dāng)我們的電腦和手機(jī)達(dá)到主頻是GHz多核架構(gòu)的時候,人工耳蝸由于尺寸限制,往往只能有幾十MHz的處理能力。在這樣的處理能力條件下,需要高復(fù)雜度的噪聲處理成為了業(yè)界的難點(diǎn),為了克服這個難點(diǎn),很多公司在進(jìn)行這方面的研究,但一直沒有突破。

人工耳蝸原理圖
今年年初,商世東和團(tuán)隊找到了國內(nèi)最大人工耳蝸廠商之一諾爾康公司。他們一起反復(fù)探討,在現(xiàn)有的軟硬件資源局限條件之下,如何幫助人工耳蝸的佩戴者有更好的體驗。
經(jīng)過反復(fù)討論和技術(shù)驗證,他們最終確定了手機(jī)伴侶APP加人工耳蝸的聯(lián)合優(yōu)化方案。在手機(jī)上,通過手機(jī)強(qiáng)大的語音處理和采集能力,對采集到的語音進(jìn)行場景識別和場景有針對性的降噪和增量處理。針對處理過的語音,通過有線或者無線的方式發(fā)送到人工耳蝸,人工耳蝸可以進(jìn)一步刺激相應(yīng)的聽覺神經(jīng),有效的改善聽覺體驗的效果。
針對噪聲消除,騰訊多媒體實(shí)驗室有效融合了經(jīng)典數(shù)字信號處理和深度學(xué)習(xí)技術(shù)。經(jīng)典數(shù)字信號處理在解決平穩(wěn)噪聲上有獨(dú)特的優(yōu)勢,計算復(fù)雜較低,但處理日常生活中的非頻率噪聲往往力不從心。而深度學(xué)習(xí)技術(shù)有非常優(yōu)秀的特征建模能力,可以針對日常生活中的各種噪聲進(jìn)行準(zhǔn)確的建模,從而有效預(yù)除生活中突發(fā)的噪聲,但深度學(xué)習(xí)的缺點(diǎn)在于運(yùn)算量復(fù)雜。為了進(jìn)一步降低運(yùn)算復(fù)雜度,他們采用了多種輔助訓(xùn)練方法,并把訓(xùn)練后的模型進(jìn)一步量化處理,把運(yùn)算復(fù)雜度有效的降低到1兆尺寸以下,解決了低功耗的手機(jī)終端上運(yùn)行降噪處理的難題。
考慮到手機(jī)上多麥克風(fēng)的情況,騰訊多媒體實(shí)驗室進(jìn)一步采用了以前在雷達(dá)以及智能天線領(lǐng)域使用的波束形成技術(shù),進(jìn)一步輔助降噪和語音的正常的處理,有效對特定方向的語音進(jìn)行針對性加強(qiáng),同時濾除非特定方向的干擾人聲以及環(huán)境噪聲。
通過使用多尺度、多級別的人工智能機(jī)器學(xué)習(xí)模型,商世東和團(tuán)隊為不同定制化場景研發(fā)了更有針對性的、更優(yōu)的降噪解決方案,針對場景的識別率從60%提升到平均96%。經(jīng)過多種技術(shù)的整合和處理,有效提升了聽障人士在各種溝通場景之下的效率,幫助消除他們不想聽到的聲音。
試戴新一代人工耳蝸第一天,曉婷和媽媽一起去公園,突然聽見了從來沒有聽過的聲音。媽媽告訴她,這是鳥叫。她說:“媽媽,是兩只鳥的聲音。”媽媽驚訝了。她從來沒有想到,曉婷不僅能夠聽清鳥叫,還能辨認(rèn)出是兩只鳥的叫聲。

騰訊多媒體實(shí)驗室發(fā)布天籟行動,用AI技術(shù)幫助聽障人士
3、騰訊的“技術(shù)外溢”與產(chǎn)品力
值得注意的是,天籟行動并非騰訊偶然一次心血來潮的公益實(shí)踐。它是騰訊基于“科技向善”的價值觀,進(jìn)行體系化、持續(xù)性建設(shè)的公益產(chǎn)品落地之一。其背后的驅(qū)動機(jī)制,正是騰訊技術(shù)積累的“技術(shù)外溢”,以及將技術(shù)快速場景化落地的強(qiáng)大產(chǎn)品力。
“天籟行動”之所以能達(dá)到顯著的語音增強(qiáng)和降噪效果,既源自于騰訊多媒體實(shí)驗室多年的技術(shù)積累,尤其是在多媒體方向上的投入,也得益于騰訊內(nèi)部眾多產(chǎn)品的豐富場景應(yīng)用、快速迭代創(chuàng)新。
騰訊多媒體實(shí)驗室過往20年開發(fā)的音頻技術(shù),用在了騰訊QQ,騰訊課堂、騰訊語音等多個產(chǎn)品上,服務(wù)于全球最大的體量客戶。
最近的一個例子是騰訊會議的實(shí)踐。作為一款上市不到一年的產(chǎn)品,騰訊會議的用戶數(shù)已經(jīng)突破了1億。其快速增長背后,是新一代實(shí)時音頻技術(shù)加持——為騰訊用戶在使用過程中提供高清、流暢、沉浸的音頻通訊體驗,解決在音視頻場景里所碰到的挑戰(zhàn)。這個技術(shù)就是應(yīng)用于人工耳蝸的騰訊天籟。
不同技術(shù)互相取長補(bǔ)短,才能有更好的體驗。為此,騰訊多媒體實(shí)驗室組建了一支多元化的技術(shù)團(tuán)隊。商世東20多年一直在研究音頻技術(shù)方向,團(tuán)隊里成員的背景也相當(dāng)豐富:技術(shù)領(lǐng)域有偏重于聲學(xué)的,有偏重于算法的,有偏重于機(jī)器學(xué)習(xí)的,有偏重經(jīng)典信號處理的。專業(yè)背景既有中國頂尖高校,如中科大、北大等畢業(yè)的博士生加入,也招募了很多國際知名的人才加盟,包括來自新加坡國立大學(xué)、澳大利亞西澳大學(xué),還有在德國工作多年的經(jīng)典數(shù)字信號處理方面的專業(yè)人才……團(tuán)隊成員相互合作,技術(shù)融合創(chuàng)新,一塊打磨音頻體驗。
同時,騰訊發(fā)揮自身的產(chǎn)品力優(yōu)勢,將前沿技術(shù)應(yīng)用到“無障礙”、AI尋人等多項公益產(chǎn)品中,為信息無障礙貢獻(xiàn)力量,持續(xù)為社會創(chuàng)造價值。
從2009年開始,騰訊的QQ、微信等產(chǎn)品,先后針對視障等用戶進(jìn)行了體驗優(yōu)化,開發(fā)了“無障礙”版本,讓他們通過“聽”也能使用,這些應(yīng)用也成為他們離不開的生活伴侶。
2018年,QQ空間啟動了“無障礙AI技術(shù)”開放項目,將OCR文字識別、語音合成、圖片轉(zhuǎn)語音等無障礙AI技術(shù),通過小程序開放,企業(yè)、開發(fā)者可以免費(fèi)接入。
2019年,優(yōu)圖實(shí)驗室利用深度學(xué)習(xí)技術(shù),突破“跨年齡人臉識別”技術(shù),助力警方尋回多名被拐十年的兒童,幫助更多的家庭得以團(tuán)聚。

騰訊優(yōu)圖實(shí)驗室利用人工智能(AI)深度學(xué)習(xí)技術(shù),突破“跨年齡人臉識別”
今年,騰訊多媒體實(shí)驗室將“新一代實(shí)時音頻技術(shù)”——騰訊天籟,應(yīng)用在人工耳蝸上。天籟行動不算驚天動地,但解決的問題存在很大技術(shù)挑戰(zhàn),過去不少嘗試都沒有成功。騰訊為什么能做到?因為騰訊具備了三點(diǎn)關(guān)鍵——騰訊20余年在音視頻技術(shù)領(lǐng)域的積累,擅于將技術(shù)場景化落地的產(chǎn)品力,“科技向善”的情懷。
而這三點(diǎn),也正保證了騰訊未來能持續(xù)實(shí)踐“科技向善”價值觀:堅持從用戶價值出發(fā),通過科技應(yīng)用、場景創(chuàng)新,不斷解決社會難題。
“我們要做到‘AI向善’,就要努力讓人工智能實(shí)現(xiàn)‘可知、可控、可用、可靠’。這是全世界共同面對的課題。”騰訊公司董事會主席兼CEO馬化騰表示,“騰訊把‘科技向善’納入公司的使命和愿景,我們每天都在研究和應(yīng)用新科技,歸根到底要為每一位用戶負(fù)責(zé)。”






