曰本亚洲欧洲色a在线,亚洲精品资源,精品国产系列在线观看

你走進(jìn)澡堂，霧氣彌漫。眼睛看到的人影模模糊糊。既看不清楚細(xì)節(jié)，也不知道是誰，只能看到大概輪廓。

你覺得手足無措，一分鐘都不想待在那里。

你看到的情景，就是聽障人士在真實(shí)世界里聽到的情況。霧氣相當(dāng)于他們聽到的嘈雜的聲音。所有聲音的細(xì)節(jié)統(tǒng)統(tǒng)丟失，聽到的人聲和音樂聲，都淹沒在一片非常濃厚嘈雜的噪音里。

對我們健全人來說，一直在霧氣彌漫的場景里看東西，可以想象多么痛苦。對于聽障人士而言，他們一輩子，7×24小時，都被困在了這樣的環(huán)境里。

“如果能幫助他們，讓他們聽得見、聽得清、聽得真，聽到我們健全人能聽見的聲音，那真是一件非常有意義的事情。”騰訊多媒體實(shí)驗室高級總監(jiān)商世東表示。

剛過去的9月27日，國際聾人日當(dāng)天，騰訊多媒體實(shí)驗室聯(lián)合騰訊公益慈善基金會、深圳市信息無障礙研究會等機(jī)構(gòu)召開發(fā)布會，宣布發(fā)起“天籟行動”——面向公益開發(fā)者、設(shè)備廠商、相關(guān)機(jī)構(gòu)開放騰訊天籟AI音頻技術(shù)，應(yīng)用于聽障人群無障礙建設(shè)等相關(guān)社會責(zé)任領(lǐng)域。

天籟行動，是騰訊“科技向善”的一次最新實(shí)踐。從2019年11月11日開始，騰訊將“科技向善”寫進(jìn)公司最新的使命與愿景之中。

科技與人類的關(guān)系，在近年越發(fā)受到關(guān)注和討論。事實(shí)上，不只騰訊，諸多科技公司都開始重視和強(qiáng)調(diào)用好科技，以科技為善：騰訊強(qiáng)調(diào)“科技向善”，華為強(qiáng)調(diào)“科技至善”。

如何讓“科技向善”不是一句簡單的口號，更要真正成為一個持續(xù)落地的使命。其背后的驅(qū)動機(jī)制，來自科技公司的技術(shù)外溢與產(chǎn)品力，帶來持續(xù)不斷的技術(shù)進(jìn)步、產(chǎn)品落地和公益體系化建設(shè)。

騰訊天籟行動，正是這一科技向善機(jī)制的典型體現(xiàn)。騰訊分三步，實(shí)現(xiàn)了用AI幫助聽障人士的科技實(shí)踐：釋放20余年音頻技術(shù)積累，以產(chǎn)品力將技術(shù)落地于聽障人群，為不同定制化場景研發(fā)針對性降噪解決方案。最終實(shí)現(xiàn)將人工耳蝸語音清晰度和識別度提升40%，極大改善聽障人士的聽覺體驗，讓他們“聽得見”，更“聽得清”。

1、從技術(shù)，到場景

優(yōu)秀的技術(shù)研究團(tuán)隊，都有一個共同的特質(zhì)：喜歡迎接未知的挑戰(zhàn)，不斷突破；越是遇到棘手的挑戰(zhàn)，就會越興奮。商世東和他所在的騰訊多媒體實(shí)驗室，就是這樣一支團(tuán)隊。

騰訊多媒體實(shí)驗室，是騰訊公司前沿技術(shù)實(shí)驗室之一，專注音視頻通信技術(shù)的前瞻性研究，最擅長語音增強(qiáng)和降噪技術(shù)。針對語音在嘈雜環(huán)境中的情況，他們把經(jīng)典信號處理和機(jī)器學(xué)習(xí)技術(shù)融合在一起，加上聲學(xué)場景分析技術(shù)，打造了一套降噪解決方案。他們把降噪技術(shù)應(yīng)用在包括騰訊會議等多個產(chǎn)品里，經(jīng)過各種場景，各種設(shè)備，各樣用戶的體驗和打磨，成功實(shí)現(xiàn)了國際領(lǐng)先的核心語音增強(qiáng)和降噪技術(shù)指標(biāo)。

作為一個專注聲音的研究團(tuán)隊，商世東和同事們在公司的一些無障礙項目交流當(dāng)中，不止一次接觸到聽障人群。他們對聲音的渴望，以及很多家庭為了孩子獲得聽的權(quán)利，付出了很多常人無法想象的努力，他們的堅持和努力，讓人觸動。

“一開始，這個技術(shù)是用在健全人的通信當(dāng)中。但其實(shí)聽障人員更需要語音增強(qiáng)和降噪技術(shù)，是用來解決他們聽得見、聽得懂的問題。”商世東說，”降噪技術(shù)對健全人是錦上添花，對聽障人士是雪中送炭。”

世界衛(wèi)生組織(WHO)數(shù)據(jù)顯示，全球有約11億年輕人(12-35歲之間)面臨聽力損失的風(fēng)險，約4.66億人患有殘疾性聽力損失。據(jù)第二次全國殘疾人抽樣調(diào)查結(jié)果顯示，我國有聽力殘疾患者2780萬人。而這2780萬聽障人士，通過科技填補(bǔ)自身缺陷的，不到5%。

商世東和騰訊多媒體實(shí)驗室的同事們決定，將降噪技術(shù)貢獻(xiàn)出來，提供給人工耳蝸廠商，讓他們可以把采集到的聲音信號進(jìn)行降噪，幫助聽障人士擺脫噪音煩惱，聽到的干凈得多、安靜得多的聲音世界。

但當(dāng)他們試圖把技術(shù)運(yùn)用到人工耳蝸場景時，商世東和團(tuán)隊發(fā)現(xiàn)，他們遇到了前所未有的挑戰(zhàn)：技術(shù)不是拿過來就可以用的，他們需要真正了解，對人工耳蝸用戶來說，他們感到最痛的問題是什么。

“技術(shù)應(yīng)用必須要場景驅(qū)動。我們需要了解，什么樣的場景，人工耳蝸用戶他們有最迫切的需要。” 商世東說。

“我們應(yīng)該為他們做點(diǎn)什么？我們能為他們做點(diǎn)什么？”這是商世東和團(tuán)隊討論最多的問題。

AI降噪技術(shù)需要在降噪和聽覺感受之間取得平衡——人們可以聽到一些場景聲音，但不能太吵；不是一點(diǎn)噪聲都沒有，但要能把噪聲能量控制在可接受的范圍之內(nèi)。

商世東和團(tuán)隊針對人工耳蝸的用戶痛點(diǎn)，展開了深入調(diào)研。他們發(fā)現(xiàn)，對于人工耳蝸用戶來說，有四類典型場景：第一類是音樂場景，他們想聽音樂或看電視。第二類是干凈的純凈語音場景，例如在家里只有跟家人的對話，沒有太多嘈雜的聲音。第三類是純噪聲的場景，比如戴著人工耳蝸的孩子想出去走一走，馬路上有噪聲，如果除了噪音什么都聽不見就比較危險。第四類是帶噪的語音場景，比如他們走在嘈雜的街道上，還能聽得清，知道誰在跟他們講話。

第三和第四類場景，是人工耳蝸用戶們最痛的地方。沒有AI降噪技術(shù)之前，技術(shù)很多時候顧此失彼，把所有的聲音都放大了。他們在家里跟家人對話能聽到，但是出去之后，有一些不想聽到的聲音就沒辦法屏蔽，特別吵。這時候又不能關(guān)掉人工耳蝸，否則什么都聽不見了。

聽障人士和健全人聽到的聲音波形對比

這個過程中最難的地方在于，如何判斷哪些是噪音，哪些是有用的背景音？你去聽一場交響樂，主旋律之外的鼓點(diǎn)、人們鼓掌的聲音，都是突發(fā)的聲音，機(jī)器很難判斷是噪音，還是音樂。技術(shù)很容易把噪聲識別成音樂。這給他們的研發(fā)進(jìn)程帶來了很大困擾。

“機(jī)器對連續(xù)的音樂很容易判斷出來，但打擊樂混在里面，機(jī)器很難講它是噪聲還是什么。就像打個噴嚏，我們語音特征也會顯示是突發(fā)的噪聲。噪聲需要消除，但音樂不能消除，需要把音樂盡可能地保留住。” 商世東說。

為了解決這個困難，騰訊多媒體實(shí)驗室針對性開發(fā)了針對人工耳蝸用戶的多場景識別技術(shù)。通過人工智能深度學(xué)習(xí)做場景分類，用戶常見的幾種場景都能準(zhǔn)確識別。比如聽障兒童打電話的場景，聲音里從電話里出來，跟聲音從日常自然界出來又是不一樣的，這個技術(shù)能把電話場景進(jìn)一步識別出來。

針對人工耳蝸用戶常見的4類聲學(xué)場景，騰訊多媒體實(shí)驗室在業(yè)界首次采用了基于深度學(xué)習(xí)的殘差網(wǎng)絡(luò)結(jié)構(gòu)，在多尺度和多級別的網(wǎng)絡(luò)架構(gòu)環(huán)境之下，對收集到的再造語音進(jìn)一步的處理。多尺度的架構(gòu)可以有效的區(qū)分上面顯示的4位的聲學(xué)場景，而多級別的網(wǎng)絡(luò)架構(gòu)可以進(jìn)一步區(qū)分易于混淆的代造和代造語言的場景。

經(jīng)過這樣的處理，降噪技術(shù)總體上取得了96.2%的場景識別準(zhǔn)確率。這個結(jié)果超過的人工標(biāo)注的結(jié)果，為下一步做進(jìn)一步增強(qiáng)和語音處理奠定了扎實(shí)的基礎(chǔ)。

2、是技術(shù)，更是藝術(shù)

人工耳蝸雖然小，但是面臨的挑戰(zhàn)巨大。將降噪技術(shù)與聽障場景相結(jié)合，比起純技術(shù)研究的直線突破，更像一場“在針尖上起舞”的藝術(shù)。

商世東和團(tuán)隊必須要解決一個兩難的應(yīng)用問題：如何在極其有限的算力條件約束下，處理高復(fù)雜度的現(xiàn)實(shí)噪聲？

使用人工耳蝸的聽障用戶，聽到的聲音跟健全人聽到的聲音有很大區(qū)別。一個關(guān)鍵原因是，他們本身聽覺細(xì)胞比健全人要少得多。

15歲的曉婷，是廣東佛山的高一學(xué)生，也是這次天籟行動中的聽障用戶之一。曉婷在兩年前，裝上人工耳蝸，第一次聽到了這個世界的聲音。可她卻無法認(rèn)出媽媽的聲音。在曉婷聽來，男人的聲音是低沉的，女人的聲音是尖細(xì)的，但她無法分辨每個人的聲音有什么不同。

健全人有15000個聽覺細(xì)胞，能夠讓你聽到非常精細(xì)的，帶有非常豐富音頻細(xì)節(jié)的聲音。而聽障人群的聽覺細(xì)胞顯著低于健全人，可能只有幾千個、幾百個，甚至于最差的只有幾十個，對聲音的解析力不夠。所以他們聽到的聲音非常模糊，聽不清、聽不見。

助聽器和人工耳蝸，最主要的功能是把音量放大。但是在把音量放大的同時，把很多很多的環(huán)境噪聲也放大了。

人耳對噪聲非常敏感，不同頻段的敏感程度也不一樣。當(dāng)把音量放大以后，健全人覺得并不是太吵的環(huán)境噪聲，比方說空調(diào)聲、風(fēng)扇聲，或者是馬路上的聲音，聽障人士聽起來會覺得嘈雜得不得了。

經(jīng)典的聲音處理，很難提升人工耳蝸對聽障人士帶來的聽覺體驗。經(jīng)典聲音信號處理時，如果要達(dá)到很好的降噪效果，需要很強(qiáng)的計算能力。人工耳蝸是戴在耳朵上的，既要輕，又沒有電源（現(xiàn)在都是電池供電），所以運(yùn)算能力非常有限。

當(dāng)我們的電腦和手機(jī)達(dá)到主頻是GHz多核架構(gòu)的時候，人工耳蝸由于尺寸限制，往往只能有幾十MHz的處理能力。在這樣的處理能力條件下，需要高復(fù)雜度的噪聲處理成為了業(yè)界的難點(diǎn)，為了克服這個難點(diǎn)，很多公司在進(jìn)行這方面的研究，但一直沒有突破。

人工耳蝸原理圖

今年年初，商世東和團(tuán)隊找到了國內(nèi)最大人工耳蝸廠商之一諾爾康公司。他們一起反復(fù)探討，在現(xiàn)有的軟硬件資源局限條件之下，如何幫助人工耳蝸的佩戴者有更好的體驗。

經(jīng)過反復(fù)討論和技術(shù)驗證，他們最終確定了手機(jī)伴侶APP加人工耳蝸的聯(lián)合優(yōu)化方案。在手機(jī)上，通過手機(jī)強(qiáng)大的語音處理和采集能力，對采集到的語音進(jìn)行場景識別和場景有針對性的降噪和增量處理。針對處理過的語音，通過有線或者無線的方式發(fā)送到人工耳蝸，人工耳蝸可以進(jìn)一步刺激相應(yīng)的聽覺神經(jīng)，有效的改善聽覺體驗的效果。

針對噪聲消除，騰訊多媒體實(shí)驗室有效融合了經(jīng)典數(shù)字信號處理和深度學(xué)習(xí)技術(shù)。經(jīng)典數(shù)字信號處理在解決平穩(wěn)噪聲上有獨(dú)特的優(yōu)勢，計算復(fù)雜較低，但處理日常生活中的非頻率噪聲往往力不從心。而深度學(xué)習(xí)技術(shù)有非常優(yōu)秀的特征建模能力，可以針對日常生活中的各種噪聲進(jìn)行準(zhǔn)確的建模，從而有效預(yù)除生活中突發(fā)的噪聲，但深度學(xué)習(xí)的缺點(diǎn)在于運(yùn)算量復(fù)雜。為了進(jìn)一步降低運(yùn)算復(fù)雜度，他們采用了多種輔助訓(xùn)練方法，并把訓(xùn)練后的模型進(jìn)一步量化處理，把運(yùn)算復(fù)雜度有效的降低到1兆尺寸以下，解決了低功耗的手機(jī)終端上運(yùn)行降噪處理的難題。

考慮到手機(jī)上多麥克風(fēng)的情況，騰訊多媒體實(shí)驗室進(jìn)一步采用了以前在雷達(dá)以及智能天線領(lǐng)域使用的波束形成技術(shù)，進(jìn)一步輔助降噪和語音的正常的處理，有效對特定方向的語音進(jìn)行針對性加強(qiáng)，同時濾除非特定方向的干擾人聲以及環(huán)境噪聲。

通過使用多尺度、多級別的人工智能機(jī)器學(xué)習(xí)模型，商世東和團(tuán)隊為不同定制化場景研發(fā)了更有針對性的、更優(yōu)的降噪解決方案，針對場景的識別率從60%提升到平均96%。經(jīng)過多種技術(shù)的整合和處理，有效提升了聽障人士在各種溝通場景之下的效率，幫助消除他們不想聽到的聲音。

試戴新一代人工耳蝸第一天，曉婷和媽媽一起去公園，突然聽見了從來沒有聽過的聲音。媽媽告訴她，這是鳥叫。她說：“媽媽，是兩只鳥的聲音。”媽媽驚訝了。她從來沒有想到，曉婷不僅能夠聽清鳥叫，還能辨認(rèn)出是兩只鳥的叫聲。

騰訊多媒體實(shí)驗室發(fā)布天籟行動，用AI技術(shù)幫助聽障人士

3、騰訊的“技術(shù)外溢”與產(chǎn)品力

值得注意的是，天籟行動并非騰訊偶然一次心血來潮的公益實(shí)踐。它是騰訊基于“科技向善”的價值觀，進(jìn)行體系化、持續(xù)性建設(shè)的公益產(chǎn)品落地之一。其背后的驅(qū)動機(jī)制，正是騰訊技術(shù)積累的“技術(shù)外溢”，以及將技術(shù)快速場景化落地的強(qiáng)大產(chǎn)品力。

“天籟行動”之所以能達(dá)到顯著的語音增強(qiáng)和降噪效果，既源自于騰訊多媒體實(shí)驗室多年的技術(shù)積累，尤其是在多媒體方向上的投入，也得益于騰訊內(nèi)部眾多產(chǎn)品的豐富場景應(yīng)用、快速迭代創(chuàng)新。

騰訊多媒體實(shí)驗室過往20年開發(fā)的音頻技術(shù)，用在了騰訊QQ，騰訊課堂、騰訊語音等多個產(chǎn)品上，服務(wù)于全球最大的體量客戶。

最近的一個例子是騰訊會議的實(shí)踐。作為一款上市不到一年的產(chǎn)品，騰訊會議的用戶數(shù)已經(jīng)突破了1億。其快速增長背后，是新一代實(shí)時音頻技術(shù)加持——為騰訊用戶在使用過程中提供高清、流暢、沉浸的音頻通訊體驗，解決在音視頻場景里所碰到的挑戰(zhàn)。這個技術(shù)就是應(yīng)用于人工耳蝸的騰訊天籟。

不同技術(shù)互相取長補(bǔ)短，才能有更好的體驗。為此，騰訊多媒體實(shí)驗室組建了一支多元化的技術(shù)團(tuán)隊。商世東20多年一直在研究音頻技術(shù)方向，團(tuán)隊里成員的背景也相當(dāng)豐富：技術(shù)領(lǐng)域有偏重于聲學(xué)的，有偏重于算法的，有偏重于機(jī)器學(xué)習(xí)的，有偏重經(jīng)典信號處理的。專業(yè)背景既有中國頂尖高校，如中科大、北大等畢業(yè)的博士生加入，也招募了很多國際知名的人才加盟，包括來自新加坡國立大學(xué)、澳大利亞西澳大學(xué)，還有在德國工作多年的經(jīng)典數(shù)字信號處理方面的專業(yè)人才……團(tuán)隊成員相互合作，技術(shù)融合創(chuàng)新，一塊打磨音頻體驗。

同時，騰訊發(fā)揮自身的產(chǎn)品力優(yōu)勢，將前沿技術(shù)應(yīng)用到“無障礙”、AI尋人等多項公益產(chǎn)品中，為信息無障礙貢獻(xiàn)力量，持續(xù)為社會創(chuàng)造價值。

從2009年開始，騰訊的QQ、微信等產(chǎn)品，先后針對視障等用戶進(jìn)行了體驗優(yōu)化，開發(fā)了“無障礙”版本，讓他們通過“聽”也能使用，這些應(yīng)用也成為他們離不開的生活伴侶。

2018年，QQ空間啟動了“無障礙AI技術(shù)”開放項目，將OCR文字識別、語音合成、圖片轉(zhuǎn)語音等無障礙AI技術(shù)，通過小程序開放，企業(yè)、開發(fā)者可以免費(fèi)接入。

2019年，優(yōu)圖實(shí)驗室利用深度學(xué)習(xí)技術(shù)，突破“跨年齡人臉識別”技術(shù)，助力警方尋回多名被拐十年的兒童，幫助更多的家庭得以團(tuán)聚。

騰訊優(yōu)圖實(shí)驗室利用人工智能（AI）深度學(xué)習(xí)技術(shù)，突破“跨年齡人臉識別”

今年，騰訊多媒體實(shí)驗室將“新一代實(shí)時音頻技術(shù)”——騰訊天籟，應(yīng)用在人工耳蝸上。天籟行動不算驚天動地，但解決的問題存在很大技術(shù)挑戰(zhàn)，過去不少嘗試都沒有成功。騰訊為什么能做到？因為騰訊具備了三點(diǎn)關(guān)鍵——騰訊20余年在音視頻技術(shù)領(lǐng)域的積累，擅于將技術(shù)場景化落地的產(chǎn)品力，“科技向善”的情懷。

而這三點(diǎn)，也正保證了騰訊未來能持續(xù)實(shí)踐“科技向善”價值觀：堅持從用戶價值出發(fā)，通過科技應(yīng)用、場景創(chuàng)新，不斷解決社會難題。

“我們要做到‘AI向善’，就要努力讓人工智能實(shí)現(xiàn)‘可知、可控、可用、可靠’。這是全世界共同面對的課題。”騰訊公司董事會主席兼CEO馬化騰表示，“騰訊把‘科技向善’納入公司的使命和愿景，我們每天都在研究和應(yīng)用新科技，歸根到底要為每一位用戶負(fù)責(zé)。”

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

深度解析 | 用AI幫助聽障人群,一共需要幾步

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績評定2018-06-03