欧美一级高清片,一区不卡在线观看,天天色综合天天

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

出門問問3篇論文獲自然語言處理和人工智能國際會議錄用發(fā)表

發(fā)布時間：2022-08-01 16:14:00 作者：網(wǎng)友整理

7月15-17日，2022年第三屆自然語言處理與人工智能國際會議（NLPAI 2022）于成都四川大學(xué)舉辦。繼出門問問語音情感合成論文入選全球語音領(lǐng)域頂級會議 INTERSPEECH 2022后，出門問問語音團(tuán)隊的3篇論文再次被NLPAI錄用發(fā)表。

NLPAI會議旨在為世界各地的研究學(xué)者，工程師和科學(xué)家提供一個自然語言處理與人工智能等相關(guān)領(lǐng)域的技術(shù)進(jìn)步展示和研究成果發(fā)布交流的國際會議平臺，每年都吸引數(shù)千名學(xué)者專家進(jìn)行交流，探討學(xué)術(shù)觀點，碰撞最新研究成果。會議所有被錄用的論文將發(fā)表在 Conference Proceedings 上，將被 Ei Compendex、Scopus 檢索，并提交 CPCI 檢索。

Drawing 0.png

在群星璀璨的技術(shù)盛宴里，出門問問語音團(tuán)隊在語音技術(shù)領(lǐng)域貢獻(xiàn)了哪些精彩亮點？

1、《Prosody Prediction With Discriminative Representation Method》

《基于判別表示的韻律預(yù)測》

作者： Jipeng Zhang, Askar Hamdulla, Xiaoqin Feng, Xipeng Yang, Yunlin Chen

韻律是影響文本到語音（TTS）的自然性和可理解性的關(guān)鍵因素，同時也面臨著巨大的挑戰(zhàn)，包括：

1. 統(tǒng)一標(biāo)注數(shù)據(jù)集的獲取，需要依賴于嚴(yán)格的專家經(jīng)驗。

2. 基于傳統(tǒng)概率統(tǒng)計方法，嚴(yán)重依賴于特征工程等文本處理效果。

針對上述問題，論文中提出了一種基于獨立韻律數(shù)據(jù)的預(yù)測系統(tǒng)。

Drawing 1.png

這個新方法具有以下優(yōu)點：

1. 減少了對于聯(lián)合數(shù)據(jù)的依賴性，靈活支持不同韻律等級的模型訓(xùn)練。

2. 提出了一種通用判別表示方法 Layer Look Up Table（LLUT），建模不同的韻律等級，引入多任務(wù)訓(xùn)練。

3. 基于預(yù)訓(xùn)練方法對文本語義建模，無需任何特征工程。

2、《Research of Pitch Controllability Based on LPCNet》

《基于LPCNet的語調(diào)可控性研究》

作者：Wenyu Gao, Askar Hamdulla, Xipeng Yang, Yunlin Chen

隨著語音合成技術(shù)在大部分場景的使用，修改音頻的音調(diào)有著廣泛的用途。目前大部分音調(diào)可控是通過使用單獨的神經(jīng)網(wǎng)絡(luò)生成輸入?yún)?shù)實現(xiàn)，但這個方法需要訓(xùn)練多個神經(jīng)網(wǎng)絡(luò)，并且在沒有說話人自適應(yīng)的情況下不能顯示可控。針對這一問題，提出了一種基于LPCNet聲碼器進(jìn)行音調(diào)顯示控制的方法。首先在訓(xùn)練階段，通過優(yōu)化訓(xùn)練特征來優(yōu)化聲碼器模型合成效果和對控制音調(diào)的魯棒性；其次在推理階段輸入控制曲線對基頻進(jìn)行調(diào)節(jié)，然后利用聲碼器LPCNet將聲學(xué)特征推理為波形點；最后合成音頻。實驗結(jié)果表明，所提方法能夠靈活控制音調(diào)，合成的聲音音質(zhì)也有所提升。

Drawing 2.png

訓(xùn)練階段

Drawing 3.png

測試階段

這個新方法具有以下優(yōu)點：

1. 能夠靈活控制音調(diào)，聲音音質(zhì)也有所提升；

2. 在控制閾值范圍內(nèi)，調(diào)節(jié)控制參數(shù)并沒有使得音質(zhì)有明顯下降；

3. 后續(xù)嘗試在聲學(xué)模型生產(chǎn)聲學(xué)特征過程中引入基頻控制，這樣結(jié)合聲學(xué)模型的decoder模型，能夠生成更加魯棒的音頻。

3、《End-to-End Multi-Speaker Speech Synthesis with Controllable Stress》

《基于端到端的跨說話人重音可控語音合成》

作者：Ting Liang, Askar Hamdulla, Hao Yin, Yunlin Chen

目前，端到端語音合成在某些領(lǐng)域已經(jīng)達(dá)到了真人水平，如語音助手、新聞播報、智能導(dǎo)航等。然而，人類表達(dá)信息通常需要突出重點，在語音中適時添加重音（Stress）可以起到強調(diào)作用，更好的表述觀點。目前大部分語音合成研究都沒有對重音特征進(jìn)行建模，因此合成的語音無法突出重點，語調(diào)單一或者重音的位置不可控。這樣的語音缺乏表現(xiàn)力。該文提出了一種基于端到端的跨說話人重音可控語音合成方法，并且無需對目標(biāo)說話人的重音特征進(jìn)行標(biāo)注，即可合成重音可控的目標(biāo)說話人語音。

Drawing 4.png

這個方法具有以下優(yōu)點：

1. 實現(xiàn)對合成語音的重音三級可控（重讀/拖音/重讀拖音）；

2. 只需少量重音標(biāo)注數(shù)據(jù)，即可將重音功能遷移至任意無重音數(shù)據(jù)的目標(biāo)發(fā)音人；

3. 合成語音更加自然、表現(xiàn)力更加豐富。

聆聽用戶聲音探索更貼近用戶的語音技術(shù)

此次3篇論文入選自然語言處理與人工智能國際會議（NLPAI 2022），是出門問問全棧和硬核技術(shù)的再次進(jìn)展，也是公司繼獲評吳文俊人工智能科技進(jìn)步獎、國家高新技術(shù)企業(yè)、北京市專精特新中小企業(yè)，論文入選全球語音技術(shù)頂會 INTERSPEECH 2022 等技術(shù)成就之后，在前沿技術(shù)上的又一次新突破。

近年來，出門問問不斷將日趨成熟的語音技術(shù)，逐步落地在離用戶更近的產(chǎn)品和服務(wù)上，聆聽用戶聲音，尊重用戶情感，深度挖掘用戶的潛在需求。目前，出門問問團(tuán)隊已將重讀、拖音、韻律及語調(diào)可控等功能應(yīng)用于AI配音神器「魔音工坊」中，從聲音轉(zhuǎn)換到重讀、拖音，眾多首發(fā)的AI語音技術(shù)實現(xiàn)，讓用戶體驗到更富有情感、媲美真人的AI配音。

人工智能底層技術(shù)的深厚積累，將不斷促進(jìn)出門問問人工智能系統(tǒng)的“智力”提升，使之更好地應(yīng)用于智慧出行、智慧生活等各行業(yè)，為用戶締造出色的智能體驗。

分享到：

標(biāo)簽：自然語言人工智能國際會議錄用問問出門發(fā)表論文