
李秀林,中科院聲學所博士,10余年語音相關技術研發和相關的學術研究,專利數30多項,涉及文本處理、韻律預測、聲學模型、拼接系統、模型自適應、神經網絡、情感合成等多個關鍵領域。曾作為百度語音合成技術負責人帶領團隊折桂百度百萬美元最高獎。現任標貝科技聯合創始人&CTO。
【導讀】近幾年AI人工智能迅猛發展,語音識別技術也逐漸走向成熟,2020年疫情防控更是加速了智能語音交互技術在多場景落地。致力于智能語音交互和AI數據服務的標貝科技近日也完成了語音合成TTS3.0解決方案的升級迭代,在使用全新的聲學模型和聲碼器優勢下,深度學習端到端系統,可以實現承載更多的聲音細節,顯著提升TTS語音合成穩定性及表現力,助力更多場景落地。
語音合成,讓機器人開口說話
語音合成技術解決的是從文本到語音轉換,為服務機器人擔當“嘴巴”的角色。為了讓機器開口說話,與人類更進一步交流,語音合成的自然度、多語種能力、快速定制能力也就十分重要。
從技術架構來看,語音合成主要經歷了三次大變革。
九十年代初,隨著PSOLA方法的提出和計算機能力的發展,基于大語料庫的單元挑選與波形拼接合成方法出現,可以合成出高質量的自然人語音。法語、德語、英語、日語等語種的文語轉換系統相繼研制成功。但波形語音合成法是一種相對簡單的 TTS語音技術,通常只能合成有限詞匯的語音段。
由于波形拼接方法需要的語音語料庫非常占用資源而且要求設計精細,訓練模型的時間長,為了解決這個難題,20世界末,隱馬爾科夫模型(HMM)結合諧波加噪聲模型一起面世了。這種方法也被看作是最有用的統計建模方法,靈活度高、庫小、建構時間也少,非常適合移動嵌入式平臺。
第三個階段就是利用深度神經網絡了,這是語音合成技術的一次飛躍式進步。深度學習的算法可以更好地模擬人聲變化規律,音色、情感上的改善讓語音合成效果越來越接近真人水平,使合成的聲音更加自然和個性。谷歌的 WaveNet、Tacotron,百度的 ClariNet,都是基于深度神經網絡的TTS系統。
標貝TTS語音合成技術,打造更溫暖的聲音
事實上,也是隨著智能語音音質的提升,越來越多新的場景開始出現對語音技術的強烈需求,智能語音市場初現規模。也正是看準了這一時機,標貝科技作為一家專注于做語音技術的創業公司,在積累了豐富的語音合成數據基礎上,于2018年正式推出語音合成TTS1.0行業解決方案。
李博士介紹,為了提高語音合成的自然流暢度,標貝科技的語音合成技術在聲學、韻律上采用了基于Attention機制的深度神經網絡技術模型,充分利用文本數據,構建前端模塊、選擇合適的聲碼器,降低運算量,創新語音合成模型,實現合成的語音發音自然、清晰、韻律感流暢,讓機器與人的互動顯得更親近。
而隨著市場的發展,人們對智能語音技術有了更高的要求。比如企業的智能客服需要嗓音輕柔甜美,新聞虛擬主播需要吐字清晰流暢,兒童有聲讀物則需要親切可人等。為了滿足不同客戶群體需求,標貝科技在音色和場景豐富度上持續發力。基于海量語音數據的優勢,標貝科技對音色庫進行充分擴容,推出可以支持男女老幼多音色,中文、英文、中英混讀、小語種等多語種的TTS2.0解決方案,可以根據用戶個性化需求定制,滿足多場景業務需求。
“其實我們第二版的TTS技術相對來說已經算是很成熟了,不管市場需求如何變化,我們始終聚焦AI語音的應用價值,在語音合成技術的基礎上,不斷拓展場景應用邊界,打造豐富的技術產品及方案,構建更加完善的業務體系。“李博士表示。
“例如,在語音技術方面,我們打造聲音復刻、情感合成、聲音轉換與AI歌曲等多元化語音技術服務。其中,聲音復刻與情感合成是語音技術本身的創新應用,通過復刻聲音和讓聲音更富有情感的表現力,來挖掘合成語音的個性化價值,更好的匹配有聲閱讀、AI教育場景應用,而聲音轉換和歌曲合成,則是語音技術延展能力的體現,在虛擬偶像、短視頻方等方面有巨大的市場應用空間。“說到標貝科技語音交互技術的落地應用,李博士很自豪。
”在解決方案上,我們全新推出了AI數字虛擬人、智能客服、智慧媒體等一站式解決方案;在產品方面,推出標貝悅讀、恐龍貝克兩大C端產品,從原有的單點語音技術升級至語音、圖像、虛擬人等多點技術融合。“
標貝TTS升級,實現端到端完美融合
2020年是智能語音交互技術加速落地的一年。防疫常態化的要求下,遠程會議、在線教育、在線辦公的已成為人們生活中的標配,智能語音交互技術規模化發展由此得到了極大的推動。為了賦予聲音更豐富的情感表現力和個性化特點,讓語音合成技術能夠“恰好”適配到各種非標準化的場景中,在原有的技術基礎上,標貝再一次進行“升級改造”。
“我們這次TTS3.0的迭代采用了全新的聲學模型和聲碼器,同時也保持對TTS2.0舊模型的全部兼容,最大程度地保證無縫升級。”李博士強調。
全新升級的TTS3.0技術采用全新的聲學模型在發音效果上有了顯著提升,普通人自然講話、刻意帶情緒講話、角色模仿講話等場景下,對角色和情感表達的判斷更加準確,輸出的音質穩定、清晰、順暢,音色富有表現力;聲碼器則采用GAN結構,可以高效且真實的還原波形,增加了合成聲音的真實質感。
此外,李博士還介紹到,此次TTS3.0升級在一些細節及專業領域的發音上也進行了優化。“例如,對多音字的處理,我們基于Mask-based Model神經網絡多音字模型,對所有多音字進行統一建模,提升了語音合成時多音字發音的準確率。在韻律方面,采用多任務的神經網絡模型,利用韻律間的層次關系,在同個模型結構下對多個韻律等級進行建模,在朗讀時高低音、停頓處更加自然流暢。“
如今,標貝科技語音合成解決方案已經實現全面支持中文普通話、中文方言、粵語、英語等多種語言。不論是溫柔甜美的女聲,清爽端正的男聲,活波可愛的童聲,標貝科技的語音合成技術都能快速實現企業個性化需求,打造專屬“聲音”形象。
“需要注意的是,合成一個理想的聲音的前提是要有足夠多的不同特征的語料,也就是聲音樣本。標貝科技以數據服務起家,在這方面擁有顯著優勢。我們擁有400余種音庫,大量優質發音人的資源儲備,比如普通音庫、明星音庫以及深受小朋友熱捧的卡通IP音庫等。用戶可通過 SDK、API 技術接口隨時調取自己中意的語音數據進行使用,快速搭建自己的語音產品。“說到這里,李博士不忘夸一下自家強大的語音數據基礎。
打破有聲內容生產壁壘 強勢助推有聲場景落地
在最后,李博士還結合當下趨勢提到了今年標貝產品布局的主要方向。“TTS升級是結合了我們最新的語音技術、海量的文本和聲學數據以及大規模計算能力,對語音合成技術進行的一次全面優化,讓機器的聲音情感表現力更加真實自然,這也是為我們發力有聲讀物和虛擬人的應用場景打下基礎。”
據中國新聞出版研究院發布的2020年第十七次全國國民閱讀調查報告顯示,成年國民和未成年人有聲閱讀繼續較快增長,成為國民閱讀新的增長點,移動有聲App平臺已經成為聽書的主流選擇。在碎片化信息時代,有聲讀物越來越受到更多人的青睞。在此背景下,有聲書、音頻已成為出版業數字化轉型的重要發展方向。
“其實去年我們推出的情感合成技術已經在有聲閱讀場景得到落地應用,例如面向兒童有聲內容市場的恐龍貝殼App ,一經推出就引發熱烈反響。今年,我們將繼續發力有聲讀物市場,借助于標貝科技更具表現力以及個性化的語音合成技術,細化有聲讀物場景,給有聲閱讀市場提供更多個性化玩法,滿足現代人求新的需求,提升用戶對有聲閱讀 App 專屬聲音的 “粘性”。“李博士表示,“近期,我們的TTS3.0就將上線到標貝官網,對外提供升級的TTS服務,需要的客戶可以多關注一下標貝官網動態。”






