在人工智能語(yǔ)音技術(shù)的前沿探索中,出門問(wèn)問(wèn)攜手香港科技大學(xué)、上海交通大學(xué)、南洋理工大學(xué)及西北工業(yè)大學(xué)等頂尖學(xué)府,共同推出了一項(xiàng)開創(chuàng)性的成果——新一代語(yǔ)音生成模型Spark-TTS,并隨之發(fā)布了其商業(yè)化版本TicVoice 7.0,這一舉動(dòng)標(biāo)志著語(yǔ)音合成技術(shù)邁入了一個(gè)嶄新的階段。
TicVoice 7.0,作為出門問(wèn)問(wèn)第七代文本轉(zhuǎn)語(yǔ)音(TTS)引擎,其獨(dú)特之處在于能夠摒棄傳統(tǒng)多階段、多流生成模型的依賴,僅憑單一的語(yǔ)言模型(序列猴子)以簡(jiǎn)潔的單階段、單流方式高效完成TTS生成。這一革新不僅賦予了TicVoice 7.0超自然的語(yǔ)音克隆與跨語(yǔ)種生成能力,還允許用戶根據(jù)個(gè)人需求定制專屬聲音,為個(gè)性化語(yǔ)音服務(wù)樹立了新的標(biāo)桿。
出門問(wèn)問(wèn)已將TicVoice 7.0應(yīng)用于其AI配音產(chǎn)品“魔音工坊”,顯著提升了用戶體驗(yàn)。憑借領(lǐng)先的3秒語(yǔ)音克隆技術(shù)和卓越的精品發(fā)音人定制效果,魔音工坊在客服、有聲書、情感直播、影視解說(shuō)及配音等多個(gè)應(yīng)用場(chǎng)景中展現(xiàn)了非凡的表現(xiàn)力,為用戶帶來(lái)了前所未有的聽(tīng)覺(jué)盛宴。

Spark-TTS模型一經(jīng)發(fā)布,便迅速在Hugging Face趨勢(shì)榜上占據(jù)TTS領(lǐng)域前列,其增長(zhǎng)勢(shì)頭強(qiáng)勁,同時(shí)伴隨相關(guān)論文的發(fā)布,在學(xué)術(shù)界也引發(fā)了廣泛關(guān)注和熱烈討論。Spark-TTS之所以能引起如此反響,關(guān)鍵在于它引入了全新的語(yǔ)音編碼范式,實(shí)現(xiàn)了建模結(jié)構(gòu)與文本大型語(yǔ)言模型(LLMs)結(jié)構(gòu)的高度統(tǒng)一,為行業(yè)帶來(lái)了革命性的變化。
針對(duì)主流語(yǔ)音token存在的痛點(diǎn),TicVoice 7.0與Spark-TTS提出了一種創(chuàng)新的BiCodec編碼方式,將語(yǔ)音編碼為Global Token和Semantic Tokens兩部分,分別負(fù)責(zé)建模全局特征和語(yǔ)義相關(guān)信息。這種設(shè)計(jì)不僅簡(jiǎn)化了模型結(jié)構(gòu),還提高了音色等屬性的精準(zhǔn)控制,實(shí)現(xiàn)了高效性與可控性的完美結(jié)合。

在語(yǔ)音克隆能力方面,TicVoice 7.0再次刷新了行業(yè)標(biāo)準(zhǔn),尤其在跨語(yǔ)言聲音克隆上表現(xiàn)卓越。與上一代產(chǎn)品MeetVoice Pro及國(guó)內(nèi)外同類產(chǎn)品相比,TicVoice 7.0在“3秒克隆”和“至臻Pro-精品發(fā)音人”定制方面展現(xiàn)出明顯優(yōu)勢(shì)。其國(guó)際通用MOS評(píng)分從3.9提升至4.2,音色相似度、情感表現(xiàn)及穩(wěn)定性均有顯著提升,為用戶帶來(lái)了更加自然、悅耳、穩(wěn)定的聽(tīng)覺(jué)體驗(yàn)。

TicVoice 7.0還支持用戶通過(guò)調(diào)整性別、語(yǔ)速、基頻等多種屬性(即將上線)來(lái)精準(zhǔn)定制獨(dú)特的聲音風(fēng)格。在“至臻Pro-精品發(fā)音人”定制服務(wù)中,用戶僅需提供20至200句語(yǔ)料,即可獲得播音級(jí)的專業(yè)配音體驗(yàn)。其國(guó)際通用MOS分?jǐn)?shù)從4.3提升至4.7,語(yǔ)音效果達(dá)到了廣播級(jí)水平,為影視、游戲角色配音等場(chǎng)景提供了專業(yè)級(jí)的定制服務(wù)。
出門問(wèn)問(wèn)自2012年成立以來(lái),一直致力于人工智能語(yǔ)音技術(shù)的研發(fā)與應(yīng)用,不斷迭代升級(jí)TTS引擎。通過(guò)深厚的技術(shù)積累和先進(jìn)的產(chǎn)品應(yīng)用經(jīng)驗(yàn),出門問(wèn)問(wèn)成功推出了“魔音工坊”、“奇妙元”、“元?jiǎng)?chuàng)島”等一系列語(yǔ)音產(chǎn)品或搭載語(yǔ)音功能的產(chǎn)品,穩(wěn)固了其在行業(yè)內(nèi)的技術(shù)與產(chǎn)品領(lǐng)先地位。此次Spark-TTS的開源與TicVoice 7.0的發(fā)布,不僅展現(xiàn)了出門問(wèn)問(wèn)在語(yǔ)音生成領(lǐng)域的又一次重大突破,更為行業(yè)的發(fā)展注入了新的活力與動(dòng)能。






