在人工智能領(lǐng)域,一次創(chuàng)新性的飛躍近日由美國情感智能技術(shù)初創(chuàng)公司Hume AI實(shí)現(xiàn)。該公司發(fā)布了一款名為Octave的新型文本轉(zhuǎn)語音大模型,該模型能夠根據(jù)用戶輸入的提示詞或劇本,生成富有人設(shè)特點(diǎn)、語調(diào)起伏和情感色彩的AI語音,并允許用戶通過文本指令進(jìn)行二次調(diào)整和創(chuàng)作。
Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,最近一輪融資后估值達(dá)到2.19億美元。在接受采訪時(shí),Cowen表示:“我們推出的首個(gè)AI文本轉(zhuǎn)語音大模型,能夠理解上下文中的詞匯,并預(yù)測出適當(dāng)?shù)那榫w、節(jié)奏、韻律和重音,從而使AI語音聽起來比以往更人性化。”
Octave的設(shè)計(jì)初衷是為了解決過往AI語音生硬、缺乏情感表達(dá)的問題。它不僅能夠表達(dá)憤怒、悲傷或快樂等單一情緒,還能將多種情感交織融合在一起,如“夾雜著幽默或惱怒的輕度沮喪”。這種能力使得Octave非常適合用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音等預(yù)先制作的內(nèi)容。
Hume AI在社交媒體上發(fā)布的信息顯示,Octave的訓(xùn)練數(shù)據(jù)量是傳統(tǒng)文本轉(zhuǎn)語音大模型的1000倍,這包括數(shù)百萬小時(shí)的公開長篇語音數(shù)據(jù)和Hume AI獨(dú)家采集的聲音、視頻數(shù)據(jù)。這種龐大的數(shù)據(jù)集使得Octave能夠理解劇本,并使用更逼真的情感、語義、節(jié)奏、詞語和重音等要素。
除了文本轉(zhuǎn)語音功能,Octave還具備語音設(shè)計(jì)、表演指令和即將上線的語音克隆功能。在語音設(shè)計(jì)方面,Octave能夠基于提示詞或劇本生成各種設(shè)定的AI語音,包括人稱代詞、簡稱、用詞等,從而生成與角色相符的連貫語音內(nèi)容。在表演指令功能中,用戶可以基于現(xiàn)有語音類型,用指定的情感或說話風(fēng)格來朗讀新劇本。而語音克隆功能則只需一段5秒的音頻,就能快速克隆出相應(yīng)的語音。
在一項(xiàng)人類評審盲測的對比實(shí)驗(yàn)中,Octave的輸出在音質(zhì)、自然度以及語音生成與預(yù)期描述匹配度等方面均優(yōu)于ElevenLabs,這表明其AI語音生成過程的可控性和生成質(zhì)量均高于行業(yè)水準(zhǔn)。
目前,Octave已在Hume AI的平臺和API上線,支持超過40種預(yù)設(shè)語音的語音庫,以及用于生成有聲書、播客等長篇內(nèi)容的項(xiàng)目界面(預(yù)覽版)。開發(fā)者可以通過Python和Type SDK訪問Octave,這些SDK會處理身份驗(yàn)證,并提供類型化接口以確保集成的可靠性。命令行界面支持快速原型設(shè)計(jì)、測試以及直接從終端批量處理。

Hume AI的收費(fèi)方式采用訂閱制,分為免費(fèi)、入門版、Creator和專業(yè)版等多個(gè)級別。免費(fèi)版提供每月1萬個(gè)字符的文本轉(zhuǎn)語音服務(wù),總時(shí)長約10分鐘,并允許無限自定義聲音。其他版本則提供更多的字符數(shù)和時(shí)長,以及額外的項(xiàng)目支持和優(yōu)惠價(jià)格。
Octave的發(fā)布標(biāo)志著AI語音技術(shù)向更加人性化和情感化的方向邁出了重要一步。它不僅有望解決AI語音應(yīng)答機(jī)械、語調(diào)生硬的問題,還能為影視、視聽、新媒體、數(shù)字人等多個(gè)行業(yè)提供定制化的配音服務(wù),加速AI語音的商業(yè)化落地。






