国产成人高清亚洲一区久久,99精品在线看,国产成人精品电影在线观看18

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會員：801

Hume AI發(fā)布情感智能語音大模型Octave，AI語音能否以假亂真？

發(fā)布時(shí)間：2025-02-27 20:24:16 作者：網(wǎng)友整理

在人工智能領(lǐng)域，一次創(chuàng)新性的飛躍近日由美國情感智能技術(shù)初創(chuàng)公司Hume AI實(shí)現(xiàn)。該公司發(fā)布了一款名為Octave的新型文本轉(zhuǎn)語音大模型，該模型能夠根據(jù)用戶輸入的提示詞或劇本，生成富有人設(shè)特點(diǎn)、語調(diào)起伏和情感色彩的AI語音，并允許用戶通過文本指令進(jìn)行二次調(diào)整和創(chuàng)作。

Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立，最近一輪融資后估值達(dá)到2.19億美元。在接受采訪時(shí)，Cowen表示：“我們推出的首個(gè)AI文本轉(zhuǎn)語音大模型，能夠理解上下文中的詞匯，并預(yù)測出適當(dāng)?shù)那榫w、節(jié)奏、韻律和重音，從而使AI語音聽起來比以往更人性化。”

Octave的設(shè)計(jì)初衷是為了解決過往AI語音生硬、缺乏情感表達(dá)的問題。它不僅能夠表達(dá)憤怒、悲傷或快樂等單一情緒，還能將多種情感交織融合在一起，如“夾雜著幽默或惱怒的輕度沮喪”。這種能力使得Octave非常適合用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音等預(yù)先制作的內(nèi)容。

Hume AI在社交媒體上發(fā)布的信息顯示，Octave的訓(xùn)練數(shù)據(jù)量是傳統(tǒng)文本轉(zhuǎn)語音大模型的1000倍，這包括數(shù)百萬小時(shí)的公開長篇語音數(shù)據(jù)和Hume AI獨(dú)家采集的聲音、視頻數(shù)據(jù)。這種龐大的數(shù)據(jù)集使得Octave能夠理解劇本，并使用更逼真的情感、語義、節(jié)奏、詞語和重音等要素。

除了文本轉(zhuǎn)語音功能，Octave還具備語音設(shè)計(jì)、表演指令和即將上線的語音克隆功能。在語音設(shè)計(jì)方面，Octave能夠基于提示詞或劇本生成各種設(shè)定的AI語音，包括人稱代詞、簡稱、用詞等，從而生成與角色相符的連貫語音內(nèi)容。在表演指令功能中，用戶可以基于現(xiàn)有語音類型，用指定的情感或說話風(fēng)格來朗讀新劇本。而語音克隆功能則只需一段5秒的音頻，就能快速克隆出相應(yīng)的語音。

在一項(xiàng)人類評審盲測的對比實(shí)驗(yàn)中，Octave的輸出在音質(zhì)、自然度以及語音生成與預(yù)期描述匹配度等方面均優(yōu)于ElevenLabs，這表明其AI語音生成過程的可控性和生成質(zhì)量均高于行業(yè)水準(zhǔn)。

目前，Octave已在Hume AI的平臺和API上線，支持超過40種預(yù)設(shè)語音的語音庫，以及用于生成有聲書、播客等長篇內(nèi)容的項(xiàng)目界面（預(yù)覽版）。開發(fā)者可以通過Python和Type SDK訪問Octave，這些SDK會處理身份驗(yàn)證，并提供類型化接口以確保集成的可靠性。命令行界面支持快速原型設(shè)計(jì)、測試以及直接從終端批量處理。

Hume AI的收費(fèi)方式采用訂閱制，分為免費(fèi)、入門版、Creator和專業(yè)版等多個(gè)級別。免費(fèi)版提供每月1萬個(gè)字符的文本轉(zhuǎn)語音服務(wù)，總時(shí)長約10分鐘，并允許無限自定義聲音。其他版本則提供更多的字符數(shù)和時(shí)長，以及額外的項(xiàng)目支持和優(yōu)惠價(jià)格。

Octave的發(fā)布標(biāo)志著AI語音技術(shù)向更加人性化和情感化的方向邁出了重要一步。它不僅有望解決AI語音應(yīng)答機(jī)械、語調(diào)生硬的問題，還能為影視、視聽、新媒體、數(shù)字人等多個(gè)行業(yè)提供定制化的配音服務(wù)，加速AI語音的商業(yè)化落地。

分享到：

標(biāo)簽：語音以假亂真模型智能情感