近日,豆包APP宣布了一項重大更新,正式推出了面向全體用戶的實時語音通話功能,這一創(chuàng)新舉措標(biāo)志著豆包在人工智能語音交互領(lǐng)域邁出了重要一步。
豆包此次推出的實時語音通話功能,是基于其自主研發(fā)的豆包實時語音大模型(Doubao Realtime Voice Model)實現(xiàn)的。這一模型在中文場景下的對話能力表現(xiàn)卓越,不僅在語音的真實感和情緒的細膩表達上達到了“人機難辨”的境界,還能靈活模仿多種聲線,并在邏輯思考和情緒感知方面實現(xiàn)了顯著提升。
在實際測試中,豆包APP的全新實時語音通話功能展現(xiàn)出了令人驚嘆的真人級交互效果。其語音表現(xiàn)自然流暢,智力水平也極具擬人性,相較于市面上大多數(shù)仍在語氣層面進行簡單變化的語音系統(tǒng),豆包能夠根據(jù)具體場景精準(zhǔn)把控節(jié)奏、兒化音、音量、氣音等細節(jié),甚至能夠與用戶進行悄聲對話,營造出更加私密和真實的交流氛圍。
除了出色的語音表現(xiàn)外,豆包在情緒表達方面也頗為亮眼。它能夠準(zhǔn)確捕捉并模仿用戶的喜怒哀樂,還掌握了部分方言與英語對話的能力,能夠進行多角色模仿,甚至具備一定的歌曲演唱能力。在日常使用中,豆包既可以作為英語陪練老師,為用戶提供專業(yè)的語言指導(dǎo),也可以化身講故事高手,為用戶帶來豐富的娛樂體驗,更可以即興創(chuàng)作歌曲,展現(xiàn)其多才多藝的一面。
據(jù)了解,傳統(tǒng)語音對話任務(wù)系統(tǒng)通常采用ASR+LLM+TTS的級聯(lián)模式,但在真人級語音對話的理解完整度、生成自然度、交互低延時等方面存在諸多不足。而豆包則采用了創(chuàng)新的端到端框架,通過原生方法深度融合語音與文本模態(tài)進行統(tǒng)一建模,實現(xiàn)了從多模態(tài)輸入到多模態(tài)輸出的無縫轉(zhuǎn)換,為AI語音對話賦予了“靈魂”。
在交付體驗上,豆包語音對話在確保模型具備強大理解和邏輯能力的同時,還實現(xiàn)了超低延時和流暢打斷的功能。這意味著用戶在與豆包進行對話時,可以享受到更加流暢和自然的交互體驗,無需擔(dān)心因延時或打斷而導(dǎo)致的溝通障礙。
豆包全新實時語音通話功能的推出,無疑使其在同類產(chǎn)品中脫穎而出。根據(jù)外部真實反饋數(shù)據(jù)顯示,用戶對豆包此次上線的全新語音通話功能整體滿意度高達4.36/5,遠高于GPT-4o語音對話的3.18/5。尤其在語音語氣自然度和情緒飽滿度方面,豆包展現(xiàn)出了明顯的優(yōu)勢。






