【ITBEAR科技資訊】7月31日消息,OpenAI于當(dāng)?shù)貢r(shí)間7月30日公布,即日起啟動(dòng)GPT-4o語(yǔ)音模式(Alpha版)的初步測(cè)試,對(duì)部分ChatGPT Plus用戶開(kāi)放,計(jì)劃在今年秋季將該功能全面推送給所有ChatGPT Plus的訂閱用戶。
這一全新的語(yǔ)音模式是建立在GPT-4o模型基礎(chǔ)上的,該模型是OpenAI最新的跨文本、視覺(jué)和音頻的端到端統(tǒng)一模型。OpenAI的首席技術(shù)官米拉?穆拉蒂在早前的演講中闡述,GPT-4o的獨(dú)特之處在于它使用一個(gè)神經(jīng)網(wǎng)絡(luò)處理所有類(lèi)型的輸入和輸出,無(wú)論是文本、圖像還是音頻。

據(jù)ITBEAR科技資訊了解,GPT-4o作為公司首個(gè)集多模式于一體的模型,目前仍在探索其功能與限制的初級(jí)階段。原定于6月底的GPT-4o語(yǔ)音模式測(cè)試因需進(jìn)一步完善模型和提高內(nèi)容過(guò)濾能力而被推遲。此次推出的語(yǔ)音模式旨在顯著減少語(yǔ)音反饋的延遲,提升對(duì)話的流暢性,為用戶提供近乎無(wú)縫的交流體驗(yàn)。
先前的數(shù)據(jù)顯示,GPT-3.5模型的語(yǔ)音反饋平均延遲為2.8秒,而GPT-4則達(dá)到了5.4秒,這對(duì)于語(yǔ)音交流來(lái)說(shuō)顯然不夠理想。然而,GPT-4o語(yǔ)音模式的推出預(yù)計(jì)將極大地改善這一狀況。
此外,OpenAI發(fā)言人林賽?麥卡勒姆強(qiáng)調(diào),新推出的GPT-4o語(yǔ)音模式不僅反應(yīng)迅速,聲音自然,更能感知語(yǔ)音中的情感語(yǔ)調(diào),如悲傷、興奮甚至是歌唱。同時(shí),她也明確指出,ChatGPT不會(huì)冒充他人聲音,系統(tǒng)會(huì)阻止與預(yù)設(shè)聲音不符的輸出,以確保使用的合規(guī)性和安全性。






