實時互動技術領域的創新再次邁出重要一步,聲網在北京正式推出了其對話式AI引擎,這一消息在科技圈內引起了廣泛關注。這款引擎的問世,標志著AI技術在對話交互領域邁入了新的發展階段。
據聲網介紹,這款對話式AI引擎具備多項領先技術特性。其超低的650毫秒響應延時,確保了對話的流暢性;優雅打斷功能則提升了用戶體驗,使得人與AI的交互更加自然;全模型適配能力則意味著該引擎可以廣泛應用于各種場景;而“選擇性注意力鎖定”功能更是能屏蔽掉95%的環境人聲,確保對話的清晰度。尤為開發者僅需兩行代碼以及15分鐘的時間,就能構建出AI Agent,實現從對話式AI引擎Console到任意模型的語音交互,同時支持文本大模型向對話式多模態大模型的升級。
在價格方面,聲網也給出了極具競爭力的方案。據內部測算,使用這款對話式AI引擎,每分鐘的成本僅為0.098元,也就是說,不到1毛錢就能享受一分鐘的AI對話服務。考慮到用戶與AI每次對話平均會有約3輪問答,平均對話時長約為21.1秒,單次成本僅需3分錢。若每月對話次數達到15次,月成本也不到5毛錢,年成本更是低至5元。

聲網AI RTE產品線負責人姚光華透露,這款對話式AI引擎是全球首個同類產品。團隊在春節期間就開始研發,得益于DeepSeek熱潮的激勵,團隊像準備高考一樣,集合了最核心的產品線和研發線,快速推進和決策。經過努力,2月18日發布了Public Beta版本,如今終于正式面世。
在談及Manus AI Agent與對話式AI產品的區別時,姚光華表示,兩者并不屬于同一類別。對話式AI的交互方式具有顛覆性,主要通過對話產生情緒價值。如果發展得更好,它可能會超越工具范疇,成為類似于陪伴的存在。然而,目前我們對AI Agent的認知還停留在“工具”層面,替換現有工具類型的價值并非終極目的。在研發對話式AI產品時,情感陪伴、音色和人數都有所增長。但姚光華也強調,Manus目前仍被視為一個工具。
聲網致力于成為“人工智能語音代理的關鍵基礎設施”,其TEN服務已經成功應用于DeepSeek、阿里通義Qwen、階躍星辰Step、MiniMax、Amazon Bedrock、百度、科大訊飛等多家AI企業和產品中。例如,去年10月24日,聲網就宣布了與MiniMax共同打磨國內首個Realtime API。
財報顯示,聲網母公司Agora在2024年四季度實現總營收3450萬美元,同比下降4.4%;但在美國通用會計準則下,凈利潤扭虧為盈,達到16萬美元。整個2024財年,集團總營收為1.333億美元,較上年同期下降5.9%。
姚光華認為,對話式Agent給用戶帶來的價值不僅在于解決問題的智能價值,還包括情感共鳴的情緒價值以及效率提升的時間價值。從感知到智能,Agent AI主要包含四層:模態感知層負責感知物理世界的信息,對音視頻進行處理和轉換;模態融合層則對感知到的信息進行統一多模態處理;任務處理層面向目標和任務進行處理和解決;頂層智能層則具備高級認知與學習能力,擁有超高情商。聲網對話式AI引擎覆蓋了模態感知層和模態融合層。
針對大模型“幻覺”問題,聲網產品負責人和利鵬表示,雖然“幻覺”不能完全消滅,但可以通過模型的不斷迭代來減少。在對話式AI引擎上,團隊已經做了很多降噪、聲音處理等工作。和利鵬指出,人和人交流時也會有誤解和“幻覺”,因為雙方的知識和背景不同。為了減少模型的“幻覺”,上下文增多和推理CoT(思維鏈)的不斷加強都是重要方案。
姚光華還指出,目前對話式AI引擎已經可以應用于陪伴式智能硬件以及教育場景等多個領域。聲網創始人兼CEO趙斌表示,生成式AI為我們帶來了變革性機遇,特別是在實現人與AI模型之間的實時語音交互方面。許多大型語言模型尚未提供語音交互功能,而提供語音交互功能的模型也沒有優化體驗。為了彌補這一差距,公司推出了對話式AI引擎解決方案,旨在提供自然的對話動態,包括智能停頓和打斷處理、高級語音處理功能以及超低延遲。






