它能聽會說,還可以處理圖像。
為了鼓勵消費者在日常生活中采用生成式人工智能,科技公司不僅競相推出新的聊天機器人應用程序,而且還推出新功能。
當地時間9月25日,ChatGPT開發商AI target=_blank class=infotextkey>OpenAI公司在一篇博客文章中表示,該聊天機器人將擁有全新的功能,它能聽會說,還可以處理圖像。

這也是GPT 4大型語言模型推出以來最大的一次功能更新。OpenAI表示,更新后的ChatGPT將在未來兩周內向付費用戶推出。
ChatGPT功能更新后,意味著它將成為類似于蘋果Siri或者亞馬遜Alexa這樣的語音助理,但功能更加強大。用戶可以直接與ChatGPT語音對話,例如請ChatGPT講一段睡前故事,或者請它設置一個晚餐時的聊天話題。
OpenAI表示,ChatGPT的語音功能是由一種全新的文生語音(text to speech)模型支持的,輸入文字便可生成人聲,并通過與專業聲音演員合作,提供5種不同的語音。
借助圖像交互功能,用戶可以拍攝周圍事物的照片,并要求ChatGPT給出建議,例如分析為何烤箱無法啟動,或者提供一份冰箱中食材的菜譜。
OpenAI表示,語音功能最初將僅向IOS和Android應用程序開放,但圖像處理功能將在所有平臺上提供。
在人工智能語音助理蘋果Siri和亞馬遜Alexa橫空出世大約十年后,ChatGPT等AI大模型帶火了具有更大自主權的新一波人工智能助手AI數字代理(AI agent)。
AI數字代理是指能夠在人類的指導下執行更復雜的任務,而無需密切監督的人工智能助理,有時也被稱為AI“副駕”。硅谷科技公司正在競相利用人工智能技術的進步,在ChatGPT等大模型上運行AI數字代理的實驗系統。
巨頭企業也已為此注入數十億美元的資本。就在ChatGPT新功能發布的同一天,亞馬遜宣布以40億美元投資OpenAI的競爭對手Anthropic。
亞馬遜發言人今年早些時候表示,團隊正在開發新模型,以使Alexa語音助手更加強大和有用。
近幾個月,谷歌和微軟也都更新了聊天機器人的新版本,例如微軟則在Bing中添加了視覺搜索。
微軟CEO薩蒂亞·納德拉(SatyaNadella)認為,基礎模型技術的發展是AI助理從微軟Cortana、亞馬遜Alexa、蘋果Siri以及googleAssistant等演進的一次飛躍。在他看來,過去這些數字助理都沒有達到最初的預期。
由科技行業領袖里德·霍夫曼(Reid Hoffman)和穆斯塔法·蘇萊曼(Mustafa Suleyman)創建的一家名為Inflection AI的公司,于今年6月底籌集了13億美元資金。該公司正在開發一款私人AI助理,據稱可以充當顧問或處理諸如在旅行延誤后獲得航班積分和訂酒店等任務。
不過,功能更強大的AI代理也引發了關于數據隱私安全的爭議,尤其是對于人工智能生成的合成聲音的擔憂,因為這可能會涉及深度偽造(deepfake)。有網絡攻擊者已經開始探索如何利用深度偽造來滲透網絡安全系統。
OpenAI在周一的聲明中也承認了這些擔憂,不過沒有提供有關OpenAI如何使用消費者語音輸入的詳細信息,或者說明公司將如何保護這些消費者數據。根據該公司的服務條款規定,消費者“在適用法律允許的范圍內”對自己的數據擁有所有權。
OpenAI公司CEO奧特曼(Sam Altman)周一在臺北的一場論壇上表示,人工智能快速發展會引發政府的監督,但他并不擔心政府過度監管,反而擔心監管不足。
他表示,未來可能會出現比GPT 4強大1萬倍的模型,這些模型可能會接近人類智能,應該受到一些監管。