亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52000
  • 待審:37
  • 小程序:12
  • 文章:1037587
  • 會(huì)員:756

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

 

 

全面發(fā)力AI的蘋(píng)果,再出新研究!

 

隨著人工智能技術(shù)的發(fā)展,我們熟悉的“Hey Siri”或?qū)⒊蔀闅v史。

 

蘋(píng)果團(tuán)隊(duì)最新出爐的論文《利用大型語(yǔ)言模型進(jìn)行設(shè)備指向性語(yǔ)音檢測(cè)的多模態(tài)方法》,集中于這一問(wèn)題的研究:不使用“Hey Siri”這樣的特定短語(yǔ)觸發(fā)智能語(yǔ)音助手,可行嗎?

 

結(jié)果是:有希望。蘋(píng)果推出的多模態(tài)系統(tǒng)在設(shè)備指向性語(yǔ)音檢測(cè)任務(wù)上的錯(cuò)誤率比單一模態(tài)(文本或音頻)的模型要低,分別降低了最多39%和61%。并指出,未來(lái)將在音頻字幕和聲學(xué)場(chǎng)景分類等領(lǐng)域發(fā)力,提供更好的虛擬助手交互體驗(yàn)。

 

現(xiàn)在,人們與GPT、Kimi的聊天愈發(fā)輕松。相較而言,與Siri、智能音箱等語(yǔ)音助手的交互還比較機(jī)械,它們好像也經(jīng)常“get”不到我們的意思。

 

這一次的AI賦能,或許到了語(yǔ)音助手們的show time了。

1.蘋(píng)果的論文說(shuō)了什么?

 

 

與虛擬助手的交互通常以一個(gè)預(yù)定義的觸發(fā)短語(yǔ)開(kāi)始(Hey Siri),然后才是用戶的命令內(nèi)容。

 

為了使與助手的交互更加直接自然,放棄觸發(fā)短語(yǔ)直接開(kāi)始交互是一種優(yōu)化思路。為了驗(yàn)證這個(gè)思路的可行性,研究人員使用智能手機(jī)捕獲的語(yǔ)音以及背景噪音的聲學(xué)數(shù)據(jù)訓(xùn)練了一個(gè)大型語(yǔ)言模型。

 

研究人員寫(xiě)道,該模型部分建立在一個(gè)版本的OpenAI的GPT-2之上,“因?yàn)樗鄬?duì)輕量級(jí),有可能在智能手機(jī)等設(shè)備上運(yùn)行”。

 

論文描述了用于訓(xùn)練模型的超過(guò)129小時(shí)的數(shù)據(jù)和額外的文本數(shù)據(jù),但沒(méi)有指定進(jìn)入訓(xùn)練集的錄音來(lái)源。

 

這項(xiàng)研究嘗試?yán)梅俏谋拘盘?hào)來(lái)增強(qiáng) LLM,以解決在真實(shí)生活場(chǎng)景中,背景噪聲和語(yǔ)音重疊帶來(lái)的識(shí)別問(wèn)題。在文本信息之外,這項(xiàng)研究使用了各種多模態(tài)信息,包括從預(yù)訓(xùn)練音頻編碼器中獲得的聲學(xué)特征,以及 1-best 假設(shè)和語(yǔ)句級(jí)解碼器信號(hào),來(lái)自 ASR 系統(tǒng)的聲學(xué)成本和圖形成本。

 

通過(guò)對(duì)所有模態(tài)進(jìn)行聯(lián)合學(xué)習(xí),對(duì)系統(tǒng)進(jìn)行微調(diào),設(shè)備可以更加聰明地決定是不是要啟動(dòng)“Siri”(見(jiàn)下圖 )。

 

圖片圖片

研究表明,蘋(píng)果提出的新模型能夠比僅使用音頻或文本的模型做出更準(zhǔn)確的預(yù)測(cè),并且隨著模型規(guī)模的增大而進(jìn)一步提高。除了探索研究問(wèn)題之外,目前尚不清楚蘋(píng)果是否計(jì)劃取消“Hey Siri”觸發(fā)短語(yǔ)。

 

這項(xiàng)研究已上傳至Arxiv(但尚未經(jīng)過(guò)同行評(píng)審,想要閱讀完整論文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。

2.六位蘋(píng)果作者,一半來(lái)自Siri

 

七位作者中有六位隸屬于蘋(píng)果公司,其中三位在Siri團(tuán)隊(duì)中工作。

圖片圖片

Siddharth Sigtia在蘋(píng)果的Siri團(tuán)隊(duì)擔(dān)任高級(jí)科學(xué)家,從事聲學(xué)建模。

 

圖片圖片

 

 

 

 

 

 

 

 

 

Panayiotis Georgiou在Siri團(tuán)隊(duì)擔(dān)任機(jī)器學(xué)習(xí)工程師,研究重點(diǎn)是人類交流分析、行為信號(hào)處理、語(yǔ)音處理(包括語(yǔ)音識(shí)別、去噪、語(yǔ)音活動(dòng)檢測(cè))以及機(jī)器學(xué)習(xí)(重點(diǎn)是深度神經(jīng)網(wǎng)絡(luò))。在入職蘋(píng)果之前,他曾在高校供職多年,擁有非常深厚的學(xué)術(shù)背景。圖片圖片Matt Mirsamadi同樣是Siri團(tuán)隊(duì)的機(jī)器學(xué)習(xí)工程師,博士期間的兩段實(shí)習(xí)經(jīng)歷都在微軟。圖片

 

 

 

 

 

 

 

 

 

3.新技術(shù)的另一面:無(wú)觸發(fā)語(yǔ)意味著全程監(jiān)聽(tīng)嗎?

 

2014 年,蘋(píng)果推出了 "Hey Siri "功能,用戶從此不必在按下按鈕,只使用語(yǔ)音即可完成交互。

十年過(guò)去了,人們還記得Siri誕生之初,人們對(duì)虛擬助手的空前期待。谷歌內(nèi)部也曾認(rèn)為Siri的交互方式將對(duì)自家的搜索業(yè)務(wù)產(chǎn)生災(zāi)難性的沖擊。

然而,Siri的進(jìn)化遠(yuǎn)不及想象。如何在技術(shù)與隱私保護(hù)間取得平衡,是蘋(píng)果長(zhǎng)期以來(lái)的難題。

Siri處理音頻數(shù)據(jù)的方式曾受到多番爭(zhēng)議。2019年,《衛(wèi)報(bào)》報(bào)道揭示,蘋(píng)果的質(zhì)量控制承包商在處理Siri數(shù)據(jù)時(shí)經(jīng)常聽(tīng)到從iphone收集的私人音頻,包括醫(yī)生和患者之間的敏感對(duì)話。兩年后,蘋(píng)果以政策變化作出回應(yīng),包括在設(shè)備上存儲(chǔ)更多數(shù)據(jù),并允許用戶選擇不讓他們的錄音用于改進(jìn)Siri。2021年,加利福尼亞州一起集體訴訟指控Siri即使在未激活時(shí)也被打開(kāi)。

"Hey Siri "的工作方式使得Siri可以聽(tīng)取盡量少的音頻,直到聽(tīng)到觸發(fā)短語(yǔ)才開(kāi)始錄音或準(zhǔn)備回答用戶的問(wèn)題。斯坦福大學(xué)人類中心人工智能研究所的隱私和數(shù)據(jù)政策研究員Jen King表示,消除“Hey Siri”提示可能會(huì)增加人們對(duì)我們的設(shè)備“始終在監(jiān)聽(tīng)”的擔(dān)憂。

除了用戶隱私的限制外,蘋(píng)果的管理不力也是在AI上落隊(duì)的原因。據(jù)報(bào)道, Siri 團(tuán)隊(duì)在 2018 年處于 "混亂狀態(tài)",其開(kāi)發(fā)因管理層在技術(shù)開(kāi)發(fā)方向上的內(nèi)訌而受到影響。而其設(shè)計(jì)團(tuán)隊(duì)又堅(jiān)持要求Siri能提供“近乎完美的答案”,而放棄了當(dāng)時(shí)還不算成熟的AI生成方式,就這樣與風(fēng)口失之交臂。

放棄造車(chē)后,蘋(píng)果必須全力在AI賽道上奔跑,以挽回年初以來(lái)持續(xù)呈現(xiàn)頹勢(shì)的股價(jià)和投資者對(duì)未來(lái)發(fā)展的信心。Siri無(wú)疑是絕佳的入口,在AI的加持下進(jìn)化,全面落地于蘋(píng)果生態(tài),給用戶帶來(lái)新的智能交互體驗(yàn)。

現(xiàn)在,沒(méi)有時(shí)間仔細(xì)“打磨”大模型的蘋(píng)果,已經(jīng)與谷歌、百度等國(guó)內(nèi)外多家科技巨頭洽談并尋找合作的可能。

蘋(píng)果這位“實(shí)用主義”的科技明星,在全力追趕AI后,能重奪王冠嗎?

參考鏈接:

1.https://www.technologyreview.com/2024/03/22/1090090/Apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/

 

2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/

 

3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/

分享到:
標(biāo)簽:多模態(tài)
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52000

    網(wǎng)站

  • 12

    小程序

  • 1037587

    文章

  • 756

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定