【ITBEAR科技資訊】9月13日消息,近日,小米公司的聲音識別算法取得了令人矚目的突破,成為全球性能最出色的模型之一。這一成就是在Google發(fā)布的音頻標記任務中取得的,該任務被認為是音頻領域的ImageNet,具有極高的影響力和權威性。
Google將AudioSet數(shù)據(jù)集劃分為三個子集,前兩個子集合并成了"AudioSet-2M"。在這個龐大的訓練集中,小米的聲音識別算法首次突破了50 mAP(平均精度),刷新了音頻標記技術的指標,位居國際性能排名第一。值得一提的是,小米還發(fā)布了一個Mini版本的模型,適用于資源有限的場景,雖然參數(shù)量僅為原模型的九分之一,但性能卻優(yōu)于其他所有機構的模型。

這一技術突破意味著小米的聲音識別算法能力得到了顯著提升,將有望在小米的智能硬件設備中得到廣泛應用。這將使這些設備更加敏銳地捕捉和識別周圍環(huán)境的聲音,從而提高硬件的智能化水平,為用戶創(chuàng)造更便捷的智能生活體驗。
據(jù)ITBEAR科技資訊了解,小米的聲音識別算法不僅可以應用于智能手機,還廣泛用于智能家居設備。例如,小米手機上的“小米聞聲”功能可以監(jiān)測各種環(huán)境聲音,如火警、嬰兒哭聲和水壺聲,并通過手機通知欄將其轉化為文字推送,使聽力受損的用戶也能享受便捷的智能生活。此外,小米的智能家居設備,如攝像頭和音箱,也都采用了聲音識別技術,用于監(jiān)測寶寶哭聲、火警等重要的家居環(huán)境聲音,提供更安全和智能的居家體驗。

小米還將這一聲音識別技術應用于機器人的研發(fā)中,大幅提升了機器人的感知能力。小米的人形機器人CyberOne和仿生四足機器人CyberDog 2都能識別多種環(huán)境聲音,使其具備更強大的動態(tài)響應能力。
小米作為一個擁有強大AIoT平臺生態(tài)的公司,為聲音識別算法的應用提供了廣闊的空間,這也是小米技術研發(fā)的優(yōu)勢之一。目前,小米的聲學語音技術已經(jīng)應用于超過5000款智能產(chǎn)品,包括手機、音箱、電視、耳機、手表和機器人等79個品類。而小米旗下的智能語音助手小愛同學的月活躍用戶數(shù)量也已達到1.15億,是世界上最活躍的語音助手之一。
總的來說,小米的聲音識別算法的突破不僅將提升智能硬件的性能,還為行業(yè)的前沿研究提供了重要的技術價值,推動了音頻領域的發(fā)展。小米在底層技術的深耕和科技創(chuàng)新方面表現(xiàn)出了強大的實力,將繼續(xù)在全球科技領域發(fā)揮重要作用。






