亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

作者 | 李冬梅、核子可樂

近日,Meta 在 Github 上開源了一款全新的 AI 語言模型—— Massively Multilingual Speech ( MMS,大規模多語種語音) ,它與 ChatGPT 有著很大的不同,這款新的語言模型可以識別 4000 多種口語并生成 1100 多種語音(文本到語音)。發布短短幾天,該項目已經在 GitHub 庫收獲了 25.4k Star,Fork 數量高達 5.7k。

論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

博客地址:https://ai.facebook.com/blog/multilingual-model-speech-recognition/

代碼 / 模型:https://github.com/facebookresearch/fairseq/tree/main/examples/mms

1Meta 開源能識別 4000 多種語言的語音大模型

與大多數已公開發布的 AI 項目一樣,Meta 這次也毫無意外地將 MMS 項目開源出來,希望保護語言多樣性并鼓勵研究人員在此基礎之上構建其他成果。Meta 公司寫道,“我們公開分享這套模型和相關代碼,以便研究領域的其他參與者能在我們的工作基礎上進行構建。通過這項工作,我們希望為保護令人驚嘆全球語言多樣性做出一點貢獻。”

語音識別和文本轉語音模型往往需要使用數千小時的音頻素材進行訓練,同時附帶轉錄標簽。(標簽對機器學習至關重要,使得算法能夠正確分類并“理解”數據。)但對于那些在工業化國家并未廣泛使用的語言——其中許多語言在未來幾十年內甚至有消失的風險——Meta 提醒稱“根本就不存在這樣的數據”。

Meta AI 團隊稱,MMS 項目 最大的一個難點在于很多語言數據是缺失的。Meta AI 團隊通過結合 wav2vec 2.0(該公司的“自監督語音表示學習”模型)和一個新數據集來克服其中一些挑戰。其中一些語言,例如 Tatuyo 語言,只有幾百人使用,而且對于其中的大多數語言,之前不存在語音技術。

Meta 表示:“收集數千種語言的音頻數據是我們的第一個挑戰,因為現有最大的語音數據集最多涵蓋 100 種語言。為了克服它,我們求助于圣經等宗教文本,這些文本已被翻譯成多種不同的語言,并且其翻譯已被廣泛研究用于基于文本的語言翻譯研究。這些翻譯有公開的錄音,記錄了人們用不同語言閱讀這些文本的情況。作為該項目的一部分,我們創建了 1100 多種語言的新約讀物數據集,每種語言平均提供 32 小時的數據”。

潛在的性別偏見分析。在 FLEURS 基準測試中,基于大規模多語言語音數據訓練的自動語音識別模型對于男性和女性說話者具有相似的錯誤率。

乍看之下這種方法大有問題,因為此類訓練思路似乎嚴重偏向宗教的世界觀。但 Meta 表示情況并非如此,“雖然錄音內容涉及宗教,但我們的分析表明,產出的模型并不會生成更多宗教語言。猜測這是因為我們使用了連接主義時間分類(CTC)方法,與語音識別類 大語言模型(LLM)或序列到序列模型相比,前者受到的限制要大得多。”此外,盡管大多數宗教錄音都是由男性朗讀,但也不會引入男性偏見——模型在女性和男性單色中同樣表現出色。

2相比同類模型,MMS 單詞錯誤率更低

在訓練出能夠使用這些 數據 的對齊模型之后,Meta 又引入 wav2vec 2.0,可通過未標注的數據進行訓練。非常規數據源和自監督語音模型相結合,最終帶來了令人印象深刻 的結果。“我們的結果表明,與現有模型相比,大規模多語言語音模型表現良好,覆蓋的語言數量是現有模型的 10 倍。”具體來看,Meta 將 MMS 與 OpenAI 的 Whisper 進行比較,實際結果超出預期。“我們發現在 MMS 數據上訓練的模型將單詞錯誤降低了一半,而 MMS 涵蓋的語種數量則增長至 11 倍。”

Meta 公司警告稱,這套新模型并不完美。“例如,語音轉文本模型在特定的單詞或短語上可能存在一定的錯誤轉錄風險。根據輸出結果,這可能會導致攻擊性和 / 或不準確的表述。我們仍然相信,整個 AI 社區的協作對于負責任開發 AI 技術至關重要。”

考慮到 Meta 已經發布了這套開源研究的 MMS 模型,希望它能扭轉因科技巨頭的支持習慣而逐漸將全球使用語言縮減至 100 種以下的趨勢。以此為契機,輔助技術、文本轉語音(TTS)甚至 VR/AR 技術,也許將給每個人都塑造出能用母語表達和學習的世界。Meta 表示,“我們設想一個依靠技術帶來相反效果的世界,鼓勵人們保持自己母語的活力,通過自己最熟悉的語言獲取信息、使用技術。”

Meta 的結果表明,大規模多語言語音模型優于現有模型,覆蓋的語言數量是現有模型的 10 倍。Meta 通常專注于多語言:對于文本,NLLB 項目將多語言翻譯擴展到 200 種語言,而 Massively Multilingual Speech 項目將語音技術擴展到更多語言。

Meta 表示該款大模型相比于 OpenAI 的同類產品單詞錯誤率少了一半。

在與 OpenAI 的 Whisper 的同類比較中,我們發現在 Massively Multilingual Speech 數據上訓練的模型實現了一半的單詞錯誤率,但 Massively Multilingual Speech 涵蓋的語言是其 11 倍。這表明與當前最好的語音模型相比,我們的模型可以表現得非常好。

3Meta AI 在大語言模型路上越走越遠

在硅谷這場愈演愈烈的 AI 大戰中,一直 All in 元宇宙的 Meta 正在加速追趕 OpenAI、谷歌、微軟等大模型先行者們。

今年 2 月 24 日,在火遍全球的 ChatGPT 發布 3 個月后,Meta 在官網公布了一款新的人工智能 大型語言模型 LLaMA,從參數規模來看,Meta 提供有 70 億、130 億、330 億和 650 億四種參數規模的 LLaMA 模型,并用 20 種語言進行訓練。

Meta 首席執行官馬克·扎克伯格表示,LLaMA 模型旨在幫助研究人員推進工作,在生成文本、對話、總結書面材料、證明數學定理或預測蛋白質結構等更復雜的任務方面有很大的前景。

Meta 首席 AI 科學家楊立昆(Yann LeCun)表示,在一些基準測試中,LLaMA 130 億參數規模的模型性能優于 OpenAI 推出的 GPT3,且能跑在單個 GPU 上;650 億參數的 LLaMA 模型能夠和 DeepMind 700 億參數的 Chinchilla 模型、谷歌 5400 億參數的 PaLM 模型競爭。

4 月 19 日,Meta 宣布開源 DINOv2 視覺大模型。據悉,DINOv2 是一最先進的計算機視覺自監督模型,可以在深度估計、語義分割和圖像相似性比較等任務中實現 SOTA 級別的性能。該模型可以借助衛星圖像生成不同大洲的森林高度,在醫學成像和作物產量估算等領域具有潛在應用。

5 月 10 日,Meta 宣布開源可跨越六種感官的大模型 ImageBind,新的 ImageBind 模型結合了文本、音頻、視覺、運動、熱和深度數據。該模型目前只是一個研究項目,展示了未來的人工智能模型如何能夠生成多感官內容。通過利用多種類型的圖像配對數據來學習單個共享表示空間。該研究不需要所有模態相互同時出現的數據集,相反利用到了圖像的綁定屬性,只要將每個模態的嵌入與圖像嵌入對齊,就會實現所有模態的迅速對齊。

Meta 力求通過這樣密集的發布向外界證明自己還一直跑在 AI 賽道中。

然而,在燒光了幾十億美元義無反顧押注 元宇宙 后,Meta 在 AI 方面的能力還是受到了外界的質疑。

在 Meta 公司今年 4 月的季度財報電話會議上,公司 CEO 扎克伯格明顯相當被動。砸下數十億美元、被寄予延續帝國輝煌厚望的元宇宙愿景還沒來得及初試啼聲,就被圍繞人工智能(AI)掀起的洶涌狂潮搶了風頭,剎那淪為明日黃花。

批評者們注意到就連 Meta 自己的底氣也有所減弱,扎克伯格去年 11 月和今年 3 月兩份聲明間的口吻大為改變。之前扎克伯格強調這個項目屬于“高優先級的增長領域”,而今年 3 月則轉而表示“推進 AI”才是公司的“最大單一投資方向”。

但扎克伯格本人還是做出了澄清,表示“有人認為我們正以某種方式放棄對元宇宙愿景的關注,我想提前強調,這樣的判斷并不準確。”

“多年以來,我們一直專注于 AI 和元宇宙技術,未來也將繼續雙管齊下……構建元宇宙是個長期項目,但我們的基本思路將保持不變、努力方向也不會動搖。”

參考鏈接

https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html

https://ai.facebook.com/blog/multilingual-model-speech-recognition/

分享到:
標簽:模型
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定