6月4-6日,由中國科學技術協會、中國科學院、中國工程院、浙江省人民政府指導,中國人工智能學會、杭州市人民政府主辦的2021全球人工智能技術大會在杭州召開。大會匯聚了來自世界各地的人工智能領域院士專家,共同為人工智能的發展建言獻策。
6日下午,在多語種智能信息處理專題論壇上,中國人工智能學會(以下簡稱:CAAI)多語種智能信息處理專業委員會正式成立。國務院參事、CAAI理事長、中國工程院院士戴瓊海,CAAI名譽理事長、中國工程院院士李德毅,中國工程院院士、新疆多語種信息技術重點實驗室主任吾守爾·斯拉木發表致辭,來自學術界、產業界的多位重磅嘉賓帶來了精彩報告。百度首席技術官、CAAI/ACL Fellow王海峰以《機器翻譯:從夢想到現實》為題,介紹了機器翻譯相關研究的重要成果和產業應用。
機器翻譯邁入深度學習時代
機器翻譯的發展歷程可以追溯到1947年機器翻譯設想的提出。在70多年的時間里,機器翻譯經歷了基于規則的方法、統計機器學習和神經網絡機器翻譯三個階段,進入深度學習時代。
神經網絡機器翻譯的大規模產業應用面臨高質量、多語言、跨模態的產業化需求。在翻譯質量方面,百度研發了融合豐富特征的神經網絡機器翻譯模型,漏譯率降低80%;多智能體聯合學習模型,突破單一模型學習能力不足的限制;在國際權威機器翻譯評測中獲得第一名,翻譯質量大幅提升。2015年5月,百度在全球率先上線大規模神經網絡機器翻譯產品。
在多語言翻譯方面,針對語言數量多、語料分布不均衡、部署復雜、實現難度大等難題,百度研發了基于共享編碼器的翻譯模型,突破了低資源語言的翻譯瓶頸,研制了多語言翻譯統一框架,大幅提升部署效率,實現203種語言互譯,支持41006個翻譯方向。

機器同傳方面,針對同傳翻譯質量與時延難以兼顧的痛點,百度打造了基于語義單元的同傳模型,翻譯準確率超過80%,時間延遲約為3秒,翻譯水平媲美人類譯員。同時,在端到端同傳模型方面,突破了語音識別和機器翻譯交互同步解碼,實現跨模態知識共享。百度在機器翻譯技術上持續創新突破的同時,也積極開放合作,聯合Google、清華大學等舉辦機器同傳研討會、發布面向真實演講場景的中英同傳數據集,促進同傳研究。
每天翻譯超千億字符,跨語言溝通正在成為現實
機器翻譯是百度很早就開始積累和打造的AI技術之一。2010年以來,百度在大規模產業化機器翻譯技術、海量翻譯知識獲取、多語言翻譯、機器同聲傳譯等方面均進行了系統而深入的研究,技術上不斷突破創新,產業應用不斷豐富。百度翻譯已形成包括翻譯PC版、翻譯APP、AI同傳、以及翻譯開放平臺等完整的產品矩陣,實時準確地響應全球海量復雜多樣的翻譯請求,每天翻譯超過千億字符,較十年前增長了十萬倍。
截止目前,百度翻譯已服務50多萬家企事業單位和開發者,覆蓋30多個領域,持續在人們生活工作、公共服務、科研學習等方面發揮作用:服務服貿會、進博會、全球人工智能技術大會等上百場重要國際會議;服務經濟發展、助力跨國貿易平臺/企業降本增效;免費開放生物醫藥領域翻譯,與防疫志愿者小組等合作,助力全球抗疫等等。
資料顯示,全球權威咨詢機構Gartner發布《Hype Cycle for Natural Language Technologies, 2020》,將百度評為神經網絡機器翻譯標桿機構。百度是國內機器翻譯領域唯一入圍單位。2020年12月,Gartner在報告《Market Guide for AI-Enabled Translation Services》中提到,百度憑借在機器翻譯方面出色的表現強勢入圍全球AI翻譯服務代表性提供商。
報告最后,王海峰表示,百度將始終堅持技術創新,推動技術進步,為產業升級、社會經濟高質量發展、國家繁榮昌盛做出更大貢獻。






