近日,百度ERNIE升級到3.0,重磅發布知識增強的百億參數大模型。該模型除了從海量文本數據中學習詞匯、結構、語義等知識外,還從大規模知識圖譜中學習。
ERNIE 3.0一舉刷新54個中文 NLP任務基準,其英文模型在國際權威的復雜語言理解任務評測SuperGLUE上,以超越人類水平0.8個百分點的成績登頂全球榜首。ERNIE 3.0同時具備超強語言理解能力以及寫小說、歌詞、詩歌、對聯等文學創作能力。
目前ERNIE 3.0已在百度文心官網開放,用戶可體驗ERNIE 3.0創作的不同形式的內容,實現更多有創意、有價值的應用。
ERNIE 3.0知識增強大模型:百億級預訓練中首次引入大規模知識
近一年來,以GPT-3、Switch-Transformer 為代表的大規模預訓練模型,帶來了人工智能領域新的突破,由于其強大的通用性和卓越的遷移能力,掀起了預訓練模型往大規模參數化發展的浪潮。然而,現有的大規模預訓練模型,主要依賴純文本學習,缺乏大規模知識指導學習,模型能力存在局限。
ERNIE 3.0的研究者進一步挖掘大規模預訓練模型的潛力,基于深度學習平臺飛槳的分布式訓練技術優勢,首次在百億級預訓練模型中引入大規模知識圖譜,提出了海量無監督文本與大規模知識圖譜的平行預訓練方法(Universal Knowledge-Text Prediction)。通過將大規模知識圖譜的實體關系與大規模文本數據同時輸入到預訓練模型中進行聯合掩碼訓練,促進了結構化知識和無結構文本之間的信息共享,大幅提升了模型對于知識的記憶和推理能力。

ERNIE 3.0 中的文本與知識平行預訓練
ERNIE 3.0統一預訓練框架:同時具備語言理解和語言生成能力
百度研究者提出了將通用語義表示與任務語義表示相結合的模型框架,該框架融合自編碼和自回歸等不同的任務語義表示網絡,既可同時處理語言理解和語言生成任務,還能做無標注數據的零樣本學習(Zero-shot Learning)和有標注數據的微調訓練(Fine-tuning)。此外,ERNIE 3.0在持續學習框架的基礎上,增加了任務語義表示網絡,加速模型進化。

ERNIE 3.0框架
ERNIE 3.0框架分為兩層。第一層是通用語義表示網絡,該網絡學習數據中的基礎和通用的知識。第二層是任務語義表示網絡,該網絡基于通用語義表示,學習任務相關的知識。不同任務語義表示網絡可通過自編碼結構或者自回歸結構實現,并通過底層共享實現交互和增強。在學習過程中,任務語義表示網絡只學習對應類別的預訓練任務,而通用語義表示網絡會學習所有的預訓練任務。
ERNIE 3.0效果:一舉刷新54個中文NLP任務基準
百度研究者在54個中文自然語言處理公開數據集,包含情感分析、觀點抽取、閱讀理解、文本摘要、對話生成、數學運算等任務上,全面驗證評估了ERNIE 3.0的效果和通用能力。ERNIE 3.0均取得了當前最好效果,其中,在20多個不同類型的自然語言處理任務上取得了3%以上的顯著提升。

ERNIE 3.0在 Fine-tuning 范式下的任務效果
在實際應用中,往往缺乏標注數據,因此,百度研究者也測試了ERNIE 3.0在Zero-shot Learning(零樣本學習)范式下的效果,ERNIE 3.0在大多數任務上相對已有的中文大模型也取得了顯著的效果提升。

ERNIE 3.0 在零樣本學習下的效果
ERNIE 3.0英文模型登頂 SuperGLUE:超越人類水平0.8個百分點
除了中文模型的驚艷效果,ERNIE 3.0英文模型在國際權威的復雜語言理解任務評測 SuperGLUE 上超越谷歌的 T5、OpenAI 的 GPT-3 等大模型,以超越人類水平0.8個百分點的成績登頂全球榜首。
SuperGLUE是由谷歌DeepMind、Facebook研究院、紐約大學、華盛頓大學等多個權威機構聯合發布的復雜語言理解任務評測,旨在提升常識推理、因果判斷、上下文消歧、指代消解等復雜任務的效果。

ERNIE 3.0 登頂 SuperGLUE 全球榜首
事實上,早在2019年12月,ERNIE就曾以9個任務平均得分首次突破90大關的成績登頂GLUE全球榜首。這次ERNIE 3.0在SuperGLUE評測上奪冠,再次證明了ERNIE的強大實力。

ERNIE登頂GLUE全球榜首
寫小說、寫歌詞、寫古文:ERNIE 3.0文學創作與知識掌握能力顯著提升
ERNIE 3.0在文學創作能力方面也有了顯著提升,可以通過對海量文本與知識的學習,無需專門訓練,即可進行文學創作。

ERNIE 3.0對知識的掌握,同樣大幅提升,通過知識圖譜對模型進行增強,讓模型具備更強的知識記憶和推理能力。

目前這些能力已經開放體驗,大家可以搜索“百度文心”進入官網后,點擊“ERNIE 3.0”,親身感受 ERNIE 3.0的技術魅力。
文心ERNIE自2019年誕生至今,在語言理解、文本生成、跨模態語義理解等領域取得一系列技術突破,在公開權威語義評測中斬獲了十余項世界冠軍。2020 年,文心榮獲世界人工智能大會(WAIC)最高獎項SAIL獎。
目前,文心ERNIE已大規模應用于搜索、信息流、智能音箱等互聯網產品,并通過百度智能云輸出到工業、能源、金融、通信、媒體、教育等各行各業,助力產業智能化升級。本次發布的ERNIE 3.0也將進一步提升應用效果,創造更大的經濟與社會價值。







