語言與知識技術(shù),被歸類為認知智能,一直是人工智能最熱門的研究與應(yīng)用領(lǐng)域。9月15日,百度世界2020召開,作為“AI新型基礎(chǔ)設(shè)施”百度大腦6.0的重要組成部分,百度語義理解技術(shù)與平臺文心(ERNIE)在大會上的發(fā)布吸引了大量NLP開發(fā)者的目光,尤其基于多流機制的預(yù)訓練語言生成技術(shù)ERNIE-GEN、知識增強跨模態(tài)語義理解技術(shù)ERNIE-ViL等,均達到了世界領(lǐng)先水平。

文心(ERNIE)是百度在語言與知識領(lǐng)域深耕多年的技術(shù)大成,同時登頂國際權(quán)威榜單GLUE也代表著中國語義理解技術(shù)在世界舞臺的地位。
隨著企業(yè)智能化轉(zhuǎn)型的深入,智能文本處理得需求廣泛存在,通用API/SDK已無法充分滿足需求,而傳統(tǒng)的NLP 定制方法在實際的產(chǎn)業(yè)應(yīng)用中面臨著不少問題,包括:需要較多高質(zhì)量的人工標注數(shù)據(jù)、缺少NLP技術(shù)選型與模型調(diào)優(yōu)經(jīng)驗、迭代調(diào)優(yōu)耗時長等,再加上往往需要高昂的算力花費,讓不少企業(yè)望而生畏。對此,在今年8月25日的百度大腦語言與知識技術(shù)峰會上,百度集團副總裁吳甜重磅發(fā)布語義理解技術(shù)與平臺文心(ERNIE),為企業(yè)提供了一種革新性的應(yīng)用范式,集先進的預(yù)訓練模型、全面的NLP算法集、端到端開發(fā)套件和平臺化服務(wù)于一體,提供一站式NLP開發(fā)與服務(wù),讓企業(yè)用戶更簡單、高效地定制企業(yè)級文本模型。
百度通過將世界領(lǐng)先的NLP技術(shù)成果開放給業(yè)界,降低了NLP技術(shù)的準入門檻,讓各大產(chǎn)業(yè)都能快速擁有構(gòu)建和應(yīng)用文本智能的能力,為產(chǎn)業(yè)智能化提供了全新的加速度。在今年7月的世界人工智能大會(WAIC)上,文心(ERNIE)更是摘得了大會最高榮譽SAIL獎(Super AI Leader,卓越人工智能引領(lǐng)者),在人工智能領(lǐng)域技術(shù)創(chuàng)新和應(yīng)用探索等方面獲得權(quán)威肯定。

目前,文心(ERNIE)累計支持2萬余名開發(fā)者,覆蓋金融、通信、教育、電商等行業(yè),并在多個公開權(quán)威語義評測中獲得了近十項世界冠軍。
破局NLP建模難題,為企業(yè)NLP應(yīng)用按下加速鍵
從數(shù)據(jù)到應(yīng)用,文心提供一整套文本建模能力

文心(ERNIE)基于領(lǐng)先的語義理解核心技術(shù),內(nèi)置百度自研業(yè)界效果領(lǐng)先的預(yù)訓練模型集ERNIE和全面領(lǐng)先的算法集,將文本數(shù)據(jù)處理、基于深度學習的模型訓練、模型評估和上線部署等NLP開發(fā)流程進行易用性封裝,為NLP開發(fā)者提供一整套效果領(lǐng)先、簡單易用、高效靈活的NLP模型開發(fā)服務(wù)。
豐富的文本數(shù)據(jù)處理能力,擺脫繁瑣數(shù)據(jù)處理流程
不論是互聯(lián)網(wǎng)領(lǐng)域還是傳統(tǒng)行業(yè),大量的企業(yè)核心信息都分布在非結(jié)構(gòu)化的文本數(shù)據(jù)中。在IDC的報告中也提及:“最近幾年全球新增的數(shù)據(jù)中,有80%來自非結(jié)構(gòu)化數(shù)據(jù)。”一方面,這些文本數(shù)據(jù)蘊含著的高價值信息,對企業(yè)的良性發(fā)展至關(guān)重要;另一方面,對這些信息的處理往往要耗費大量的人力,也是一筆不小的成本。
數(shù)據(jù)是模型訓練的起點。而在實際業(yè)務(wù)應(yīng)用中,文本數(shù)據(jù)在數(shù)據(jù)處理的環(huán)節(jié)就要面臨數(shù)據(jù)標注成本高、數(shù)據(jù)樣本不均衡、數(shù)據(jù)質(zhì)量不高、格式處理繁瑣等一系列問題。
數(shù)據(jù)標注成本高?交給文心“智能標注”能力
一般來說,高質(zhì)量的標注數(shù)據(jù)越多,模型的效果就會越好。但數(shù)據(jù)標注本身就是件耗時耗力又耗錢的事情,如何能夠低成本獲取大量高質(zhì)量標注數(shù)據(jù)對企業(yè)來說至關(guān)重要。文心(ERNIE)提供了全新的“智能標注”能力,開發(fā)者只需要標注少量數(shù)據(jù),文心就可以基于這部分數(shù)據(jù)學習、優(yōu)化,結(jié)合人工校正,快速完成大量無標注數(shù)據(jù)的高質(zhì)量標注。
(體驗文心智能標注功能,可登錄EasyDL)

數(shù)據(jù)樣本分布不均?“數(shù)據(jù)增強”功能試一試
在實際的應(yīng)用場景中,往往會面臨文本數(shù)據(jù)的樣本分布不均的情況。比如NLP領(lǐng)域常見的文本審核任務(wù),需精準分類出正常文本和敏感文本,是一個典型的文本分類問題。但在實際的數(shù)據(jù)收集中,正常樣本與敏感樣本的數(shù)量很容易失衡,經(jīng)常會遇到9:1(90%的正常樣本),甚至差異更大的情況,但又要求訓練出的模型能夠更全召回敏感文本。這種情況就需要文本“數(shù)據(jù)增強”的功能,來豐富和擴展敏感樣本的數(shù)量,讓數(shù)據(jù)更豐富、比例更適合。
此外,還有數(shù)據(jù)噪聲多、格式處理繁瑣等問題,文心也一一提供了解決方案:文本“數(shù)據(jù)降噪”幫助開發(fā)者快速定位高噪聲數(shù)據(jù),支持豐富數(shù)據(jù)格式和配套的預(yù)處理能力。
超強實力的預(yù)訓練模型和算法集,快速get高質(zhì)量模型
文心(ERNIE)內(nèi)置百度自研業(yè)界效果領(lǐng)先的中文預(yù)訓練模型和NLP優(yōu)質(zhì)算法集。其中ERNIE預(yù)訓練模型開創(chuàng)性地將大數(shù)據(jù)預(yù)訓練與多源豐富知識相結(jié)合,通過持續(xù)學習技術(shù),不斷吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語義等方面的新知識,實現(xiàn)模型效果不斷進化,如同人類持續(xù)學習一樣。這些硬核實力也讓它在去年12月,斬獲自然語言理解權(quán)威榜單GLUE榜首。

文心(ERNIE)模型集包括通用模型、任務(wù)模型、領(lǐng)域模型、輕量級模型等預(yù)訓練模型,為業(yè)界提供最完備的預(yù)訓練模型能力。

全面的評估工具和部署能力,模型落地無憂
為了滿足各行業(yè)模型應(yīng)用的需求,文心(ERNIE)還配套了完整的模型評估與部署能力。文心提供了10余套常用NLP評估工具,包括多標簽分類評估、準召率、宏/微平均、正逆序比、BLEU值、ROUGE值、馬修斯相關(guān)系數(shù)等,同時也支持用戶靈活自定義評估指標。
在部署方面,文心(ERNIE)也很好地支持了模型的公有云部署和本地化部署兩種方式,方便用戶根據(jù)不同的業(yè)務(wù)需求來選擇合適的部署方式。
從世界級技術(shù)突破到產(chǎn)業(yè)級NLP應(yīng)用能力
聚焦企業(yè)業(yè)務(wù)價值,面向不同業(yè)務(wù)需求提供豐富產(chǎn)品形態(tài)
為了讓文心(ERNIE)的世界級技術(shù)突破轉(zhuǎn)化為企業(yè)發(fā)展的動能,在產(chǎn)業(yè)應(yīng)用中發(fā)揮更大價值,文心還提供了多種使用方式,讓不同需求、不同開發(fā)層次的企業(yè)開發(fā)者都能快速掌握。
零門檻、無代碼的云端開發(fā)體驗:EasyDL-NLP
百度EasyDL是一個零門檻的AI開發(fā)平臺,支持開發(fā)者一站式定制高精度AI模型。文心通過EasyDL提供了一整套簡單高效的NLP開發(fā)能力,提供零代碼、少代碼的模型訓練方式,同時也支持高階用戶進行靈活組網(wǎng)調(diào)參。開發(fā)者無須了解算法細節(jié),最快5分鐘即可上手,快速定制NLP模型。目前EasyDL已支持了單標簽和多標簽的文本分類、短文本匹配、情感傾向分析等NLP常用任務(wù)類型。

可深度定制的企業(yè)級全功能開發(fā)能力:BML-智能文本
百度BML平臺是全功能的百度機器學習平臺,為企業(yè)用戶提供一站式人工智能模型建設(shè)功能服務(wù)。文心(ERNIE)通過百度BML平臺建設(shè)BML-智能文本產(chǎn)品能力,基于各類文本處理場景提供豐富的自動化產(chǎn)線,實現(xiàn)一站式文本建模開發(fā)與應(yīng)用。

真實業(yè)務(wù)實踐淬煉,豐富場景化落地經(jīng)驗
文心已在金融、媒體、電商等業(yè)務(wù)場景中嶄露頭角
目前,文心(ERNIE)已廣泛應(yīng)用于搜索引擎、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品中,同時也在金融、電商、媒體、教育等行業(yè)中落地,成為推動產(chǎn)業(yè)智能化轉(zhuǎn)型的利器。

某互聯(lián)網(wǎng)金融企業(yè),攜手文心,基于用戶數(shù)據(jù)快速建模,實現(xiàn)高效評估借貸用戶風險的能力。結(jié)合文心的預(yù)訓練模型,對用戶行為信息進行語義層面深度建模,用戶風控少量訓練數(shù)據(jù)進行精細Fine-tuning,在較短時間內(nèi)完成模型收斂取得準確率顯著提升。金融風控領(lǐng)域模型準確率背后關(guān)乎著企業(yè)的收入,模型的效果提升,帶來的是真實的價值收益!
某綜合性電商平臺使用EasyDL中的文心(ERNIE)搭建起了完整的智能評分系統(tǒng)平臺架構(gòu)。AI賦能后的服務(wù)考核監(jiān)督機制得以升級,用戶的差評反饋都會被自動分析處理,大大提升了服務(wù)效率與服務(wù)質(zhì)量。該系統(tǒng)將負面問題處理率由先前的60%提升到100%,客服運營人力由5人/日降至3人/日。
文心與企業(yè)開發(fā)者共同成長
全流程技術(shù)服務(wù)支持,真正做到“授之以漁”

除了基于預(yù)訓練技術(shù)提供完善的開發(fā)工具外,文心(ERNIE)還面向企業(yè)用戶提供全流程技術(shù)服務(wù)配套。包括業(yè)務(wù)問題分析、技術(shù)選型指導、模型優(yōu)化指導、開發(fā)者使用培訓等服務(wù),真正做到"授之以漁"。
百度大腦推出文心(ERNIE),正是為了幫助企業(yè)在NLP賽道上跨過技術(shù)、工具、算力、人才等門檻,開發(fā)者和企業(yè)進行開放賦能,讓語義理解等技術(shù)在產(chǎn)業(yè)內(nèi)“遍地開花”,真正幫助企業(yè)降本增效,并發(fā)展出智能化的新業(yè)態(tài)。百度大腦正在通過語義理解研究新思路,在推動人工智能技術(shù)的發(fā)展的同時,進一步推動產(chǎn)業(yè)智能化發(fā)展,讓文心(ERNIE)成為AI時代的文本智能化利器。






