亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近日,國際AI頂尖學術會議ACL 2021(Annual Meeting of the Association for Computational Linguistics)公布了論文錄用結果。網易伏羲共有三項研究被本屆ACL收錄,內容包括自然語言生成、無監(jiān)督文本表示學習等方向,相關技術已應用于游戲、文創(chuàng)及智慧文旅等行業(yè)。

ACL由國際計算語學協(xié)會主辦,是自然語言處理(NLP)與計算語言學領域最高級別的學術會議,被中國計算機學會(CCF)列為A類國際學術會議,涵蓋語言分析、信息抽取、機器翻譯與自動問答等各個領域。本屆ACL共收到3350篇論文投稿,其中主會論文錄用率為21.3%。

image.png

(AI頂會ACL 2021放榜,網易伏羲三篇論文入選)

除三篇收錄論文外,網易伏羲提交的一篇演示論文(Demo Paper)也引發(fā)了評審高度關注。該論文主要探討手游《遇見逆水寒》中所采用的“大宋傀儡戲”玩法。

傀儡戲起源于漢代,又名木偶戲。游戲中,AI就像傀儡,而玩家則是提線操控的“傀儡師”。根據(jù)玩家輸入的語句,AI能自動編寫故事,與玩家共創(chuàng)劇本。

據(jù)了解,“大宋傀儡戲”玩法是中文領域首個采用大規(guī)模預訓練語言模型的開放域文字游戲,融入了網易伏羲的多項算法創(chuàng)新。一方面,網易伏羲通過設置劇情目標、任務獎勵等玩法創(chuàng)新方式,規(guī)避了游戲中濫用AI編劇的情況發(fā)生;另一方面,通過在模型壓縮、推理加速等多個環(huán)節(jié)進行創(chuàng)新,線上服務的成本也得以有效降低。目前,網易伏羲正在利用更大規(guī)模的預訓練語言模型,持續(xù)優(yōu)化該玩法,為玩家?guī)ジ玫捏w驗。

image.png

(紫色對話框為網易伏羲AI自動撰寫)

以下為ACL 2021網易伏羲錄用文章介紹

1、《OpenMEVA:一個評估開放式故事生成指標的基準數(shù)據(jù)集》

OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics

在自然語言生成(NLG)領域,如何盡量客觀、準確地評價AI自動生成的文本質量,是一大行業(yè)難題。

目前,主要有兩種評估NLG系統(tǒng)的方法:人工評估和自動評估指標。相較之下,人工評估在準確性和有效性上更勝一籌,自動評估指標則在成本和效率上更具優(yōu)勢。隨著NLG的快速發(fā)展,現(xiàn)有的評估方式越來越難以滿足行業(yè)痛點,一系列評估NLG系統(tǒng)質量的新方法也應運而生。

由于缺乏標準化的基準數(shù)據(jù)集,無論是全面衡量指標的能力,還是比較不同指標的性能,都極為困難。為此,網易伏羲與清華大學的黃民烈老師團隊合作提出了一個針對自動評估指標的基準數(shù)據(jù)集“OpenMEVA”。借助“OpenMEVA”,可以全面評估針對開放式故事的自動評估指標性能:包括自動生成指標與人工評估的相關性,對不同模型輸出和數(shù)據(jù)集的泛化能力,故事語篇連貫性能力,以及對擾動的穩(wěn)健性等。

 

2、《人工位置信息殘留會通過MLM預訓練模型動態(tài)詞向量傳播》

Positional Artefacts Propagate Through Masked Language Model Embeddings

文本表示學習,是指將文本字符串表示轉化成計算機能處理的分布式表示的過程。文本表示學習是基于深度學習的自然語言處理的基礎,良好的文本表示可以大幅提升算法效果。

本研究中,網易伏羲基于掩碼語言模型(Masked Language Model),從預訓練語言模型中抽取了各層文本分布式表示,并從中發(fā)現(xiàn)了一個共同但并不理想的特征:在BERT和RoBERTa的隱狀態(tài)向量中,持續(xù)存在有離群神經元的情況。

image.png

(在SST-2和QQP數(shù)據(jù)集上的Bert-base各層平均向量)

為研究該問題的根源,網易伏羲引入了一種神經元級別的分析方法。該方法顯示,異常值與位置嵌入(Position Embedding)所捕獲的信息密切相關,而這些異常值是造成編碼器原始向量空間各向異性的主要原因。

通過剪除這些異常值,可以提高各向量的相似度。剪切后的向量可以更準確地區(qū)分詞義;同時,使用均值池化(Mean Pooling)后,可以得到更好的句子嵌入。

 

3、《通過對句子層面和語篇層面的一致性進行建模來生成長文本

Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence

image.png

(預訓練任務示意圖)

AI自動生成連貫的長文本,本身就是一項極具挑戰(zhàn)的任務。而故事生成這類開放式的文本生成任務則更為困難。

盡管在句內連貫性上,現(xiàn)有的大規(guī)模語言模型表現(xiàn)不俗,但要保持整體生成文本的連貫性,依舊非常困難。這是因為在上下文中,很難捕捉到超越token級別共現(xiàn)的高級語義和語篇結構。

本研究中,網易伏羲和清華大學黃民烈老師團隊合作提出了一個長文本生成模型,可以在解碼過程中,在句子層面和語篇層面上表示上下文。借助兩個預訓練任務,模型通過預測句子間的語義相似性、區(qū)分正常和打亂的句子順序來學習表征。實驗表明,在生成文本的連貫性上,該模型優(yōu)于現(xiàn)有最先進的基線模型。

分享到:
標簽:放榜 網易 入選 伏羲 三篇 論文 AI ACL
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定