人工智能技術在電商領域,有著豐富的應用場景。應用場景是數據入口,數據通過技術得到提煉,反過來又作用于技術,二者相輔相成。
京東基于自然語言理解與知識圖譜技術,開發了商品營銷內容的AI智能寫作服務。并將此項技術應用到了京東零售【發現好貨】頻道中。
通過AI智能寫作創作的數十萬商品營銷圖文素材,不僅填補了商品更新與達人寫作內容更新之間的巨大缺口,也提升了內容頻道的內容豐富性。
同時,京東AI智能寫作生成的營銷文案內容在曝光點擊率、進商詳轉化率等方面其實都做到了優于人工創作的營銷內容。在剛剛結束的京東618,AI智能寫作產品已覆蓋京東零售超過2000個商品品類,在圖文內容營銷上,智能寫作產品撰寫的導購素材相比于人工撰寫內容點擊轉化率超過40%。接下來讓我們通過解讀京東AI研究院入選 AAAI 2020 的論文來一起來看看,AI是如何做到針對不同群體打造不同營銷策略及不同風格的營銷文案,從而提高營銷轉化率的。
自動文本摘要(簡稱“自動文摘”)是自然語言處理領域中的一個傳統任務,其提出于 20 世紀 50 年代。自動文摘任務的目標是對于給定的文本,獲得一段包含了其中最重要信息的簡化文本。常用的自動文摘方法包括抽取式自動文摘(Extractive Summarization)和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘通過提取給定文本中已存在的關鍵詞、短語或句子組成摘要;生成式自動文摘通過對給定文本建立抽象的語意表示,利用自然語言生成技術,生成摘要。
本文所介紹的是基于關鍵詞指導的生成式句子摘要方法,該方法融合了抽取式自動文摘和生成式自動文摘,在Gigaword句子摘要數據集上與對比模型相比,取得了更好的性能。
論文鏈接:http://box.jd.com/sharedInfo/B2234BB08E365EEC;
1、生成式句子摘要
生成式句子摘要(Abstractive Sentence Summarization)任務的輸入是一個較長的句子,輸出是該輸入句子的簡化短句。
我們注意到,輸入句子中的一些重要詞語(即關鍵詞)為摘要的生成提供了指導線索。另一方面,當人們在為輸入句子創作摘要時,也往往會先找出輸入句子中的關鍵詞,然后組織語言將這些關鍵詞串接起來。最終,生成內容不僅會涵蓋這些關鍵詞,還會確保其流暢性和語法正確性。我們認為,相較于純粹的抽取式自動文摘和生成式自動文摘,基于關鍵詞指導的生成式自動文摘更接近于人們創作摘要時的習慣。
我們舉一個簡單的句子摘要的例子。如圖1所示,我們可以大致將輸入句子和參考摘要的重疊的詞(停用詞除外)作為關鍵詞,這些重疊的詞語覆蓋了輸入句子的要點。例如,我們通過關鍵詞“世界各國領導人”“關閉”和“切爾諾貝利”,可以獲取輸入句子的主旨信息,即“世界各國領導人呼吁關閉切爾諾貝利”,這與實際的參考摘要 “世界各國領導人敦促支持切爾諾貝利核電站關閉計劃”是相吻合的。這種現象在句子摘要任務中很常見:在Gigaword句子摘要數據集上,參考摘要中的詞語超過半數會出現在輸入句子中。
2、模型概述
句子摘要任務的輸入為一個較長的句子,輸出是一個簡短的文本摘要。我們的動機是,輸入文本中的關鍵詞可以為自動文摘系統提供重要的指導信息。首先,我們將輸入文本和參考摘要之間重疊的詞(停用詞除外)作為Ground-Truth關鍵詞,通過多任務學習的方式,共享同一個編碼器對輸入文本進行編碼,訓練關鍵詞提取模型和摘要生成模型,其中關鍵詞提取模型是基于編碼器隱層狀態的序列標注模型,摘要生成模型是基于關鍵詞指導的端到端模型。關鍵詞提取模型和摘要生成模型均訓練收斂后,我們利用訓練好的關鍵詞提取模型對訓練集中的文本抽取關鍵詞,利用抽取到的關鍵詞對摘要生成模型進行微調。測試時,我們先利用關鍵詞提取模型對測試集中的文本抽取關鍵詞,最終利用抽取到的關鍵詞和原始測試文本生成摘要。
(1)多任務學習
文本摘要任務和關鍵詞提取任務在某種意義上非常相似,都是為了提取輸入文本中的關鍵信息。不同點在于其輸出的形式:文本摘要任務輸出的是一段完整的文本,而關鍵詞提取任務輸出的是關鍵詞的集合。我們認為這兩個任務均需要編碼器能夠識別出輸入文本中的重要信息的能力。因此,我們利用多任務學習框架,共享這兩個任務編碼器,提升編碼器的性能。
(2)基于關鍵詞指導的摘要生成模型
我們受Zhou等人工作[1]的啟發,提出了一種基于關鍵詞指導的選擇性編碼。具體來說,由于關鍵詞含有較為重要的信息,通過關鍵詞的指導,我們構建一個選擇門網絡,其對輸入文本的隱層語義信息進行二次編碼,構造出一個新的隱層。基于這個新的隱層進行后續的解碼。
我們的解碼器基于Pointer-Generator網絡[2],即融合了復制機制的端到端模型。對于Generator模塊,我們提出直連、門融合和層次化融合的方式對原始輸入文本和關鍵詞的上下文信息進行融合;對于Pointer模塊,我們的模型可以選擇性地將原始輸入和關鍵詞中的文本復制到輸出摘要中。
3、實驗與分析
(1)數據集
在本次實驗中,我們選擇在Gigaword數據集上進行實驗,該數據集包含約380萬個訓練句子摘要對。我們使用了8000對作為驗證集,2000對作為測試集。
(2)實驗結果
表1顯示了我們提出的模型比沒有關鍵詞指導的模型表現更好。我們測試了不同的選擇性編碼機制,分別是輸入文本的自選擇,關鍵詞選擇和互選擇,實驗結果顯示互選擇的效果最佳;對于Generator模塊,我們發現層次化融合的方式要優于其他兩種融合方式;我們的雙向Pointer模塊比原始的僅能從輸入文本中復制的模型表現更好。
4、總結
本文致力于生成式句子摘要的任務,即如何將一個長句子轉換成一個簡短的摘要。我們提出的模型可以利用關鍵詞作為指導,生成更加優質的摘要,獲得了比對比模型更好的效果。
1)通過采用了多任務學習框架來提取關鍵詞和生成摘要;
2)通過基于關鍵字的選擇性編碼策略,在編碼過程中獲取重要的信息;
3)通過雙重注意力機制,動態地融合了原始輸入句子和關鍵詞的信息;
4)通過雙重復制機制,將原始輸入句子和關鍵詞中的單詞復制到輸出摘要中。
在標準句子摘要數據集上,我們驗證了關鍵詞對句子摘要任務的有效性。
注釋:
[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.
[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.






