摘要
隨著Internet的迅猛發展,越來越多的用戶通過Internet表達了自己的看法。因此,文本的大數據是在Internet上生成的。在大數據時代,通過自然語言處理技術挖掘互聯網上海量文本所包含的情感傾向已成為輿論監督的重要方式。本文提出了一種基于敏感信息主題的大數據情感分析方法。該方法通過神經網絡模型將主題語義信息集成到文本表示中。將注意力機制引入神經網絡,并引入上下文感知向量來計算每個單詞的權重。另外,為了使模型更具適應性,使用情感詞典標注的方法來獲得訓練數據。實驗結果表明,該模型可以有效提高情感分析結果的準確性。
核心內容
基于敏感信息主題的情感分析模型可以對大量文本敏感信息主題進行情感分析,以實現輿論監督和指導。本文提出了一種基于敏感信息主題的情感分析模型(SITSAM),它將敏感信息的主題描述整合到文本表示學習模型中。同時,引入了上下文感知注意機制來增加情感詞對句子情感分類的貢獻。
基于敏感信息主題的情感分析模型(SITSAM)如下圖所示。
模型的輸入包括兩部分:左側是句子中包含的單詞{},右側是是敏感信息主題詞。本文采用word2vec模型獲得詞向量。在傳統遞歸神經網絡模型的參數訓練過程中,梯度逐漸減小直到消失,從而限制了序列數據的長度。LongShortTermMemory(LSTM)通過引入輸入門i,輸出門o,遺忘門f和記憶單元克服了梯度消失的問題。本文選擇LSTM作為句子表征的基本訓練模型。在傳統的遞歸神經網絡模型中,信息只能向前傳播,導致時間t的狀態只依賴于時間t之前的信息,為了使每個時刻都包含上下文信息,采用雙向遞歸神經網絡(BiRNN)和LSTM單元相結合的BiLSTM來獲得句子的表示。雙向長短期存儲器網絡的結構如下圖所示。BiLSTM可以捕獲文本信息更新,其正向傳播在X1->Xn方向,反向傳播在Xn->X1方向。Xi表示句子中的第i個單詞。沿兩個方向的隱藏層輸出被連接為最終的隱藏層輸出:
為了使詞條和主題詞在句子中映射到相同的向量空間,使用Siamese BiLSTM網絡進行訓練。Siamese BiLSTM網絡的思想是在兩個BiLSTM網絡之間共享權重。為了將主題詞的意義合并到每個詞中,使用平均池來聚合主題詞的所有隱藏層輸出,以生成主題,計算如下:
然后,將與每個單詞的輸出連接起來,以獲得最終的隱藏層每個單詞的輸出:
對于情感分析任務,情感詞通常比非情感詞更重要,這通常確定句子的情感傾向。為了更好地估計每個單詞的重要性,引入了上下文感知向量來計算每個單詞的權重:
其中,c是句子中每個單詞的隱藏層狀態的平均值。
注意權重通過以下計算獲得:
其中,W表示注意層的權重向量,b表示偏移向量。最后,句子向量表示為:
“最后一層是softmax層,它將文本表示納入softmax函數,以計算文本情感傾向的概率y。”
Abstract
With the rapid development of the Internet, more and more users expressed their views on the Internet. Therefore, the big data of texts are generated on the Internet. In the era of big data, mining the sentiment tendencies contained in massive texts on the Internet through natural language processing technology has become an important way of public opinion supervision. In this paper, the sensitive information topics-based sentiment analysis method for big data is proposed. This method integrates topic semantic information into text representation through a neural network model. The attention mechanism is introduced into the neural network, and context-aware vector is introduced to calculate the weight of each word. In addition, in order to make the model more adaptable, the method of sentiment dictionary tagging is used to obtain the training data. The experimental results show that the proposed model can effectively improve the accuracy of sentiment analysis results.






