亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

Sparsemax封閉形式解及其損失函數的推導

數學證明深度學習激活函數從Softmax到Sparsemax

 

本文目標是三個方面。第一部分討論了sparsemax背后的動機及其與softmax的關系,首次介紹了該激活函數的原始研究論文摘要,以及使用sparsemax的優點概述。第二部分和第三部分專門討論數學推導,具體地找到閉合形式的解以及適當的損失函數。

1.Sparsemax概述

Martins等人通過論文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax,提出了一種替代眾所周知的softmax激活函數的新方法

雖然softmax是輸出在K個概率上歸一化的概率分布的多類分類的適當選擇,但在許多任務中,我們希望獲得一個更稀疏的輸出。Martins引入了一個新的激活函數sparsemax,該函數輸出多項式分布的稀疏概率,因此從分布的質量中濾除了噪聲。

這意味著sparsemax將為某些類分配恰好為0的概率,而softmax會保留這些類并為它們分配非常小的值,如10-3。在大型分類問題中,稀疏最大值可能特別有利;例如在自然語言處理(NLP)任務中,其中softmax層正在非常大的詞匯集上進行多項分布建模。

但是,實際上,將softmax函數更改為稀疏估計器并不是一件容易的事。在保持softmax的一些基本屬性的同時獲得這種轉換(例如,易于評估,易于微分并容易轉換為凸損失函數)變得非常具有挑戰性。

機器學習中解決該問題的傳統方法是使用L1懲罰,該懲罰在神經網絡中的輸入變量和/或深層方面允許一定程度的稀疏性。雖然這種方法相對簡單,但是L1懲罰會影響神經網絡的權重,而不是作為稀疏概率的目標輸出

因此,論文作者認識到需要補充激活功能, sparsemax,他們將其公式化為可解決的二次問題,并在一組約束條件下找到一個解決方案,以獲得與softmax類似的性質。

在深入研究sparsemax實現背后的證據之前,讓我們首先討論論文中的一些重要的高級發現。以下要點總結了一些主要內容:

 Sparsemax是分段線性激活函數

盡管softmax形狀等效于傳統的S型函數,但Sparsemax在一個維度上卻是"硬"的S型。此外,在兩個維度上,sparsemax是具有整個飽和區域(0或1)的分段線性函數。這是論文中的圖表,可幫助可視化softmax和sparsemax。

數學證明深度學習激活函數從Softmax到Sparsemax

 

 

Sparsemax Loss與分類Huber Loss有關

在二元情況下,導出的稀疏極大損失函數與用于分類的修正的Huber損失直接相關(定義在張童論文《基于凸風險優化的分類方法的統計特征和一致性》和鄒惠,朱季,和黑斯,特雷弗論文《基于邊緣向量、容許損失和多類邊緣的分類器》,斯坦福大學2006年技術報告)。也就是說,如果xy是sparsemax之前的兩個分數,則使用sparsemax層和sparsemax損失,且t = x-y,并且在不失一般性的前提下,假設正確的標簽為1,我們可以證明:

數學證明深度學習激活函數從Softmax到Sparsemax

 

這是一個很好的性質,證明了sparsemax的理論基礎;Huber損失是L1和L2懲罰之間的折衷,這正是我們試圖從softmax激活中獲得的結果,同時包括稀疏性。此外,可以通過將損失與其他標準分類損失進行比較來證明與Huber損失的相似性:

數學證明深度學習激活函數從Softmax到Sparsemax

 

在上圖中,您可以看到,對于t的負值,對于大誤差,損耗與誤差呈線性比例關系,類似于鉸鏈損失。但是,隨著t收斂到1,誤差減小,我們觀察到平方關系,類似于最小二乘損失

 隨著類數的增加,稀疏極大可以提高性能

sparsemax框架已顯示在帶有大量標簽的數據集上表現特別出色。在下面的示例中,您可以在表1中看到幾個數據集及其詳細信息,并在表2中看到了不同激活函數( S型,softmax和sparsemax)的微平均/宏平均F1分數。標簽的數量(即較低的行數),與softmax相比,sparsemax性能的提升變得越來越明顯。

數學證明深度學習激活函數從Softmax到Sparsemax

表1:數據集說明


數學證明深度學習激活函數從Softmax到Sparsemax

表2:不同數據集的性能基準

Sparsemax可以用于注意力模型,以提高潛在的性能和更好的解釋性

稀疏輸出的想法也可以在具有注意力機制的深度學習模型中加以利用-一種用于計算潛在大量實體的注意力權重的神經網絡。事實證明,這種注意力機制在NLP任務(例如翻譯或語言建模)中特別有效,這導致了所謂的Transformers的創建,利用自我注意力的非循環模型體系結構,廣泛用于諸如BERT的最新語言模型。從sparsemax中獲得嚴格的空概率的優勢在于,如果某些隱藏狀態(單詞)被判斷為不相關,則可以完全消除它們的影響--與softmax相比,softmax最終累積了所有不相關狀態的無窮小和,并可能影響模型性能。此外,在概率為零的情況下,我們擴大了注意力的一個主要優勢:可解釋性。使用稀疏分數有助于清理注意力圖,并闡明注意力系統的工作方式。

然而,根據經驗,由于自然語言推理任務中的關注稀疏,本文僅報告了少量的性能提升。

數學證明深度學習激活函數從Softmax到Sparsemax

表3:SNLI數據集上注意力模型的性能

既然我們已經強調了sparsemax的一些優點和關鍵發現,現在讓我們繼續進行sparsemax背后的兩個重要推導:即找到其閉式解以及其損失函數方程。

2.稀疏激活函數

回顧Softmax

Softmax是S形到多類分類的概括。它采用了對數變換把所有得分?映射到概率p∈[0,1]:

數學證明深度學習激活函數從Softmax到Sparsemax

 

從概念上講,對于一組K類,softmax是一個把K維實數向量映射到K-1維概率分布Δ(即到K-1維概率單純形)的函數。更準確地說:

數學證明深度學習激活函數從Softmax到Sparsemax

 

重要的是要注意,只有K-1自由度是必要的,因為概率總和為1。

Softmax被定義為具有完全支持,非零值輸出,數學上定義為

數學證明深度學習激活函數從Softmax到Sparsemax

 

修改此屬性以允許零輸出正是使我們能夠獲得稀疏概率的原因。

Sparsemax的定義

作者將sparsemax激活函數公式化為二次約束優化問題:

數學證明深度學習激活函數從Softmax到Sparsemax

 

這等同于將其定義為的歐幾里得投影?到概率單純Δ? ¯ ¹。稀疏性是通過在投影過程中碰到單純形邊界的概率很高而引起的,從而使某些尺寸為零。

封閉式解決方案

上面的sparsemax定義可以用其封閉形式的解決方案編寫為

數學證明深度學習激活函數從Softmax到Sparsemax

 


數學證明深度學習激活函數從Softmax到Sparsemax

 

代表閾值函數。我們將在第3節中逐步推導該方程式。

類似地,也可以在其閉式解中表示為

數學證明深度學習激活函數從Softmax到Sparsemax

 


數學證明深度學習激活函數從Softmax到Sparsemax

 

下面的算法1的偽代碼總結了這組方程,可以幫助更好地理解向量z的sparsemax計算的步驟:

數學證明深度學習激活函數從Softmax到Sparsemax

 

最具挑戰性的部分是確定閾值 (z) ; 我們將我們在第3節最后證明時再回到這個,每個類的輸出概率?減去閾值τ (Z),如果該值為正,且0,如果是負的。

稀疏最大損失函數

最后,我們還想導出對應于sparsemax的損失函數。雖然封閉形式解的第一個證明是直接根據sparsemax的原始定義確定的,但是損失函數是一個優先問題,可以采取不同的形式。讓我們解釋一下原因。

可以證明,結合使用交叉熵損失(多項式分布上的負對數似然率)和softmax,損失函數簡化為

數學證明深度學習激活函數從Softmax到Sparsemax

 

其中k等于真實標簽的索引。

交叉熵損失和softmax結合使用所產生的優勢簡化了梯度到

數學證明深度學習激活函數從Softmax到Sparsemax

 

這意味著在反向傳播期間,評估softmax(z)足以進行正向和反向傳遞,并且不需要額外的計算。這種行為是我們也想在sparsemax框架中維護的屬性。

但是,根據經驗,這種設置對于sparsemax來說是不可行的。嘗試將sparsemax與交叉熵結合在一起產生的一個問題是,此損失函數現在將需要全支持,僅需要非零值的輸出。但是,由于損失函數采用概率的對數,因此,如果概率嚴格為空,則不會定義其對數。這就是為什么交叉熵損失不能用于sparsemax激活函數的原因。作者建議找到一個滿足相似梯度表達式的可微分損失函數,即

數學證明深度學習激活函數從Softmax到Sparsemax

 

通過添加另外的約束sparsemax損耗的最小值為0,當獲得S(z)的= {K} 只有正確的類是非零的,我們可以表明sparsemax損失函數具有如下形式

數學證明深度學習激活函數從Softmax到Sparsemax

 

3.證明I:Sparsemax閉式解的推導

目的

該證明的目的是證明以下等效:

數學證明深度學習激活函數從Softmax到Sparsemax

 

換句話說,我們要解決概率p和得分z之差的平方歐幾里德范數的arg min優化問題。這可以理解為在選擇的最近點Δ? ¯ ¹從得分矢量?。

關于Karush-Kush-Tucker(KKT)條件的提醒

Karush–Kuhn–Tucker(KKT)條件是數學優化中的一個概念。給定一組特定約束,它們表示滿足非線性編程解決方案的一階必要條件。在我們的sparsemax的設置,我們要找到一些功能的最低點F:在一定條件下??→?。

然后可以將優化問題寫成如下形式:找到使函數f最小的x,使得滿足g (x)和h (x)的條件,即:

數學證明深度學習激活函數從Softmax到Sparsemax

 

為了解決這個問題,我們首先需要定義拉格朗日函數L(x,μ,λ)

數學證明深度學習激活函數從Softmax到Sparsemax

 

的KKT方法的狀態(處于高電平),其給出的拉格朗日函數L,如果(X *,μ*)是一個鞍點大號μ≥0和互補松弛μ?g?(X *)≥0 ∈i∈[0,n],則x *是上述優化問題的最優向量。

以一種具體的方式,我們簡單地尋找拉格朗日梯度為零的值,即:

數學證明深度學習激活函數從Softmax到Sparsemax

 

推導

鑒于sparsemax是一個約束優化問題,我們用KKT的早期符號重寫它,使用fgh如下:

數學證明深度學習激活函數從Softmax到Sparsemax

 

然后,拉格朗日采用

數學證明深度學習激活函數從Softmax到Sparsemax

 

現在,我們可以針對x區分拉格朗日函數:

數學證明深度學習激活函數從Softmax到Sparsemax

 

該解決方案成為一個包含三個方程式的系統:

數學證明深度學習激活函數從Softmax到Sparsemax

 

第一個方程式(1)來自拉格朗日為零的梯度。第二等式(2)來自于原來的松弛條件μ≥0和從p是概率的正矢量。最后,等式(3)是互補松弛條件。

隨后,我們根據方程式(2)和(3)區分兩種情況。對于每個維度i∈[0,n]p?*> 0從而μ?* = 0,或者μ?*> 0從而p?* = 0。更確切地說,這意味著我們考慮兩種情況:支撐S(z)的元素,其中p> 0,以及支撐S(z)之外的元素,其中p = 0。

在繼續進行sparsemax證明時,我們需要記住,我們的目標是兩件事:確定非零概率的值,以及確定概率為0的條件。因此:

數學證明深度學習激活函數從Softmax到Sparsemax

 

在1.和2.中,z?大于 *,因此p?*等于它們的正差,或者p?*為零。因此,p?* =(z?- (z))?。

此外,從等式(2)我們知道∑?p?* = 1,并且存在| S(z)|,非零p?*,因此:

數學證明深度學習激活函數從Softmax到Sparsemax

 

這是sparsemax封閉形式解推導的第一個證明。

4.證明II:稀疏極大損失函數的推導

目的

第二個證明的目的是證明以下等效性:

數學證明深度學習激活函數從Softmax到Sparsemax

 

換句話說,我們要導出sparsemax損失函數的梯度與sparsemax損失函數本身之間的等價關系。

引理

在開始證明之前,我們需要定義一些重要的符號并建立兩個重要的結果:

數學證明深度學習激活函數從Softmax到Sparsemax

 

對于引理1,我們可以直接計算關于z的²的偏導數。

數學證明深度學習激活函數從Softmax到Sparsemax

 

事實上,如果??是在S(z)的,那么這將是存在于分子和的導數將尺度成反比| S(z) |; 否則,導數將為null。

接下來,使用鏈式法則,我們可以推斷出衍生τ²與問候?

數學證明深度學習激活函數從Softmax到Sparsemax

 

請注意,如果j∉S(z)(z)= 0

在引理2,我們感興趣的是所謂的自信 sparsemax當預測受讓人重量的100%至只有真正類?。在這種情況下,我們有spar semax(z,k)=δ_k。這有兩個結果,即:

數學證明深度學習激活函數從Softmax到Sparsemax

 

推導

我們想要獲得sparsemax的損失函數,使得

數學證明深度學習激活函數從Softmax到Sparsemax

 

首先,讓我們以非矢量形式查看關于z?的sparsemax的偏導數:

數學證明深度學習激活函數從Softmax到Sparsemax

 


數學證明深度學習激活函數從Softmax到Sparsemax

 

然后,我們可以推斷,對于K∈ ? 

數學證明深度學習激活函數從Softmax到Sparsemax

 

剩下的最后一步是確定積分常數。我們可以簡單地挑K = 0和梯度仍然是正確的,但我們或許能有更合適的解決方案。這是我們使用上面定義的第二個引理的地方。在完美預測的情況下,我們希望損失等于零,類似于softmax或其他損失函數(如MAE / MSE)。

更準確地說,我們需要滿足以下要求:

數學證明深度學習激活函數從Softmax到Sparsemax

 

從而:

數學證明深度學習激活函數從Softmax到Sparsemax

 

最后,我們獲得:

數學證明深度學習激活函數從Softmax到Sparsemax

 

得出關于稀疏最大損失函數推導的第二個證明。

5.結論

在本文中,我們介紹了sparsemax激活函數背后的思想和數學公式,該函數與傳統的softmax相比,允許稀疏輸出域。我們首先總結了Martins等人的一些關鍵發現。本文認為,從經驗上講,隨著類數的增加,sparsemax可以提高分類模型的性能。此外,在使用sparsemax訓練的NLP注意模型中,性能提升以及更好的解釋能力十分普遍。最后,主要部分專門介紹了sparsemax背后的兩個重要證明;即閉合形式解的推導和潛在的損失函數。

分享到:
標簽:深度 學習
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定