亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

梯度下降算法詳解關(guān)于梯度下降算法的直觀理解梯度下降算法的理論推導(dǎo)應(yīng)用：線(xiàn)性回歸的梯度下降解法

發(fā)布時(shí)間：2023-07-03 13:57:37 作者：網(wǎng)友整理

梯度下降算法詳解

原創(chuàng) | CDA數(shù)據(jù)分析研究院，轉(zhuǎn)載需授權(quán)

介紹

如果說(shuō)在機(jī)器學(xué)習(xí)領(lǐng)域有哪個(gè)優(yōu)化算法最廣為認(rèn)知，用途最廣，非梯度下降算法莫屬。梯度下降算法是一種非常經(jīng)典的求極小值的算法，比如在線(xiàn)性回歸里我們可以用最小二乘法去解析最優(yōu)解，但是其中會(huì)涉及到對(duì)矩陣求逆，由于多重共線(xiàn)性問(wèn)題的存在是很讓人難受的，無(wú)論進(jìn)行L1正則化的Lasso回歸還是L2正則化的嶺回歸，其實(shí)并不讓人滿(mǎn)意，因?yàn)樗鼈兊漠a(chǎn)生是為了修復(fù)此漏洞，而不是為了提升模型效果，甚至使模型效果下降。但是換一種思路，比如用梯度下降算法去優(yōu)化線(xiàn)性回歸的損失函數(shù)，完全就可以不用考慮多重共線(xiàn)性帶來(lái)的問(wèn)題。其實(shí)不僅是線(xiàn)性回歸，邏輯回歸同樣是可以用梯度下降進(jìn)行優(yōu)化，因?yàn)檫@兩個(gè)算法的損失函數(shù)都是嚴(yán)格意義上的凸函數(shù)，即存在全局唯一極小值，較小的學(xué)習(xí)率和足夠的迭代次數(shù)，一定可以達(dá)到最小值附近，滿(mǎn)足精度要求是完全沒(méi)有問(wèn)題的。并且隨著特征數(shù)目的增多（列如100000），梯度下降的效率將遠(yuǎn)高于去解析標(biāo)準(zhǔn)方程的逆矩陣。神經(jīng)網(wǎng)絡(luò)中的后向傳播算法其實(shí)就是在進(jìn)行梯度下降，GDBT(梯度提升樹(shù))每增加一個(gè)弱學(xué)習(xí)器（CART回歸樹(shù)）,近似于進(jìn)行一次梯度下降，因?yàn)槊恳豢没貧w樹(shù)的目的都是去擬合此時(shí)損失函數(shù)的負(fù)梯度，這也可以說(shuō)明為什么GDBT往往沒(méi)XGBoost的效率高，因?yàn)樗鼪](méi)辦法擬合真正的負(fù)梯度，而Xgboost 的每增加的一個(gè)弱學(xué)習(xí)器是使得損失函數(shù)下降最快的解析解。總之梯度下降算法的用處十分廣泛，我們有必要對(duì)它進(jìn)行更加深入的理解。

關(guān)于梯度下降算法的直觀理解

關(guān)于梯度下降算法的直觀理解，我們以一個(gè)人下山為例。比如剛開(kāi)始的初始位置是在紅色的山頂位置，那么現(xiàn)在的問(wèn)題是該如何達(dá)到藍(lán)色的山底呢？按照梯度下降算法的思想，它將按如下操作達(dá)到最低點(diǎn)：

第一步，明確自己現(xiàn)在所處的位置

第二步，找到相對(duì)于該位置而言下降最快的方向

第三步，沿著第二步找到的方向走一小步，到達(dá)一個(gè)新的位置，此時(shí)的位置肯定比原來(lái)低

第四部，回到第一步

第五步，終止于最低點(diǎn)

按照以上5步，最終達(dá)到最低點(diǎn)，這就是梯度下降的完整流程。當(dāng)然你可能會(huì)說(shuō)，上圖不是有不同的路徑嗎？是的，因?yàn)樯蠄D并不是標(biāo)準(zhǔn)的凸函數(shù)，往往不能找到最小值，只能找到局部極小值。所以你可以用不同的初始位置進(jìn)行梯度下降，來(lái)尋找更小的極小值點(diǎn)，當(dāng)然如果損失函數(shù)是凸函數(shù)就沒(méi)必要了，開(kāi)開(kāi)心心的進(jìn)行梯度下降吧！比如下面這種：

問(wèn)題是，如何用數(shù)學(xué)語(yǔ)言去描述以上5步呢？

梯度下降算法的理論推導(dǎo)

一元函數(shù)

一元函數(shù)的導(dǎo)數(shù)我相信大家都學(xué)過(guò)，其幾何意義是某點(diǎn)切線(xiàn)的斜率，除此之外它還能表示函數(shù)在該點(diǎn)的變化率，導(dǎo)數(shù)越大，說(shuō)明函數(shù)在該點(diǎn)的變化越大。

則導(dǎo)函數(shù)本身則代表著函數(shù)沿著ｘ方向的變化率

二元函數(shù)

對(duì)于二元函數(shù)，ｚ＝ｆ（ｘ，ｙ），它對(duì)ｘ和ｙ的偏導(dǎo)數(shù)分別表示如下：

函數(shù)在ｙ方向不變的情況下，函數(shù)值沿ｘ方向的變化率

函數(shù)在ｘ方向不變的情況下，函數(shù)值沿ｙ方向的變化率

有了以上的了解，我們分別知道了函數(shù)在單獨(dú)在ｘ和ｙ方向上的變化率

現(xiàn)在有一個(gè)問(wèn)題，我想知道函數(shù)在其他方向上的變化率怎么辦？

比如下圖中的ｕ方向上：

其實(shí)是可以做到的，我們都學(xué)過(guò)，在一平面中，任意一向量都可以用兩個(gè)不共線(xiàn)的基向量表示，也就是說(shuō)任意一方向上的變化，都可以分解到ｘ和ｙ兩個(gè)方向上。

比如，我想求ｕ方向上的變化率，根據(jù)導(dǎo)函數(shù)的定義

若：

其中α是ｕ方向與ｘ正方向的夾角

極限存在，可用洛必達(dá)法則，分子分母同時(shí)對(duì)▲ｕ求導(dǎo)

原式等于：

令：

這是一個(gè)自變量是α的函數(shù)，我們將其命名為方向?qū)?shù)，其表明隨著α的不同，方向不同，函數(shù)的變化率不同。

至此，我們推出了，方向?qū)?shù)的概念，還記得我們的梯度下降算法的第二步是什么嗎？

”找到相對(duì)于該位置而言下降最快的方向“

而我們的方向?qū)?shù)，本身代表的就是函數(shù)變化率與方向的關(guān)系，也就是說(shuō)我們需要利用方向?qū)?shù)，找到使得函數(shù)變化率最大的方向

那么，問(wèn)題來(lái)了，在哪一個(gè)方向上變化率最大呢？

尋找函數(shù)變化率最大的方向－梯度

我們可以這樣改寫(xiě)，令：

則：

θ是兩個(gè)向量的夾角

顯然，當(dāng)θ＝０時(shí)，取得最大方向?qū)?shù)，也就說(shuō)隨著α的改變，當(dāng)兩個(gè)向量Ａ和Ｉ是平行的時(shí)候，取得最大方向?qū)?shù)，而此時(shí)Ｉ的方向就是下式的方向：

我們把上式稱(chēng)之為梯度，所以梯度方向是函數(shù)變化率最大的方向，更本質(zhì)的說(shuō)是函數(shù)增長(zhǎng)最快的方向

所以，當(dāng)我們需要最小化損失函數(shù)時(shí)，只需要使損失函數(shù)沿著負(fù)梯度前行，就能使損失函數(shù)最快下降。

更高元函數(shù)

二元函數(shù)的推導(dǎo)結(jié)論同樣可作用于更高元的函數(shù)。

所以，高元函數(shù)在某點(diǎn)的梯度就是對(duì)每一個(gè)自變量求偏導(dǎo)，組成的一個(gè)向量，在該點(diǎn)的取值，該向量的方向就是函數(shù)在該點(diǎn)處增長(zhǎng)最快的方向，顯然，其負(fù)方向就是函數(shù)減少最快的方向

以下面的函數(shù)舉個(gè)例子，這是一個(gè)有n+1個(gè)自變量的函數(shù)，自變量是θ：

首先呢，隨機(jī)化一個(gè)我們梯度下降的初始位置，全部為0吧，當(dāng)然在神經(jīng)網(wǎng)絡(luò)中可不能如此隨意：

計(jì)算梯度，對(duì)每一個(gè)自變量求偏導(dǎo)：

將初始化的值0，代入上式梯度，就可以得到一個(gè)具體的向量，為什么是一個(gè)具體的向量呢？這個(gè)你要自己想想了

而該向量的方向就是函數(shù)在該點(diǎn)增長(zhǎng)最快的方向

那么，顯然，我們需要往其負(fù)方向走一段距離，可是，如何往負(fù)方向走呢？其實(shí)一樣的道理，該負(fù)方向同樣將其分解到各個(gè)自變量的維度上，即其更新過(guò)程可寫(xiě)成：

式中的減號(hào)表示往梯度的負(fù)方向改變

а為學(xué)習(xí)率，是一個(gè)大于0的數(shù)，它能控制沿著該方向走多長(zhǎng)一段距離，不是步長(zhǎng)

什么才是真正的步長(zhǎng)？

一個(gè)式子說(shuō)明足以，將當(dāng)前位置θ代入下式，就是在該點(diǎn)處梯度下降的步長(zhǎng)：

所以步長(zhǎng)是一個(gè)有方向和模長(zhǎng)的矢量，當(dāng)然也是符合我們直觀上的理解的，你總要確定往哪個(gè)方向走以及步子邁多大。

應(yīng)用：線(xiàn)性回歸的梯度下降解法

首先，我們給出線(xiàn)性回歸的損失函數(shù)，為了方便，不帶正則項(xiàng)：

其中：

其更新過(guò)程可寫(xiě)成：

具體的梯度下降流程：

第一步：先隨便假設(shè)一組θ,你要是喜歡可以全部取0

第二步循環(huán)迭代:

第一次迭代：

.......

第二次迭代：

......

第x次迭代：......

第三步，滿(mǎn)足要求，循環(huán)結(jié)束，得到θ

參考資料：

為什么梯度反方向是函數(shù)值局部下降最快的方向？https://zhuanlan.zhihu.com/p/24913912
梯度下降（Gradient Descent）小結(jié)-劉建平 https://www.cnblogs.com/pinard/p/5970503.html

分享到：

標(biāo)簽：梯度下降

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類(lèi)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定