亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

一文看懂邏輯回歸算法（基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例）什么是邏輯回歸？邏輯回歸的優(yōu)缺點(diǎn)邏輯回歸 VS 線性回歸美團(tuán)的應(yīng)用案例

發(fā)布時(shí)間：2023-07-03 16:42:06 作者：網(wǎng)友整理

一文看懂邏輯回歸算法（基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例）

本文將通俗易懂的介紹邏輯回歸的基本概念、優(yōu)缺點(diǎn)和實(shí)際應(yīng)用的案例。同時(shí)會(huì)跟線性回歸做一些比較，讓大家能夠有效的區(qū)分 2 種不同的算法。

什么是邏輯回歸？

一文看懂邏輯回歸算法（基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例）

線性回歸的位置如上圖所示，它屬于機(jī)器學(xué)習(xí) – 監(jiān)督學(xué)習(xí) – 分類 – 邏輯回歸。

擴(kuò)展閱讀：

《「65頁P(yáng)DF」讓 PM 全面理解深度學(xué)習(xí)》

《什么是監(jiān)督學(xué)習(xí)？如何理解分類和回歸？》

邏輯回歸（Logistic Regression）主要解決二分類問題，用來表示某件事情發(fā)生的可能性。

比如：

一封郵件是垃圾郵件的肯能性（是、不是）
你購買一件商品的可能性（買、不買）
廣告被點(diǎn)擊的可能性（點(diǎn)、不點(diǎn)）

邏輯回歸的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

實(shí)現(xiàn)簡單，廣泛的應(yīng)用于工業(yè)問題上；
分類時(shí)計(jì)算量非常小，速度很快，存儲(chǔ)資源低；
便利的觀測樣本概率分?jǐn)?shù)；
對邏輯回歸而言，多重共線性并不是問題，它可以結(jié)合L2正則化來解決該問題；
計(jì)算代價(jià)不高，易于理解和實(shí)現(xiàn)；

缺點(diǎn)：

當(dāng)特征空間很大時(shí)，邏輯回歸的性能不是很好；
容易欠擬合，一般準(zhǔn)確度不太高
不能很好地處理大量多類特征或變量；
只能處理兩分類問題（在此基礎(chǔ)上衍生出來的softmax可以用于多分類），且必須線性可分；
對于非線性特征，需要進(jìn)行轉(zhuǎn)換；

邏輯回歸 VS 線性回歸

線性回歸和邏輯回歸是 2 種經(jīng)典的算法。經(jīng)常被拿來做比較，下面整理了一些兩者的區(qū)別：

線性回歸只能用于回歸問題，邏輯回歸雖然名字叫回歸，但是更多用于分類問題（關(guān)于回歸和分類的區(qū)別可以看看這篇文章《一文看懂監(jiān)督學(xué)習(xí)（基本概念+4步流程+9個(gè)典型算法）》）
線性回歸要求因變量是連續(xù)性數(shù)值變量，而邏輯回歸要求因變量是離散的變量
線性回歸要求自變量和因變量呈線性關(guān)系，而邏輯回歸不要求自變量和因變量呈線性關(guān)系
線性回歸可以直觀的表達(dá)自變量和因變量之間的關(guān)系，邏輯回歸則無法表達(dá)變量之間的關(guān)系

注：

自變量：主動(dòng)操作的變量，可以看做「因變量」的原因

因變量：因?yàn)椤缸宰兞俊沟淖兓兓梢钥醋觥缸宰兞俊沟慕Y(jié)果。也是我們想要預(yù)測的結(jié)果。

美團(tuán)的應(yīng)用案例

美團(tuán)會(huì)把邏輯回歸應(yīng)用到業(yè)務(wù)中解決一些實(shí)際問題。這里以預(yù)測用戶對品類的購買偏好為例，該問題可以轉(zhuǎn)換為預(yù)測用戶在未來某個(gè)時(shí)間段是否會(huì)購買某個(gè)品類，如果把會(huì)購買標(biāo)記為1，不會(huì)購買標(biāo)記為0，就轉(zhuǎn)換為一個(gè)二分類問題。我們用到的特征包括用戶在美團(tuán)的瀏覽，購買等歷史信息，見下表：

其中提取的特征的時(shí)間跨度為30天，標(biāo)簽為2天。生成的訓(xùn)練數(shù)據(jù)大約在7000萬量級（美團(tuán)一個(gè)月有過行為的用戶），我們?nèi)斯ぐ严嗨频男∑奉惥酆掀饋恚詈笥?8個(gè)較為典型的品類集合。如果用戶在給定的時(shí)間內(nèi)購買某一品類集合，就作為正例。有了訓(xùn)練數(shù)據(jù)后，使用Spark版的LR算法對每個(gè)品類訓(xùn)練一個(gè)二分類模型，迭代次數(shù)設(shè)為100次的話模型訓(xùn)練需要40分鐘左右，平均每個(gè)模型2分鐘，測試集上的AUC也大多在0.8以上。訓(xùn)練好的模型會(huì)保存下來，用于預(yù)測在各個(gè)品類上的購買概率。預(yù)測的結(jié)果則會(huì)用于推薦等場景。

由于不同品類之間正負(fù)例分布不同，有些品類正負(fù)例分布很不均衡，我們還嘗試了不同的采樣方法，最終目標(biāo)是提高下單率等線上指標(biāo)。經(jīng)過一些參數(shù)調(diào)優(yōu)，品類偏好特征為推薦和排序帶來了超過1%的下單率提升。

此外，由于LR模型的簡單高效，易于實(shí)現(xiàn)，可以為后續(xù)模型優(yōu)化提供一個(gè)不錯(cuò)的baseline，我們在排序等服務(wù)中也使用了LR模型。

分享到：

標(biāo)簽：算法邏輯回歸