亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

不要再對類別變量進(jìn)行獨(dú)熱編碼了導(dǎo)讀

發(fā)布時(shí)間：2023-07-03 11:59:04 作者：網(wǎng)友整理

作者：Andre Ye

編譯：ronghuaiyang

導(dǎo)讀

還有很多更好的選擇。

獨(dú)熱編碼，也稱為dummy變量，是一種將分類變量轉(zhuǎn)換為若干二進(jìn)制列的方法，其中1表示屬于該類別的行。

很明顯，從機(jī)器學(xué)習(xí)的角度來看，它不是分類變量編碼的好選擇。最明顯的是它增加了大量的維數(shù)，這是常識，通常低維數(shù)是更好的。例如，如果我們要用一列表示美國的一個(gè)州(例如加利福尼亞、紐約)，那么獨(dú)熱編碼方案將會(huì)導(dǎo)致50個(gè)額外的維度。

它不僅給數(shù)據(jù)集增加了大量的維數(shù)，而且確實(shí)沒有多少信息 —— 一大堆零中偶爾點(diǎn)綴著幾個(gè)1。這導(dǎo)致了一個(gè)異常稀疏的現(xiàn)象，這使得它很難進(jìn)行最優(yōu)化。這對于神經(jīng)網(wǎng)絡(luò)來說尤其如此，它的優(yōu)化器在幾十個(gè)空維度的情況下很容易進(jìn)入錯(cuò)誤的優(yōu)化空間。

更糟糕的是，每個(gè)信息稀疏列之間都存在線性關(guān)系。這意味著一個(gè)變量可以很容易地使用其他變量進(jìn)行預(yù)測，從而導(dǎo)致并行性和多重共線性的問題。

最優(yōu)數(shù)據(jù)集由信息具有獨(dú)立價(jià)值的特征組成，而獨(dú)熱編碼創(chuàng)建了一個(gè)完全不同的環(huán)境。

誠然，如果只有3個(gè)或者甚至4個(gè)類別，獨(dú)熱編碼可能不是一個(gè)糟糕的選擇，但是它可能值得探索其他選擇，這取決于數(shù)據(jù)集的相對大小。

目標(biāo)編碼是表示分類列的一種非常有效的方法，它只占用一個(gè)特征空間。也稱為均值編碼，將列中的每個(gè)值替換為該類別的均值目標(biāo)值。這允許對分類變量和目標(biāo)變量之間的關(guān)系進(jìn)行更直接的表示，這是一種非常流行的技術(shù)(尤其是在Kaggle比賽中)。

這種編碼方法有一些缺點(diǎn)。首先，它使模型更難學(xué)習(xí)一個(gè)平均編碼變量和另一個(gè)變量之間的關(guān)系，它只根據(jù)它與目標(biāo)的關(guān)系在一列中繪制相似性，這可能是有利的，也可能是不利的。

但是，這種編碼方法對y變量非常敏感，這會(huì)影響模型提取編碼信息的能力。

由于每個(gè)類別的值都被相同的數(shù)值所取代，模型可能會(huì)傾向于過擬合它所看到的編碼值(例如，將0.8與某個(gè)與0.79完全不同的值相關(guān)聯(lián))。這是將連續(xù)尺度上的值當(dāng)作重復(fù)的類來處理的結(jié)果。

因此，需要仔細(xì)監(jiān)視y變量，以發(fā)現(xiàn)異常值等情況。

要實(shí)現(xiàn)這一點(diǎn)，請使用category_encoders庫。由于目標(biāo)編碼器是一個(gè)受監(jiān)督的方法，它需要X和y訓(xùn)練集。

from category_encoders import TargetEncoder
enc = TargetEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

Leave-one-out encoding試圖通過計(jì)算平均值(不包括當(dāng)前行值)來彌補(bǔ)對y變量的依賴以及在值方面的多樣性。這將消除異常值的影響，并創(chuàng)建更多樣化的編碼值。

由于模型對每個(gè)編碼類不僅給予相同的值，而且給予一個(gè)范圍，因此它學(xué)會(huì)了更好地泛化。

像往常一樣，可以在category_encoders庫中使用LeaveOneOutEncoder實(shí)現(xiàn)。

from category_encoders import LeaveOneOutEncoder
enc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

另一個(gè)實(shí)現(xiàn)類似效果的策略是在編碼分?jǐn)?shù)中加入正態(tài)分布的噪聲，其中標(biāo)準(zhǔn)偏差是一個(gè)可以調(diào)優(yōu)的參數(shù)。

Bayesian Target Encoding是一種使用目標(biāo)作為編碼方法的數(shù)學(xué)方法。只使用平均值可能是一個(gè)欺騙的度量，所以貝葉斯目標(biāo)編碼試圖合并目標(biāo)變量的分布的其他統(tǒng)計(jì)度量，例如它的方差或偏度 —— 被稱為‘higher moments’。

這些分布的屬性然后通過貝葉斯模型合并，從而能夠產(chǎn)生一種編碼，這種編碼更了解分類目標(biāo)分布的各個(gè)方面。然而，其結(jié)果卻難以解釋。

Weight of Evidence是另一種關(guān)于分類自變量和因變量之間關(guān)系的方案。WoE 源自信用評分領(lǐng)域，被用來衡量違約或償還貸款的客戶之間的區(qū)別。Weight of Evidence的數(shù)學(xué)定義是比值比例的自然對數(shù)，即：

ln (% of non events / % of events)

WoE越高，事件越有可能發(fā)生。‘Non-events’是那些不屬于某個(gè)類的百分比。使用Weight of Evidence因變量建立單調(diào)的關(guān)系，并在邏輯尺度上確保類別，這對于邏輯回歸來說很自然。WoE是另一個(gè)度量標(biāo)準(zhǔn) —— Information Value中的一個(gè)關(guān)鍵組件，IV值衡量一個(gè)特征如何為預(yù)測提供信息。

from category_encoders import WOEEncoder
enc = WOEEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

這些方法都是監(jiān)督編碼器，或考慮目標(biāo)變量的編碼方法，因此在預(yù)測任務(wù)中通常是更有效的編碼器。但是，當(dāng)需要執(zhí)行非監(jiān)督分析時(shí)，情況就不一定是這樣了。

Nonlinear PCA是一種利用分類量化方法處理分類變量的主成分分析方法。這將為類別找到最佳數(shù)值，從而使常規(guī)PCA的性能(解釋方差)最大化。

英文原文：https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

分享到：

標(biāo)簽：編碼

網(wǎng)友整理

注冊時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊賬號，推廣您的網(wǎng)站吧！

文章分類

熱門網(wǎng)站

各百科-專業(yè)百科問答知識名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.430618.com
體育新聞_國際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營 www.430618.com/tg
中合網(wǎng)-健康養(yǎng)生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定