這篇文章是關(guān)于什么的
在本文中,我們將了解隨機(jī)森林算法是如何在內(nèi)部工作的。為了真正理解它,了解一下決策樹分類器可能會(huì)有幫助。但這并不完全是必需的。
注意:我們不涉及建模中涉及的預(yù)處理或特征工程步驟,只查看當(dāng)我們使用sklearn的RandomForestClassifier包調(diào)用.fit()和.transform()方法時(shí),算法中會(huì)發(fā)生什么。
隨機(jī)森林
隨機(jī)森林是一種基于樹的算法。它是多種不同種類的隨機(jī)樹的集合。模型的最終值是每棵樹產(chǎn)生的所有預(yù)測/估計(jì)的平均值。
包
我們將以sklearn的RandomForestClassifier為基礎(chǔ)
sklearn.ensemble.RandomForestClassifier
數(shù)據(jù)
為了說明這一點(diǎn),我們將使用下面的訓(xùn)練數(shù)據(jù)。
注:年齡、血糖水平、體重、性別、吸煙,... f98、f99都是自變量或特征。
糖尿病(Diabetic)是我們必須預(yù)測的y變量/因變量。
內(nèi)部到底發(fā)生了什么
有了這些基本信息,讓我們開始并理解我們將這個(gè)訓(xùn)練集傳遞給算法會(huì)發(fā)生什么…
步驟1-BootstrApping
一旦我們將訓(xùn)練數(shù)據(jù)提供給RandomForestClassifier模型,它(該算法)會(huì)隨機(jī)選擇一組行。這個(gè)過程稱為Bootstrapping。對于我們的示例,假設(shè)它選擇m個(gè)記錄。
注意- 要選擇的行數(shù)可由用戶在超參數(shù)- max_samples中提供)
注意- 一行可能被多次選中
步驟2-為子樹選擇特征
現(xiàn)在,RF隨機(jī)選擇一個(gè)子集的特征/列。為了簡單起見,我們選擇了3個(gè)隨機(jī)特征。
注意,在你的超參數(shù)max_features中你可以控制這個(gè)數(shù)字,例如下面的代碼
import sklearn.ensemble.RandomForestClassifier
my_rf = RandomForestClassifier(max_features=8)
步驟3-選擇根節(jié)點(diǎn)
一旦選擇了3個(gè)隨機(jī)特征,算法將對m個(gè)記錄(從步驟1開始)進(jìn)行決策樹的拆分,并快速計(jì)算度量值。
這個(gè)度量可以是gini,也可以是熵。
criterion = 'gini' #( or 'entropy' . default= 'gini’ )
選取基尼/熵值最小的隨機(jī)特征作為根節(jié)點(diǎn)。
記錄在此節(jié)點(diǎn)的最佳拆分點(diǎn)進(jìn)行拆分。
步驟4-選擇子節(jié)點(diǎn)
該算法執(zhí)行與步驟2和步驟4相同的過程,并選擇另一組3個(gè)隨機(jī)特征。(3是我們指定的數(shù)字-你可以選擇你喜歡的-或者讓算法來選擇最佳數(shù)字)
它根據(jù)條件(gini/熵),選擇哪個(gè)特征將進(jìn)入下一個(gè)節(jié)點(diǎn)/子節(jié)點(diǎn),然后在這里進(jìn)一步分割。
步驟5-進(jìn)一步拆分并創(chuàng)建子節(jié)點(diǎn)
繼續(xù)選擇特征(列)以選擇其他子節(jié)點(diǎn)
此過程繼續(xù)(步驟2、4)選擇隨機(jī)特征并拆分節(jié)點(diǎn),直到出現(xiàn)以下任一情況
- a) 已用完要拆分的行數(shù)
- b) 拆分后的基尼/熵沒有減少
現(xiàn)在你有了第一個(gè)“迷你決策樹”。
使用隨機(jī)選擇的行(記錄)和列(特征)創(chuàng)建的第一個(gè)迷你決策樹
第6步-創(chuàng)建更多迷你決策樹
算法返回到你的數(shù)據(jù)并執(zhí)行步驟1-5以創(chuàng)建第二個(gè)“迷你樹”
這是我們使用另一組隨機(jī)選擇的行和列創(chuàng)建的第二個(gè)迷你樹
第7步-樹成林
一旦達(dá)到默認(rèn)值100棵樹(現(xiàn)在有100棵迷你決策樹),模型就完成了fit()過程。
注意 你可以指定要在超參數(shù)中生成的樹的數(shù)量(n_estimators)
import sklearn.ensemble.RandomForestClassifier
my_rf = RandomForestClassifier(n_estimators=300)
現(xiàn)在你有一個(gè)由隨機(jī)創(chuàng)建的迷你樹組成的森林(因此得名Random Forest)
第7步-推理
現(xiàn)在讓我們預(yù)測一個(gè)看不見的數(shù)據(jù)集(測試數(shù)據(jù)集)中的值
為了推斷(通常稱為預(yù)測/評分)測試數(shù)據(jù),該算法將記錄傳遞到每個(gè)迷你樹中。
記錄中的值根據(jù)每個(gè)節(jié)點(diǎn)表示的變量遍歷迷你樹,最終到達(dá)一個(gè)葉節(jié)點(diǎn)。基于該記錄結(jié)束的葉節(jié)點(diǎn)的值(在訓(xùn)練期間決定的),該迷你樹被分配一個(gè)預(yù)測輸出。
類似地,相同的記錄經(jīng)過所有的100個(gè)小決策樹,并且每100個(gè)樹都有一個(gè)預(yù)測輸出。這個(gè)記錄的最終預(yù)測值是通過對這100棵小樹的簡單投票來計(jì)算的。
現(xiàn)在我們有了對單個(gè)記錄的預(yù)測。
該算法按照相同的過程迭代測試集的所有記錄,并計(jì)算總體精度!
迭代獲得測試集每一行的預(yù)測的過程,以達(dá)到最終的精度。
參考文獻(xiàn)
[1] sklearn’s documentation for RandomForestClassifier ( version : 3.2.4.3.1)
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html






