訂閱
糾錯
加入自媒體

人工智能之隨機(jī)森林(RF)

通過上一篇文章《人工智能之決策樹》,我們清楚地知道決策樹(DT)是一類常見的機(jī)器學(xué)習(xí)方法。決策樹(DT)在人工智能中所處的位置:人工智能-->機(jī)器學(xué)習(xí)-->監(jiān)督學(xué)習(xí)-->決策樹。決策樹主要用來解決分類和回歸問題,但是決策樹(DT)會產(chǎn)生過擬合現(xiàn)象,導(dǎo)致泛化能力變?nèi)?/strong>。過擬合是建立決策樹模型時面臨的重要挑戰(zhàn)之一。鑒于決策樹容易過擬合的缺點(diǎn),由美國貝爾實驗室大牛們提出了采用隨機(jī)森林(RF)投票機(jī)制來改善決策樹。隨機(jī)森林(RF)則是針對決策樹(DT)的過擬合問題而提出的一種改進(jìn)方法,而且隨機(jī)森林(RF)是一個最近比較火的算法。因此有必要對隨機(jī)森林(RF)作進(jìn)一步探討。^_^

人工智能之隨機(jī)森林(RF)

隨機(jī)森林(RF)在人工智能中所處的位置:人工智能-->機(jī)器學(xué)習(xí)-->監(jiān)督學(xué)習(xí)-->決策樹-->隨機(jī)森林。

隨機(jī)森林(RF)指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器。該分類器最早由Leo Breiman和Adele Cutler提出,并被注冊成了商標(biāo)。

人工智能之隨機(jī)森林(RF)

那么什么是隨機(jī)森林?

隨機(jī)森林(RandomForests)是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。Leo Breiman和Adele Cutler發(fā)展并推論出隨機(jī)森林的算法。隨機(jī)森林(RF)這個術(shù)語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機(jī)決策森林(random decision forests)而來的。這個方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造決策樹的集合。

人工智能之隨機(jī)森林(RF)

通過定義我們知道,隨機(jī)森林(RF)要建立了多個決策樹(DT),并將它們合并在一起以獲得更準(zhǔn)確和穩(wěn)定的預(yù)測。隨機(jī)森林的一大優(yōu)勢在于它既可用于分類,也可用于回歸問題,這兩類問題恰好構(gòu)成了當(dāng)前的大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)所需要面對的。

隨機(jī)森林是集成學(xué)習(xí)的一個子類,它依靠于決策樹的投票選擇來決定最后的分類結(jié)果。集成學(xué)習(xí)通過建立幾個模型組合的來解決單一預(yù)測問題。集成學(xué)習(xí)的簡單原理是生成多個分類器/模型,各自獨(dú)立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成單預(yù)測,因此優(yōu)于任何一個單分類的做出預(yù)測。

人工智能之隨機(jī)森林(RF)

隨機(jī)森林的構(gòu)建過程:

假設(shè)N表示訓(xùn)練用例(樣本)個數(shù),M表示特征數(shù)目,隨機(jī)森林的構(gòu)建過程如下:

1)  輸入特征數(shù)目m,用于確定決策樹上一個節(jié)點(diǎn)的決策結(jié)果;其中m應(yīng)遠(yuǎn)小于M。

2)  從N個訓(xùn)練用例(樣本)中以有放回抽樣的方式,取樣N次,形成一個訓(xùn)練集,并用未抽到的用例(樣本)作預(yù)測,評估其誤差。

3)  對于每一個節(jié)點(diǎn),隨機(jī)選擇m個特征,決策樹上每個節(jié)點(diǎn)的決定都是基于這些特征確定的。根據(jù)m個特征,計算其最佳的分裂方式。

4)  每棵樹都會完整成長而不會剪枝,這有可能在建完一棵正常樹狀分類器后會被采用。

5)  重復(fù)上述步驟,構(gòu)建另外一棵棵決策樹,直到達(dá)到預(yù)定數(shù)目的一群決策樹為止,即構(gòu)建好了隨機(jī)森林。

人工智能之隨機(jī)森林(RF)

其中,預(yù)選變量個數(shù)(m)和隨機(jī)森林中樹的個數(shù)是重要參數(shù),對系統(tǒng)的調(diào)優(yōu)非常關(guān)鍵。這些參數(shù)在調(diào)節(jié)隨機(jī)森林模型的準(zhǔn)確性方面也起著至關(guān)重要的作用?茖W(xué)地使用這些指標(biāo),將能顯著的提高隨機(jī)森林模型工作效率。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號