如何給工業(yè)大數(shù)據(jù)降維去噪 你可以試試特征選擇
在之前格物匯的文章中,我們介紹了特征構(gòu)建的幾種常用方法。特征構(gòu)建是一種升維操作,針對特征解釋能力不足,可以通過特征構(gòu)建的方法來增加特征解釋力,從而提升模型效果。隨著近幾年大數(shù)據(jù)技術(shù)的普及,我們可以獲取海量數(shù)據(jù),但是這些海量數(shù)據(jù)帶給我們更多信息的同時,也帶來了更多的噪音和異常數(shù)據(jù)。如何降維去噪成為很多企業(yè)關(guān)注的焦點,今天我們將介紹特征工程中的一種降維方法——特征選擇。
什么是特征選擇
特征選擇( Feature Selection )也稱特征子集選擇( FeatureSubset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的N個特征(Feature)中選擇M個特征使得系統(tǒng)的特定指標最優(yōu)化。
特征選擇主要有兩個功能
減少特征數(shù)量、降維,使模型泛化能力更強,減少過擬合
增強對特征和特征值之間的理解
特征選擇的流程
特征選擇的目標是尋找一個能夠有效識別目標的最小特征子集。尋找的一般流程可用下圖表示:
一般來說,通過枚舉來對特征子集進行選擇是一個比較費時的步驟,所以應(yīng)使用一些策略來進行特征選擇,通常來說,我們會從兩個方面考慮來選擇特征:
>特征是否發(fā)散
如果一個特征不發(fā)散,例如方差接近于0,也就是說樣本在這個特征上基本上沒有差異,這個特征對于樣本的區(qū)分并沒有什么用。
>特征與目標的相關(guān)性
這點比較顯見,與目標相關(guān)性高的特征,應(yīng)當優(yōu)選選擇。除方差法外,本文介紹的其他方法均從相關(guān)性考慮。
根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:
Filter
Wrapper
Embedded
特征選擇的方法
1、Filter
過濾法,按照發(fā)散性或者相關(guān)性對各個特征進行評分,設(shè)定閾值或者待選擇閾值的個數(shù),選擇特征。
評分指標有:
方差:評價指標的離散程度,越離散說明包含的信息越多。
相關(guān)性:衡量特征對目標的解釋能力,相關(guān)系數(shù)越大說明解釋能力越強。
卡方檢驗:檢驗定性自變量對定性因變量的相關(guān)性。
互信息:也是評價定性自變量對定性因變量的相關(guān)性的。
2、Wrapper
包裝法,根據(jù)目標函數(shù)(通常是預(yù)測效果)評分,每次選擇若干特征,或者排除若干特征,主要的方法是遞歸特征消除法。遞歸消除特征法使用一個基模型來進行多輪訓(xùn)練,每輪訓(xùn)練后,減少若干特征,或者新增若干特征,進行評估看新增的特征是否需要保留,剔除的特征是否需要還原。最后再基于新的特征集進行下一輪訓(xùn)練。
3、Embedded
嵌入法,先使用某些機器學(xué)習(xí)的算法和模型進行訓(xùn)練,得到各個特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法,但是是通過訓(xùn)練來確定特征的優(yōu)劣。
一般分為如下兩大類:
>基于懲罰項的特征選擇法
這個方法可以用線性回歸模型來舉例說明,我們在線性模型的目標函數(shù)中增加L1正則項(實際上這就是lasso模型)。由于該正則項的存在,某些與目標y不太相關(guān)的特征的系數(shù)將縮減至0,而保留的特征系數(shù)將相應(yīng)調(diào)整,從而達到了對特征進行篩選的效果,L1正則項系數(shù)越大,篩選的力度也就越大。
>基于樹模型的特征選擇法
在我們之前的文章中介紹過隨機森林,GDBT等等基于樹的模型,他們均有一個特點就是模型可以計算出特征的重要性。決策樹會優(yōu)先將對預(yù)測目標y幫助最大的特征放在模型的頂端,因此根據(jù)這個效果我們計算得到特征的重要性,進而我們可以根據(jù)特征重要性對特征進行選擇。
今天我們大致了解了如何給工業(yè)大數(shù)據(jù)降維去噪,進行特征選擇,在后續(xù)文章中,我們將繼續(xù)帶大家了解特征工程的另一個內(nèi)容——特征抽取,敬請期待。
本文作者:格創(chuàng)東智OT團隊 (轉(zhuǎn)載請注明來源及作者)
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
9月23-24日立即報名>> 2025中國國際工業(yè)博覽會維科網(wǎng)·工控巡展直播
-
9月23-24日觀看直播>> 2025中國國際工業(yè)博覽會維科網(wǎng)·激光VIP企業(yè)展臺直播
-
9月23日立即預(yù)約>> 【COMSOL直播】多物理場仿真在傳感器中的應(yīng)用
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
- 1 國內(nèi)首個AI工廠投產(chǎn)!
- 2 營收4.3億!歌爾股份、比亞迪供應(yīng)商在新三板掛牌上市
- 3 機器人獨角獸Field AI完成4.05億美元融資!英偉達、貝佐斯押注
- 4 剛剛!ABB、西門子雙雙拿下自動化新訂單
- 5 營收突破 205 億大增 26.73%,新能源業(yè)務(wù)暴漲 50%!匯川技術(shù)上半年業(yè)績亮眼
- 6 42億!工業(yè)巨頭GE出售旗下工業(yè)軟件業(yè)務(wù)
- 7 霍尼韋爾換帥!“老將回歸”拆分自動化部門
- 8 埃斯頓:在智能制造領(lǐng)域"賣鏟子",上半年核心業(yè)務(wù)增長 26.54%
- 9 杭叉集團半年報:業(yè)績穩(wěn)步增長,智能工廠助力產(chǎn)能擴張
- 10 震驚!臺達電子推出 AI 協(xié)作機器人?