機(jī)器學(xué)習(xí)中的特征選擇課件_第1頁
機(jī)器學(xué)習(xí)中的特征選擇課件_第2頁
機(jī)器學(xué)習(xí)中的特征選擇課件_第3頁
機(jī)器學(xué)習(xí)中的特征選擇課件_第4頁
機(jī)器學(xué)習(xí)中的特征選擇課件_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

FeatureSelectionforClassification李軍政2017.5.10FeatureSelectionforClassifi2022/12/102單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/82單擊此處添加文字內(nèi)容綜述單擊此處添加文字綜述What

從全部特征中選取一個特征子集,使構(gòu)造出來的模型更好。Why

在機(jī)器學(xué)習(xí)的實際應(yīng)用中,特征數(shù)量往往較多,其中可能存在不相關(guān)的特征,特征之間也可能存在相互依賴,容易導(dǎo)致如下的后果:分析特征、訓(xùn)練模型耗時長模型復(fù)雜、推廣能力差引起維度災(zāi)難2022/12/103綜述What2022/12/83維度災(zāi)難隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導(dǎo)致各方面的成本指數(shù)增加樣本數(shù)量存儲空間計算量……2022/12/104如何從中選出有用的特征??維度災(zāi)難隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導(dǎo)致各方2022/12/105單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/85單擊此處添加文字內(nèi)容綜述單擊此處添加文字特征選擇流程2022/12/106GeneratorEvaluationStopRuleValidationSubsetYesNoOriginalFeatureSet特征選擇流程2022/12/86GeneratorEvalu兩個主要步驟產(chǎn)生過程特征子集的產(chǎn)生可以看作是一個搜索過程,搜索空間中的每一個狀態(tài)都是一個可能特征子集。搜索的算法分為完全搜索(Complete),啟發(fā)式搜索(Heuristic),隨機(jī)搜索(Random)3大類。評價函數(shù)評價函數(shù)是評價一個特征子集好壞的準(zhǔn)則特征的評估函數(shù)分為五類:相關(guān)性,距離,信息增益,一致性和分類錯誤率。2022/12/107兩個主要步驟產(chǎn)生過程2022/12/87搜索算法之完全搜索完全搜索分為窮舉搜索與非窮舉搜索兩類廣度優(yōu)先搜索(BFS)分支限界搜索(BAB)定向搜索(BS)最優(yōu)優(yōu)先搜索(BestFirstSearch)2022/12/108BS:首先選擇N個得分最高的特征作為特征子集,將其加入一個限制最大長度的優(yōu)先隊列,每次從隊列中取出得分最高的子集,然后窮舉向該子集加入1個特征后產(chǎn)生的所有特征集,將這些特征集加入隊列。搜索算法之完全搜索完全搜索分為窮舉搜索與非窮舉搜索兩類202搜索算法之啟發(fā)式搜索啟發(fā)式搜索序列前向選擇(SFS)序列后向選擇(SBS)雙向搜索(BDS)增L去R選擇算法(LRS)L和R的選擇是關(guān)鍵序列浮動選擇(SequentialFloatingSelection)決策樹(DTM)2022/12/109LRS兩種形式:

<1>算法從空集開始,每輪先加入L個特征,然后從中去除R個特征,使得評價函數(shù)值最優(yōu)。(L>R)在訓(xùn)練樣本集上運行C4.5或其他決策樹生成算法,待決策樹充分生長后,再在樹上運行剪枝算法。則最終決策樹各分支處的特征就是選出來的特征子集。一般使用信息增益作為評價函數(shù)。L和R怎么確定??搜索算法之啟發(fā)式搜索啟發(fā)式搜索2022/12/89LRS兩種搜索算法之隨機(jī)算法隨機(jī)算法隨機(jī)產(chǎn)生序列選擇算法(RGSS)隨機(jī)產(chǎn)生一個特征子集,然后在該子集上執(zhí)行SFS與SBS算法模擬退火算法(SA)以一定的概率來接受一個比當(dāng)前解要差的解,因此有可能會跳出這個局部的最優(yōu)解,達(dá)到一個全局次最優(yōu)解遺傳算法(GA)

共同缺點:依賴于隨機(jī)因素,有實驗結(jié)果難以重現(xiàn)2022/12/1010搜索算法之隨機(jī)算法隨機(jī)算法2022/12/810評價函數(shù)作用是評價產(chǎn)生過程所提供的特征子集的好壞按照其工作原理,評價函數(shù)可以分為三種模型:過濾模型(FilterModel)封裝模型(WrapperModel)混合模型(EmbeddedModel)被稱為特征選擇的經(jīng)典三刀:飛刀(Filter)彎刀(Wrapper)電刀(Embedded)2022/12/1011評價函數(shù)作用是評價產(chǎn)生過程所提供的特征子集的好壞2022/1評價函數(shù)—過濾模型2022/12/1012根據(jù)特征子集內(nèi)部的特點來衡量其好壞,如歐氏距離、相關(guān)性、信息熵等特征子集在學(xué)習(xí)算法運行之前就被選定學(xué)習(xí)算法用于測試最終特征子集的性能特點:簡單、效率高,但精度差評價函數(shù)—過濾模型2022/12/812根據(jù)特征子集內(nèi)部的特評價函數(shù)—封裝模型學(xué)習(xí)算法封裝在特征選擇的過程中,用特征子集在學(xué)習(xí)算法上得到的挖掘性能作為特征子集優(yōu)劣的評估準(zhǔn)則。與過濾模型相比,精度高、但效率低。根本區(qū)別在于對學(xué)習(xí)算法的使用方式2022/12/1013評價函數(shù)—封裝模型學(xué)習(xí)算法封裝在特征選擇的過程中,用特征子集評價函數(shù)—混合模型混合模型把這兩種模型進(jìn)行組合,先用過濾模式進(jìn)行初選,再用封裝模型來獲得最佳的特征子集。2022/12/1014評價函數(shù)—混合模型混合模型把這兩種模型進(jìn)行組合,先用過濾模式2022/12/1015常用評價函數(shù)特征的評價函數(shù)分為五類:

相關(guān)性;距離;信息增益;一致性;分類錯誤率

前四種屬于過濾模型,分類錯誤率屬于封裝模型從概率論的角度

相關(guān)系數(shù):值域范圍:[-1,+1]絕對值越大,相關(guān)性越大2022/12/815常用評價函數(shù)特征的評價函數(shù)分為五類:常用評價函數(shù)從數(shù)理統(tǒng)計的角度(假設(shè)檢驗)T檢驗檢驗與相關(guān)系數(shù)在理論上非常接近,但更偏重于有限樣本下的估計T檢驗統(tǒng)計量:其中,n為樣本容量,、為樣本均值和方差,為總體方差。2022/12/1016

常用評價函數(shù)從數(shù)理統(tǒng)計的角度(假設(shè)檢驗)2022/12/81常用評價函數(shù)從信息論角度條件熵與“相關(guān)性”負(fù)相關(guān)信息增益相對信息增益互信息量(MutualInformation)2022/12/1017常用評價函數(shù)從信息論角度2022/12/817常用評價函數(shù)IR領(lǐng)域的度量(逆)文檔詞頻(inversedocumentfrequency)詞強(qiáng)度(termstrength)已知一個詞(特征)在某文檔(實例)中出現(xiàn),該詞在同類(目標(biāo)函數(shù)值相同)文檔中出現(xiàn)的概率為詞強(qiáng)度2022/12/1018總文檔數(shù)包含詞(特征)t的文檔數(shù)常用評價函數(shù)IR領(lǐng)域的度量2022/12/818總文檔數(shù)包含常用評價函數(shù)學(xué)習(xí)相關(guān)的度量分類準(zhǔn)確率

準(zhǔn)確率、召回率、F值、AUC等用單一維特征進(jìn)行分類訓(xùn)練,某種分類準(zhǔn)確率指標(biāo)作為特征的有效性度量復(fù)雜度較大不一定有合適的準(zhǔn)確率指標(biāo)2022/12/1019常用評價函數(shù)學(xué)習(xí)相關(guān)的度量2022/12/8192022/12/1020單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/820單擊此處添加文字內(nèi)容綜述單擊此處添加文過濾模型—FishScoreFisherScore:計算兩個分布的距離第i個特征的權(quán)重公式為:

其中uij和pij分別是第i個特征在第j類中的均值和方差,nj為第j類中實例的個數(shù),ui為第i個特征的均值,K為總類別數(shù)。缺點:容易產(chǎn)生冗余特征,f1,f2

忽略組合特征,f1|f22022/12/1021

過濾模型—FishScoreFisherScore:計算過濾模型—Chi-Squaredtest卡方檢驗利用統(tǒng)計學(xué)中的假設(shè)檢驗思想,利用卡方統(tǒng)計量來衡量特征和類別之間的相關(guān)程度??ǚ街倒剑浩渲?,N是文檔總數(shù),A是

包含詞t且

屬于c類的文檔數(shù)目B是

包含詞t且不屬于c類的文檔數(shù)目C是不包含詞t且

屬于c類的文檔數(shù)目D是不包含詞t且不屬于c類的文檔數(shù)目sklearn.feature_selection.chi2(X,

y)2022/12/1022

過濾模型—Chi-Squaredtest卡方檢驗利用統(tǒng)計學(xué)過濾模型—ReliefRelief:根據(jù)各個特征和類別的關(guān)系賦予特征不同的權(quán)重,權(quán)重小于某閾值的將被移除。2022/12/1023過濾模型—ReliefRelief:根據(jù)各個特征和類別的關(guān)Relief算法的缺點Relief算法屬于特征權(quán)重算法,該算法缺點在于:他們可以捕獲特征與目標(biāo)概念間的相關(guān)性,卻不能發(fā)現(xiàn)特征間的冗余性。Relief-F是Relief的升級版,可用于多分類經(jīng)驗證明除了無關(guān)特征對學(xué)習(xí)任務(wù)的影響,冗余特征同樣影響學(xué)習(xí)算法的速度和準(zhǔn)確性,也應(yīng)盡可能消除冗余特征。2022/12/1024Relief算法的缺點Relief算法屬于特征權(quán)重算法,該算封裝模型—增量法封裝模型首先需要選用較好學(xué)習(xí)算法,如RF、SVM、LR、KNN等可以使用前面提到的各種縮小搜索空間的嘗試,其中最經(jīng)典的是啟發(fā)式搜索,概括來說主要分為兩大類:增量法(SFS:sequentialforwardselection)減量法(SBS)2022/12/1025封裝模型—增量法封裝模型首先需要選用較好學(xué)習(xí)算法,如RF、S增量法試驗結(jié)果2022/12/1026增量法試驗結(jié)果2022/12/826增/減量法優(yōu)缺點復(fù)雜度關(guān)于維數(shù)為或選單個特征采用評價準(zhǔn)則排序的方式為一次選單個特征采用測試全部特征的方式為二次本質(zhì)上是貪心算法某些組合無法遍歷可能陷入局部極值2022/12/1027增/減量法優(yōu)缺點2022/12/8272022/12/1028單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/828單擊此處添加文字內(nèi)容綜述單擊此處添加文總結(jié)2022/12/10數(shù)據(jù)挖掘中的特征選擇29123特征選擇是機(jī)器學(xué)習(xí)領(lǐng)域中重要的步驟,具有重要的學(xué)術(shù)意義和研究價值根據(jù)不同的搜索策略和評價函數(shù),可以組合出多種特征選擇方法。主要分三類:過濾、封裝、混合模型,在實際應(yīng)用中各有優(yōu)缺,我們應(yīng)從效率、精準(zhǔn)度等角度綜合考慮對比,選用最優(yōu)的特征選擇方法先利用過濾模型去除一部分無用或貢獻(xiàn)度不大的特征,再利用封裝模型進(jìn)行特征選擇,是一個不錯的步驟總結(jié)2022/12/8數(shù)據(jù)挖掘中的特征選擇29123特征選擇2022/12/1030謝謝!2022/12/830謝謝!FeatureSelectionforClassification李軍政2017.5.10FeatureSelectionforClassifi2022/12/1032單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/82單擊此處添加文字內(nèi)容綜述單擊此處添加文字綜述What

從全部特征中選取一個特征子集,使構(gòu)造出來的模型更好。Why

在機(jī)器學(xué)習(xí)的實際應(yīng)用中,特征數(shù)量往往較多,其中可能存在不相關(guān)的特征,特征之間也可能存在相互依賴,容易導(dǎo)致如下的后果:分析特征、訓(xùn)練模型耗時長模型復(fù)雜、推廣能力差引起維度災(zāi)難2022/12/1033綜述What2022/12/83維度災(zāi)難隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導(dǎo)致各方面的成本指數(shù)增加樣本數(shù)量存儲空間計算量……2022/12/1034如何從中選出有用的特征??維度災(zāi)難隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導(dǎo)致各方2022/12/1035單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/85單擊此處添加文字內(nèi)容綜述單擊此處添加文字特征選擇流程2022/12/1036GeneratorEvaluationStopRuleValidationSubsetYesNoOriginalFeatureSet特征選擇流程2022/12/86GeneratorEvalu兩個主要步驟產(chǎn)生過程特征子集的產(chǎn)生可以看作是一個搜索過程,搜索空間中的每一個狀態(tài)都是一個可能特征子集。搜索的算法分為完全搜索(Complete),啟發(fā)式搜索(Heuristic),隨機(jī)搜索(Random)3大類。評價函數(shù)評價函數(shù)是評價一個特征子集好壞的準(zhǔn)則特征的評估函數(shù)分為五類:相關(guān)性,距離,信息增益,一致性和分類錯誤率。2022/12/1037兩個主要步驟產(chǎn)生過程2022/12/87搜索算法之完全搜索完全搜索分為窮舉搜索與非窮舉搜索兩類廣度優(yōu)先搜索(BFS)分支限界搜索(BAB)定向搜索(BS)最優(yōu)優(yōu)先搜索(BestFirstSearch)2022/12/1038BS:首先選擇N個得分最高的特征作為特征子集,將其加入一個限制最大長度的優(yōu)先隊列,每次從隊列中取出得分最高的子集,然后窮舉向該子集加入1個特征后產(chǎn)生的所有特征集,將這些特征集加入隊列。搜索算法之完全搜索完全搜索分為窮舉搜索與非窮舉搜索兩類202搜索算法之啟發(fā)式搜索啟發(fā)式搜索序列前向選擇(SFS)序列后向選擇(SBS)雙向搜索(BDS)增L去R選擇算法(LRS)L和R的選擇是關(guān)鍵序列浮動選擇(SequentialFloatingSelection)決策樹(DTM)2022/12/1039LRS兩種形式:

<1>算法從空集開始,每輪先加入L個特征,然后從中去除R個特征,使得評價函數(shù)值最優(yōu)。(L>R)在訓(xùn)練樣本集上運行C4.5或其他決策樹生成算法,待決策樹充分生長后,再在樹上運行剪枝算法。則最終決策樹各分支處的特征就是選出來的特征子集。一般使用信息增益作為評價函數(shù)。L和R怎么確定??搜索算法之啟發(fā)式搜索啟發(fā)式搜索2022/12/89LRS兩種搜索算法之隨機(jī)算法隨機(jī)算法隨機(jī)產(chǎn)生序列選擇算法(RGSS)隨機(jī)產(chǎn)生一個特征子集,然后在該子集上執(zhí)行SFS與SBS算法模擬退火算法(SA)以一定的概率來接受一個比當(dāng)前解要差的解,因此有可能會跳出這個局部的最優(yōu)解,達(dá)到一個全局次最優(yōu)解遺傳算法(GA)

共同缺點:依賴于隨機(jī)因素,有實驗結(jié)果難以重現(xiàn)2022/12/1040搜索算法之隨機(jī)算法隨機(jī)算法2022/12/810評價函數(shù)作用是評價產(chǎn)生過程所提供的特征子集的好壞按照其工作原理,評價函數(shù)可以分為三種模型:過濾模型(FilterModel)封裝模型(WrapperModel)混合模型(EmbeddedModel)被稱為特征選擇的經(jīng)典三刀:飛刀(Filter)彎刀(Wrapper)電刀(Embedded)2022/12/1041評價函數(shù)作用是評價產(chǎn)生過程所提供的特征子集的好壞2022/1評價函數(shù)—過濾模型2022/12/1042根據(jù)特征子集內(nèi)部的特點來衡量其好壞,如歐氏距離、相關(guān)性、信息熵等特征子集在學(xué)習(xí)算法運行之前就被選定學(xué)習(xí)算法用于測試最終特征子集的性能特點:簡單、效率高,但精度差評價函數(shù)—過濾模型2022/12/812根據(jù)特征子集內(nèi)部的特評價函數(shù)—封裝模型學(xué)習(xí)算法封裝在特征選擇的過程中,用特征子集在學(xué)習(xí)算法上得到的挖掘性能作為特征子集優(yōu)劣的評估準(zhǔn)則。與過濾模型相比,精度高、但效率低。根本區(qū)別在于對學(xué)習(xí)算法的使用方式2022/12/1043評價函數(shù)—封裝模型學(xué)習(xí)算法封裝在特征選擇的過程中,用特征子集評價函數(shù)—混合模型混合模型把這兩種模型進(jìn)行組合,先用過濾模式進(jìn)行初選,再用封裝模型來獲得最佳的特征子集。2022/12/1044評價函數(shù)—混合模型混合模型把這兩種模型進(jìn)行組合,先用過濾模式2022/12/1045常用評價函數(shù)特征的評價函數(shù)分為五類:

相關(guān)性;距離;信息增益;一致性;分類錯誤率

前四種屬于過濾模型,分類錯誤率屬于封裝模型從概率論的角度

相關(guān)系數(shù):值域范圍:[-1,+1]絕對值越大,相關(guān)性越大2022/12/815常用評價函數(shù)特征的評價函數(shù)分為五類:常用評價函數(shù)從數(shù)理統(tǒng)計的角度(假設(shè)檢驗)T檢驗檢驗與相關(guān)系數(shù)在理論上非常接近,但更偏重于有限樣本下的估計T檢驗統(tǒng)計量:其中,n為樣本容量,、為樣本均值和方差,為總體方差。2022/12/1046

常用評價函數(shù)從數(shù)理統(tǒng)計的角度(假設(shè)檢驗)2022/12/81常用評價函數(shù)從信息論角度條件熵與“相關(guān)性”負(fù)相關(guān)信息增益相對信息增益互信息量(MutualInformation)2022/12/1047常用評價函數(shù)從信息論角度2022/12/817常用評價函數(shù)IR領(lǐng)域的度量(逆)文檔詞頻(inversedocumentfrequency)詞強(qiáng)度(termstrength)已知一個詞(特征)在某文檔(實例)中出現(xiàn),該詞在同類(目標(biāo)函數(shù)值相同)文檔中出現(xiàn)的概率為詞強(qiáng)度2022/12/1048總文檔數(shù)包含詞(特征)t的文檔數(shù)常用評價函數(shù)IR領(lǐng)域的度量2022/12/818總文檔數(shù)包含常用評價函數(shù)學(xué)習(xí)相關(guān)的度量分類準(zhǔn)確率

準(zhǔn)確率、召回率、F值、AUC等用單一維特征進(jìn)行分類訓(xùn)練,某種分類準(zhǔn)確率指標(biāo)作為特征的有效性度量復(fù)雜度較大不一定有合適的準(zhǔn)確率指標(biāo)2022/12/1049常用評價函數(shù)學(xué)習(xí)相關(guān)的度量2022/12/8192022/12/1050單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342022/12/820單擊此處添加文字內(nèi)容綜述單擊此處添加文過濾模型—FishScoreFisherScore:計算兩個分布的距離第i個特征的權(quán)重公式為:

其中uij和pij分別是第i個特征在第j類中的均值和方差,nj為第j類中實例的個數(shù),ui為第i個特征的均值,K為總類別數(shù)。缺點:容易產(chǎn)生冗余特征,f1,f2

忽略組合特征,f1|f22022/12/1051

過濾模型—FishScoreFisherScore:計算過濾模型—Chi-Squaredtest卡方檢驗利用統(tǒng)計學(xué)中的假設(shè)檢驗思想,利用卡方統(tǒng)計量來衡量特征和類別之間的相關(guān)程度??ǚ街倒剑浩渲?,N是文檔總數(shù),A是

包含詞t且

屬于c類的文檔數(shù)目B是

包含詞t且不屬于c類的文檔數(shù)目C是不包含詞t且

屬于c類的文檔數(shù)目D是不包含詞t且不屬于c類的文檔數(shù)目sklearn.feature_selection.chi2(X,

y)2022/12/1052

過濾模型—Chi-Squaredtest卡方檢驗利用統(tǒng)計學(xué)過濾模型—ReliefRelief:根據(jù)各個特征和類別的關(guān)系賦予特征不同的權(quán)重,權(quán)重小于某閾值的將被移除。2022/12/1053過濾模型—ReliefRelief:根

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論