機(jī)器學(xué)習(xí)中的特征選擇PPT_第1頁
機(jī)器學(xué)習(xí)中的特征選擇PPT_第2頁
機(jī)器學(xué)習(xí)中的特征選擇PPT_第3頁
機(jī)器學(xué)習(xí)中的特征選擇PPT_第4頁
機(jī)器學(xué)習(xí)中的特征選擇PPT_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類的特征選擇,李,2017年5月10日,1,2,2,2,數(shù)據(jù)挖掘中的特征選擇綜述,如何從所有特征中選擇一個特征子集以使構(gòu)建的模型更好。為什么在機(jī)器學(xué)習(xí)的實際應(yīng)用中,往往存在大量的特征,其中可能存在不相關(guān)的特征以及特征之間的相互依賴關(guān)系,這很容易導(dǎo)致以下后果:特征分析和模型訓(xùn)練耗時且復(fù)雜,泛化能力差導(dǎo)致維數(shù)災(zāi)難;2.3、數(shù)據(jù)挖掘中的特征選擇和維數(shù)災(zāi)難,隨著維數(shù)的增加,特征空間的體積指數(shù)增加,導(dǎo)致各方面的成本指數(shù)增加樣本數(shù)和存儲空間的計算量;2?數(shù)據(jù)挖掘中的特征選擇,2,5,數(shù)據(jù)挖掘中的特征選擇,特征選擇過程,2,6,生成器,評估,停止規(guī)則,驗證,子集,是,否,原始特征集,數(shù)據(jù)挖掘中的特征選擇,

2、兩個主要步驟,生成過程特征子集的生成可以看作一個搜索過程,搜索空間中的每個狀態(tài)都是搜索算法,可以分為三類:完全搜索,啟發(fā)式搜索和隨機(jī)搜索。評價函數(shù)評價函數(shù)是評價特征子集質(zhì)量的標(biāo)準(zhǔn)。特征的評價函數(shù)分為五類:相關(guān)性、距離、信息增益、一致性和分類錯誤率。2,7,數(shù)據(jù)挖掘中的特征選擇,搜索算法的完全搜索,完全搜索分為兩種類型:窮舉搜索和非窮舉搜索,廣度優(yōu)先搜索(BFS),分支定界搜索(BAB),方向搜索(BS),最佳優(yōu)先搜索,2,8,BS 3360首先選擇得分最高的N個特征作為特征子集,將其添加到具有有限最大長度的優(yōu)先級隊列中,每次從隊列中取出得分最高的子集,然后將通過向該子集添加一個特征而生成的所有

3、特征集耗盡,并將這些特征集添加到隊列中。數(shù)據(jù)挖掘中的特征選擇、啟發(fā)式搜索算法的搜索、啟發(fā)式搜索序列前向選擇(SFS)、序列后向選擇(SBS)、雙向搜索(BDS)、L和R選擇算法(LRS)都是順序浮動選擇決策樹(DTM),而2,9,LRS兩種形式的:算法都是從一個空集(L R)開始,在訓(xùn)練樣本集上運行C4.5或其他決策樹生成算法,然后在決策樹完全生長后對樹運行剪枝算法。最終決策樹每個分支的特征是所選的特征子集。通常,信息增益被用作評估函數(shù)。如何確定l和r?數(shù)據(jù)挖掘中的特征選擇、隨機(jī)算法中的搜索算法、隨機(jī)算法中的隨機(jī)生成序列選擇算法(RGSS)隨機(jī)生成一個特征子集,然后對該子集執(zhí)行SFS和SBS算

4、法模擬退火算法(SA),以一定的概率接受一個比當(dāng)前解差的解,因此有可能跳出這個局部最優(yōu)解。實現(xiàn)全局次優(yōu)解的遺傳算法有一個共同的缺點:依賴于隨機(jī)因素,難以再現(xiàn)實驗結(jié)果;2,10,數(shù)據(jù)挖掘中的特征選擇,評價函數(shù),用于評價生產(chǎn)過程中提供的特征子集的質(zhì)量,評價函數(shù)可分為三種模型:過濾模型,包裝模型,嵌入模型,這被稱為經(jīng)典的三種特征選擇工具:過濾,包裝,電刀,2,11,數(shù)據(jù)挖掘中的特征選擇,評價函數(shù)過濾模型,2,12,根據(jù)特征子集的內(nèi)部特征,如歐氏距離,相關(guān)性,信息熵等來衡量特征子集的質(zhì)量。在學(xué)習(xí)算法運行之前,由學(xué)習(xí)算法選擇測試最終特征子集的性能特征:簡單、高效但精度差,數(shù)據(jù)挖掘中的特征選擇,評價函數(shù)封

5、裝模型,特征選擇過程中的學(xué)習(xí)算法封裝,以及使用學(xué)習(xí)算法獲得的特征子集的挖掘性能作為特征子集質(zhì)量的評價標(biāo)準(zhǔn)。與濾波模型相比,它精度高,但效率低。根本的區(qū)別在于學(xué)習(xí)算法的使用,2,13,數(shù)據(jù)挖掘中的特征選擇,以及評價函數(shù)混合模型?;旌夏P徒Y(jié)合了這兩種模型,首先使用過濾模式進(jìn)行初級選擇,然后使用封裝模型獲得最佳特征子集。2,14,數(shù)據(jù)挖掘中的特征選擇,2,15,常用的評價函數(shù),特征評價函數(shù)分為五類:相關(guān)性;距離;信息增益;一致性;前四個分類錯誤率屬于過濾器模型,分類錯誤率屬于包裝模型。從概率論的角度來看,相關(guān)系數(shù):范圍:-1,1絕對值越大,相關(guān)性越大。數(shù)據(jù)挖掘中的特征選擇,常用的評價函數(shù),從數(shù)理統(tǒng)計

6、(假設(shè)檢驗)的角度來看,T檢驗在理論上與相關(guān)系數(shù)非常接近,但它更側(cè)重于有限樣本下的估計T檢驗統(tǒng)計:其中n是樣本容量、2,16、=1、數(shù)據(jù)挖掘中的特征選擇,常用的評價函數(shù),從信息論的角度來看,條件熵與“相關(guān)”負(fù)相關(guān)信息獲得相對信息獲得互信息,2,17、 數(shù)據(jù)挖掘中的特征選擇,常用的評價函數(shù),測量(逆文檔頻率)術(shù)語在信息檢索領(lǐng)域中的強(qiáng)度眾所周知,一個詞(特征)出現(xiàn)在某個文檔(實例)中,并且該詞出現(xiàn)在同一類文檔(具有相同的目標(biāo)函數(shù)值)中的概率是詞強(qiáng)度,2,18,包含該詞(特征)的文檔的數(shù)量,數(shù)據(jù)挖掘中的特征選擇,以及常用的評價。 使用一維特征進(jìn)行分類訓(xùn)練。某個分類精度指標(biāo)作為特征的有效性很難衡量,也

7、不一定有合適的精度指標(biāo)。2,19,數(shù)據(jù)挖掘中的特征選擇,2,20,數(shù)據(jù)挖掘中的特征選擇,過濾模型Fish Score,F(xiàn)isher Score:用于計算兩個分布之間距離的權(quán)重公式是:其中uij和pij是類j中ith特征的均值和方差,nj是類j中的實例數(shù),ui是ith特征的均值,k是類別的總數(shù)。缺點:容易產(chǎn)生冗余特征,f1,f2忽略組合特征,f1 | f2,2,21,數(shù)據(jù)挖掘中的特征選擇,過濾模型卡方檢驗,卡方檢驗,使用統(tǒng)計學(xué)中的假設(shè)檢驗,使用卡方統(tǒng)計來度量特征和類別之間的相關(guān)性??ǚ街倒剑浩渲衝是文檔總數(shù),a是包含單詞t且屬于c類的文檔數(shù),b是不包含單詞t且屬于c類的文檔數(shù),d是不包含單詞t

8、且不屬于c類的文檔數(shù),sklearn。數(shù)據(jù)挖掘中的特征選擇,過濾模型釋放,釋放:根據(jù)特征和類別之間的關(guān)系,給特征賦予不同的權(quán)重,權(quán)重小于某個閾值的特征將被刪除。1、2、23,數(shù)據(jù)挖掘中的特征選擇,而特征權(quán)重算法中的Relief算法的缺點是能夠捕捉特征和目標(biāo)概念之間的相關(guān)性,但不能發(fā)現(xiàn)特征之間的冗余。Relief-F是Relief的升級版本,可用于多分類體驗。證明了除了無關(guān)特征外,冗余特征也影響學(xué)習(xí)算法的速度和精度,冗余特征應(yīng)盡可能地消除。,2,24,數(shù)據(jù)挖掘中的特征選擇,包裝模型增量法,包裝模型首先需要選擇一種更好的學(xué)習(xí)算法,如射頻、SVM、LR、KNN等。它可以利用前面提到的各種嘗試來縮小搜索空間,其中最經(jīng)典的是啟發(fā)式搜索,一般來說,它可以分為兩類:增量法(SFS :順序正向選擇),減法法(SBS),2,25,數(shù)據(jù)挖掘中的特征選擇,增量法的實驗結(jié)果,2,26,數(shù)據(jù)挖掘中的特征選擇,增量/減量法的優(yōu)缺點:維數(shù)的復(fù)雜度是或單個特征是按評價標(biāo)準(zhǔn)排序的。對于一次一個特征,測試所有特征的方式都是二次的,本質(zhì)上是貪婪算法。有些組合無法遍歷,可能會陷入局部極值。2,27,數(shù)據(jù)挖掘中的特征選擇,2,28,數(shù)據(jù)挖掘中的特征選擇,總結(jié),2,29,1,2,3,特征選擇是機(jī)器學(xué)習(xí)領(lǐng)域中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論