第6章 特征的選擇與提取_第1頁
第6章 特征的選擇與提取_第2頁
第6章 特征的選擇與提取_第3頁
第6章 特征的選擇與提取_第4頁
第6章 特征的選擇與提取_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章特征選擇和特征提取6.1類別可分離性判據(jù)6.2特征提取6.3

特征的選擇返回本章首頁以前我們假定給出了維數(shù)為n的確定的模式樣本集,代表模式的特征是選擇好的。但在實(shí)際設(shè)計(jì)一個(gè)模式識(shí)別系統(tǒng)時(shí),首先要解決的問題用各種可能的手段對(duì)識(shí)別對(duì)象的性質(zhì)作各種可能的測量,并將這些測量值作為分類的特征。而為了設(shè)計(jì)出好的分類器,一般需要對(duì)原始的測量值集合進(jìn)行分析,進(jìn)行選擇或變換,組成識(shí)別特征,在保證一定分類精度的前提下,減少特征維數(shù),使分類器的工作又快又準(zhǔn)確。要達(dá)到上述目的,關(guān)鍵是所提供的模式特征應(yīng)具有很好的可分性(類別可分離性判據(jù)來衡量),同時(shí)去掉那些關(guān)聯(lián)性較強(qiáng)的特征。下面我們看一下本章中設(shè)計(jì)到的基本概念。返回本章首頁特征形成根據(jù)被識(shí)別的對(duì)象產(chǎn)生出來的一組基本特征。特征提取在原始特征的維數(shù)很高的情況下,通過映射(或變換)的方法用低維空間來表示樣本,這個(gè)過程叫特征提取。

特征選擇從一組特征中挑選出一些最有效的特征以達(dá)到降低特征空間維數(shù)的目的,稱為特征選擇。返回本章首頁6.1類別可分離性判據(jù)返回本章首頁我們可以依據(jù)某種準(zhǔn)則進(jìn)行特征提取和選擇,為此,應(yīng)當(dāng)首先構(gòu)造這樣的準(zhǔn)則——類別可分離性判據(jù)。這些判據(jù)應(yīng)能反映各類在特征空間中的分布情況,應(yīng)能刻畫各特征分量在分類識(shí)別中的重要性或貢獻(xiàn)。1類別可分離性判據(jù)滿足的要求(1)與錯(cuò)誤概率(或其的上下界)有單調(diào)關(guān)系;(2)當(dāng)特征獨(dú)立時(shí)有可加性返回本章首頁(3)具有“距離”的某些特性,即(4)對(duì)特征數(shù)目是單調(diào)不減,即加入新的特征后,判據(jù)值不減。這里指出,所構(gòu)造的可分離性判據(jù)并不一定同時(shí)具有上述的四個(gè)性質(zhì),但這并不影響它在實(shí)際使用中的性質(zhì)。下面對(duì)幾種常用的判據(jù)進(jìn)行討論。返回本章首頁2用于可分離性判據(jù)的類內(nèi)類間距離我們說,各類樣本可以分開是因?yàn)樗鼈兾挥谔卣骺臻g中的不同的區(qū)域,顯然這些區(qū)域之間的距離越大類別可分離性就越大。兩個(gè)類區(qū)和之間的平均距離多類情況下,各類之間的平均距離返回本章首頁定義第i

類樣本集的均值向量所有各類的樣本集總平均向量各類之間的平均距離又可表示為

返回本章首頁返回本章首頁返回本章首頁3基于概率分布的可分性判據(jù)下面我們以兩類問題為例,來分析一下基于概率分布的可分性判據(jù)。先來看一下面的一個(gè)簡單的例子。由上啟發(fā)我們可用兩類概率密度函數(shù)的重疊程度(相似程度)來度量可分性,構(gòu)造基于類概率的可分性判據(jù)。它可以是概率密度函數(shù)的乘積、比或差的積分來刻畫重疊程度。返回本章首頁構(gòu)造的基于類概率的可分性判據(jù)應(yīng)滿足的條件:(1);(2)當(dāng)兩類不重疊時(shí),;(3)當(dāng)兩類概率密度完全重合時(shí),;(4)相對(duì)于兩個(gè)概率密度具有“對(duì)稱性”;下面我們介紹三個(gè)判據(jù)(部分可以參考p38)一、(Bhattacharyya判據(jù))它與錯(cuò)誤率的上界有直接關(guān)系:返回本章首頁二、(Chernoff判據(jù))(1)對(duì)一切,;(2)對(duì)一切,;(3)當(dāng)?shù)母鞣至勘舜霜?dú)立時(shí),(4)當(dāng)?shù)母鞣至勘舜霜?dú)立時(shí),返回本章首頁三、(D—判據(jù))返回本章首頁散度具有的性質(zhì):(1);(2);(3)當(dāng)?shù)母鞣至勘舜霜?dú)立時(shí),(4)當(dāng)?shù)母鞣至勘舜霜?dú)立時(shí),(5);返回本章首頁下面我們求正態(tài)分布時(shí)的表達(dá)式。已知返回本章首頁返回本章首頁返回本章首頁返回本章首頁返回本章首頁6.2特征提取返回本章首頁前面我們提到了基于類內(nèi)類間矩陣的可分離性判據(jù)和基于概率分布的可分離性判據(jù)。我們可以依據(jù)這些判據(jù)進(jìn)行特征的提取,為此,設(shè)原特征向量,對(duì)作線性變換,產(chǎn)生d

維向量,即

矩陣,稱為特征提取矩陣或變換矩陣,稱為二次特征。按歐氏距離度量的特征提取返回本章首頁返回本章首頁下面我們著重討論選擇的情況。在線性變換矩陣的作用下在變換后的子空間非奇異線性變換的不變性返回本章首頁這里不加證明的給出一下結(jié)論:和分別為和對(duì)應(yīng)的本征值。這樣,要選則最佳變換是要選擇一個(gè)d維子空間,使得在此子空間中,的本征值同樣是這樣選擇。參考教材P188例題8-1返回本章首頁例題6-1已知有兩類數(shù)據(jù),分別為

試求:該組數(shù)據(jù)的類內(nèi)及類間離散矩陣。解:返回本章首頁返回本章首頁例題6-2

1)已知兩個(gè)正態(tài)分布時(shí)的散度公式為

試將其轉(zhuǎn)換成用于兩個(gè)一維正態(tài)分布及時(shí)的公式。2)兩個(gè)一維正態(tài)分布,其期望與方差分別為

第一組:

第二組:

求其散度。

返回本章首頁解:

返回本章首頁例題6-3

對(duì)上題給出的數(shù)據(jù),求使達(dá)到最大的特征提取。解:由前面所得由于秩為1,故只有一個(gè)非零本征值,是矩陣,即,為求的本征值應(yīng)解方程:返回本章首頁由于為標(biāo)量,所以返回本章首頁習(xí)題講解(P81)習(xí)題3-1解:極大似然估計(jì)返回本章首頁Bayes估計(jì)返回本章首頁習(xí)題講解(P81)習(xí)題3-4求Bayes估計(jì)量解:由樣本集求出樣本聯(lián)合分布返回本章首頁的后驗(yàn)分布Bayes估計(jì)量返回本章首頁返回本章首頁6.3特征選擇返回本章首頁設(shè)在D個(gè)可用作分類的特征中,為在不降低分類精度的前提下,從中直接選出d個(gè)作為分類特征。解決兩個(gè)問題(1)選擇的標(biāo)準(zhǔn);(2)選擇的算法;選擇的標(biāo)準(zhǔn)(分兩種情況進(jìn)行討論)(1)對(duì)于獨(dú)立特征的選擇準(zhǔn)則—基于距離的可分性判據(jù)(2)一般特征的選擇準(zhǔn)則

1離散度矩陣判據(jù)

2散度和變換散度判據(jù)選擇的算法分支定界搜索法返回本章首頁對(duì)于獨(dú)立特征的選擇準(zhǔn)則—基于距離的可分性判據(jù)類別可分性判據(jù)的一般性質(zhì):對(duì)于基于距離的可分性判據(jù)來說,不同模式特征的均值向量之間的距離應(yīng)最大,而屬于同一類的模式特征,其方差和應(yīng)最小。定義可分性判別函數(shù)返回本章首頁

——均值向量在k

維方向的分量

——在k

維方向的方差

按大小排列,選出開頭最大的d個(gè)作為特征向量,就達(dá)到了特征選擇的目的。上述的判據(jù)雖然簡單,但其使用范圍與模式特征的概率分布有關(guān),幾種特殊的情況。返回本章首頁返回本章首頁一般特征的選擇準(zhǔn)則由于特征分量之間的相關(guān)性,各分量單獨(dú)判別并不能獲得最優(yōu)的選擇結(jié)果。這時(shí)可采用類內(nèi)類間的離散度矩陣、散度等可分性判據(jù)。(1)離散度矩陣判據(jù)類內(nèi):類間:總體:離散度矩陣可分離性判據(jù):返回本章首頁(2)散度和變換散度對(duì)于類概率密度為正態(tài)分布的兩類問題,散度為使最大的子集,就是最適于分離和兩類模式的特征。推廣到c類,可以計(jì)算平均散度選出平均散度為最大的子集作為c類的分類特征,是合理,但不是最優(yōu)的。同時(shí),若其中有一種類對(duì)的散度很大,就使平均散度顯著偏離,因而掩蓋了對(duì)散度小的那些類對(duì)的判別,這里引入變換散度來改善這種情況。返回本章首頁變換散度平均變換散度從圖可以看出,當(dāng)類對(duì)的散度很大,其變換散度最大也只能趨于100%;對(duì)于散度小的情況,變換散度卻比較敏感。因此,變換平均散度比平均散度有更可靠的可分性判別能力。同時(shí)和是單調(diào)的,和并不一定是單調(diào)的。返回本章首頁分支定界法(BAB法)1先確定尋求最優(yōu)特征選擇的搜索過程的樹結(jié)構(gòu),即確定搜索樹或解樹;2然后根據(jù)搜索樹叢上至下,從右至左進(jìn)行搜索,包含的幾個(gè)子過程:向下搜索、更新界值、向上回溯、停止回溯再向下搜索。注:開始時(shí),置界值,首先從樹的根節(jié)點(diǎn)沿最右邊的一支自上而下搜索。對(duì)于一個(gè)節(jié)點(diǎn),它的子樹最右邊的一支總是無分支的,此時(shí)可直接到達(dá)葉節(jié)點(diǎn)。計(jì)算該節(jié)點(diǎn)特征組的可分性判據(jù),更新界值,然后向上回溯。一旦遇到有分支的那個(gè)節(jié)點(diǎn)則停止回溯轉(zhuǎn)入向下搜索。從這一節(jié)點(diǎn)向下首先搜索右邊的子樹,當(dāng)某節(jié)點(diǎn)的值不大于當(dāng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論