統(tǒng)計(jì)模式識別方法_第1頁
統(tǒng)計(jì)模式識別方法_第2頁
統(tǒng)計(jì)模式識別方法_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計(jì)模式識別方法在嗅覺模擬技術(shù)領(lǐng)域中,模式識別問題就是由氣敏傳感器陣列的測量 空間向被測對象的的分類或分級空間轉(zhuǎn)化的問題。由于這種模式空間的變 化對識別或鑒別結(jié)果有著較大的影響,因此模式識別算法的研究和討論始 終較為活躍,各種模式識別方法層出不窮,有力推動了嗅覺模擬技術(shù)的應(yīng) 用進(jìn)程。下面介紹幾種常用的統(tǒng)計(jì)模式識別方法。1統(tǒng)計(jì)模式識別概述統(tǒng)計(jì)方法,是發(fā)展較早也比較成熟的一種方法。被識別對象首先數(shù)字 化,變換為適于計(jì)算機(jī)處理的數(shù)字信息。一個模式常常要用很大的信息量 來表示。許多模式識別系統(tǒng)在數(shù)字化環(huán)節(jié)之后還進(jìn)行預(yù)處理,用于除去混 入的干擾信息并減少某些變形和失真。隨后是進(jìn)行特征抽取,即從數(shù)字化 后

2、或預(yù)處理后的輸入模式中抽取一組特征。所謂特征是選定的一種度量, 它對于一般的變形和失真保持不變或幾乎不變,并且只含盡可能少的冗余 信息。特征抽取過程將輸入模式從對象空間映射到特征空間。這時,模式 可用特征空間中的一個點(diǎn)或一個特征矢量表示。這種映射不僅壓縮了信息 量,而且易于分類。在決策理論方法中,特征抽取占有重要的地位,但尚 無通用的理論指導(dǎo),只能通過分析具體識別對象決定選取何種特征。特征 抽取后可進(jìn)行分類,即從特征空間再映射到?jīng)Q策空間。為此而引入鑒別函 數(shù),由特征矢量計(jì)算出相應(yīng)于各類別的鑒別函數(shù)值,通過鑒別函數(shù)值的比 較實(shí)行分類。統(tǒng)計(jì)模式識別的技術(shù)理論較完善,方法也很多,通常較為有效,現(xiàn)已

3、形成了一個完整的體系。盡管方法很多,但從根本上講,都是利用各類的 分布特征,即直接利用各類的概率密度函數(shù)、后驗(yàn)概率等,或隱含地利用 上述概念進(jìn)行識別。其中基本的技術(shù)為聚類分析法、判別類域代數(shù)界面法、 統(tǒng)計(jì)決策法、最鄰近法等。在聚類分析中,利用待分類模式之間的“相似性”進(jìn)行分類,較相似的作為一類,較不相似的作為另外一類。在分類過 程中不斷地計(jì)算所劃分的各類的中心,一個待分類模式與各類中心的距離 作為對其分類的依據(jù)。這實(shí)際上在某些設(shè)定下隱含地利用了概率分布概念, 因常見的概率密度函數(shù)中,距期望值較近的點(diǎn)概密值較大。該類方法的另 一種技術(shù)是根據(jù)待分類模式和已指判出類別的模式的距離來確定其判別, 這實(shí)

4、際上也是在一定程度上利用了有關(guān)的概念。判別類域界面法中,用已 知類別的訓(xùn)練樣本產(chǎn)生判別函數(shù),這相當(dāng)于學(xué)習(xí)或訓(xùn)練。根據(jù)待分類模式 代入判別函數(shù)后所得值的正負(fù)來確定其類別。判別函數(shù)提供了相鄰兩類判 別域的界面,其也相應(yīng)于在一些設(shè)定下兩類概密函數(shù)之差。在統(tǒng)計(jì)判決中, 在一些分類識別準(zhǔn)則下嚴(yán)格地按照概率統(tǒng)計(jì)理論導(dǎo)出各種判決規(guī)則,這些 判決規(guī)則可以產(chǎn)生某種意義上的最優(yōu)分類識別結(jié)果。這些判決規(guī)則要用到 各類的概率密度函數(shù)、先驗(yàn)概率或后驗(yàn)概率。這可以通過訓(xùn)練樣本對未知 概率密度函數(shù)中的參數(shù)進(jìn)行估計(jì),或?qū)ξ粗母琶芎瘮?shù)等進(jìn)行逼近而估計(jì) 他們。在最鄰近法中,是根據(jù)待分類模式的一個或 k個近鄰樣本的類別而 確定其

5、類別。2主成分分析方法主成分分析是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,也是一種古老 的多元統(tǒng)計(jì)分析技術(shù)。它可以從多元事物中解析出主要影響因素,揭示事 物的本質(zhì),簡化復(fù)雜的問題。計(jì)算主成分的目的是將高維數(shù)據(jù)投影到較低維空間。給定n個變量的m個觀察值,形成一個nxm的數(shù)據(jù)矩陣,n通 常比較大。對于一個由多個變量描述的復(fù)雜事物,人們難以認(rèn)識,那么是 否可以抓住事物主要方面進(jìn)行重點(diǎn)分析呢?如果事物的主要方面剛好體現(xiàn) 在幾個主要變量上,我們只需要將這幾個變量分離出來,進(jìn)行詳細(xì)分析。但是,在一般情況下,并不能直接找出這樣的關(guān)鍵變量。這時我們可以用 原有變量的線性組合來表示事物的主要方面,PCA就是這樣一種

6、分析方法。PCA的目標(biāo)是尋找r(r 0求對應(yīng)于各特征值的單位特征向量ui , u2 ,, 并作相應(yīng)的主 軸。按下式計(jì)算某個特征值的貢獻(xiàn)率v j :七乂100%人j j=1根據(jù)各特征值貢獻(xiàn)率的大小,依次選取所需要的第一主軸,第二主軸, 直至第m主軸。利用下式計(jì)算樣本數(shù)據(jù)矩陣X的第i主成分/:Yi = utX, i -1,2,., mi在應(yīng)用時,一般取累計(jì)貢獻(xiàn)率為80%以上比較好。3近鄰法KNN法也稱K最近鄰法,是模式識別的標(biāo)準(zhǔn)算法之一,屬于有監(jiān)督(或 稱有導(dǎo)師)的模式識別方法。其基本思想是,先將已知類別或等級的樣本 點(diǎn)在多維空間中描述出來,然后將待分類的未知樣本點(diǎn)也用同樣的多維空 間加以描述???/p>

7、察未知樣本點(diǎn)的K個近鄰(K為奇正數(shù),如1,3,5,7等)。 若近鄰中某一類或某一等級的樣本點(diǎn)最多,則可將未知樣本點(diǎn)判為此類獲 此等級中的點(diǎn)。在多維空間中,各樣本點(diǎn)的距離通常用歐氏距離來描述:d3,y) = (E 虬y2);i=1式中,d(x, y)是未知類別(或等級)樣本點(diǎn)X到已知類別(或等級)樣本點(diǎn)y的 歐氏距離;n是多維空間的維數(shù);x,是x的第i維分量;yi是y的第i維分量。有時為了計(jì)算方便,也采用絕對距離來描述:d (x, y)=況 X - yji=1當(dāng)然,也可用其他距離或度量來描述多維空間中兩樣本點(diǎn)的距離(如馬氏 距離等)。KNN法的好處是,它對數(shù)據(jù)結(jié)構(gòu)沒有特定的要求,如不要求線性可分性, 只需用每個每個未知樣本點(diǎn)的近鄰類別或等級屬性來判別即可。這種方法的缺點(diǎn) 是沒有對樣本點(diǎn)進(jìn)行信息壓縮。因此,每當(dāng)判別一個新樣本點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論