版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章統(tǒng)計(jì)判別3.1.貝葉斯判別原則3.2.Bayes最小風(fēng)險(xiǎn)判別準(zhǔn)則3.3.聶曼-皮爾遜判別準(zhǔn)則3.4.正態(tài)分布模式的貝葉斯分類(lèi)器3.5.貝葉斯分類(lèi)器的錯(cuò)誤概率3.1作為統(tǒng)計(jì)判別問(wèn)題的模式分類(lèi)隨機(jī)特征向量的概念模式識(shí)別的目的就是要確定某一個(gè)給定的模式樣本屬于哪一類(lèi)??梢酝ㄟ^(guò)對(duì)被識(shí)別對(duì)象的多次觀察和測(cè)量,構(gòu)成特征向量,并將其作為某一個(gè)判決規(guī)則的輸入,按此規(guī)則來(lái)對(duì)樣本進(jìn)行分類(lèi)。隨機(jī)特征向量的概念在獲取模式的觀測(cè)值時(shí),有些事物具有確定的因果關(guān)系,即在一定的條件下,它必然會(huì)發(fā)生或必然不發(fā)生。例如識(shí)別一塊模板是不是直角三角形,只要憑“三條直線邊閉合連線和一個(gè)直角”這個(gè)特征,測(cè)量它是否有三條直線邊的閉合連線并有一個(gè)直角,就完全可以確定它是不是直角三角形。這種現(xiàn)象是確定性的現(xiàn)象,前一章的模式判別就是基于這種現(xiàn)象進(jìn)行的。隨機(jī)特征向量的概念但在現(xiàn)實(shí)世界中,由許多客觀現(xiàn)象的發(fā)生,就每一次觀察和測(cè)量來(lái)說(shuō),即使在基本條件保持不變的情況下也具有不確定性。只有在大量重復(fù)的觀察下,其結(jié)果才能呈現(xiàn)出某種規(guī)律性,即對(duì)它們觀察到的特征具有統(tǒng)計(jì)特性。特征值不再是一個(gè)確定的向量,而是一個(gè)隨機(jī)向量。此時(shí),只能利用模式集的統(tǒng)計(jì)特性來(lái)分類(lèi),以使分類(lèi)器發(fā)生錯(cuò)誤的概率最小。兩類(lèi)模式集的分類(lèi)目的:要確定x(隨機(jī)特征向量)是屬于ω1類(lèi)還是ω2類(lèi),要看x是來(lái)自于ω1類(lèi)的概率大還是來(lái)自ω2類(lèi)的概率大。剖析:
x是來(lái)自于ω1類(lèi)的概率大
把x劃分到ω1類(lèi),正確的可能性大,錯(cuò)誤的可能性小。3.1.0貝葉斯判別原則基本概念(1)樣本概率P(x)
模式空間的樣本x是通過(guò)多次觀察得到的,樣本點(diǎn)的出現(xiàn)具有隨機(jī)性,那么也就有重復(fù)性。P(x)表示樣本X=x出現(xiàn)的概率。也就是在全體樣本中出現(xiàn)的概率
基本概念
(2)先驗(yàn)概率、條件概率、后驗(yàn)概率(3.1-1)其中后驗(yàn)概率
我們通常稱(chēng)為似然函數(shù),它可以通過(guò)已知的樣本來(lái)求得。帶入3.1-1式子,則有
3.1.1最小錯(cuò)誤貝葉斯判別準(zhǔn)則
該式稱(chēng)為貝葉斯判別。關(guān)于這個(gè)判別表達(dá)式的直觀意義解釋是:總是劃分到它出現(xiàn)概率最多的某個(gè)類(lèi)中,從而使分類(lèi)錯(cuò)誤概率最小。整理前述公式有:總結(jié)最小錯(cuò)誤貝葉斯判別規(guī)則1,2很容易衍生多類(lèi)形式例子對(duì)一大批人進(jìn)行某種疾病普查,患癌者以ω1類(lèi)代表,正常人以ω2類(lèi)代表。設(shè)被試驗(yàn)的人中患有某種疾病的概率為0.005,即P(ω1)=0.005,則P(ω2)=1-0.005=0.995現(xiàn)任意抽取一人,要判斷他是否患有某種疾病。顯然,因?yàn)镻(ω2)>P(ω1),只能說(shuō)是正常的可能性大。如要進(jìn)行判斷,只能通過(guò)某一種化驗(yàn)來(lái)實(shí)現(xiàn)。例子設(shè)有一種診斷某種疾病的試驗(yàn),其結(jié)果為“陽(yáng)性”和“陰性”兩種反應(yīng)。若用這種試驗(yàn)來(lái)對(duì)一個(gè)病人進(jìn)行診斷,提供的化驗(yàn)結(jié)果以模式x代表,這里x為一維特征,且只有x=“陽(yáng)”和x=“陰”兩種結(jié)果。假設(shè)根據(jù)臨床記錄,發(fā)現(xiàn)這種方法有以下統(tǒng)計(jì)結(jié)果患有該疾病的人試驗(yàn)反應(yīng)為陽(yáng)性的概率=0.95,即p(x=陽(yáng)|ω1)=0.95患有該疾病的人試驗(yàn)反應(yīng)為陰性的概率=0.05,即p(x=陰|ω1)=0.05正常人試驗(yàn)反應(yīng)為陽(yáng)性的概率=0.01,即p(x=陽(yáng)|ω2)=0.01正常人試驗(yàn)反應(yīng)為陰性的概率=0.99,即p(x=陰|ω2)=0.99問(wèn)題若被化驗(yàn)的人具有陽(yáng)性反應(yīng),他患該疾病的概率為多少,即求P(ω1|
x=陽(yáng))=?這里P(ω1)是根據(jù)以往的統(tǒng)計(jì)資料得到的,為患某種疾病的先驗(yàn)概率?,F(xiàn)在經(jīng)過(guò)化驗(yàn),要求出P(ω1|
x=陽(yáng)),即經(jīng)過(guò)化驗(yàn)后為陽(yáng)性反應(yīng)的人中患某種疾病的概率,稱(chēng)為后驗(yàn)概率。[計(jì)算]
例:疾病細(xì)胞識(shí)別;正常P(ω1)=0.9,異常P(ω2)=0.1,
對(duì)某個(gè)未知細(xì)胞特征值x,先從類(lèi)條件概率密度分布曲線上查到:解:該細(xì)胞屬于正常細(xì)胞還是異常細(xì)胞,先計(jì)算后驗(yàn)概率:p(x/ω1)=0.2,
p(x/ω2)=0.4當(dāng)考慮到對(duì)于某一類(lèi)的錯(cuò)誤判決要比對(duì)另一類(lèi)的判決更為關(guān)鍵時(shí),就需要把最小錯(cuò)誤概率的貝葉斯判別做一些修正假定要判斷某人是正常(ω1)還是肺病患者(ω2),于是在判斷中可能出現(xiàn)以下情況:第一類(lèi),判對(duì)(正?!?λ11
;第二類(lèi),判錯(cuò)(正?!尾?λ21
;第三類(lèi),判對(duì)(肺病→肺病)λ22;第四類(lèi),判錯(cuò)(肺病→正常)λ12
。在判斷時(shí),除了能做出“是”ωi類(lèi)或“不是”ωi類(lèi)的動(dòng)作以外,還可以做出“拒識(shí)”的動(dòng)作。為了更好地研究最小風(fēng)險(xiǎn)分類(lèi)器,我們先說(shuō)明幾個(gè)概念:3.1.2Bayes最小風(fēng)險(xiǎn)判別在整個(gè)特征空間中定義期望風(fēng)險(xiǎn),期望風(fēng)險(xiǎn):風(fēng)險(xiǎn)R(期望損失):對(duì)未知x采取一個(gè)決策為α(x)所付出的代價(jià)(損耗)決策αi:表示把模式x判決為αi的一次動(dòng)作。損耗函數(shù)λii=λ(αi,ωi)表示模式X本來(lái)屬于ωi類(lèi)而錯(cuò)判為αi所受損失。因?yàn)檫@是正確判決,故損失最小。損耗函數(shù)λij=λ(αi,ωj)表示模式X本來(lái)屬于ωj類(lèi)錯(cuò)判為αi所受損失。因?yàn)檫@是錯(cuò)誤判決,故損失大。條件風(fēng)險(xiǎn)(也叫條件期望損失):條件風(fēng)險(xiǎn)只反映對(duì)某x取值的決策行動(dòng)αi所帶來(lái)的風(fēng)險(xiǎn)。期望風(fēng)險(xiǎn)則反映在整個(gè)特征空間不同的x取值的決策行動(dòng)所帶來(lái)的平均風(fēng)險(xiǎn)。最小風(fēng)險(xiǎn)Bayes決策規(guī)則:二類(lèi)問(wèn)題:把x歸于ω1時(shí)風(fēng)險(xiǎn):把x歸于ω2時(shí)風(fēng)險(xiǎn):通常取若則x劃分到ω1閾值似然比兩類(lèi)的貝葉斯判決條件:(I)當(dāng)(ii)當(dāng)(iii)當(dāng),則,則,則或者當(dāng)滿足如下條件時(shí),最小風(fēng)險(xiǎn)代價(jià)的貝葉斯判決方法就是最小錯(cuò)誤概率判決方法:[一般多類(lèi)(M類(lèi))的情況]如果特別的(習(xí)慣稱(chēng)為0-1代價(jià))則此時(shí)有3.2聶曼-皮爾遜判別
直接使用上述貝葉斯分類(lèi)器需要知道先驗(yàn)概率,如果先驗(yàn)概率不知道,而知道條件概率,此時(shí),可以使用聶曼-皮爾遜判決方法。同樣力求錯(cuò)誤分類(lèi)的概率最小。以一維為例分析為類(lèi)被錯(cuò)劃分成類(lèi)的錯(cuò)誤概率為類(lèi)被錯(cuò)劃分成類(lèi)的錯(cuò)誤概率實(shí)際中經(jīng)常用到:在限制某一類(lèi)的錯(cuò)誤一定的條件下,使另一類(lèi)的錯(cuò)誤最小的決策問(wèn)題。從因在a1范圍內(nèi),故同理有
綜合上面兩個(gè)式子因此聶曼-皮爾遜判別準(zhǔn)則最終就是尋找閾值T,該值可以用作為劃分a1和a2的邊界,也是最為判別分類(lèi)的準(zhǔn)則。其中
在確定了ε2的值后,就可以求出T的值。從而找到判決閾值例兩個(gè)二維正態(tài)分布求聶曼-皮爾遜判別閾值。解:查標(biāo)準(zhǔn)正態(tài)分布表:前邊的討論都是假定先驗(yàn)概率不變,現(xiàn)在討論在P(ωi)變化時(shí)如何使最大可能風(fēng)險(xiǎn)最小,先驗(yàn)概率P(ω1)與風(fēng)險(xiǎn)R間的變化關(guān)系如下:3.2.1最大最小判別準(zhǔn)則這樣,就得出最小風(fēng)險(xiǎn)與先驗(yàn)概率的關(guān)系曲線,如圖所示:討論:上式證明,所選的判別邊界,使兩類(lèi)的概率相等:這時(shí)可使最大可能的風(fēng)險(xiǎn)為最小,這時(shí)先驗(yàn)概率變化,其最大風(fēng)險(xiǎn)不變迄今為止所討論的分類(lèi)問(wèn)題,關(guān)于待分類(lèi)樣本的所有信息都是一次性提供的。但是,在許多實(shí)際問(wèn)題中,觀察實(shí)際上是序貫的。隨著時(shí)間的推移可以得到越來(lái)越多的信息。一種方法是計(jì)算停止損失和計(jì)算繼續(xù)損失,在兩者的臨界點(diǎn)上得到分類(lèi)決策。這種方法需要知道先驗(yàn)概率、決策損失以及觀測(cè)每個(gè)新特征需要的代價(jià)。后來(lái)開(kāi)發(fā)了一系列基于這種方法的快速算法。3.2.2序貫分類(lèi)假設(shè)對(duì)樣品進(jìn)行第i次觀察獲取一序列特征為:X=(x1,x2,…,xi)T則對(duì)于ω1,ω2兩類(lèi)問(wèn)題,若X∈ω1,則判決完畢若X∈ω2
,則判決完畢若X不屬ω1也不屬ω2
,則不能判決,進(jìn)行第i+1次觀察,得X=(x1,x2,…,xi,xi+1)T,再重復(fù)上面的判決,直到所有的樣品分類(lèi)完畢為止。這樣做的好處是使那些在二類(lèi)邊界附近的樣本不會(huì)因某種偶然的微小變化而誤判,當(dāng)然這是以多次觀察為代價(jià)的。另外一種是基于錯(cuò)誤概率的序貫處理。由最小錯(cuò)誤概率的Bayes判決,對(duì)于兩類(lèi)問(wèn)題,似然比為現(xiàn)在來(lái)確定A、B的值。因?yàn)樾蜇灧诸?lèi)決策規(guī)則:上下門(mén)限A、B是由設(shè)計(jì)給定的錯(cuò)誤概率P1(e),P2(e)來(lái)確定的,Wald已證明,觀察次數(shù)不會(huì)很大,它收斂的很快。3.2.3分類(lèi)器設(shè)計(jì)(1)判別函數(shù):
(2)決策面方程:(3)分類(lèi)器設(shè)計(jì):(類(lèi)似線性分類(lèi)器多類(lèi)第三種情況)一、正態(tài)分布判別函數(shù)
1、為什么采用正態(tài)分布:
a、正態(tài)分布在物理上是合理的、廣泛的。
b、正態(tài)分布數(shù)學(xué)上簡(jiǎn)單,N(μ,σ2)只有均值和方差兩個(gè)參數(shù)。
2、單變量正態(tài)分布:3.3正態(tài)分布模式的貝葉斯分類(lèi)器3、(多變量)多維正態(tài)分布(1)函數(shù)形式:(2)、性質(zhì):①、μ與∑對(duì)分布起決定作用P(X)=N(μ,∑),μ由n個(gè)分量組成,∑由n(n+1)/2元素組成?!喽嗑S正態(tài)分布由n+n(n+1)/2個(gè)參數(shù)組成。
②、等密度點(diǎn)的軌跡是一個(gè)超橢球面。區(qū)域中心由μ決定,區(qū)域形狀由∑決定。③、不相關(guān)性等價(jià)于獨(dú)立性。若xi與xj互不相關(guān),則xi與xj一定獨(dú)立。 ④、邊緣分布和條件分布也是正態(tài)的。 ⑤、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。 ⑥、線性組合的正態(tài)性。判別函數(shù):類(lèi)條件概率密度用正態(tài)來(lái)表示:二、最小錯(cuò)誤率(Bayes)分類(lèi)器:從最小錯(cuò)誤率這個(gè)角度來(lái)分析Bayes分類(lèi)器
1.第一種情況:各個(gè)特征統(tǒng)計(jì)獨(dú)立,且同方差情況。(最簡(jiǎn)單情況)決策面方程:
判別函數(shù):最小距離分類(lèi)器:未知x,找最近的μi把x歸類(lèi)如果M類(lèi)先驗(yàn)概率相等:討論:未知x,把x與各類(lèi)均值相減,把x歸于最近一類(lèi)。最小距離分類(lèi)器。2、第二種情況:
即各類(lèi)協(xié)方差相等。討論:針對(duì)ω1,ω2二類(lèi)情況,如圖:3、第三種情況(一般情況):Σ?為任意,各類(lèi)協(xié)方差矩陣不等,二次項(xiàng)xT
Σ?x與i有關(guān)。所以判別函數(shù)為二次型函數(shù)。3.4貝葉斯分類(lèi)器的錯(cuò)誤概率3.4.1錯(cuò)誤概率的概念以?xún)深?lèi)問(wèn)題為例,錯(cuò)誤分類(lèi)的概率為
2、正態(tài)分布最小錯(cuò)誤率(在正態(tài)分布情況下求最小錯(cuò)誤率)3.4.2負(fù)對(duì)數(shù)似然比的概率分布設(shè)模式向量分布為多變量正態(tài)密度函數(shù),其協(xié)方差矩陣相等要滿足錯(cuò)誤概率最小,則將x分到ωi時(shí)候,因該滿足:其中a就對(duì)應(yīng)于閾值的對(duì)數(shù)是x的函數(shù),也為正態(tài)分布,所以其在ωi類(lèi)的期望值取則其在ωi內(nèi)的方差同樣可推導(dǎo)在ωj內(nèi)的期望值和方差,所以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 老師教學(xué)工作階段總結(jié)
- 2022年總監(jiān)工作計(jì)劃5篇
- 小學(xué)四年級(jí)數(shù)學(xué)教案
- 小學(xué)二年級(jí)語(yǔ)文教師上學(xué)期工作總結(jié)
- 2025住宅裝修材料委托代購(gòu)合同
- 大學(xué)畢業(yè)頂崗實(shí)習(xí)報(bào)告錦集9篇
- 大學(xué)畢業(yè)生自我鑒定(集錦15篇)
- 2022年學(xué)校食堂管理工作計(jì)劃
- DB45T 2651-2023 水泥窯協(xié)同處置生活垃圾預(yù)處理能源消耗限額
- 幼兒小班教學(xué)工作總結(jié)范文合集十篇
- 高三數(shù)學(xué)《專(zhuān)題十五數(shù)學(xué)建模》課件
- 新中國(guó)外交復(fù)習(xí)課
- 精益生產(chǎn)工廠調(diào)研報(bào)告及改善方案案例解析課件
- 繃縫系列使用說(shuō)明書(shū)V10
- 影視理論基礎(chǔ)知識(shí)
- 中考復(fù)習(xí)-初中英語(yǔ)單詞表大全(2182個(gè)帶音標(biāo))
- 腹主動(dòng)脈瘤護(hù)理查房課件(PPT 55頁(yè))
- 農(nóng)業(yè)比較效益低的成因及應(yīng)對(duì)
- 生產(chǎn)部績(jī)效手冊(cè)ppt課件
- 藍(lán)色唯美創(chuàng)意潑水節(jié)主題宣傳PPT模板課件
- 小學(xué)一年級(jí)上冊(cè)數(shù)學(xué)20以?xún)?nèi)進(jìn)位加法單元測(cè)試卷1
評(píng)論
0/150
提交評(píng)論