![概率密度函數(shù)的估計(jì)課件_第1頁(yè)](http://file4.renrendoc.com/view/3cbe2ad7b70548a0131b86d2108a2d89/3cbe2ad7b70548a0131b86d2108a2d891.gif)
![概率密度函數(shù)的估計(jì)課件_第2頁(yè)](http://file4.renrendoc.com/view/3cbe2ad7b70548a0131b86d2108a2d89/3cbe2ad7b70548a0131b86d2108a2d892.gif)
![概率密度函數(shù)的估計(jì)課件_第3頁(yè)](http://file4.renrendoc.com/view/3cbe2ad7b70548a0131b86d2108a2d89/3cbe2ad7b70548a0131b86d2108a2d893.gif)
![概率密度函數(shù)的估計(jì)課件_第4頁(yè)](http://file4.renrendoc.com/view/3cbe2ad7b70548a0131b86d2108a2d89/3cbe2ad7b70548a0131b86d2108a2d894.gif)
![概率密度函數(shù)的估計(jì)課件_第5頁(yè)](http://file4.renrendoc.com/view/3cbe2ad7b70548a0131b86d2108a2d89/3cbe2ad7b70548a0131b86d2108a2d895.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章概率密度函數(shù)的估計(jì)第三章概率密度函數(shù)的估計(jì)1請(qǐng)各位思考的問(wèn)題1、我們可以構(gòu)造一個(gè)比貝葉斯規(guī)則更好的分類器嗎?2、利用貝葉斯法則構(gòu)造分類器的前提條件是什么?3、為何要估計(jì)密度以及如何估計(jì)密度?請(qǐng)各位思考的問(wèn)題1、我們可以構(gòu)造一個(gè)比貝葉斯規(guī)則更好的分類器2TableofContentsTableofContents3.1引言基于樣本的Bayes分類器:通過(guò)估計(jì)類條件概率密度函數(shù),設(shè)計(jì)相應(yīng)的判別函數(shù)分類器
功能結(jié)構(gòu)基于樣本的直接確定判別函數(shù)方法3.1引言基于樣本的Bayes分類器:通過(guò)估計(jì)類條件概率密基于樣本的Bayes分類器設(shè)計(jì)Bayes決策需要已知兩種知識(shí):各類的先驗(yàn)概率P(ωi)各類的條件概率密度函數(shù)p(x|ωi)知識(shí)的來(lái)源:對(duì)問(wèn)題的一般性認(rèn)識(shí)或一些訓(xùn)練數(shù)據(jù)基于樣本的兩步Bayes分類器設(shè)計(jì)利用樣本集估計(jì)P(ωi)和p(x|ωi)基于上述估計(jì)值設(shè)計(jì)判別函數(shù)及分類器面臨的問(wèn)題:如何利用樣本集進(jìn)行估計(jì)估計(jì)量的評(píng)價(jià)利用樣本集估計(jì)錯(cuò)誤率引言基于樣本的Bayes分類器設(shè)計(jì)Bayes決策需要已知兩種知識(shí)基于樣本的Bayes分類器訓(xùn)練
樣本集樣本分布的
統(tǒng)計(jì)特征:
概率
密度函數(shù)決策規(guī)則:
判別函數(shù)
決策面方程最一般情況下適用的“最優(yōu)”分類器:錯(cuò)誤率最小,對(duì)分類器設(shè)計(jì)在理論上有指導(dǎo)意義。獲取統(tǒng)計(jì)分布及其參數(shù)很困難,實(shí)際問(wèn)題中并不一定具備獲取準(zhǔn)確統(tǒng)計(jì)分布的條件。引言基于樣本的Bayes分類器訓(xùn)練
樣本集樣本分布的
統(tǒng)計(jì)特征:直接確定判別函數(shù)基于樣本的直接確定判別函數(shù)方法:針對(duì)各種不同的情況,使用不同的準(zhǔn)則函數(shù),設(shè)計(jì)出滿足這些不同準(zhǔn)則要求的分類器。這些準(zhǔn)則的“最優(yōu)”并不一定與錯(cuò)誤率最小相一致:次優(yōu)分類器。實(shí)例:正態(tài)分布最小錯(cuò)誤率貝葉斯分類器在特殊情況下,是線性判別函數(shù)g(x)=wTx(決策面是超平面),能否基于樣本直接確定w?訓(xùn)練樣本集決策規(guī)則:
判別函數(shù)
決策面方程選擇最佳準(zhǔn)則引言直接確定判別函數(shù)基于樣本的直接確定判別函數(shù)方法:訓(xùn)練樣本集決概率密度估計(jì)的方法類的先驗(yàn)概率P(ωi)的估計(jì):用訓(xùn)練數(shù)據(jù)中各類出現(xiàn)的頻率來(lái)估計(jì)依靠經(jīng)驗(yàn)引言類條件概率密度函數(shù)的估計(jì):兩大類方法參數(shù)估計(jì):概率密度函數(shù)的形式已知,而表征函數(shù)的參數(shù)未知,需要通過(guò)訓(xùn)練數(shù)據(jù)來(lái)估計(jì)最大似然估計(jì)Bayes估計(jì)非參數(shù)估計(jì):概率密度函數(shù)的形式未知,也不作假設(shè),利用訓(xùn)練數(shù)據(jù)直接對(duì)概率密度進(jìn)行估計(jì)Parzen窗法kn-近鄰法概率密度估計(jì)的方法類的先驗(yàn)概率P(ωi)的估計(jì):引言類條件概3.2參數(shù)估計(jì)統(tǒng)計(jì)量:總體的某種信息是樣本集K={x1,x2,…,xN}的某種函數(shù)f(K)。參數(shù)空間:總體分布的未知參數(shù)θ所有可能取值組成的集合(Θ)點(diǎn)估計(jì)和區(qū)間估計(jì)點(diǎn)估計(jì)的估計(jì)量(variable)和估計(jì)值(value):3.2參數(shù)估計(jì)統(tǒng)計(jì)量:總體的某種信息是樣本集K={x1,估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn):無(wú)偏性,有效性,一致性無(wú)偏性:E()=θ有效性:D()小,估計(jì)更有效一致性:樣本數(shù)趨于無(wú)窮時(shí),依概率趨于θ:估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn):無(wú)偏性,有效性,一致性3.2.1最大似然估計(jì)MaximumLikelihood(ML)估計(jì)估計(jì)的參數(shù)θ是確定而未知的,Bayes估計(jì)方法則視θ為隨機(jī)變量。樣本集可按類別分開(kāi),不同類別的密度函數(shù)的參數(shù)分別用各類的樣本集來(lái)訓(xùn)練。概率密度函數(shù)的形式已知,參數(shù)未知,為了描述概率密度函數(shù)p(x|ωi)與參數(shù)θ的依賴關(guān)系,用p(x|ωi,θ)表示。獨(dú)立地按概率密度p(x|θ)抽取樣本集
K={x1,x2,…,xN},用K估計(jì)未知參數(shù)θ3.2.1最大似然估計(jì)MaximumLikelihood似然函數(shù)似然函數(shù):對(duì)數(shù)(loglarized)似然函數(shù):最大似
然估計(jì)似然函數(shù)似然函數(shù):對(duì)數(shù)(loglarized)似然函數(shù):最大最大似然估計(jì)最大似
然估計(jì)最大似然估計(jì)最大似
然估計(jì)最大似然估計(jì)示意圖最大似
然估計(jì)最大似然估計(jì)示意圖最大似
然估計(jì)計(jì)算方法最大似然估計(jì)量使似然函數(shù)梯度為0:最大似
然估計(jì)計(jì)算方法最大似然估計(jì)量使似然函數(shù)梯度為0:最大似
然估計(jì)3.2.2貝葉斯估計(jì)-最大后驗(yàn)概率用一組樣本集K={x1,x2,…,xN}估計(jì)未知參數(shù)θ未知參數(shù)θ視為隨機(jī)變量,先驗(yàn)分布為p(θ),而在已知樣本集K出現(xiàn)的條件下的后驗(yàn)概率為p(θ|K)最大后驗(yàn)概率估計(jì)-Maximumaposteriori(MAP)3.2.2貝葉斯估計(jì)-最大后驗(yàn)概率用一組樣本集K={x1,貝葉斯決策問(wèn)題與貝葉斯估計(jì)問(wèn)題貝葉斯決策問(wèn)題:
樣本x
決策ai
真實(shí)狀態(tài)wj
狀態(tài)空間A是離散空間
先驗(yàn)概率P(wj)貝葉斯參數(shù)估計(jì)問(wèn)題:
樣本集K={xi}
估計(jì)量^s
真實(shí)參數(shù)s
參數(shù)空間S是連續(xù)空間
參數(shù)的先驗(yàn)分布p(s)貝葉斯估計(jì)貝葉斯風(fēng)險(xiǎn)最小估計(jì)問(wèn)題:用一組樣本集K={x1,x2,…,xN}估計(jì)未知參數(shù)θ,使估計(jì)帶來(lái)的風(fēng)險(xiǎn)最小。貝葉斯決策問(wèn)題與貝葉斯估計(jì)問(wèn)題貝葉斯決策問(wèn)題:
樣本x
決策貝葉斯(最小風(fēng)險(xiǎn))估計(jì)參數(shù)估計(jì)的條件風(fēng)險(xiǎn):給定x條件下,估計(jì)量的條件風(fēng)險(xiǎn)參數(shù)估計(jì)的風(fēng)險(xiǎn):估計(jì)量的條件風(fēng)險(xiǎn)的期望貝葉斯估計(jì):使風(fēng)險(xiǎn)最小的估計(jì)貝葉斯估計(jì)貝葉斯(最小風(fēng)險(xiǎn))估計(jì)參數(shù)估計(jì)的條件風(fēng)險(xiǎn):給定x條件下,估計(jì)貝葉斯估計(jì)(II)貝葉斯估計(jì)損失函數(shù)定義為誤差平方:定理3.1:如果定義損失函數(shù)為誤差平方函數(shù),則有:貝葉斯估計(jì)(II)貝葉斯估計(jì)損失函數(shù)定義為誤差平方:定理3貝葉斯估計(jì)的步驟確定θ的先驗(yàn)分布p(θ)由樣本集K={x1,x2,…,xN}求出樣本聯(lián)合分布:p(K|θ)計(jì)算θ的后驗(yàn)分布
計(jì)算貝葉斯估計(jì)貝葉斯估計(jì)貝葉斯估計(jì)的步驟確定θ的先驗(yàn)分布p(θ)貝葉斯估計(jì)3.3正態(tài)分布的參數(shù)估計(jì)最大似然估計(jì)示例貝葉斯估計(jì)示例3.3正態(tài)分布的參數(shù)估計(jì)最大似然估計(jì)示例3.3.1一元正態(tài)分布例解最大似
然估計(jì)3.3.1一元正態(tài)分布例解最大似
然估計(jì)一元正態(tài)分布均值的估計(jì)最大似
然估計(jì)一元正態(tài)分布均值的估計(jì)最大似
然估計(jì)一元正態(tài)分布方差的估計(jì)最大似
然估計(jì)一元正態(tài)分布方差的估計(jì)最大似
然估計(jì)多元正態(tài)分布參數(shù)最大似然估計(jì)最大似然估計(jì)是一致估計(jì)均值估計(jì)是無(wú)偏的,協(xié)方差矩陣估計(jì)是有偏的。協(xié)方差矩陣的無(wú)偏估計(jì)是:總體均值向量和協(xié)方差矩陣最大似
然估計(jì)多元正態(tài)分布參數(shù)最大似然估計(jì)最大似然估計(jì)是一致估計(jì)總體均值向3.3.2一元正態(tài)分布貝葉斯估計(jì)例解總體分布密度為:貝葉斯估計(jì)均值μ為隨機(jī)未知變量,μ的先驗(yàn)分布為:用貝葉斯估計(jì)方法求μ的估計(jì)量樣本集:K={x1,x2,…,xN}計(jì)算μ的后驗(yàn)分布:3.3.2一元正態(tài)分布貝葉斯估計(jì)例解總體分布密度為:貝葉斯一元正態(tài)分布例解(II)計(jì)算μ的后驗(yàn)分布:貝葉斯估計(jì)計(jì)算μ的貝
葉斯估計(jì):一元正態(tài)分布例解(II)計(jì)算μ的后驗(yàn)分布:貝葉斯估計(jì)計(jì)算μ的一元正態(tài)分布例解總體分布密度為:均值μ為隨機(jī)未知變量,其先驗(yàn)分布為:樣本集:K={x1,x2,…,xN}計(jì)算μ的后驗(yàn)分布:貝葉斯估計(jì)一元正態(tài)分布例解總體分布密度為:均值μ為隨機(jī)未知變量,其先驗(yàn)3.4非參數(shù)估計(jì)非參數(shù)估計(jì):密度函數(shù)的形式未知,也不作假設(shè),利用訓(xùn)練數(shù)據(jù)直接對(duì)概率密度進(jìn)行估計(jì)。又稱作模型無(wú)關(guān)方法。參數(shù)估計(jì)需要事先假定一種分布函數(shù),利用樣本數(shù)據(jù)估計(jì)其參數(shù)。又稱作基于模型的方法兩種主要非參數(shù)估計(jì)方法:核函數(shù)方法直方圖法Parzen窗法kN-近鄰法神經(jīng)網(wǎng)絡(luò)方法:PNN3.4非參數(shù)估計(jì)非參數(shù)估計(jì):密度函數(shù)的形式未知,也不作假設(shè)參數(shù)PK非參數(shù):非參數(shù)估計(jì)的優(yōu)點(diǎn):(1)在利用樣本數(shù)據(jù)對(duì)總體進(jìn)行估計(jì)時(shí),不依賴于總體所屬的分布總體的分布形式,尤其是當(dāng)對(duì)總體的分布不是很清楚時(shí),因而非參數(shù)模型的適用性比較廣,與參數(shù)方法相比,具有較好的穩(wěn)健性。(2)由于不必假定總體分布的具體形式,所以也無(wú)需多總體分布所具有的參數(shù)進(jìn)行估計(jì)和檢驗(yàn)。如果方法選擇得當(dāng),非參數(shù)估計(jì)方法與參數(shù)估計(jì)的效果相差不多,尤其當(dāng)參數(shù)估計(jì)的假設(shè)不滿足時(shí),非參數(shù)估計(jì)會(huì)比參數(shù)估計(jì)方法更為有效。非參數(shù)估計(jì)也有其缺點(diǎn):(1)如果對(duì)總體的了解足以確定它的分布類型,非參數(shù)估計(jì)就不如參數(shù)估計(jì)那樣有更強(qiáng)的針對(duì)性。(2)它沒(méi)有充分利用樣本所攜帶的關(guān)于總體的信息,因而有時(shí)它的效率會(huì)低一些,或者在相同的精度下,非參數(shù)估計(jì)比參數(shù)估計(jì)需要更大的樣本。參數(shù)PK非參數(shù):非參數(shù)估計(jì)的優(yōu)點(diǎn):1、計(jì)算最大值與最小值的差(知道這組數(shù)據(jù)的變動(dòng)范圍):2、決定組距與組數(shù)(將數(shù)據(jù)分組)組數(shù):將數(shù)據(jù)分組,當(dāng)數(shù)據(jù)在100個(gè)以內(nèi)時(shí),按數(shù)據(jù)多少常分5-12組。組距:指每個(gè)小組的兩個(gè)端點(diǎn)的距離,3、決定分點(diǎn),畫頻率分布直方圖的步驟4、列出頻率分布表.5、畫出頻率分布直方圖。1、計(jì)算最大值與最小值的差(知道這組數(shù)據(jù)的變動(dòng)范圍):2、決抽查某地區(qū)55名12歲男生的身高(單位:cm)的測(cè)量值如下:128.1144.4150.3146.2140.6126.0125.6127.7154.4142.7141.2142.7137.6136.9132.3131.8147.7138.4136.6136.2141.6141.1133.1142.8136.8133.1144.5142.4140.8127.7150.7160.3138.8154.3147.9141.3143.8138.1139.7142.9144.7148.5138.3135.3134.5140.6138.4137.3149.5142.5139.3156.1152.2129.8133.2試從以上數(shù)據(jù)中,對(duì)該地區(qū)12歲男生的身高情況進(jìn)行大致的推測(cè)。
例題抽查某地區(qū)55名12歲男生的身高(單位:cm)的測(cè)解:頻率分布表如下:解:頻率分布表如下:頻率分布條形圖如下:125.45130.45160.45身高頻率組距頻率分布條形圖如下:125.45130.45160.45利用樣本頻率分布對(duì)總體分布進(jìn)行相應(yīng)估計(jì)(3)當(dāng)樣本容量無(wú)限增大,組距無(wú)限縮小,那么頻率分布直方圖就會(huì)無(wú)限接近于一條光滑曲線——總體密度曲線。(2)樣本容量越大,這種估計(jì)越精確。(1)上例的樣本容量為50,如果增至500,其頻率分布直方圖的情況會(huì)有什么變化?假如增至5000呢?利用樣本頻率分布對(duì)總體分布進(jìn)行相應(yīng)估計(jì)(3)當(dāng)樣本容量無(wú)限增總體密度曲線頻率組距產(chǎn)品尺寸ab(圖中陰影部分的面積,表示總體在某個(gè)區(qū)間(a,b)內(nèi)的取值概率)??傮w密度曲線頻率產(chǎn)品尺寸ab(圖中陰影部分的面積
用樣本分布直方圖去估計(jì)相應(yīng)的總體分布時(shí),一般樣本容量越大,頻率分布直方圖就會(huì)無(wú)限接近總體密度曲線,就越精確地反映了總體的分布規(guī)律,即越精確地反映了總體在各個(gè)范圍內(nèi)取值概率。
總體密度曲線反映了總體在各個(gè)范圍內(nèi)取值的概率,精確地反映了總體的分布規(guī)律。是研究總體分布的工具.總體密度曲線用樣本分布直方圖去估計(jì)相應(yīng)的總體分布時(shí),一般樣直方圖估計(jì)法作為一種非參數(shù)估計(jì)方法,廣泛被應(yīng)用,直方圖方法的特點(diǎn)是方法簡(jiǎn)單直觀,但直方圖在處多維數(shù)據(jù)時(shí)計(jì)算十分復(fù)雜,數(shù)據(jù)的大小范圍必須事先知道,密度估計(jì)結(jié)果曲線不光滑;因此人們開(kāi)始考慮用核估計(jì)方法進(jìn)行密度估計(jì)。SILVERMAN把直方圖估計(jì)看成是一種一維非參數(shù)核密度估計(jì)方法,寬度選擇對(duì)界的影響很大,當(dāng)直方圖的寬度取得很小時(shí)個(gè)體特征很明顯出現(xiàn)多峰狀態(tài)(圖1a),但當(dāng)寬度越來(lái)越大時(shí)個(gè)特征逐漸消失(圖1c)。因此,如果使用直方圖估計(jì)密度時(shí)寬度選擇必須適中,寬度過(guò)大或過(guò)小都可能掩蓋主統(tǒng)計(jì)特征。圖1b較為合理。直方圖總結(jié)直方圖估計(jì)法作為一種非參數(shù)估計(jì)方法,廣泛被應(yīng)用,2、核函數(shù)方法基本思想2、核函數(shù)方法基本思想令R是包含樣本點(diǎn)x的一個(gè)區(qū)域,其體積為V,設(shè)有n個(gè)訓(xùn)練樣本,其中有k落在區(qū)域R中,則可對(duì)概率密度作出一個(gè)估計(jì):相當(dāng)于用R區(qū)域內(nèi)的平均性質(zhì)來(lái)作為一點(diǎn)x估計(jì),是一種數(shù)據(jù)的平滑。令R是包含樣本點(diǎn)x的一個(gè)區(qū)域,其體積為V,設(shè)有n個(gè)訓(xùn)練樣本,有效性當(dāng)n固定時(shí),V的大小對(duì)估計(jì)的效果影響很大,過(guò)大則平滑過(guò)多,不夠精確;過(guò)小則可能導(dǎo)致在此區(qū)域內(nèi)無(wú)樣本點(diǎn),k=0。此方法的有效性取決于樣本數(shù)量的多少,以及區(qū)域體積選擇的合適。有效性收斂性構(gòu)造一系列包含x的區(qū)域R1,R2,…,對(duì)應(yīng)n=1,2,…,則對(duì)p(x)有一系列的估計(jì):當(dāng)滿足下列條件時(shí),pn(x)收斂于p
(x):收斂性構(gòu)造一系列包含x的區(qū)域R1,R2,…,對(duì)應(yīng)n=1,區(qū)域選定的兩個(gè)途徑Parzen窗法:區(qū)域體積V是樣本數(shù)n的函數(shù),如:K-近鄰法:落在區(qū)域內(nèi)的樣本數(shù)k是總樣本數(shù)n的函數(shù),如:區(qū)域選定的兩個(gè)途徑Parzen窗法:區(qū)域體積V是樣本數(shù)n的函Parzen窗法和K-近鄰法Parzen窗法和K-近鄰法3.4.1Parzen窗方法定義窗函數(shù)3.4.1Parzen窗方法定義窗函數(shù)1維數(shù)據(jù)的窗函數(shù)1維數(shù)據(jù)的窗函數(shù)概率密度函數(shù)的估計(jì)超立方體中的樣本數(shù):概率密度估計(jì):概率密度函數(shù)的估計(jì)超立方體中的樣本數(shù):概率密度函數(shù)的估計(jì)ppt課件概率密度函數(shù)的估計(jì)ppt課件核函數(shù)的選擇可以有多種:如Parzen窗(uniform)、三角(Triangle)、Epanechikov、四次(Quartic)、三權(quán)(Triweight)、高斯(Gauss)、余弦(Cosinus)、指數(shù)(Exponent)等。核函數(shù)的選擇取決于根據(jù)距離分配各個(gè)樣本點(diǎn)對(duì)密度貢獻(xiàn)的不同。通常選擇什么核函數(shù)不是密度估計(jì)中最關(guān)鍵的因素,因?yàn)檫x用任何核函數(shù)都能保證密度估計(jì)具有穩(wěn)定相合性。最重要的是帶寬對(duì)估計(jì)分布的光滑程度影響很大,自然地如何選擇帶寬將成了最重要的問(wèn)題。核函數(shù)的密度估計(jì)之所以能受到歡迎,是因?yàn)樗趲掃x擇上能從數(shù)學(xué)的角度進(jìn)行論證帶寬最優(yōu)原則。并且在獨(dú)立同分布的情況下,核估計(jì)量具有逐點(diǎn)漸進(jìn)無(wú)偏性和一致漸進(jìn)無(wú)偏性、均方相合性、強(qiáng)相合性、一致強(qiáng)相合性等。核函數(shù)的形式重要嗎?核函數(shù)的選擇可以有多種:如Parzen窗(uni窗函數(shù)的要求上述過(guò)程是一個(gè)內(nèi)插過(guò)程,樣本xi距離x越近,對(duì)概率密度估計(jì)的貢獻(xiàn)越大,越遠(yuǎn)貢獻(xiàn)越小。只要滿足如下條件,就可以作為窗函數(shù):窗函數(shù)的要求上述過(guò)程是一個(gè)內(nèi)插過(guò)程,樣本xi距離x越近,對(duì)概窗函數(shù)的形式窗函數(shù)的形式窗函數(shù)的寬度對(duì)估計(jì)的影響hn稱為窗的寬度窗函數(shù)的寬度對(duì)估計(jì)的影響hn稱為窗的寬度窗函數(shù)的寬度對(duì)估計(jì)的影響窗函數(shù)的寬度對(duì)估計(jì)的影響識(shí)別方法保存每個(gè)類別所有的訓(xùn)練樣本;選擇窗函數(shù)的形式,根據(jù)訓(xùn)練樣本數(shù)n選擇窗函數(shù)的h寬度;識(shí)別時(shí),利用每個(gè)類別的訓(xùn)練樣本計(jì)算待識(shí)別樣本x的類條件概率密度:采用Bayes判別準(zhǔn)則進(jìn)行分類。識(shí)別方法保存每個(gè)類別所有的訓(xùn)練樣本;3.4.2核函數(shù)方法估計(jì)的目的:從樣本集K={x1,x2,…,xN}估計(jì)樣本空間中任何一點(diǎn)的概率密度p(x)基本方法:用某種核函數(shù)表示某一樣本對(duì)估計(jì)密度函數(shù)的貢獻(xiàn),所有樣本所作貢獻(xiàn)的線性組合視作對(duì)某點(diǎn)概率密度p(x)的估計(jì)非參數(shù)
估計(jì)3.4.2核函數(shù)方法估計(jì)的目的:從樣本集K={x1,x核函數(shù)方法圖解非參數(shù)
估計(jì)一個(gè)樣本對(duì)自己所在位置的分布貢獻(xiàn)最大,離得越遠(yuǎn)貢獻(xiàn)越小核函數(shù)方法圖解非參數(shù)
估計(jì)一個(gè)樣本對(duì)自己所在位置的分布貢獻(xiàn)最基本方法基本思想:兩種常用的方法:Parzen窗法:kN-近鄰法:非參數(shù)
估計(jì)基本方法基本思想:兩種常用的方法:非參數(shù)
估計(jì)3.4.3Parzen窗法樣本集KN={x1,x2,…,xN}區(qū)域RN是一個(gè)d維超立方體,棱長(zhǎng)hN,體積VN=hNd定義窗核函數(shù):落入超立方體內(nèi)樣本數(shù)kN:某點(diǎn)概率密度p(x)的估計(jì)非參數(shù)
估計(jì)計(jì)數(shù)函數(shù)3.4.3Parzen窗法樣本集KN={x1,x2,…核函數(shù)的選擇核函數(shù)需滿足歸一化條件:兩種常用的核函數(shù):均勻核(方窗):正態(tài)核(高斯窗):
非參數(shù)
估計(jì)核函數(shù)的選擇核函數(shù)需滿足歸一化條件:兩種常用的核函數(shù):非參數(shù)窗寬的選擇hN是控制“窗”寬度的參數(shù),根據(jù)樣本的數(shù)量選擇。太大:平均化,分辨力低太?。航y(tǒng)計(jì)變動(dòng)大不同窗寬的估計(jì)效果非參數(shù)
估計(jì)窗寬的選擇hN是控制“窗”寬度的參數(shù),根據(jù)樣本的數(shù)量選擇。不估計(jì)密度函數(shù)的統(tǒng)計(jì)性質(zhì)為保證估計(jì)依概率漸進(jìn)收斂到真實(shí)的概率密度,即:估計(jì)密度函數(shù)是漸進(jìn)無(wú)偏和平方誤差一致的。其充要條件:非參數(shù)
估計(jì)估計(jì)密度函數(shù)的統(tǒng)計(jì)性質(zhì)為保證估計(jì)依概率漸進(jìn)收斂到真實(shí)的概率密63Parzen窗法示例1非參數(shù)
估計(jì)估計(jì)單一正態(tài)分布63Parzen窗法示例1非參數(shù)
估計(jì)估計(jì)單一正態(tài)分布64Parzen窗法示例2非參數(shù)
估計(jì)估計(jì)兩個(gè)均勻分布64Parzen窗法示例2非參數(shù)
估計(jì)估計(jì)兩個(gè)均勻分布示例代碼mus=[0.20.3;0.350.75;0.650.55;0.80.25];C=[0.0180.007;0.0070.011];
z=gauss(200,mus,C);[x,y]=gendat(z,100);w=parzenc(x);%Parzenfigure(1);scatterd(z);holdon;plotm(w);figure(2);scatterd(z);holdon;plotc(w);z=gauss(1000,mus,C);[x,y]=gendat(z,900);w=parzenc(x);figure(3);scatterd(z);holdon;plotm(w);示例代碼mus=[0.20.3;0.350.75;有限樣本的影響密度估計(jì)的均方誤差:維數(shù)災(zāi)難(CurseofDimensionality):當(dāng)維數(shù)較高時(shí),樣本數(shù)量無(wú)法達(dá)到精確估計(jì)的要求。非參數(shù)
估計(jì)有限樣本的影響密度估計(jì)的均方誤差:維數(shù)災(zāi)難(Curseof3.4.4kN-近鄰法均勻核函數(shù)Parzen窗估計(jì),窗寬固定,不同位置落在窗內(nèi)的樣本點(diǎn)的數(shù)目是變化的。kN-近鄰估計(jì):把窗擴(kuò)大到剛好覆蓋kN個(gè)點(diǎn)。落在窗內(nèi)的樣本點(diǎn)的數(shù)目固定,窗寬是變化的。kN根據(jù)樣本總數(shù)N選擇。概率密度估計(jì)表達(dá)式:非參數(shù)
估計(jì)點(diǎn)x處窗的“體積”是Vn收斂條件經(jīng)驗(yàn)值3.4.4kN-近鄰法均勻核函數(shù)Parzen窗估計(jì),窗寬固kN-近鄰法舉例kN的選擇:漸進(jìn)收斂容易保證;有限樣本性質(zhì)、最小平方誤差與Parzen窗方法幾乎相同。非參數(shù)
估計(jì)kN-近鄰法舉例kN的選擇:非參數(shù)
估計(jì)3.5分類器錯(cuò)誤率的估計(jì)在處理實(shí)際問(wèn)題時(shí),更多的是利用樣本來(lái)估計(jì)錯(cuò)誤率。對(duì)于已設(shè)計(jì)好的分類器,利用樣本來(lái)估計(jì)錯(cuò)誤率。TestDataset。對(duì)于未設(shè)計(jì)好的分類器,需將樣本分成兩部分(TrainDataset和TestDataset)。3.5分類器錯(cuò)誤率的估計(jì)在處理實(shí)際問(wèn)題時(shí),更多的是利用樣本1.已設(shè)計(jì)好的分類器的錯(cuò)誤率估計(jì)錯(cuò)誤率的估計(jì):錯(cuò)分樣本數(shù)/總樣本數(shù)錯(cuò)誤率
估計(jì)這是錯(cuò)誤率的最大似然估計(jì)。錯(cuò)分樣本數(shù)k是隨機(jī)變量,服從二項(xiàng)分布1.已設(shè)計(jì)好的分類器的錯(cuò)誤率估計(jì)錯(cuò)誤率的估計(jì):錯(cuò)分樣本數(shù)/錯(cuò)誤率估計(jì)的統(tǒng)計(jì)性質(zhì)是真實(shí)錯(cuò)誤率的無(wú)偏估計(jì)測(cè)試樣本數(shù)越多,1)估計(jì)越有效,2)估計(jì)的置信區(qū)間越小。如果已知各類的先驗(yàn)概率,則可進(jìn)行選擇性抽樣產(chǎn)生測(cè)試樣本集,這比隨機(jī)抽樣更為有效。錯(cuò)誤率
估計(jì)錯(cuò)誤率估計(jì)的統(tǒng)計(jì)性質(zhì)是真實(shí)錯(cuò)誤率的無(wú)偏估計(jì)測(cè)試樣本數(shù)越多,1未設(shè)計(jì)好的分類器的錯(cuò)誤率估計(jì)需要把樣本集分為訓(xùn)練集和測(cè)試集C-法:利用N個(gè)樣本設(shè)計(jì),也利用這N個(gè)樣本測(cè)試。得到樂(lè)觀估計(jì)。U-法:把樣本集分為訓(xùn)練集和測(cè)試集。得到保守估計(jì)。樣本劃分法:樣本數(shù)需要比較多,測(cè)試樣本數(shù)越多越有效。留一法:樣本較少時(shí),N-1個(gè)樣本設(shè)計(jì),另一樣本測(cè)試,遍歷N個(gè)樣本。假設(shè)錯(cuò)分樣本數(shù)為K,則錯(cuò)誤率估計(jì)為:錯(cuò)誤率
估計(jì)未設(shè)計(jì)好的分類器的錯(cuò)誤率估計(jì)需要把樣本集分為訓(xùn)練集和測(cè)試集錯(cuò)3.6討論概率密度函數(shù)包
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入探討科技企業(yè)如何通過(guò)強(qiáng)化知識(shí)產(chǎn)權(quán)保護(hù)來(lái)提升品牌形象和競(jìng)爭(zhēng)力
- 現(xiàn)代綠色辦公樓的設(shè)計(jì)與施工經(jīng)驗(yàn)分享
- 生產(chǎn)制造中基于智能算法的調(diào)度系統(tǒng)設(shè)計(jì)
- 2023三年級(jí)英語(yǔ)上冊(cè) Unit 3 My friends第4課時(shí)說(shuō)課稿 牛津譯林版
- 2024年春八年級(jí)語(yǔ)文下冊(cè) 第二單元 5 大自然的語(yǔ)言說(shuō)課稿 新人教版
- 9 烏鴉喝水(說(shuō)課稿)-2024-2025學(xué)年統(tǒng)編版語(yǔ)文一年級(jí)上冊(cè)
- Unit 4 My Family Lesson 2(說(shuō)課稿)-2023-2024學(xué)年人教新起點(diǎn)版英語(yǔ)三年級(jí)下冊(cè)
- Unit 6 Useful numbers Lesson 2(說(shuō)課稿)-2024-2025學(xué)年人教PEP版(2024)英語(yǔ)三年級(jí)上冊(cè)
- 2024-2025學(xué)年高中歷史 第三單元 各國(guó)經(jīng)濟(jì)體制的創(chuàng)新和調(diào)整 第16課 戰(zhàn)后資本主義經(jīng)濟(jì)的調(diào)整教學(xué)說(shuō)課稿 岳麓版必修2
- 2025淮安市城東花園小區(qū)門禁系統(tǒng)工程合同
- 2025年人教五四新版八年級(jí)物理上冊(cè)階段測(cè)試試卷含答案
- 2025新人教版英語(yǔ)七年級(jí)下單詞表(小學(xué)部分)
- 2025年春季1530安全教育記錄主題
- 礦山2025年安全工作計(jì)劃
- 基本藥物制度政策培訓(xùn)課件
- 2025年包裝印刷項(xiàng)目可行性研究報(bào)告
- 2025年九年級(jí)物理中考復(fù)習(xí)計(jì)劃
- 企業(yè)融資報(bào)告特斯拉成功案例分享
- 合資經(jīng)營(yíng)工廠合同范本
- 2024年新疆(兵團(tuán))公務(wù)員考試《行測(cè)》真題及答案解析
- 2024年《論教育》全文課件
評(píng)論
0/150
提交評(píng)論