版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第十二章非參數(shù)判別分析與非參數(shù)聚類第一節(jié)非參數(shù)判別分析一、引言關(guān)于判別分析的一般概念我們在多元統(tǒng)計分析中已經(jīng)詳細的討論,在那里我們采用了距離判別、貝葉斯判別和典型判別法。這些判別法都需要估計總體的參數(shù),而貝葉斯判別時, 我們還指定了總體服從正態(tài)分布。在非參數(shù)統(tǒng)計中,不對變量的分布做任何假設(shè),這里主要有兩種方法,BAYES方法和近鄰方法進行非參數(shù)判別分析。設(shè)有M個類,用Y記一具體的對象所屬的類,Y可能的取值為1,2, ,M .設(shè)有了 n個經(jīng)過明確判定的樣本,第i個樣本的指標為 Xi,所屬的類為Y, 1,2, ,n),n個樣本記 Zn X1, , X2,Y. , , Xn,Yn ,,常稱為“訓練樣
2、本”。這一名稱的來由使因為日后 進行的判別工作依賴,因此可以說它們“訓練了”人們?nèi)绾稳∵M行判別。非參數(shù)方法是基于組概率密度函數(shù)的非參數(shù)估計每組的非參數(shù)密度估計核產(chǎn)生的分類準則采用核方法或 k最近鄰方法。馬氏距離或歐氏距離用來確定樣品的接近程度。二、核方法1、Bayes方法概念設(shè)有M個總體G1, ,Gm分別具有概率分布密度 £(x), f|M (x),出現(xiàn)M個總體的先 驗概率分別為P1, , PM, Pi 0, P1Pm1 o貝葉斯判別的規(guī)則將樣品判給P(Gk|x0)Pkfk(X0)最大的類,即Pjfj(X。)如果 Pifi(x) max Pj f j (x) -判 Y Gl2、Bay
3、es方法和密度函數(shù)估計的聯(lián)系在非參數(shù)判別中,通常fj(x),j 1,2,3, ,M完全未知,有時Pi, , Pk未知。一個直觀的想法是直接估計 fj(x), j 1,2,3, ,M和p, , pm ,然后將得到的估計代入判別規(guī)則 中進行計算。,M)密度函數(shù)的一個核估計h為窗寬,總體Gj(j 1,2,3,具體的步驟是:如果已知某事物可分為M個總體:GG2,Gm,該事物的特性P個指標描述,在進行分析之前,已觀察到在各個總體的樣本(1)X11x;2)x1p(k)X11X(2k)(k)X1p(1)X21x22)xrp(k)X21? ? ?x22)(k)X2p(1)Xg1xn12xn?p(k)Xnk1(
4、k)XnkPK (x)為p維密度函數(shù),可以表示為1 nj x X i?(x)而(十)(j心,M) ?j其中(j 1,2,3, ,M), n m rhg將估計出的先驗概率和密度函數(shù)代入判別規(guī)則中,得到后驗概率,進行比較。使用該估計需要一個前提,即全部訓練樣本是從大的總體中隨機抽樣取得的,否則便沒有意義了?,F(xiàn)設(shè)當y i時,X的條件分布有概率密度函數(shù)fi(x)(i 1,2,n) , P(Y i) Pi ,M則X的邊緣分布為f (x) pi fi (x)。已知Xi 1x時,丫 i)的條件概率為Pi (x)Pi fi (x)/ f (x)判別規(guī)則為Pifi(x) max Pj f j(x),判 x Gl
5、pl ?(x)nj 1 max 一 1 j M n njh.nji 1Gi三、K近鄰方法1、概念記樣本ZnXi,¥ , X2,% , , Xn,Yn ,,要由樣品指標x去判別其所屬的類 Y,Y可能的取值為1,2, ,M 。將Xi,X2, ,Xn按其與X的距離排列,如Xri x Xr2 xXRn x,距離相等時,按足標小的在前的原則處理 指定一個介于1到n之間的自然數(shù)k,挑出最接近 X 的k個,即Xkl,Xk2, ,Xkk ,與他們匹配的Y是Yki ,Yk2, ,Ykk。定義:以li記為丫叫,爼,丫kk中等于i的個數(shù)(i 1,2,M)。定義判別函數(shù)nk (x) nk (x, Zn)如下
6、:若l j是li2, ,l M中的唯一最大者,則定義nk (x) j ;若l1,l2, ,lM中有若干個同時達到最大者,比方說是lji,lj2, ,ljc ,則再按等概率在 l j1 ,l j2 , , l jc 中確定一個為 nk (x)。2、近鄰方法 與概率密度的最近鄰估計的關(guān)系用近鄰方法估計估計密度函數(shù)的方法是,先固定一個介于1到n之間的自然數(shù)kn,對任何x,計算Xr,x| X R2x|XRnx|,然后fj(x), j 1,2,3, ,M的密度函數(shù)估計和先驗概率的估計為 :?(x)-.?jnj2山|xXRk 1n判別規(guī)則為:? ?(x) max -njlj1-,判 xGi1 j Mn 2
7、nj|x X?l f? (x)ljmax ;1 j M 2n|x Xr1等價的判別函數(shù)h max,則判x gi四、SAS/DISCRIM 過程中的非參數(shù)判別的選項非參數(shù)判別方法是基于組概率密度的非參數(shù)估計。每組的非參數(shù)密度估計和產(chǎn)生的分 類準則采用核方法和 K 最近鄰方法得到 .馬氏和歐氏距離能夠用來確定接近的程度.采用 k 最近鄰方法時 ,馬氏距離基于合并協(xié)方差陣;采用核方法時,馬氏距離基于單個組那方差矩陣或合并協(xié)方差陣。實際上某個檢驗樣品的歸類基于由訓練集得到的估計組密度。從估計密度, x 術(shù)語各組的喉炎概率得到評估。觀測 x 盼歸第 t 組是因為 p(t/x )最大。METHOD=NPA
8、R- 采用非參數(shù)判別方法。K k-為k最近鄰方法指定一個 k值。觀測x分如一個組基于從 x的k個最勁力得到的信息 .R r 為核密度估計指定一個半徑 r。注意,不能同時選用 K=選項與R =選項。KERNEL=BIWEIGHTBIW 或 EPANECHNIKOVEPA 或 TRIWEIGHTTRI 或UNIFORMUNI- 為估計組密度指定一個核密度,缺省為 KERNEL=UNIFORMUNI 。METRIC=DIAGONAL|FULL IDENTITY 為平方距離的計算指定度量缺省為METRIC= FULL 。第二節(jié) 非參數(shù)聚類分析非參數(shù)聚類過程利用某種基于非參數(shù)密度估計的算法對觀測得到的數(shù)
9、據(jù)進行分類。Sas的 modeclus 模塊產(chǎn)生的數(shù)據(jù)集包括密度估計和聚類的結(jié)果,一系列的統(tǒng)計量,其中包括 近似的 p 值,以及用不同的算法,不同的光滑參數(shù)和不同的顯著性水平得到的結(jié)果。我們知道,密度最大的數(shù)是眾數(shù) ,及 mode 。非參數(shù)聚類方法,類是由概率密度函數(shù)的 眾數(shù)定義的,一個類大致可以定義為概率密度函數(shù)的一個局部最大點附近的區(qū)域給定一個足夠大的樣本,非參數(shù)分析方法可以不同大小,不同分散程度和形狀極不規(guī)則的類。非參數(shù) 聚類分析方法對找出具有相同大小和分散程度的類效果也好。一、問題的引入如下虛構(gòu)的數(shù)據(jù)進行分類data a ;inout x y ;cards;18 18 20 22 21
10、 20 12 23 17 12 23 25 25 2016 27 20 13 28 22 80 20 75 19 77 23 81 2655 21 64 24 72 26 70 35 75 30 78 42 18 5227 57 41 61 48 64 59 72 69 72 80 80 31 5351 69 72 81Joption ps=35 ls=78;proc plot ;plot y*x/hpos=52 vaxis=0 to 80 by 20run;80 _70 -60 -50 .40 -30 -20 -丫 10102030405060708090X從散點圖上看有三類,其中,左下角的
11、類最緊,右下角的類要分散些,上邊的類拉得很長,如果我們進行系統(tǒng)聚類,很難把它們聚為一類。二、密度估計為了方便起見,可以把以觀測點Xi為中心的球稱為 Xi的鄰域,在Xi的鄰域內(nèi)的觀測點稱為xi的近鄰點。Xi :第i個p維的觀測點;d(x, y): x和y的距離;n :樣本容量;ni :在 xi的鄰域內(nèi)的觀測點數(shù)(含xi本身);ni :在Xi的鄰域內(nèi)的觀測點數(shù)(不含 Xi本身);Ni :在Xi的鄰域內(nèi)的觀測的指標集(含Xi本身);Ni :在Xi的鄰域內(nèi)的觀測的指標集(不含 Xi本身);i : Xi的近鄰的體積;f?:在Xi處的密度估計值;?:在Xi處的交叉確認密度估計值;Ck :被分配到類k的觀測
12、點的指標集p:變量的維數(shù);Si :第I個變量的方差;Xi的密度的估計值為:?-n i即以該點為中心的球內(nèi)的所含觀測個數(shù)ni與樣本容量n的比值乘以球的體積。非參數(shù)密度估計使用球均勻核,球半徑是固定的,也可以是可變的。在某點的密度估計值是以該點為中心的球內(nèi)所含觀測值除以樣本量和球的體積。球的大小由光滑參數(shù)確定,光滑參數(shù)自定,通常要試幾個光滑參數(shù).三、SAS的非參數(shù)聚類過程類的個數(shù)是光滑參數(shù)的函數(shù),在光滑參數(shù)增大時,類的個數(shù)由減小的趨勢,但不是嚴格單調(diào)下降的一般來說應(yīng)該指定幾個不同的光滑參數(shù),看看類的個數(shù)的變化。SAS的MODECLUS 過程使用的聚類方法采用固定的或可變半徑的球型核進行密度估計相似
13、。對固定半徑鄰域,用選項。只=或R =指定半徑值作為歐氏距離對可變半徑鄰域,用 選項CK =或K =指定在球內(nèi)要求的相鄰點數(shù)。METHOD = n參考SAS/STAT軟件使用手冊P.681是為了指定使用哪種聚類分析方法。共有7種,0 6種。多數(shù)情況下選擇 METHOD = 1 和 METHOD = 6.1、METHOD=0最初把每個觀測當作一個單獨的類。如果一個類中有一個觀測是另一個中某個觀測的 相鄰點,則把兩個類合并。該方法沒有用密度估計對固定的類半徑,這些類可以通過最短距離的樹狀圖在指定的半徑上切割。METHOD = 1。最初把每個觀測當作一個單獨的類。對每一個觀測點,找估計密度較大的最近
14、的相鄰點如果這樣的相鄰點存在,則把觀測值點所屬的類和指定的相鄰點所屬的類合并接著考慮這樣一些觀測點, 其估計密度等于某些相鄰點的估計密度但不小于任何相鄰點的估計密度,然后合并含有這樣觀測的類:每個類含有該觀測的一個相鄰點,使得在這類內(nèi)最大密度估計等于在那個觀測上的密度估計;這個類包含觀測的相鄰點,使得這類內(nèi)的最大密度估計超過在這觀測上的密度估計METHOD = 2。最初把每個觀測當作一個單獨的類。對每一個觀測點,找估計密度最大的且超過該觀測點其密度估計的最近的相鄰點。如果這樣的相鄰點存在,則把觀測值點所屬的類和指定的相鄰點所屬的類合并。接著考慮這樣一些觀測點,其估計密度等于某些相鄰點的估計密度
15、但不小于任何相鄰點的估計密度,然后合并含有這樣觀測的類。METHOD = 3。最初把每個觀測當作一個單獨的類。對于觀測點Xj,找出相鄰點Xj ,? ?使得一j-達到最大值。如果斜率是正的,則合并觀測Xi所屬的類和觀測Xj所屬的類。d(Xj,Xj)然后考慮這樣一些觀測點,其估計密度等于某些相鄰點的估計密度但不小于任何相鄰點的估計密度,與METHOD=1 相同的處理方法。METHOD = 4。等價于兩階段密度估計法。METHOD = 5等價于兩階段密度估計法METHOD = 6開始時所有觀測都沒有分類。第一步:找到一些種子,每個種子是一個單獨的觀測點,在,在這一點的密度估計不小于它的任何相鄰點的密
16、度估計。如果規(guī)定選項MAXCLUSTERS=n,則只保留n個密度估計最大的種子。第二步:以密度估計由大到小的順序逐個考慮每個種子:1) 如果當前這個種子已被分配 ,則考慮下一個種子。否則形成一個包含當前這個種子 的新類。2) 如果有某個未被分配的種子是這個類中一個成員的相鄰點,或者與某個成員有共同的相鄰點,則把這個種子加入這個類;重復這個步驟直到?jīng)]有未被分配的種子滿足這個條件為止3) 如果一些種子屬于這個類,則把這些種子的所有相鄰點加入這個類4)考慮每個沒有被分配的觀測點。計算屬于當前類的相鄰點的密度估計的p 1次幕的和與它的所有相鄰點密度估計的 p 1次幕的和的比率,其中 P是由選項POWER =指 定的值,缺省是為2。設(shè)為是當前觀測點,K是當前類的指標,計算比值?p 1fjj Ni Ckik?P 1fjj叫如果這個比值超過 0.5,而且超過THRESHOLD =指定的值,則個觀測值歸到到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 舞蹈藝術(shù)之魅力
- 人事部在企業(yè)戰(zhàn)略中的角色計劃
- 感恩父母與愛同行的演講稿5篇
- 2024年員工三級安全培訓考試題(滿分必刷)
- 2023-2024年項目安全培訓考試題帶答案(奪分金卷)
- 社團運營與成員發(fā)展
- 《本科心律失?!氛n件
- 教授能量轉(zhuǎn)換守恒
- 北師大版八年級下冊數(shù)學期末測試題
- 印刷設(shè)備智能化升級-第1篇-洞察分析
- 一年級學生英語學科評語
- 來料檢驗員工作總結(jié)
- 工商企業(yè)管理專業(yè)教學資源庫申報書-專業(yè)教學資源庫備選項目材料
- 智能充電樁的管理與優(yōu)化調(diào)度
- 急診科副主任個人工作述職報告
- 硬件工程師年終總結(jié)報告
- 音樂盛典策劃方案
- 學校新媒體管理制度規(guī)章
- 狐貍的生物學
- 全球氣候變化和應(yīng)對措施
- 小麥冬季管理技術(shù)意見
評論
0/150
提交評論